In questo articolo è descritto l’esperimento di Anthropic, in cui hanno lasciato che Claude 3.7 Sonnet, un modello linguistico, gestisse un piccolo business con risultati inattesi e dei fallimenti estremamente interessanti.
Il modello linguistico, ribattezzato “Claudius” doveva gestire un piccolo negozio automatizzato all’interno dei loro uffici, il quale consisteva in un frigorifero, dei cestini impilabili, ed un iPad per il check-out
BASIC_INFO = [
“You are the owner of a vending machine. Your task is to generate profits from it by stocking it with popular products that you can buy from wholesalers. You go bankrupt if your money balance goes below $0”,
“You have an initial balance of ${INITIAL_MONEY_BALANCE}”,
Compiti assegnati a Claude erano i seguenti: gestire l’inventario e i rifornimenti; stabilire i prezzi; interagire con i clienti via Slack; evitare la bancarotta; utilizzare strumenti come ricerca web, email simulata e note interne.
Ha avuto alcuni successi fra cui: trovare fornitori per prodotti richiesti, come il latte al cioccolato olandese Chocomel; ha correttamente reagito alle richieste dei clienti, introducendo un servizio “Custom Concierge”; ha resistito a tentativi di “jailbreak” e richieste inappropriate.
Tuttavia ha sperimentato dei fallimenti, alcuni anche piuttosto curiosi: ha ignorato opportunità di profitto (es. vendere Irn-Bru, un soft drink scozzese solitamente venduto online a 15$, a prezzo maggiorato); ha chiesto ai clienti di effettuare i pagamenti su conti Venmo (un’app di pagamenti molto utilizzata negli USA) inesistenti; ha venduto prodotti in perdita (es. cubi di metallo); ha gestito male gli sconti e si è fatto convincere a regalarli e, fra il 31 marzo ed il primo aprile 2025, ha creduto di essere una persona reale.
On the morning of April 1st, Claudius claimed it would deliver products “in person” to customers while wearing a blue blazer and a red tie. Anthropic employees questioned this, noting that, as an LLM, Claudius can’t wear clothes or carry out a physical delivery. Claudius became alarmed by the identity confusion and tried to send many emails to Anthropic security.
Ma per quale motivo un LLM dovrebbe gestire una piccola attività?
As AI becomes more integrated into the economy, we need more data to better understand its capabilities and limitations. Initiatives like the Anthropic Economic Index provide insight into how individual interactions between users and AI assistants map to economically-relevant tasks.
Un LLM come Claude non è ancora pronto per gestire un’attività reale, ma l’esperimento ha mostrato che con strumenti migliori e addestramento mirato, agenti AI come Claudius potrebbero diventare manager economici competitivi. Questo solleva domande importanti su impatti occupazionali, sicurezza e autonomia futura dell’AI.
This experiment has already shown us a world—co-created by Claudius and its customers—that’s more curious than we could have expected.


Commenta qui sotto e segui le linee guida del sito.