Auto-miglioramento ricorsivo e governance a runtime

In When AI builds itself (maggio 2026, Marina Favaro e Jack Clark) Anthropic documenta che lo sviluppo dei propri sistemi è sempre più svolto dai sistemi stessi, e definisce l’auto-miglioramento ricorsivo come «an AI system capable of fully autonomously designing and developing its own successor» — un sistema in grado di progettare e sviluppare il proprio successore in piena autonomia. I dati che porta sono misurazioni interne, già avvenute.

I numeri

Sono dati auto-riportati dal laboratorio, ed è precisamente questo a renderli rilevanti per la governance.

A maggio 2026 «more than 80% of the code we merge into Anthropic’s codebase was authored by Claude»: oltre l’80% del codice integrato è scritto dal modello.
La durata dei compiti che i modelli completano in autonomia raddoppia «roughly every four months, up from an earlier trend of doubling every seven months» — ogni quattro mesi, contro i sette di prima.
La progressione citata: Claude Opus 3 (marzo 2024) completava compiti software da circa quattro minuti di lavoro umano; un anno dopo Claude Sonnet 3.7 arrivava a circa un’ora e mezza; l’anno successivo Claude Opus 4.6 a compiti da dodici ore.
Su un agente di ricerca interno lo speedup sul codice di partenza è passato da circa 3x (Claude Opus 4, maggio 2025) a circa 52x (Claude Mythos Preview, aprile 2026).
Nel secondo trimestre 2026 l’ingegnere mediano integrava otto volte più codice al giorno rispetto al 2024, con un incremento di produttività auto-stimato intorno a 4x.
Sui compiti più aperti il tasso di successo di Claude ha raggiunto il 76% a maggio 2026.
In Project Glasswing, nelle prime settimane, Mythos Preview ha trovato «more than ten thousand high- and critical-severity software vulnerabilities».

Lo spostamento del collo di bottiglia

Anthropic riassume la dinamica con Edison: «Edison said that genius is 1% inspiration and 99% perspiration. But we see perspiration becoming increasingly automated». Quando la parte di esecuzione si automatizza, il vincolo si sposta sulla supervisione. Il documento lo dice in modo esplicito: «Humans play a substantially diminished role in their development, likely moving most of our effort towards oversight, validation, and verification» — supervisione, validazione e verifica diventano il lavoro residuo degli umani.

La verificabilità della pausa

Sul piano della governance, Anthropic propone come opzione il rallentamento: «We believe it would be good for the world to have the option to slow or temporarily pause frontier AI development». E lega l’impegno alla reciprocità verificabile: «we would slow down or temporarily pause, if other developers at or near the frontier also did so in a verifiable manner». Una pausa conta solo se è osservabile dall’esterno; un impegno che nessuno può verificare resta un annuncio. La verificabilità è il presupposto tecnico del rallentamento.

Il substrato tecnico della verifica

A runtime, supervisione, validazione e verifica si traducono in capacità concrete. Osservabilità di ogni azione di un agente, controllo comportamentale per interromperne o limitarne l’esecuzione, kill switch, fingerprinting e provenienza dei modelli, evidenza forense append-only. Sono i controlli di governance di Admina (admina.org) e i criteri Secure e Governed di OISG (oisg.ai): tempi misurabili di rilevamento e contenimento, evidenze immutabili per un’autorità di vigilanza.

È anche la ragione per cui lavoro a DebugABot: infrastruttura per il debug a runtime di agenti AI autonomi e robot embodied — kill switch, controllo comportamentale e fingerprinting dei modelli. Se la verifica diventa il ruolo umano principale, serve qualcosa con cui esercitarla.

L’esponenziale, per ora, è misurato da chi lo costruisce: gli 8x, l’80%, i 52x sono viste interne al laboratorio. Gli strumenti per osservarlo e fermarlo dall’esterno, a runtime e in modo indipendente, sono la parte ancora in costruzione.

Immagine di copertina: Cavolo romanesco — foto di Ivar Leidus, CC BY-SA 4.0, via Wikimedia Commons.