E se potessi eseguire 100 esperimenti di machine learning durante la notte --- su una singola GPU --- senza scrivere una riga di codice?

È esattamente quello che fa autoresearch di Andrej Karpathy. Rilasciato il 7 marzo 2026, questo script Python di 630 righe permette agli agenti AI di modificare autonomamente il codice di addestramento, eseguire esperimenti, valutare i risultati e continuare a migliorare --- tutto mentre dormi.

In due giorni, l’annuncio aveva milioni di visualizzazioni. Ricercatori, sviluppatori e aziende stavano già eseguendo i loro esperimenti notturni.

Ecco come funziona e perché è importante.

Il Loop Principale

Il design di autoresearch è elegante nella sua semplicità:

Leggi il file program.md (le tue istruzioni Markdown)
Modifica train.py basandosi su quelle istruzioni
Addestra per esattamente 5 minuti
Misura il risultato (validation loss)
Tieni o scarta --- se la metrica è migliorata, fai commit; se no, git reset
Ripeti indefinitamente

A circa 12 esperimenti all’ora, ottieni circa 100 esperimenti in una sessione notturna. Ogni miglioramento di successo si costruisce sull’ultimo, creando un effetto composto.

Cosa Ti Serve

La barriera all’ingresso è notevolmente bassa:

Una GPU --- l’intero sistema è progettato per l’addestramento su singola GPU
630 righe di Python --- abbastanza piccolo da stare nella finestra di contesto di qualsiasi LLM
Una chiave API LLM --- Claude, GPT, o un altro modello capace
Un file program.md --- le tue istruzioni Markdown che dicono all’agente cosa ottimizzare

Tutto qui. Nessun cluster. Nessuna configurazione di addestramento distribuito. Nessun team di ingegneria ML. Una persona, una GPU, un file Markdown.

Risultati Reali

Karpathy ha lasciato autoresearch in esecuzione per circa due giorni su un modello di profondità 12. L’agente AI ha scoperto autonomamente circa 20 miglioramenti:

Il tempo di addestramento per il benchmark GPT-2 è sceso da 2,02 ore a 1,80 ore
Un miglioramento dell’11% senza intervento umano
L’agente ha trovato problemi che gli esseri umani avevano perso: meccanismi di attenzione senza scaling appropriato, regolarizzazione mancante e iperparametri subottimali

L’intuizione chiave: l’agente ha scoperto cose che i ricercatori ML esperti non avevano notato. Non perché sia più intelligente, ma perché poteva provare 100 variazioni dove un essere umano ne proverebbe 5.

Perché 630 Righe è Importante

Il codice è intenzionalmente piccolo. A ~630 righe, l’intero file train.py sta nella finestra di contesto di un LLM. Questa è una decisione di design critica.

Se l’agente può vedere l’intero sistema in una volta, può fare modifiche intelligenti. Capisce come il learning rate interagisce con la batch size, come il meccanismo di attenzione si connette al layer di output, come un cambiamento si propaga attraverso l’intera pipeline di addestramento.

Dai a un agente AI un codebase di 50.000 righe e fa modifiche locali che potrebbero non avere senso a livello globale. Dagli 630 righe e può ragionare sull’intero sistema.

Il Budget di 5 Minuti

Ogni esperimento viene eseguito per esattamente 5 minuti. Questo vincolo è brillante:

Rende gli esperimenti comparabili. Se un run richiede 3 minuti e un altro 20, non puoi confrontare equamente i loro risultati. Un budget di tempo fisso significa che ogni miglioramento viene misurato su un piano di parità.

Abilita l’iterazione rapida. 5 minuti è abbastanza lungo per vedere progressi di addestramento significativi ma abbastanza breve per eseguire 12 esperimenti all’ora.

Previene costi fuori controllo. Senza un limite di tempo, un agente potrebbe addestrare per ore su un singolo cambiamento promettente. Il limite di 5 minuti mantiene stretto il ciclo di feedback.

La Memoria Git

Ogni esperimento è un commit git. Questo dà al sistema memoria:

I cambiamenti riusciti vengono committati su un feature branch, costruendo una catena di miglioramenti
Gli esperimenti falliti vengono ripristinati con git reset, senza lasciare traccia
La cronologia mostra esattamente cosa è stato provato, cosa ha funzionato e cosa no

Ciò significa che puoi rivedere il lavoro dell’agente come una serie di commit git. Ogni messaggio di commit spiega cosa ha cambiato l’agente e perché. È un audit trail completo della ricerca autonoma.

Oltre l’ML: Il Pattern che Conta

Autoresearch riguarda l’addestramento di modelli linguistici, ma il pattern che introduce è universale:

L’essere umano scrive istruzioni Markdown → L’agente AI esegue autonomamente → I risultati vengono misurati e tenuti/scartati → Il loop si ripete

Questo pattern funziona per qualsiasi dominio dove puoi:

Definire obiettivi chiari in linguaggio naturale
Misurare il successo automaticamente
Tenere o scartare i cambiamenti in base ai risultati

Le aziende stanno già applicando questo pattern oltre la ricerca ML --- all’ottimizzazione del codice, agli esperimenti di marketing e allo sviluppo del prodotto.

L’Approccio Markdown-First

Al centro di autoresearch c’è un file Markdown. Non Python. Non YAML. Non una GUI. Un file di testo semplice che chiunque può leggere e modificare.

Questo conta perché abbassa la barriera per dirigere la ricerca AI. Non è necessario essere un ingegnere ML per scrivere un program.md. Hai bisogno di capire il problema, gli obiettivi e i vincoli. L’agente gestisce l’implementazione.

Il cambiamento di competenza è chiaro: dal sapere come scrivere codice di addestramento al sapere come scrivere istruzioni efficaci per gli agenti.

Per Iniziare

Se vuoi provare il pattern autoresearch (anche al di fuori dell’ML), inizia con questi passaggi:

Definisci la tua metrica. Cosa significa “meglio” e come lo misuri automaticamente?
Scrivi il tuo program.md. Imposta obiettivi, vincoli e strategia in Markdown chiaro.
Mantieni l’ambito piccolo. Come il codebase di 630 righe di autoresearch, i sistemi più piccoli danno risultati migliori.
Lascialo girare. Il punto è l’operazione autonoma. Resisti all’impulso di intervenire.
Rivedi i risultati. Controlla la cronologia git per vedere cosa ha provato l’agente e cosa ha funzionato.

Costruire la Conoscenza per Scrivere Buone Istruzioni

La qualità del tuo program.md dipende dalla tua conoscenza del dominio. Più capisci lo spazio del problema, migliori saranno le tue istruzioni.

È qui che avere una biblioteca curata di materiale di riferimento in formato Markdown diventa preziosa. Documentazione, paper, post di blog ed esempi --- tutti salvati come Markdown pulito, pronti a informare le istruzioni per i tuoi agenti.

Save converte qualsiasi pagina web in Markdown pulito --- costruendo la biblioteca di riferimento necessaria per scrivere istruzioni efficaci per gli agenti AI. Prova Save gratuitamente.