Autoresearch per Tutti: Come Eseguire 100 Esperimenti AI Mentre Dormi
E se potessi eseguire 100 esperimenti di machine learning durante la notte --- su una singola GPU --- senza scrivere una riga di codice?
È esattamente quello che fa autoresearch di Andrej Karpathy. Rilasciato il 7 marzo 2026, questo script Python di 630 righe permette agli agenti AI di modificare autonomamente il codice di addestramento, eseguire esperimenti, valutare i risultati e continuare a migliorare --- tutto mentre dormi.
In due giorni, l’annuncio aveva milioni di visualizzazioni. Ricercatori, sviluppatori e aziende stavano già eseguendo i loro esperimenti notturni.
Ecco come funziona e perché è importante.
Il Loop Principale
Il design di autoresearch è elegante nella sua semplicità:
- Leggi il file
program.md(le tue istruzioni Markdown) - Modifica
train.pybasandosi su quelle istruzioni - Addestra per esattamente 5 minuti
- Misura il risultato (validation loss)
- Tieni o scarta --- se la metrica è migliorata, fai commit; se no, git reset
- Ripeti indefinitamente
A circa 12 esperimenti all’ora, ottieni circa 100 esperimenti in una sessione notturna. Ogni miglioramento di successo si costruisce sull’ultimo, creando un effetto composto.
Cosa Ti Serve
La barriera all’ingresso è notevolmente bassa:
- Una GPU --- l’intero sistema è progettato per l’addestramento su singola GPU
- 630 righe di Python --- abbastanza piccolo da stare nella finestra di contesto di qualsiasi LLM
- Una chiave API LLM --- Claude, GPT, o un altro modello capace
- Un file
program.md--- le tue istruzioni Markdown che dicono all’agente cosa ottimizzare
Tutto qui. Nessun cluster. Nessuna configurazione di addestramento distribuito. Nessun team di ingegneria ML. Una persona, una GPU, un file Markdown.
Risultati Reali
Karpathy ha lasciato autoresearch in esecuzione per circa due giorni su un modello di profondità 12. L’agente AI ha scoperto autonomamente circa 20 miglioramenti:
- Il tempo di addestramento per il benchmark GPT-2 è sceso da 2,02 ore a 1,80 ore
- Un miglioramento dell’11% senza intervento umano
- L’agente ha trovato problemi che gli esseri umani avevano perso: meccanismi di attenzione senza scaling appropriato, regolarizzazione mancante e iperparametri subottimali
L’intuizione chiave: l’agente ha scoperto cose che i ricercatori ML esperti non avevano notato. Non perché sia più intelligente, ma perché poteva provare 100 variazioni dove un essere umano ne proverebbe 5.
Perché 630 Righe è Importante
Il codice è intenzionalmente piccolo. A ~630 righe, l’intero file train.py sta nella finestra di contesto di un LLM. Questa è una decisione di design critica.
Se l’agente può vedere l’intero sistema in una volta, può fare modifiche intelligenti. Capisce come il learning rate interagisce con la batch size, come il meccanismo di attenzione si connette al layer di output, come un cambiamento si propaga attraverso l’intera pipeline di addestramento.
Dai a un agente AI un codebase di 50.000 righe e fa modifiche locali che potrebbero non avere senso a livello globale. Dagli 630 righe e può ragionare sull’intero sistema.
Il Budget di 5 Minuti
Ogni esperimento viene eseguito per esattamente 5 minuti. Questo vincolo è brillante:
Rende gli esperimenti comparabili. Se un run richiede 3 minuti e un altro 20, non puoi confrontare equamente i loro risultati. Un budget di tempo fisso significa che ogni miglioramento viene misurato su un piano di parità.
Abilita l’iterazione rapida. 5 minuti è abbastanza lungo per vedere progressi di addestramento significativi ma abbastanza breve per eseguire 12 esperimenti all’ora.
Previene costi fuori controllo. Senza un limite di tempo, un agente potrebbe addestrare per ore su un singolo cambiamento promettente. Il limite di 5 minuti mantiene stretto il ciclo di feedback.
La Memoria Git
Ogni esperimento è un commit git. Questo dà al sistema memoria:
- I cambiamenti riusciti vengono committati su un feature branch, costruendo una catena di miglioramenti
- Gli esperimenti falliti vengono ripristinati con
git reset, senza lasciare traccia - La cronologia mostra esattamente cosa è stato provato, cosa ha funzionato e cosa no
Ciò significa che puoi rivedere il lavoro dell’agente come una serie di commit git. Ogni messaggio di commit spiega cosa ha cambiato l’agente e perché. È un audit trail completo della ricerca autonoma.
Oltre l’ML: Il Pattern che Conta
Autoresearch riguarda l’addestramento di modelli linguistici, ma il pattern che introduce è universale:
L’essere umano scrive istruzioni Markdown → L’agente AI esegue autonomamente → I risultati vengono misurati e tenuti/scartati → Il loop si ripete
Questo pattern funziona per qualsiasi dominio dove puoi:
- Definire obiettivi chiari in linguaggio naturale
- Misurare il successo automaticamente
- Tenere o scartare i cambiamenti in base ai risultati
Le aziende stanno già applicando questo pattern oltre la ricerca ML --- all’ottimizzazione del codice, agli esperimenti di marketing e allo sviluppo del prodotto.
L’Approccio Markdown-First
Al centro di autoresearch c’è un file Markdown. Non Python. Non YAML. Non una GUI. Un file di testo semplice che chiunque può leggere e modificare.
Questo conta perché abbassa la barriera per dirigere la ricerca AI. Non è necessario essere un ingegnere ML per scrivere un program.md. Hai bisogno di capire il problema, gli obiettivi e i vincoli. L’agente gestisce l’implementazione.
Il cambiamento di competenza è chiaro: dal sapere come scrivere codice di addestramento al sapere come scrivere istruzioni efficaci per gli agenti.
Per Iniziare
Se vuoi provare il pattern autoresearch (anche al di fuori dell’ML), inizia con questi passaggi:
- Definisci la tua metrica. Cosa significa “meglio” e come lo misuri automaticamente?
- Scrivi il tuo program.md. Imposta obiettivi, vincoli e strategia in Markdown chiaro.
- Mantieni l’ambito piccolo. Come il codebase di 630 righe di autoresearch, i sistemi più piccoli danno risultati migliori.
- Lascialo girare. Il punto è l’operazione autonoma. Resisti all’impulso di intervenire.
- Rivedi i risultati. Controlla la cronologia git per vedere cosa ha provato l’agente e cosa ha funzionato.
Costruire la Conoscenza per Scrivere Buone Istruzioni
La qualità del tuo program.md dipende dalla tua conoscenza del dominio. Più capisci lo spazio del problema, migliori saranno le tue istruzioni.
È qui che avere una biblioteca curata di materiale di riferimento in formato Markdown diventa preziosa. Documentazione, paper, post di blog ed esempi --- tutti salvati come Markdown pulito, pronti a informare le istruzioni per i tuoi agenti.
Save converte qualsiasi pagina web in Markdown pulito --- costruendo la biblioteca di riferimento necessaria per scrivere istruzioni efficaci per gli agenti AI. Prova Save gratuitamente.