← Torna al blog

Il Miglioramento del 19% di Shopify: Come le Aziende Stanno Già Usando il Pattern Autoresearch

· Save Team
aiautoresearchshopifykarpathybusinessmachine-learningreal-world

Quando Karpathy ha rilasciato autoresearch il 7 marzo 2026, ci sono voluti esattamente giorni — non settimane, non mesi — per far sì che le aziende iniziassero a eseguirlo sui propri problemi.

Il più notevole tra i primi adottatori: il CEO di Shopify Tobi Lutke, che ha adattato il framework autoresearch per un progetto interno. Il risultato? Un modello da 0,8 miliardi di parametri addestrato durante la notte ha superato un precedente modello da 1,6 miliardi di parametri del 19% dopo appena 37 esperimenti in 8 ore.

Modello più piccolo. Risultati migliori. Zero intervento umano durante la notte.

Il Pattern Autoresearch nel Business

Quello che Shopify ha dimostrato non è solo un simpatico esperimento ML. È una proof of concept per un nuovo modo in cui le aziende fanno R&D.

L’approccio tradizionale: assumere ingegneri ML, farli eseguire esperimenti manualmente, revisionare i risultati nelle riunioni, decidere i prossimi passi, ripetere lentamente. Un buon team potrebbe condurre 30 esperimenti focalizzati al mese.

L’approccio autoresearch: scrivi un program.md che definisce i tuoi obiettivi, lascia che un agente AI esegua esperimenti durante la notte, rivedi i risultati al mattino. Un ingegnere, una GPU, 100+ esperimenti a notte.

La matematica è schiacciante. La ricerca manuale produce ~1 esperimento al giorno per ricercatore. Autoresearch ne produce ~12 all’ora. È un aumento di 100 volte nel throughput sperimentale.

Oltre l’ML: L’Anno dei 36.500 Esperimenti

Il pattern si estende oltre l’addestramento di modelli. I team di marketing tipicamente conducono circa 30 esperimenti all’anno — test A/B, variazioni di copy, modifiche al targeting del pubblico. È lento perché ogni esperimento richiede configurazione, monitoraggio e analisi umana.

I pionieri stanno già immaginando un mondo in cui agenti autonomi eseguono 100 esperimenti di marketing al giorno, misurano i tassi di conversione, adattano il copy e iterano sul targeting — tutto guidato da un program.md che definisce gli obiettivi e i vincoli del brand.

Sono 36.500+ esperimenti all’anno contro 30. Le aziende che adottano prima questo pattern avranno un vantaggio composto che è quasi impossibile da recuperare.

Cosa Ha Reso Possibili i Risultati di Shopify

Il miglioramento del 19% di Shopify non è stato fortunato. Diversi fattori l’hanno reso possibile:

Metriche chiare. Avevano una metrica di valutazione ben definita che l’agente poteva misurare automaticamente dopo ogni esperimento. Senza misurazione automatica, il loop si interrompe.

Scope vincolato. Come il train.py di 630 righe di Karpathy, Shopify ha mantenuto la codebase modificabile abbastanza piccola da far comprendere completamente all’LLM. Non si lancia una codebase da un milione di righe a un agente sperando nel meglio.

Buone istruzioni iniziali. Il program.md che dirigeva l’agente era informato dalla conoscenza del dominio del team. L’agente non stava cercando casualmente — stava esplorando direzioni che il team aveva identificato come promettenti.

Fiducia nel processo. Lo hanno lasciato girare tutta la notte senza intervenire. La tentazione di controllare e aggiustare ogni ora vanifica lo scopo della sperimentazione autonoma.

Il Pattern della Sessione Notturna

L’adozione tipica di autoresearch segue un pattern:

Giorno 1: Configurare l’ambiente, scrivere il primo program.md, eseguire alcuni esperimenti manualmente per verificare che il loop funzioni.

Notte 1: Avviare l’agente prima di andarsene. Impostarlo per girare indefinitamente, committare i miglioramenti e ripristinare i fallimenti.

Mattina del Giorno 2: Rivedere il git log. Vedere cosa ha provato l’agente, cosa ha funzionato e cosa no. Aggiornare il program.md in base a quanto appreso.

Notte 2: Eseguire di nuovo con istruzioni migliorate. L’agente inizia dal miglior risultato della Notte 1.

Entro una settimana: Hai un program.md raffinato e dozzine di miglioramenti validati che avrebbero richiesto mesi a un team umano per scoprire.

Settori Pronti per Questo Pattern

Qualsiasi campo che coinvolge sperimentazione sistematica può adottare il loop autoresearch:

Machine learning — il caso d’uso originale. Tuning degli iperparametri, ricerca architetturale, esperimenti di regolarizzazione.

Ottimizzazione software — ottimizzazione delle prestazioni, riduzione della dimensione dei bundle, ottimizzazione delle query. Ovunque si abbia una metrica misurabile e codice modificabile.

Drug discovery — simulazioni molecolari con affinità di legame misurabile. L’esperimento è computazionale, la metrica è numerica, il loop è automatizzabile.

Modellazione finanziaria — backtesting di strategie di trading su dati storici. Metriche chiare, feedback rapido, ampio spazio di ricerca.

Ottimizzazione dei contenuti — test A/B di headline, layout e copy con tasso di conversione come metrica.

Il Vantaggio del Markdown

In ogni caso, il contributo umano è lo stesso: un file Markdown che definisce cosa ottimizzare, quali vincoli rispettare e quali strategie provare.

Ecco perché la conoscenza del Markdown sta diventando un vantaggio competitivo. Le aziende che scrivono i migliori file program.md sono quelle che ottengono i migliori risultati dagli agenti autonomi. E scrivere buoni file program.md richiede una profonda conoscenza del dominio organizzata in un formato che l’AI può consumare.

Le aziende che costruiscono librerie di riferimento — salvando documentazione, analisi competitive, paper di ricerca e best practice come Markdown pulito — hanno un vantaggio iniziale. Quando è il momento di scrivere il program.md che dirige un esperimento notturno, possono attingere da una base di conoscenza curata invece di partire da zero.


Save converte qualsiasi pagina web in Markdown pulito — costruendo la libreria di conoscenza di cui le aziende hanno bisogno per scrivere istruzioni efficaci per agenti AI. Prova Save gratuitamente.