Autoresearch for Alle: Slik Kjører Du 100 AI-eksperimenter Mens Du Sover
Hva om du kunne kjøre 100 maskinlæringseksperimenter over natten --- på én GPU --- uten å skrive en linje kode?
Det er nøyaktig hva Andrej Karpathys autoresearch gjør. Utgitt 7. mars 2026, lar dette 630-linjes Python-skriptet AI-agenter autonomt endre treningskode, kjøre eksperimenter, evaluere resultater og fortsette å forbedre seg --- alt mens du sover.
Innen to dager hadde kunngjøringen millioner av visninger. Forskere, utviklere og selskaper kjørte allerede sine egne nattlige eksperimenter.
Her er hvordan det fungerer og hvorfor det betyr noe.
Kjerneslyngen
Autoresearchs design er elegant i sin enkelhet:
- Les
program.md-filen (Markdown-instruksjonene dine) - Modifiser
train.pybasert på disse instruksjonene - Tren i nøyaktig 5 minutter
- Mål resultatet (valideringstap)
- Behold eller forkast --- hvis metrikken forbedret seg, commit; hvis ikke, git reset
- Gjenta på ubestemt tid
Med omtrent 12 eksperimenter per time, får du omtrent 100 eksperimenter i en nattøkt. Hvert vellykket forbedring bygger på den forrige, og skaper en sammensatt effekt.
Hva Du Trenger
Inngangsterskelen er bemerkelsesverdig lav:
- Én GPU --- hele systemet er designet for single-GPU-trening
- 630 linjer Python --- liten nok til å passe i ethvert LLM’s kontekstvindu
- En LLM API-nøkkel --- Claude, GPT eller en annen kapabel modell
- En
program.md-fil --- Markdown-instruksjonene dine som forteller agenten hva den skal optimalisere
Det er det. Ingen klynge. Ingen distribuert treningsoppsett. Intet ML-ingeniørteam. Én person, én GPU, én Markdown-fil.
Virkelige Resultater
Karpathy lot autoresearch kjøre i omtrent to dager på en depth-12-modell. AI-agenten oppdaget autonomt rundt 20 forbedringer:
- Treningstiden for GPT-2-benchmarken gikk ned fra 2,02 timer til 1,80 timer
- 11% forbedring med null menneskelig inngripen
- Agenten fant problemer som mennesker hadde gått glipp av: oppmerksomhetsmekanismer som manglet riktig skalering, manglende regularisering og suboptimale hyperparametere
Nøkkelinnsikten: agenten oppdaget ting som erfarne ML-forskere ikke hadde lagt merke til. Ikke fordi den er smartere, men fordi den kunne prøve 100 varianter der et menneske kanskje prøver 5.
Hvorfor 630 Linjer Betyr Noe
Kodebasen er bevisst liten. Med ~630 linjer passer hele train.py-filen innenfor et LLM’s kontekstvindu. Dette er en kritisk designbeslutning.
Hvis agenten kan se hele systemet på en gang, kan den gjøre intelligente modifikasjoner. Den forstår hvordan læringsraten samhandler med batchstørrelsen, hvordan oppmerksomhetsmekanismen kobler til utdatalaget, hvordan én endring brer seg gjennom hele treningspipelinen.
Gi en AI-agent en 50.000-linjes kodebase og den gjør lokale endringer som kanskje ikke gir mening globalt. Gi den 630 linjer og den kan resonnere om hele systemet.
5-minutters Budsjettet
Hvert eksperiment kjører i nøyaktig 5 minutter. Denne begrensningen er genial:
Det gjør eksperimenter sammenlignbare. Hvis én kjøring tar 3 minutter og en annen tar 20, kan du ikke sammenligne resultatene rettferdig. Et fast tidsbudsjett betyr at hvert forbedring måles på like vilkår.
Det muliggjør rask iterasjon. 5 minutter er lenge nok til å se meningsfull treningsfremgang, men kort nok til å kjøre 12 eksperimenter per time.
Det forhindrer ukontrollerte kostnader. Uten en tidsgrense kan en agent trene i timer på én lovende endring. 5-minutterstaket holder tilbakemeldingsslyngen stram.
Git-minnet
Hvert eksperiment er et git-commit. Dette gir systemet minne:
- Vellykkede endringer commites på en feature-branch og bygger en kjede av forbedringer
- Mislykkede eksperimenter tilbakestilles med
git reset, og etterlater ingen spor - Historikken viser nøyaktig hva som ble forsøkt, hva som fungerte og hva som ikke gjorde det
Det betyr at du kan gjennomgå agentens arbeid som en serie git-commits. Hver commit-melding forklarer hva agenten endret og hvorfor. Det er et fullstendig revisjonslogg av autonom forskning.
Utover ML: Mønsteret Som Betyr Noe
Autoresearch handler om å trene språkmodeller, men mønsteret det introduserer er universelt:
Mennesket skriver Markdown-instruksjoner → AI-agenten utfører autonomt → Resultater måles og beholdes/forkastes → Slyngen gjentar seg
Dette mønsteret fungerer for ethvert domene der du kan:
- Definere klare mål på naturlig språk
- Måle suksess automatisk
- Beholde eller forkaste endringer basert på resultater
Selskaper anvender allerede dette mønsteret utover ML-forskning --- til kodeoptimalisering, markedsføringseksperimenter og produktutvikling.
Markdown-første Tilnærmingen
I sentrum av autoresearch er en Markdown-fil. Ikke Python. Ikke YAML. Ikke et GUI. En vanlig tekstfil som hvem som helst kan lese og redigere.
Dette betyr noe fordi det senker terskelen for å lede AI-forskning. Du trenger ikke å være ML-ingeniør for å skrive en program.md. Du trenger å forstå problemet, målene og begrensningene. Agenten håndterer implementeringen.
Ferdighetsforskyvningen er tydelig: fra å vite hvordan man skriver treningskode til å vite hvordan man skriver effektive agentinstruksjoner.
Kom i Gang
Hvis du vil prøve autoresearch-mønsteret (selv utenfor ML), start med disse trinnene:
- Definer metrikken din. Hva betyr “bedre”, og hvordan måler du det automatisk?
- Skriv program.md. Sett mål, begrensninger og strategi i tydelig Markdown.
- Hold omfanget lite. Som autoresearchs 630-linjes kodebase, gir mindre systemer bedre resultater.
- La det kjøre. Poenget er autonom drift. Motstå ønsket om å gripe inn.
- Gjennomgå resultatene. Sjekk git-historikken for å se hva agenten prøvde og hva som fungerte.
Bygge Kunnskapen for å Skrive Gode Instruksjoner
Kvaliteten på program.md avhenger av domenekunnskapen din. Jo mer du forstår om problemrommet, jo bedre vil instruksjonene dine være.
Det er her det å ha et kuratert bibliotek med referansemateriale i Markdown-format blir verdifullt. Dokumentasjon, artikler, blogginnlegg og eksempler --- alle lagret som ren Markdown, klare til å informere agentinstruksjonene dine.
Save konverterer enhver nettside til ren Markdown --- og bygger referansebiblioteket du trenger for å skrive effektive AI-agentinstruksjoner. Prøv Save gratis.