Hva om du kunne kjøre 100 maskinlæringseksperimenter over natten --- på én GPU --- uten å skrive en linje kode?

Det er nøyaktig hva Andrej Karpathys autoresearch gjør. Utgitt 7. mars 2026, lar dette 630-linjes Python-skriptet AI-agenter autonomt endre treningskode, kjøre eksperimenter, evaluere resultater og fortsette å forbedre seg --- alt mens du sover.

Innen to dager hadde kunngjøringen millioner av visninger. Forskere, utviklere og selskaper kjørte allerede sine egne nattlige eksperimenter.

Her er hvordan det fungerer og hvorfor det betyr noe.

Kjerneslyngen

Autoresearchs design er elegant i sin enkelhet:

Les program.md-filen (Markdown-instruksjonene dine)
Modifiser train.py basert på disse instruksjonene
Tren i nøyaktig 5 minutter
Mål resultatet (valideringstap)
Behold eller forkast --- hvis metrikken forbedret seg, commit; hvis ikke, git reset
Gjenta på ubestemt tid

Med omtrent 12 eksperimenter per time, får du omtrent 100 eksperimenter i en nattøkt. Hvert vellykket forbedring bygger på den forrige, og skaper en sammensatt effekt.

Hva Du Trenger

Inngangsterskelen er bemerkelsesverdig lav:

Én GPU --- hele systemet er designet for single-GPU-trening
630 linjer Python --- liten nok til å passe i ethvert LLM’s kontekstvindu
En LLM API-nøkkel --- Claude, GPT eller en annen kapabel modell
En program.md-fil --- Markdown-instruksjonene dine som forteller agenten hva den skal optimalisere

Det er det. Ingen klynge. Ingen distribuert treningsoppsett. Intet ML-ingeniørteam. Én person, én GPU, én Markdown-fil.

Virkelige Resultater

Karpathy lot autoresearch kjøre i omtrent to dager på en depth-12-modell. AI-agenten oppdaget autonomt rundt 20 forbedringer:

Treningstiden for GPT-2-benchmarken gikk ned fra 2,02 timer til 1,80 timer
11% forbedring med null menneskelig inngripen
Agenten fant problemer som mennesker hadde gått glipp av: oppmerksomhetsmekanismer som manglet riktig skalering, manglende regularisering og suboptimale hyperparametere

Nøkkelinnsikten: agenten oppdaget ting som erfarne ML-forskere ikke hadde lagt merke til. Ikke fordi den er smartere, men fordi den kunne prøve 100 varianter der et menneske kanskje prøver 5.

Hvorfor 630 Linjer Betyr Noe

Kodebasen er bevisst liten. Med ~630 linjer passer hele train.py-filen innenfor et LLM’s kontekstvindu. Dette er en kritisk designbeslutning.

Hvis agenten kan se hele systemet på en gang, kan den gjøre intelligente modifikasjoner. Den forstår hvordan læringsraten samhandler med batchstørrelsen, hvordan oppmerksomhetsmekanismen kobler til utdatalaget, hvordan én endring brer seg gjennom hele treningspipelinen.

Gi en AI-agent en 50.000-linjes kodebase og den gjør lokale endringer som kanskje ikke gir mening globalt. Gi den 630 linjer og den kan resonnere om hele systemet.

5-minutters Budsjettet

Hvert eksperiment kjører i nøyaktig 5 minutter. Denne begrensningen er genial:

Det gjør eksperimenter sammenlignbare. Hvis én kjøring tar 3 minutter og en annen tar 20, kan du ikke sammenligne resultatene rettferdig. Et fast tidsbudsjett betyr at hvert forbedring måles på like vilkår.

Det muliggjør rask iterasjon. 5 minutter er lenge nok til å se meningsfull treningsfremgang, men kort nok til å kjøre 12 eksperimenter per time.

Det forhindrer ukontrollerte kostnader. Uten en tidsgrense kan en agent trene i timer på én lovende endring. 5-minutterstaket holder tilbakemeldingsslyngen stram.

Git-minnet

Hvert eksperiment er et git-commit. Dette gir systemet minne:

Vellykkede endringer commites på en feature-branch og bygger en kjede av forbedringer
Mislykkede eksperimenter tilbakestilles med git reset, og etterlater ingen spor
Historikken viser nøyaktig hva som ble forsøkt, hva som fungerte og hva som ikke gjorde det

Det betyr at du kan gjennomgå agentens arbeid som en serie git-commits. Hver commit-melding forklarer hva agenten endret og hvorfor. Det er et fullstendig revisjonslogg av autonom forskning.

Utover ML: Mønsteret Som Betyr Noe

Autoresearch handler om å trene språkmodeller, men mønsteret det introduserer er universelt:

Mennesket skriver Markdown-instruksjoner → AI-agenten utfører autonomt → Resultater måles og beholdes/forkastes → Slyngen gjentar seg

Dette mønsteret fungerer for ethvert domene der du kan:

Definere klare mål på naturlig språk
Måle suksess automatisk
Beholde eller forkaste endringer basert på resultater

Selskaper anvender allerede dette mønsteret utover ML-forskning --- til kodeoptimalisering, markedsføringseksperimenter og produktutvikling.

Markdown-første Tilnærmingen

I sentrum av autoresearch er en Markdown-fil. Ikke Python. Ikke YAML. Ikke et GUI. En vanlig tekstfil som hvem som helst kan lese og redigere.

Dette betyr noe fordi det senker terskelen for å lede AI-forskning. Du trenger ikke å være ML-ingeniør for å skrive en program.md. Du trenger å forstå problemet, målene og begrensningene. Agenten håndterer implementeringen.

Ferdighetsforskyvningen er tydelig: fra å vite hvordan man skriver treningskode til å vite hvordan man skriver effektive agentinstruksjoner.

Kom i Gang

Hvis du vil prøve autoresearch-mønsteret (selv utenfor ML), start med disse trinnene:

Definer metrikken din. Hva betyr “bedre”, og hvordan måler du det automatisk?
Skriv program.md. Sett mål, begrensninger og strategi i tydelig Markdown.
Hold omfanget lite. Som autoresearchs 630-linjes kodebase, gir mindre systemer bedre resultater.
La det kjøre. Poenget er autonom drift. Motstå ønsket om å gripe inn.
Gjennomgå resultatene. Sjekk git-historikken for å se hva agenten prøvde og hva som fungerte.

Bygge Kunnskapen for å Skrive Gode Instruksjoner

Kvaliteten på program.md avhenger av domenekunnskapen din. Jo mer du forstår om problemrommet, jo bedre vil instruksjonene dine være.

Det er her det å ha et kuratert bibliotek med referansemateriale i Markdown-format blir verdifullt. Dokumentasjon, artikler, blogginnlegg og eksempler --- alle lagret som ren Markdown, klare til å informere agentinstruksjonene dine.

Save konverterer enhver nettside til ren Markdown --- og bygger referansebiblioteket du trenger for å skrive effektive AI-agentinstruksjoner. Prøv Save gratis.