← Tilbage til blog

Autoresearch for alle: Sådan kører du 100 AI-eksperimenter, mens du sover

· Save Team
aiautoresearchkarpathymachine-learningexperimentsgpuprogramming

Hvad nu hvis du kunne køre 100 maskinlæringseksperimenter natten over — på én GPU — uden at skrive en eneste kodelinje?

Det er præcis, hvad Andrej Karpathys autoresearch gør. Udgivet den 7. marts 2026 lader dette 630-linjers Python-script AI-agenter autonomt modificere træningskode, køre eksperimenter, evaluere resultater og fortsætte med at forbedre sig — alt imens du sover.

Inden for to dage havde annoncen millioner af visninger. Forskere, udviklere og virksomheder kørte allerede deres egne eksperimenter natten over.

Her er, hvordan det virker, og hvorfor det er vigtigt.

Kerneloopet

Autoresearchs design er elegant i sin enkelhed:

  1. Læs program.md-filen (dine Markdown-instruktioner)
  2. Modificer train.py baseret på disse instruktioner
  3. Træn i præcis 5 minutter
  4. Mål resultatet (valideringstab)
  5. Behold eller forkast — hvis metrikken forbedres, commit; hvis ikke, git reset
  6. Gentag på ubestemt tid

Med ca. 12 eksperimenter pr. time får du ca. 100 eksperimenter i en natten over-session. Hvert succesfuldt fremskridt bygger på det sidste og skaber en sammensateffekt.

Hvad du har brug for

Barrieren for at komme i gang er bemærkelsesværdigt lav:

  • Én GPU — hele systemet er designet til enkelt-GPU-træning
  • 630 linjer Python — lille nok til at passe i ethvert LLMs kontekstvindue
  • En LLM API-nøgle — Claude, GPT eller en anden kompetent model
  • En program.md-fil — dine Markdown-instruktioner der fortæller agenten, hvad der skal optimeres

Det er det. Ingen klynge. Ingen distribueret træningsopsætning. Inget ML-ingeniørteam. Én person, én GPU, én Markdown-fil.

Virkelige resultater

Karpathy lod autoresearch køre i ca. to dage på en depth-12-model. AI-agenten opdagede autonomt ca. 20 forbedringer:

  • Træningstid for GPT-2-benchmarken faldt fra 2,02 timer til 1,80 timer
  • En 11% forbedring uden menneskelig indgriben
  • Agenten fandt problemer, som mennesker havde gået glip af: opmærksomhedsmekanismer uden korrekt skalering, manglende regularisering og suboptimale hyperparametre

Den vigtigste indsigt: agenten opdagede ting, som erfarne ML-forskere ikke havde bemærket. Ikke fordi den er klogere, men fordi den kunne prøve 100 variationer, hvor et menneske måske ville prøve 5.

Hvorfor 630 linjer er vigtigt

Kodebasen er bevidst lille. Med ~630 linjer passer hele train.py-filen inden for et LLMs kontekstvindue. Dette er en kritisk designbeslutning.

Hvis agenten kan se hele systemet på én gang, kan den lave intelligente modifikationer. Den forstår, hvordan læringsraten interagerer med batchstørrelsen, hvordan opmærksomhedsmekanismen forbindes til outputlaget, hvordan én ændring breder sig gennem hele træningspipelinen.

Giv en AI-agent en kodebase på 50.000 linjer, og den laver lokale ændringer, der måske ikke giver mening globalt. Giv den 630 linjer, og den kan ræsonnere om hele systemet.

5-minutters budgettet

Hvert eksperiment kører i præcis 5 minutter. Denne begrænsning er genial:

Det gør eksperimenter sammenlignelige. Hvis én kørsel tager 3 minutter og en anden 20, kan du ikke retfærdigt sammenligne deres resultater. Et fast tidsbudget betyder, at hvert fremskridt måles på lige vilkår.

Det muliggør hurtig iteration. 5 minutter er lang nok til at se meningsfulde trænningsfremskridt, men kort nok til at køre 12 eksperimenter i timen.

Det forhindrer løbske omkostninger. Uden en tidsgrænse kan en agent træne i timer på en enkelt lovende ændring. 5-minutters-grænsen holder feedbackloopet tæt.

Git-hukommelsen

Hvert eksperiment er et git-commit. Dette giver systemet hukommelse:

  • Succesfulde ændringer commites til en feature-branch og bygger en kæde af forbedringer
  • Mislykkede eksperimenter tilbageføres med git reset og efterlader intet spor
  • Historikken viser præcis, hvad der blev forsøgt, hvad der virkede, og hvad der ikke virkede

Det betyder, at du kan gennemgå agentens arbejde som en serie git-commits. Hvert commit-budskab forklarer, hvad agenten ændrede og hvorfor. Det er et komplet revisionsspor af autonom forskning.

Ud over ML: Det vigtige mønster

Autoresearch handler om træning af sprogmodeller, men det mønster det introducerer er universelt:

Mennesker skriver Markdown-instruktioner → AI-agent udfører autonomt → Resultater måles og beholdes/forkastes → Loop gentages

Dette mønster virker for ethvert domæne, hvor du kan:

  1. Definere klare mål på naturligt sprog
  2. Måle succes automatisk
  3. Beholde eller forkaste ændringer baseret på resultater

Virksomheder anvender allerede dette mønster ud over ML-forskning — til kodeoptimering, marketingeksperimenter og produktudvikling.

Markdown-first-tilgangen

I centrum af autoresearch er en Markdown-fil. Ikke Python. Ikke YAML. Ikke en GUI. En almindelig tekstfil, som alle kan læse og redigere.

Dette er vigtigt, fordi det sænker barrieren for at styre AI-forskning. Du behøver ikke at være ML-ingeniør for at skrive en program.md. Du skal forstå problemet, målene og begrænsningerne. Agenten håndterer implementeringen.

Kompetenceskiftet er klart: fra at vide, hvordan man skriver træningskode til at vide, hvordan man skriver effektive agentinstruktioner.

Kom i gang

Hvis du vil prøve autoresearch-mønsteret (selv uden for ML), start med disse trin:

  1. Definer din metrik. Hvad betyder “bedre”, og hvordan måler du det automatisk?
  2. Skriv din program.md. Sæt mål, begrænsninger og strategi i klart Markdown.
  3. Hold omfanget lille. Ligesom autoresearchs 630-linjers kodebase giver mindre systemer bedre resultater.
  4. Lad det køre. Pointen er autonom drift. Modstå fristelsen til at gribe ind.
  5. Gennemgå resultaterne. Tjek git-historikken for at se, hvad agenten forsøgte, og hvad der virkede.

Opbygning af viden til at skrive gode instruktioner

Kvaliteten af din program.md afhænger af din domæneviden. Jo mere du forstår om problemet, jo bedre vil dine instruktioner være.

Det er her, at have et kurateret bibliotek af referencemateriale i Markdown-format bliver værdifuldt. Dokumentation, artikler, blogindlæg og eksempler — alle gemt som ren Markdown, klar til at informere dine agentinstruktioner.


Save konverterer enhver webside til ren Markdown — bygger det referencebibliotek, du har brug for til at skrive effektive AI-agentinstruktioner. Prøv Save gratis.