Tänk om du kunde köra 100 maskininlärningsexperiment över natten — på ett enda GPU — utan att skriva en enda rad kod?

Det är precis vad Andrej Karpathys autoresearch gör. Detta 630-raders Python-skript, släppt den 7 mars 2026, låter AI-agenter autonomt modifiera träningskod, köra experiment, utvärdera resultat och fortsätta förbättras — medan du sover.

Inom två dagar hade tillkännagivandet miljontals visningar. Forskare, utvecklare och företag körde redan sina egna nattliga experiment.

Så här fungerar det och varför det spelar roll.

Kärnloopen

Autoresearchs design är elegant i sin enkelhet:

Läs program.md-filen (dina Markdown-instruktioner)
Modifiera train.py baserat på dessa instruktioner
Träna i exakt 5 minuter
Mät resultatet (valideringsförlust)
Behåll eller kassera — om måttet förbättrades, committa; om inte, git reset
Upprepa på obestämd tid

Med ungefär 12 experiment per timme får du ungefär 100 experiment under en nattlig session. Varje framgångsrik förbättring bygger på den senaste, vilket skapar en sammansatt effekt.

Vad du Behöver

Inträdesbarriären är anmärkningsvärt låg:

Ett GPU — hela systemet är designat för träning med ett enda GPU
630 rader Python — litet nog att passa i ett LLM:s kontextfönster
En LLM API-nyckel — Claude, GPT eller en annan kapabel modell
En program.md-fil — dina Markdown-instruktioner som berättar för agenten vad som ska optimeras

Det är allt. Inget kluster. Ingen distribuerad träningsuppsättning. Inget ML-ingenjörsteam. En person, ett GPU, en Markdown-fil.

Verkliga Resultat

Karpathy lät autoresearch köra i ungefär två dagar på en djup-12-modell. AI-agenten upptäckte autonomt ungefär 20 förbättringar:

Träningstiden för GPT-2-riktmärket sjönk från 2,02 timmar till 1,80 timmar
En 11%-förbättring utan mänsklig intervention
Agenten hittade problem som människor hade missat: uppmärksamhetsmekanismer utan korrekt skalning, saknad regularisering och suboptimala hyperparametrar

Den centrala insikten: agenten upptäckte saker som erfarna ML-forskare inte hade märkt. Inte för att den är smartare, utan för att den kunde prova 100 variationer där en människa kanske skulle prova 5.

Varför 630 Rader Spelar Roll

Kodbasen är avsiktligt liten. Med ~630 rader ryms hela train.py-filen i ett LLM:s kontextfönster. Det är ett kritiskt designbeslut.

Om agenten kan se hela systemet på en gång kan den göra intelligenta modifieringar. Den förstår hur inlärningshastigheten interagerar med batchstorleken, hur uppmärksamhetsmekanismen ansluter till utdatalagret, hur en förändring sprider sig genom hela träningspipelinen.

Ge en AI-agent en kodbas på 50 000 rader och den gör lokala förändringar som kanske inte är meningsfulla globalt. Ge den 630 rader och den kan resonera om hela systemet.

5-minutersbudgeten

Varje experiment körs i exakt 5 minuter. Denna begränsning är briljant:

Det gör experiment jämförbara. Om en körning tar 3 minuter och en annan 20, kan du inte rättvist jämföra deras resultat. En fast tidsbudget innebär att varje förbättring mäts på lika villkor.

Det möjliggör snabb iteration. 5 minuter är tillräckligt länge för att se meningsfull träningsprogression men tillräckligt kort för att köra 12 experiment per timme.

Det förhindrar okontrollerade kostnader. Utan tidsgräns kan en agent träna i timmar på en enda lovande förändring. 5-minuterstaket håller feedbackslingan tight.

Git-minnet

Varje experiment är en git-commit. Detta ger systemet minne:

Framgångsrika förändringar committas på en feature-gren, vilket bygger en kedja av förbättringar
Misslyckade experiment återställs med git reset, utan att lämna spår
Historiken visar exakt vad som prövades, vad som fungerade och vad som inte fungerade

Det innebär att du kan granska agentens arbete som en serie git-commits. Varje commit-meddelande förklarar vad agenten ändrade och varför. Det är ett fullständigt revisionsspår av autonom forskning.

Bortom ML: Mönstret Som Spelar Roll

Autoresearch handlar om att träna språkmodeller, men mönstret det introducerar är universellt:

Människa skriver Markdown-instruktioner → AI-agent kör autonomt → Resultat mäts och behålls/kasseras → Slinga upprepas

Detta mönster fungerar för alla domäner där du kan:

Definiera tydliga mål på naturligt språk
Mäta framgång automatiskt
Behålla eller kassera förändringar baserat på resultat

Företag tillämpar redan detta mönster utanför ML-forskning — för kodoptimering, marknadsföringsexperiment och produktutveckling.

Markdown-Första Tillvägagångssättet

I centrum av autoresearch finns en Markdown-fil. Inte Python. Inte YAML. Inte ett GUI. En vanlig textfil som vem som helst kan läsa och redigera.

Detta spelar roll eftersom det sänker barriären för att styra AI-forskning. Du behöver inte vara en ML-ingenjör för att skriva en program.md. Du behöver förstå problemet, målen och begränsningarna. Agenten hanterar implementeringen.

Kompetensskiftet är tydligt: från att veta hur man skriver träningskod till att veta hur man skriver effektiva agentinstruktioner.

Komma Igång

Om du vill prova autoresearch-mönstret (även utanför ML), börja med dessa steg:

Definiera ditt mått. Vad betyder “bättre” och hur mäter du det automatiskt?
Skriv din program.md. Sätt mål, begränsningar och strategi i tydlig Markdown.
Håll omfattningen liten. Precis som autoresearchs 630-raders kodbas ger mindre system bättre resultat.
Låt det köra. Poängen är autonom drift. Motstå lusten att ingripa.
Granska resultaten. Kolla git-historiken för att se vad agenten provade och vad som fungerade.

Bygga Kunskapen för att Skriva Bra Instruktioner

Kvaliteten på din program.md beror på din domänkunskap. Ju mer du förstår om problemutrymmet, desto bättre kommer dina instruktioner att vara.

Det är här att ha ett kurerat bibliotek av referensmaterial i Markdown-format blir värdefullt. Dokumentation, artiklar, blogginlägg och exempel — alla sparade som ren Markdown, redo att informera dina agentinstruktioner.

Save konverterar vilken webbsida som helst till ren Markdown — och bygger referensbiblioteket du behöver för att skriva effektiva AI-agentinstruktioner. Prova Save gratis.