Autoresearch voor Iedereen: Hoe Je 100 AI-experimenten Kunt Uitvoeren Terwijl Je Slaapt
Stel je voor dat je 100 machine learning-experimenten ‘s nachts kon uitvoeren — op een enkele GPU — zonder een regel code te schrijven?
Dat is precies wat Andrej Karpathy’s autoresearch doet. Dit Python-script van 630 regels, uitgebracht op 7 maart 2026, laat AI-agents autonoom trainingscode aanpassen, experimenten uitvoeren, resultaten evalueren en blijven verbeteren — terwijl jij slaapt.
Binnen twee dagen had de aankondiging miljoenen views. Onderzoekers, ontwikkelaars en bedrijven voerden al hun eigen experimenten ‘s nachts uit.
Zo werkt het en waarom het belangrijk is.
De Kernlus
Het ontwerp van autoresearch is elegant in zijn eenvoud:
- Lees het
program.md-bestand (je Markdown-instructies) - Pas
train.pyaan op basis van die instructies - Train gedurende precies 5 minuten
- Meet het resultaat (validatieverlies)
- Houd bij of verwijder — als de metriek verbeterd is, commit; zo niet, git reset
- Herhaal onbeperkt
Bij ongeveer 12 experimenten per uur krijg je ongeveer 100 experimenten in een nacht. Elke succesvolle verbetering bouwt voort op de vorige, waardoor een samengesteld effect ontstaat.
Wat Je Nodig Hebt
De toetredingsdrempel is opmerkelijk laag:
- Één GPU — het hele systeem is ontworpen voor training op een enkele GPU
- 630 regels Python — klein genoeg om in het contextvenster van een LLM te passen
- Een LLM API-sleutel — Claude, GPT of een ander capabel model
- Een
program.md-bestand — je Markdown-instructies die de agent vertellen wat te optimaliseren
Dat is alles. Geen cluster. Geen gedistribueerde trainingsopstelling. Geen ML-engineeringteam. Één persoon, één GPU, één Markdown-bestand.
Echte Resultaten
Karpathy liet autoresearch ongeveer twee dagen draaien op een depth-12 model. De AI-agent ontdekte autonoom zo’n 20 verbeteringen:
- De trainingstijd voor de GPT-2-benchmark daalde van 2,02 uur naar 1,80 uur
- Een verbetering van 11% zonder menselijke tussenkomst
- De agent vond problemen die mensen hadden gemist: aandachtsmechanismen zonder juiste schaling, ontbrekende regularisatie en suboptimale hyperparameters
Het kernidee: de agent ontdekte dingen die ervaren ML-onderzoekers niet hadden opgemerkt. Niet omdat hij slimmer is, maar omdat hij 100 variaties kon proberen waar een mens misschien 5 zou proberen.
Waarom 630 Regels Belangrijk Is
De codebase is opzettelijk klein. Met ~630 regels past het volledige train.py-bestand in het contextvenster van een LLM. Dit is een cruciale ontwerpbeslissing.
Als de agent het hele systeem tegelijk kan zien, kan het intelligente aanpassingen doen. Het begrijpt hoe de leersnelheid samenwerkt met de batchgrootte, hoe het aandachtsmechanisme verbinding maakt met de uitvoerlaag, hoe een verandering door de hele trainingspijplijn rimpelt.
Geef een AI-agent een codebase van 50.000 regels en het maakt lokale wijzigingen die misschien geen globale zin hebben. Geef het 630 regels en het kan over het hele systeem redeneren.
Het Budget van 5 Minuten
Elk experiment duurt precies 5 minuten. Deze beperking is briljant:
Het maakt experimenten vergelijkbaar. Als één run 3 minuten duurt en een andere 20, kun je hun resultaten niet eerlijk vergelijken. Een vast tijdbudget betekent dat elke verbetering op gelijke voet wordt gemeten.
Het maakt snelle iteratie mogelijk. 5 minuten is lang genoeg om betekenisvolle trainingsvoortgang te zien, maar kort genoeg om 12 experimenten per uur uit te voeren.
Het voorkomt ongecontroleerde kosten. Zonder tijdslimiet zou een agent misschien uren trainen op een enkele veelbelovende verandering. Het maximum van 5 minuten houdt de feedbacklus strak.
Het Git-geheugen
Elk experiment is een git-commit. Dit geeft het systeem geheugen:
- Succesvolle wijzigingen worden gecommit op een feature branch, waarbij een keten van verbeteringen wordt opgebouwd
- Mislukte experimenten worden teruggezet met
git reset, zonder spoor achter te laten - De geschiedenis toont precies wat er geprobeerd is, wat werkte en wat niet
Dit betekent dat je het werk van de agent kunt beoordelen als een reeks git-commits. Elk commitbericht legt uit wat de agent heeft veranderd en waarom. Het is een volledig audittraject van autonoom onderzoek.
Voorbij ML: Het Patroon Dat Ertoe Doet
Autoresearch gaat over het trainen van taalmodellen, maar het patroon dat het introduceert is universeel:
Mens schrijft Markdown-instructies → AI-agent voert autonoom uit → Resultaten worden gemeten en bijgehouden/verwijderd → Lus herhaalt
Dit patroon werkt voor elk domein waar je:
- Duidelijke doelen kunt definiëren in natuurlijke taal
- Succes automatisch kunt meten
- Wijzigingen kunt bijhouden of verwijderen op basis van resultaten
Bedrijven passen dit patroon al toe buiten ML-onderzoek — voor code-optimalisatie, marketingexperimenten en productontwikkeling.
De Markdown-eerst Aanpak
In het hart van autoresearch staat een Markdown-bestand. Niet Python. Niet YAML. Niet een GUI. Een gewoon tekstbestand dat iedereen kan lezen en bewerken.
Dit is belangrijk omdat het de drempel verlaagt voor het sturen van AI-onderzoek. Je hoeft geen ML-engineer te zijn om een program.md te schrijven. Je moet het probleem, de doelen en de beperkingen begrijpen. De agent regelt de implementatie.
De vaardigheidsverschuiving is duidelijk: van weten hoe je trainingscode schrijft naar weten hoe je effectieve agent-instructies schrijft.
Aan de Slag
Als je het autoresearch-patroon wilt proberen (zelfs buiten ML), begin dan met deze stappen:
- Definieer je metriek. Wat betekent “beter” en hoe meet je het automatisch?
- Schrijf je program.md. Stel doelen, beperkingen en strategie in duidelijke Markdown.
- Houd de scope klein. Net als de 630-regels codebase van autoresearch geven kleinere systemen betere resultaten.
- Laat het draaien. Het gaat om autonoom werken. Weerstà de neiging om in te grijpen.
- Bekijk de resultaten. Controleer de git-geschiedenis om te zien wat de agent heeft geprobeerd en wat werkte.
De Kennis Opbouwen om Goede Instructies te Schrijven
De kwaliteit van je program.md hangt af van je domeinkennis. Hoe meer je begrijpt van het probleemdomein, hoe beter je instructies zullen zijn.
Dit is waar het hebben van een gecureerde bibliotheek van referentiemateriaal in Markdown-formaat waardevol wordt. Documentatie, papers, blogposts en voorbeelden — allemaal opgeslagen als schone Markdown, klaar om je agent-instructies te informeren.
Save converteert elke webpagina naar schone Markdown — en bouwt zo de referentiebibliotheek die je nodig hebt om effectieve AI-agent-instructies te schrijven. Probeer Save gratis.