In traditionele softwareontwikkeling betekent een git commit “deze code werkt.” In Karpathy’s autoresearch betekent een git commit iets anders: “deze wijziging maakte het model meetbaar beter.”

Elke commit is een kleine wetenschappelijke ontdekking. Elke git reset is een hypothese die niet uitpakte. Het git-log wordt een onderzoeksdagboek, automatisch geschreven door een AI-agent.

Dit is versiebeheer heruitgevonden als onderzoekstool.

De Binaire Beslissing

Het gebruik van git door autoresearch is elegant eenvoudig:

Agent past train.py aan
Training draait 5 minuten
Validatieverlies wordt gemeten
Als verbeterd: git commit --- de wijziging is een bewaarder
Als niet verbeterd: git reset --- de wijziging heeft nooit plaatsgevonden

Geen pull requests. Geen code review. Geen merge-conflicten. Slechts een binaire beslissing: maakte deze wijziging dingen beter of niet?

Dit creëert een schone, lineaire geschiedenis van verbeteringen. Elke commit in het log vertegenwoordigt een gevalideerde stap voorwaarts. Er is geen ruis --- geen “WIP”-commits, geen “typo herstellen”-commits, geen “revert revert”-ketens. Slechts een reeks wijzigingen die elk het model meetbaar beter maakten.

Het Git-log als Onderzoeksdagboek

Na een autoresearch-sessie ‘s nachts leest het git-log als een onderzoeksnotebook:

Elk commit-bericht (geschreven door de AI-agent) beschrijft wat werd gewijzigd en welk effect het had. De diff toont precies welke code werd aangepast. De verbetering in validatieverlies is vastgelegd.

Dit is radicaal meer auditeerbaar dan traditioneel ML-onderzoek. In plaats van aantekeningen van een onderzoeker met “geprobeerd leersnelheid aan te passen, leek te helpen,” heb je een exacte diff, een exacte meting en een reproduceerbaar resultaat.

Geheugen Across Sessies

Git geeft autoresearch iets wat AI-agents desperaat nodig hebben: persistent geheugen.

Wanneer je een nieuwe autoresearch-sessie start, kan de agent de git-geschiedenis lezen om te begrijpen wat eerder is geprobeerd. Het kan zien welke richtingen verbeteringen opleverden en welke niet. Dit voorkomt dat de agent mislukte experimenten opnieuw probeert en helpt het voort te bouwen op wat werkte.

Dit is Markdown plus git die samenwerken: het program.md-bestand biedt strategische richting (wat te proberen), en de git-geschiedenis biedt tactische context (wat er geprobeerd is).

Het Samengestelde Effect

Omdat elke succesvolle commit de nieuwe basislijn wordt, sommeren verbeteringen zich. De agent begint niet elke nacht opnieuw --- het begint vanaf het beste resultaat dat tot nu toe is bereikt.

In Karpathy’s run van twee dagen accumuleerden ongeveer 20 verbeteringen. Elke was klein, maar samen reduceerden ze de GPT-2 trainingstijd met 11%. De agent vond optimalisaties in aandachtschaling, regularisatie en hyperparameters die op elkaar voortbouwden.

Dit is de kracht van de git-gebaseerde aanpak: het creëert van nature een ratel. Vooruitgang wordt vergrendeld als commits. Mislukkingen worden verwijderd. De codebase beweegt alleen vooruit.

Wat er Teruggedraaid Wordt

De mislukte experimenten --- de git reset-bewerkingen --- zijn net zo interessant als de successen. In een typische nachtelijke run worden ongeveer 70-80% van de experimenten teruggedraaid.

Deze teruggedraaide experimenten zijn niet verspild. Het zijn negatieve resultaten die de toekomstige beslissingen van de agent informeren. Met cross-agent geheugen en gedeelde git-geschiedenis kan een gedistribueerd autoresearch-systeem leren van mislukkingen in het hele zwerm.

Git als Experimentendatabase

Traditioneel ML-onderzoek gebruikt experimenttracking-tools --- MLflow, Weights & Biases, Neptune --- om hyperparameters, metrics en artefacten te loggen.

Autoresearch vervangt dit allemaal met git. De commit-geschiedenis IS het experimentenlog. De diffs ZIJN de hyperparameterwijzigingen. De commit-berichten ZIJN de experimentbeschrijvingen.

Deze vereenvoudiging is krachtig. Er is geen aparte experimentendatabase om te onderhouden. Geen dashboard om te configureren. Geen schema om te definiëren. Alleen git, dat elke ontwikkelaar al kent.

Het Bredere Patroon

Het git-als-onderzoeksdagboek-patroon werkt verder dan ML-training:

Codeoptimalisatie: Elke commit vertegenwoordigt een wijziging die de code sneller maakte
Testdekking: Elke commit vertegenwoordigt een wijziging die de testdekking verbeterde
Bugfixing: Elke commit vertegenwoordigt een fix die een falende test oploste
Contentoptimalisatie: Elke commit vertegenwoordigt een wijziging die een meetbare statistiek verbeterde

Elk domein waar je automatisch “beter” en “slechter” kunt meten, kan git gebruiken als een experimenttracker.

De Rol van de Mens: Het Log Lezen

In agentische engineering is de ochtendroutine van de mens na een autoresearch-sessie ‘s nachts het git-log lezen.

Dit is een andere vaardigheid dan code schrijven. Je evalueert een reeks AI-gegenereerde wijzigingen, begrijpt waarom elk werkte, en beslist of de algehele richting correct is. Op basis van deze beoordeling werk je je program.md bij om de volgende sessie te sturen.

Het git-log is het communicatiekanaal tussen mens en agent. De agent communiceert via commits. De mens communiceert via de program.md-updates. Markdown stroomt in beide richtingen.

Git-vriendelijke Kennis Bouwen

Het schrijven van effectieve program.md-bestanden --- het soort dat schone, betekenisvolle git-geschiedenissen produceert --- vereist het begrijpen van zowel het domein als de tools. De beste agentinstructies komen van mensen die het probleemruimte grondig hebben bestudeerd.

Referentiemateriaal opslaan als schone Markdown creëert een kennisbank waaruit je kunt putten bij het schrijven van agentinstructies. Documentatie, onderzoeksartikelen en best practices, allemaal in het formaat dat van nature vloeit in een program.md en uiteindelijk in een git-geschiedenis van ontdekkingen.

Save converteert elke webpagina naar schone Markdown --- om de kennisbibliotheek te bouwen die effectieve AI-agentinstructies en autonoom onderzoek aandrijft. Probeer Save gratis.