De Git Commit als Wetenschappelijke Ontdekking: Hoe Autoresearch Versiebeheer in een Onderzoekslab Verandert
In traditionele softwareontwikkeling betekent een git commit “deze code werkt.” In Karpathy’s autoresearch betekent een git commit iets anders: “deze wijziging maakte het model meetbaar beter.”
Elke commit is een kleine wetenschappelijke ontdekking. Elke git reset is een hypothese die niet uitpakte. Het git-log wordt een onderzoeksdagboek, automatisch geschreven door een AI-agent.
Dit is versiebeheer heruitgevonden als onderzoekstool.
De Binaire Beslissing
Het gebruik van git door autoresearch is elegant eenvoudig:
- Agent past
train.pyaan - Training draait 5 minuten
- Validatieverlies wordt gemeten
- Als verbeterd:
git commit--- de wijziging is een bewaarder - Als niet verbeterd:
git reset--- de wijziging heeft nooit plaatsgevonden
Geen pull requests. Geen code review. Geen merge-conflicten. Slechts een binaire beslissing: maakte deze wijziging dingen beter of niet?
Dit creëert een schone, lineaire geschiedenis van verbeteringen. Elke commit in het log vertegenwoordigt een gevalideerde stap voorwaarts. Er is geen ruis --- geen “WIP”-commits, geen “typo herstellen”-commits, geen “revert revert”-ketens. Slechts een reeks wijzigingen die elk het model meetbaar beter maakten.
Het Git-log als Onderzoeksdagboek
Na een autoresearch-sessie ‘s nachts leest het git-log als een onderzoeksnotebook:
Elk commit-bericht (geschreven door de AI-agent) beschrijft wat werd gewijzigd en welk effect het had. De diff toont precies welke code werd aangepast. De verbetering in validatieverlies is vastgelegd.
Dit is radicaal meer auditeerbaar dan traditioneel ML-onderzoek. In plaats van aantekeningen van een onderzoeker met “geprobeerd leersnelheid aan te passen, leek te helpen,” heb je een exacte diff, een exacte meting en een reproduceerbaar resultaat.
Geheugen Across Sessies
Git geeft autoresearch iets wat AI-agents desperaat nodig hebben: persistent geheugen.
Wanneer je een nieuwe autoresearch-sessie start, kan de agent de git-geschiedenis lezen om te begrijpen wat eerder is geprobeerd. Het kan zien welke richtingen verbeteringen opleverden en welke niet. Dit voorkomt dat de agent mislukte experimenten opnieuw probeert en helpt het voort te bouwen op wat werkte.
Dit is Markdown plus git die samenwerken: het program.md-bestand biedt strategische richting (wat te proberen), en de git-geschiedenis biedt tactische context (wat er geprobeerd is).
Het Samengestelde Effect
Omdat elke succesvolle commit de nieuwe basislijn wordt, sommeren verbeteringen zich. De agent begint niet elke nacht opnieuw --- het begint vanaf het beste resultaat dat tot nu toe is bereikt.
In Karpathy’s run van twee dagen accumuleerden ongeveer 20 verbeteringen. Elke was klein, maar samen reduceerden ze de GPT-2 trainingstijd met 11%. De agent vond optimalisaties in aandachtschaling, regularisatie en hyperparameters die op elkaar voortbouwden.
Dit is de kracht van de git-gebaseerde aanpak: het creëert van nature een ratel. Vooruitgang wordt vergrendeld als commits. Mislukkingen worden verwijderd. De codebase beweegt alleen vooruit.
Wat er Teruggedraaid Wordt
De mislukte experimenten --- de git reset-bewerkingen --- zijn net zo interessant als de successen. In een typische nachtelijke run worden ongeveer 70-80% van de experimenten teruggedraaid.
Deze teruggedraaide experimenten zijn niet verspild. Het zijn negatieve resultaten die de toekomstige beslissingen van de agent informeren. Met cross-agent geheugen en gedeelde git-geschiedenis kan een gedistribueerd autoresearch-systeem leren van mislukkingen in het hele zwerm.
Git als Experimentendatabase
Traditioneel ML-onderzoek gebruikt experimenttracking-tools --- MLflow, Weights & Biases, Neptune --- om hyperparameters, metrics en artefacten te loggen.
Autoresearch vervangt dit allemaal met git. De commit-geschiedenis IS het experimentenlog. De diffs ZIJN de hyperparameterwijzigingen. De commit-berichten ZIJN de experimentbeschrijvingen.
Deze vereenvoudiging is krachtig. Er is geen aparte experimentendatabase om te onderhouden. Geen dashboard om te configureren. Geen schema om te definiëren. Alleen git, dat elke ontwikkelaar al kent.
Het Bredere Patroon
Het git-als-onderzoeksdagboek-patroon werkt verder dan ML-training:
- Codeoptimalisatie: Elke commit vertegenwoordigt een wijziging die de code sneller maakte
- Testdekking: Elke commit vertegenwoordigt een wijziging die de testdekking verbeterde
- Bugfixing: Elke commit vertegenwoordigt een fix die een falende test oploste
- Contentoptimalisatie: Elke commit vertegenwoordigt een wijziging die een meetbare statistiek verbeterde
Elk domein waar je automatisch “beter” en “slechter” kunt meten, kan git gebruiken als een experimenttracker.
De Rol van de Mens: Het Log Lezen
In agentische engineering is de ochtendroutine van de mens na een autoresearch-sessie ‘s nachts het git-log lezen.
Dit is een andere vaardigheid dan code schrijven. Je evalueert een reeks AI-gegenereerde wijzigingen, begrijpt waarom elk werkte, en beslist of de algehele richting correct is. Op basis van deze beoordeling werk je je program.md bij om de volgende sessie te sturen.
Het git-log is het communicatiekanaal tussen mens en agent. De agent communiceert via commits. De mens communiceert via de program.md-updates. Markdown stroomt in beide richtingen.
Git-vriendelijke Kennis Bouwen
Het schrijven van effectieve program.md-bestanden --- het soort dat schone, betekenisvolle git-geschiedenissen produceert --- vereist het begrijpen van zowel het domein als de tools. De beste agentinstructies komen van mensen die het probleemruimte grondig hebben bestudeerd.
Referentiemateriaal opslaan als schone Markdown creëert een kennisbank waaruit je kunt putten bij het schrijven van agentinstructies. Documentatie, onderzoeksartikelen en best practices, allemaal in het formaat dat van nature vloeit in een program.md en uiteindelijk in een git-geschiedenis van ontdekkingen.
Save converteert elke webpagina naar schone Markdown --- om de kennisbibliotheek te bouwen die effectieve AI-agentinstructies en autonoom onderzoek aandrijft. Probeer Save gratis.