I traditionel softwareudvikling betyder et git commit “denne kode virker.” I Karpathys autoresearch betyder et git commit noget anderledes: “denne ændring gjorde modellen målbart bedre.”

Hvert commit er en lille videnskabelig opdagelse. Hvert git reset er en hypotese der ikke holdt. Git loggen bliver en forskningsjournal, automatisk skrevet af en AI-agent.

Dette er versionsstyring genopfundet som et forskningsværktøj.

Den binære beslutning

Autoresearchs brug af git er elegant simpel:

Agent ændrer train.py
Træning kører i 5 minutter
Valideringstab måles
Hvis forbedret: git commit --- ændringen bevares
Hvis ikke forbedret: git reset --- ændringen skete aldrig

Ingen pull requests. Ingen kodegennemgang. Ingen merge-konflikter. Bare en binær beslutning: gjorde denne ændring tingene bedre eller ej?

Dette skaber en ren, lineær forbedringshistorik. Hvert commit i loggen repræsenterer et valideret skridt fremad. Der er ingen støj --- ingen “WIP”-commits, ingen “fix typo”-commits, ingen “revert revert”-kæder. Bare en sekvens af ændringer der hver gjorde modellen målbart bedre.

Git loggen som forskningsjournal

Efter en nats autoresearch-session læses git loggen som en forskningsnotesbog:

Hvert commit-meddelelse (skrevet af AI-agenten) beskriver hvad der blev ændret og hvilken effekt det havde. Diff’et viser præcis hvilken kode der blev ændret. Forbedringen i valideringstab er registreret.

Dette er radikalt mere reviderbart end traditionel ML-forskning. I stedet for en forskers noter der siger “prøvede at justere læringsrate, syntes at hjælpe,” har du et præcist diff, en præcis måling og et reproducerbart resultat.

Hukommelse på tværs af sessioner

Git giver autoresearch noget AI-agenter desperat har brug for: vedvarende hukommelse.

Når du starter en ny autoresearch-session, kan agenten læse git-historikken for at forstå hvad der er prøvet før. Den kan se hvilke retninger der producerede forbedringer og hvilke der ikke gjorde. Dette forhindrer agenten i at genprøve mislykkede eksperimenter og hjælper den med at bygge videre på hvad der virkede.

Dette er Markdown plus git der arbejder sammen: program.md-filen giver strategisk retning (hvad der skal prøves), og git-historikken giver taktisk kontekst (hvad der er prøvet).

Sammensætningseffekten

Fordi hvert vellykket commit bliver den nye baseline, sammensættes forbedringer. Agenten starter ikke fra bunden hver nat --- den starter fra det bedste resultat opnået hidtil.

I Karpathys to-dages kørsel akkumulerede omkring 20 forbedringer. Hver var lille, men tilsammen reducerede de GPT-2-træningstiden med 11%. Agenten fandt optimeringer inden for attention scaling, regularisering og hyperparametre der byggede på hinanden.

Dette er kraften ved den git-baserede tilgang: den skaber naturligt en ratchet. Fremskridt er låst ind som commits. Fejl kasseres. Codebasen bevæger sig kun fremad.

Hvad der reverteres

De mislykkede eksperimenter --- git reset-operationerne --- er lige så interessante som succeserne. I en typisk natkørsel reverteres ca. 70-80% af eksperimenter.

Disse reverterede eksperimenter er ikke spildte. De er negative resultater der informerer agentens fremtidige beslutninger. Med tværagent-hukommelse og delt git-historik kan et distribueret autoresearch-system lære fra fejl på tværs af hele sværmen.

Git som eksperimentdatabase

Traditionel ML-forskning bruger eksperimenttrackingsværktøjer --- MLflow, Weights & Biases, Neptune --- til at logge hyperparametre, metrics og artefakter.

Autoresearch erstatter alt dette med git. Commit-historikken ER eksperimentloggen. Diff’erne ER hyperparameterændringerne. Commit-meddelelserne ER eksperimentbeskrivelserne.

Denne forenkling er kraftfuld. Der er ingen separat eksperimentdatabase at vedligeholde. Intet dashboard at konfigurere. Intet skema at definere. Bare git, som enhver udvikler allerede kender.

Det bredere mønster

Git-som-forskningsjournal-mønstret fungerer ud over ML-træning:

Kodeoptimering: Hvert commit repræsenterer en ændring der gjorde koden hurtigere
Testdækning: Hvert commit repræsenterer en ændring der forbedrede testdækning
Fejlrettelse: Hvert commit repræsenterer en rettelse der løste en fejlende test
Indholdsoptimering: Hvert commit repræsenterer en ændring der forbedrede en målbar metric

Ethvert domæne hvor du automatisk kan måle “bedre” og “dårligere” kan bruge git som eksperimenttracker.

Menneskets rolle: Læse loggen

I agentic engineering er menneskets morgenrutine efter en nats autoresearch-session at læse git loggen.

Dette er en anden færdighed end at skrive kode. Du evaluerer en serie AI-genererede ændringer, forstår hvorfor hver enkelt virkede, og beslutter om den overordnede retning er korrekt. Baseret på denne gennemgang opdaterer du din program.md for at styre den næste session.

Git loggen er kommunikationskanalen mellem menneske og agent. Agenten kommunikerer gennem commits. Mennesket kommunikerer gennem program.md-opdateringer. Markdown flyder i begge retninger.

Bygge Git-venlig viden

At skrive effektive program.md-filer --- den slags der producerer rene, meningsfulde git-historikker --- kræver forståelse af både domænet og værktøjerne. De bedste agentinstruktioner kommer fra folk der har studeret problemrummet grundigt.

At gemme referencemateriale som ren Markdown skaber en vidensbase du kan trække på, når du skriver agentinstruktioner. Dokumentation, forskningsartikler og bedste praksis, alt i det format der naturligt flyder ind i en program.md og i sidste ende ind i en git-historik af opdagelser.

Save konverterer enhver webside til ren Markdown --- bygger det vidensbibliotek der driver effektive AI-agentinstruktioner og autonom forskning. Prøv Save gratis.