← Tillbaka till bloggen

Git-commiten som Vetenskaplig Upptäckt: Hur Autoresearch Förvandlar Versionskontroll till ett Forskningslabb

· Save Team
aiautoresearchgitkarpathyversion-controlresearchprogramming

I traditionell mjukvaruutveckling innebär en git-commit “den här koden fungerar.” I Karpathys autoresearch innebär en git-commit något annat: “den här förändringen gjorde modellen mätbart bättre.”

Varje commit är en liten vetenskaplig upptäckt. Varje git reset är en hypotes som inte höll. Git-loggen blir en forskningsdagbok, automatiskt skriven av en AI-agent.

Det här är versionskontroll omtänkt som ett forskningsverktyg.

Det Binära Beslutet

Autoresearchs användning av git är elegant enkelt:

  1. Agent modifierar train.py
  2. Träning körs i 5 minuter
  3. Valideringsförlust mäts
  4. Om förbättrad: git commit --- förändringen bevaras
  5. Om inte förbättrad: git reset --- förändringen hände aldrig

Inga pull requests. Ingen kodgranskning. Inga sammanslagningskonflikter. Bara ett binärt beslut: gjorde den här förändringen saker bättre eller inte?

Det skapar en ren, linjär historia av förbättringar. Varje commit i loggen representerar ett validerat steg framåt. Det finns inget brus --- inga “WIP”-commits, inga “rätta stavfel”-commits, inga “återgå återgå”-kedjor. Bara en sekvens av förändringar som var och en gjorde modellen mätbart bättre.

Git-loggen som Forskningsdagbok

Efter en autoresearch-session över natten läser git-loggen som en forskningsanteckningsbok:

Varje commit-meddelande (skrivet av AI-agenten) beskriver vad som ändrades och vilken effekt det hade. Diffet visar exakt vilken kod som modifierades. Förbättringen i valideringsförlust är registrerad.

Det här är radikalt mer granskningsbart än traditionell ML-forskning. Istället för en forskares anteckningar som säger “försökte justera inlärningshastigheten, verkade hjälpa,” har du ett exakt diff, en exakt mätning och ett reproducerbart resultat.

Minne Mellan Sessioner

Git ger autoresearch något som AI-agenter desperat behöver: beständigt minne.

När du startar en ny autoresearch-session kan agenten läsa git-historiken för att förstå vad som prövats tidigare. Det kan se vilka riktningar som producerade förbättringar och vilka som inte gjorde det. Det förhindrar agenten från att pröva misslyckade experiment igen och hjälper den bygga på det som fungerade.

Det här är Markdown plus git som samverkar: program.md-filen ger strategisk riktning (vad man ska pröva), och git-historiken ger taktisk kontext (vad som prövats).

Den Sammansatta Effekten

Eftersom varje lyckad commit blir den nya baslinjen, sammansätts förbättringar. Agenten börjar inte om från scratch varje natt --- den börjar från det bästa resultatet som uppnåtts hittills.

I Karpathys tvådagarskörning ackumulerades ungefär 20 förbättringar. Var och en var liten, men tillsammans minskade de GPT-2-träningstiden med 11%. Agenten hittade optimeringar i uppmärksamhetsskalning, regularisering och hyperparametrar som byggde på varandra.

Det här är kraften i det git-baserade tillvägagångssättet: det skapar naturligt ett spärr. Framsteg låses in som commits. Misslyckanden kasseras. Kodbasen rör sig bara framåt.

Vad som Återgås

De misslyckade experimenten --- git reset-operationerna --- är lika intressanta som framgångarna. I en typisk övernattningskörning återgås ungefär 70-80% av experimenten.

Dessa återgångna experiment är inte bortslösade. De är negativa resultat som informerar agentens framtida beslut. Med tväragentminne och delad git-historik kan ett distribuerat autoresearch-system lära sig av misslyckanden i hela svärmen.

Git som Experimentdatabas

Traditionell ML-forskning använder experimentspårningsverktyg --- MLflow, Weights & Biases, Neptune --- för att logga hyperparametrar, mätvärden och artefakter.

Autoresearch ersätter allt detta med git. Commit-historiken ÄR experimentloggen. Diffen ÄR hyperparameterförändringarna. Commit-meddelandena ÄR experimentbeskrivningarna.

Den här förenklingen är kraftfull. Det finns ingen separat experimentdatabas att underhålla. Inget instrumentpanel att konfigurera. Inget schema att definiera. Bara git, som varje utvecklare redan kan.

Det Bredare Mönstret

Git-som-forskningsdagbok-mönstret fungerar bortom ML-träning:

  • Kodoptimering: Varje commit representerar en förändring som gjorde koden snabbare
  • Testtäckning: Varje commit representerar en förändring som förbättrade testtäckningen
  • Buggrättning: Varje commit representerar en fix som löste ett misslyckat test
  • Innehållsoptimering: Varje commit representerar en förändring som förbättrade ett mätbart mätvärde

Varje domän där du automatiskt kan mäta “bättre” och “sämre” kan använda git som en experimentspårare.

Människans Roll: Läsa Loggen

I agentisk ingenjörskonst är människans morgonrutin efter en autoresearch-session över natten att läsa git-loggen.

Det här är en annan färdighet än att skriva kod. Du utvärderar en serie AI-genererade förändringar, förstår varför var och en fungerade, och bestämmer om den övergripande riktningen är korrekt. Baserat på den här granskningen uppdaterar du din program.md för att styra nästa session.

Git-loggen är kommunikationskanalen mellan människa och agent. Agenten kommunicerar via commits. Människan kommunicerar via program.md-uppdateringar. Markdown flödar i båda riktningarna.

Bygga Git-vänlig Kunskap

Att skriva effektiva program.md-filer --- det slag som producerar rena, meningsfulla git-historiker --- kräver förståelse av både domänen och verktygen. De bästa agentinstruktionerna kommer från personer som har studerat problemutrymmet djupt.

Att spara referensmaterial som ren Markdown skapar en kunskapsbas att hämta från när man skriver agentinstruktioner. Dokumentation, forskningsartiklar och bästa praxis, allt i formatet som naturligt flödar in i en program.md och slutligen in i en git-historik av upptäckter.


Save konverterar vilken webbsida som helst till ren Markdown --- bygger kunskapsbiblioteket som driver effektiva AI-agentinstruktioner och autonom forskning. Prova Save gratis.