Der Git-Commit als wissenschaftliche Entdeckung: Wie Autoresearch Versionskontrolle in ein Forschungslabor verwandelt
In der traditionellen Softwareentwicklung bedeutet ein Git-Commit „dieser Code funktioniert”. In Karpathys autoresearch bedeutet ein Git-Commit etwas anderes: „Diese Änderung hat das Modell messbar verbessert.”
Jeder Commit ist eine kleine wissenschaftliche Entdeckung. Jedes git reset ist eine Hypothese, die sich nicht bewährt hat. Das Git-Log wird zu einem Forschungsjournal, das automatisch von einem KI-Agenten geschrieben wird.
Das ist Versionskontrolle, neu erdacht als Forschungswerkzeug.
Die binäre Entscheidung
Autoresearchs Verwendung von Git ist elegant einfach:
- Agent modifiziert
train.py - Training läuft 5 Minuten
- Validation Loss wird gemessen
- Falls verbessert:
git commit— die Änderung bleibt - Falls nicht verbessert:
git reset— die Änderung hat nie stattgefunden
Keine Pull Requests. Kein Code-Review. Keine Merge-Konflikte. Nur eine binäre Entscheidung: Hat diese Änderung die Dinge verbessert oder nicht?
Das schafft eine saubere, lineare Geschichte von Verbesserungen. Jeder Commit im Log repräsentiert einen validierten Schritt vorwärts. Kein Rauschen — keine „WIP”-Commits, keine „Tippfehler korrigiert”-Commits, keine „revert revert”-Ketten. Nur eine Abfolge von Änderungen, die jeweils das Modell messbar verbessert haben.
Das Git-Log als Forschungsjournal
Nach einer nächtlichen autoresearch-Session liest sich das Git-Log wie ein Forschungsnotizbuch:
Jede Commit-Nachricht (vom KI-Agenten geschrieben) beschreibt, was geändert wurde und welche Wirkung es hatte. Der Diff zeigt genau, welcher Code modifiziert wurde. Die Verbesserung im Validation Loss ist aufgezeichnet.
Das ist radikal revisionsfähiger als traditionelle ML-Forschung. Statt den Notizen eines Forschers, die sagen „Lernrate anpassen versucht, schien zu helfen”, hast du einen exakten Diff, eine exakte Messung und ein reproduzierbares Ergebnis.
Gedächtnis über Sitzungen hinweg
Git gibt autoresearch etwas, das KI-Agenten dringend brauchen: persistentes Gedächtnis.
Wenn du eine neue autoresearch-Sitzung startest, kann der Agent die Git-Historie lesen, um zu verstehen, was vorher versucht wurde. Er kann sehen, welche Richtungen Verbesserungen hervorgebracht haben und welche nicht. Das verhindert, dass der Agent fehlgeschlagene Experimente wiederholt, und hilft ihm, auf dem aufzubauen, was funktioniert hat.
Das ist Markdown plus Git, die zusammenarbeiten: die program.md-Datei liefert strategische Richtung (was zu versuchen ist), und die Git-Historie liefert taktischen Kontext (was versucht wurde).
Der Compounding-Effekt
Weil jeder erfolgreiche Commit zur neuen Baseline wird, summieren sich Verbesserungen. Der Agent fängt nicht jede Nacht bei null an — er startet vom besten bisher erreichten Ergebnis.
In Karpathys zweitägiger Lauf häuften sich etwa 20 Verbesserungen an. Jede einzelne war klein, aber zusammen reduzierten sie die GPT-2-Trainingszeit um 11 %. Der Agent fand Optimierungen bei Aufmerksamkeitsskalierung, Regularisierung und Hyperparametern, die aufeinander aufbauten.
Das ist die Stärke des Git-basierten Ansatzes: Er schafft natürlich eine Ratsche. Fortschritt wird als Commits eingeschlossen. Misserfolge werden verworfen. Die Codebasis bewegt sich nur vorwärts.
Was zurückgesetzt wird
Die fehlgeschlagenen Experimente — die git reset-Operationen — sind genauso interessant wie die Erfolge. In einem typischen Übernacht-Lauf werden etwa 70-80 % der Experimente zurückgesetzt.
Diese zurückgesetzten Experimente sind kein Verschwendung. Sie sind negative Ergebnisse, die zukünftige Entscheidungen des Agenten informieren. Mit Cross-Agent-Memory und geteilter Git-Historie kann ein verteiltes autoresearch-System aus Fehlern im gesamten Schwarm lernen.
Git als Experiment-Datenbank
Traditionelle ML-Forschung verwendet Experiment-Tracking-Tools — MLflow, Weights & Biases, Neptune — um Hyperparameter, Metriken und Artefakte zu loggen.
Autoresearch ersetzt das alles mit Git. Die Commit-Historie IST das Experiment-Log. Die Diffs SIND die Hyperparameter-Änderungen. Die Commit-Nachrichten SIND die Experiment-Beschreibungen.
Diese Vereinfachung ist mächtig. Keine separate Experiment-Datenbank zu pflegen. Kein Dashboard zu konfigurieren. Kein Schema zu definieren. Nur Git, das jeder Entwickler bereits kennt.
Das breitere Muster
Das Git-als-Forschungsjournal-Muster funktioniert über ML-Training hinaus:
- Code-Optimierung: Jeder Commit repräsentiert eine Änderung, die den Code schneller machte
- Test-Abdeckung: Jeder Commit repräsentiert eine Änderung, die die Test-Abdeckung verbesserte
- Bug-Behebung: Jeder Commit repräsentiert einen Fix, der einen fehlschlagenden Test löste
- Content-Optimierung: Jeder Commit repräsentiert eine Änderung, die eine messbare Metrik verbesserte
Jeder Bereich, wo du automatisch „besser” und „schlechter” messen kannst, kann Git als Experiment-Tracker verwenden.
Die Rolle des Menschen: Den Log lesen
Im agentischen Engineering ist die Morgenroutine des Menschen nach einer nächtlichen autoresearch-Sitzung, das Git-Log zu lesen.
Das ist eine andere Fähigkeit als Code schreiben. Du bewertest eine Reihe von KI-generierten Änderungen, verstehst, warum jede einzelne funktioniert hat, und entscheidest, ob die Gesamtrichtung korrekt ist. Basierend auf dieser Überprüfung aktualisierst du dein program.md, um die nächste Sitzung zu steuern.
Das Git-Log ist der Kommunikationskanal zwischen Mensch und Agent. Der Agent kommuniziert durch Commits. Der Mensch kommuniziert durch program.md-Updates. Markdown fließt in beide Richtungen.
Git-freundliches Wissen aufbauen
Effektive program.md-Dateien zu schreiben — die Art, die saubere, bedeutungsvolle Git-Historien produziert — erfordert das Verstehen sowohl des Bereichs als auch der Werkzeuge. Die besten Agenten-Anweisungen kommen von Menschen, die den Problemraum gründlich studiert haben.
Referenzmaterial als sauberes Markdown zu speichern, schafft eine Wissensdatenbank, aus der du beim Schreiben von Agenten-Anweisungen schöpfen kannst. Dokumentation, Forschungsartikel und Best Practices, alle in dem Format, das natürlich in ein program.md und schließlich in eine Git-Historie von Entdeckungen fließt.
Save konvertiert jede Webseite in sauberes Markdown — und baut die Wissensbibliothek auf, die effektive KI-Agenten-Anweisungen und autonome Forschung antreibt. Save kostenlos testen.
## Continue reading
Autoresearch für alle: Wie man 100 KI-Experimente im Schlaf durchführt
Karpathys Autoresearch führt 100+ ML-Experimente über Nacht auf einer einzigen GPU durch. Hier ist, wie es funktioniert, was du brauchst, und warum ein 630-Zeilen-Python-Skript die KI-Forschung verändert.
Wie man ein gutes program.md schreibt: Ein praktischer Leitfaden für KI-Agenten-Anweisungen
program.md ist die Datei, die KI-Agenten in Karpathys Autoresearch programmiert. Hier ist, wie man eine schreibt, die Ergebnisse liefert — mit Struktur, Beispielen und Best Practices.
Karpathys Autoresearch & PROGRAM.md: KI, die Experimente macht, während Sie schlafen
Andrej Karpathys Autoresearch lässt KI-Agenten 100+ ML-Experimente über Nacht durchführen, geleitet von einer einzigen Markdown-Datei namens program.md. Hier ist, wie es funktioniert und warum es wichtig ist.
Von README.md zu PROGRAM.md: Markdown ist jetzt eine Programmiersprache
README.md war für Menschen. AGENTS.md ist für Coding-Assistenten. PROGRAM.md ist für autonome Forschung. Markdown hat sich von der Dokumentation zur Programmiersprache für KI-Agenten entwickelt.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.