Autoresearch für alle: Wie man 100 KI-Experimente im Schlaf durchführt
Was wäre, wenn du 100 Machine-Learning-Experimente über Nacht — auf einer einzigen GPU — durchführen könntest, ohne eine Zeile Code zu schreiben?
Genau das macht Andrej Karpathys autoresearch. Dieses 630-Zeilen-Python-Skript, das am 7. März 2026 veröffentlicht wurde, ermöglicht es KI-Agenten, Trainingscode autonom zu modifizieren, Experimente durchzuführen, Ergebnisse zu bewerten und weiter zu verbessern — während du schläfst.
Innerhalb von zwei Tagen hatte die Ankündigung Millionen von Aufrufen. Forscher, Entwickler und Unternehmen führten bereits ihre eigenen Übernacht-Experimente durch.
Hier ist, wie es funktioniert und warum es wichtig ist.
Die Hauptschleife
Das Design von Autoresearch ist in seiner Einfachheit elegant:
- Die
program.md-Datei lesen (deine Markdown-Anweisungen) train.pybasierend auf diesen Anweisungen modifizieren- Genau 5 Minuten lang trainieren
- Das Ergebnis (Validation Loss) messen
- Behalten oder verwerfen — wenn die Metrik verbessert wurde, committen; wenn nicht, git reset
- Wiederholen auf unbestimmte Zeit
Bei etwa 12 Experimenten pro Stunde bekommst du ungefähr 100 Experimente in einer Übernacht-Session. Jede erfolgreiche Verbesserung baut auf der letzten auf und schafft einen Compounding-Effekt.
Was du brauchst
Die Einstiegshürde ist bemerkenswert niedrig:
- Eine GPU — das gesamte System ist für Single-GPU-Training konzipiert
- 630 Zeilen Python — klein genug, um in das Kontextfenster jedes LLM zu passen
- Ein LLM-API-Schlüssel — Claude, GPT oder ein anderes fähiges Modell
- Eine
program.md-Datei — deine Markdown-Anweisungen, die dem Agenten sagen, was er optimieren soll
Das ist alles. Kein Cluster. Kein Distributed-Training-Setup. Kein ML-Engineering-Team. Eine Person, eine GPU, eine Markdown-Datei.
Echte Ergebnisse
Karpathy ließ autoresearch etwa zwei Tage lang auf einem Depth-12-Modell laufen. Der KI-Agent entdeckte autonom etwa 20 Verbesserungen:
- Die Trainingszeit für den GPT-2-Benchmark sank von 2,02 Stunden auf 1,80 Stunden
- Eine Verbesserung von 11 % ohne menschliches Eingreifen
- Der Agent fand Probleme, die Menschen übersehen hatten: Aufmerksamkeitsmechanismen ohne korrekte Skalierung, fehlende Regularisierung und suboptimale Hyperparameter
Die Schlüsselerkenntnis: Der Agent entdeckte Dinge, die erfahrene ML-Forscher nicht bemerkt hatten. Nicht weil er klüger ist, sondern weil er 100 Variationen ausprobieren konnte, wo ein Mensch vielleicht 5 versuchen würde.
Warum 630 Zeilen wichtig sind
Die Codebasis ist absichtlich winzig. Bei ~630 Zeilen passt die gesamte train.py-Datei in das Kontextfenster eines LLM. Das ist eine kritische Designentscheidung.
Wenn der Agent das gesamte System auf einmal sehen kann, kann er intelligente Modifikationen vornehmen. Er versteht, wie die Lernrate mit der Batch-Größe interagiert, wie der Aufmerksamkeitsmechanismus mit der Ausgabeschicht verbunden ist, wie eine Änderung durch die gesamte Trainings-Pipeline rippt.
Gib einem KI-Agenten eine 50.000-Zeilen-Codebasis und er macht lokale Änderungen, die möglicherweise global keinen Sinn ergeben. Gib ihm 630 Zeilen und er kann über das gesamte System nachdenken.
Das 5-Minuten-Budget
Jedes Experiment läuft genau 5 Minuten. Diese Einschränkung ist brillant:
Sie macht Experimente vergleichbar. Wenn ein Lauf 3 Minuten dauert und ein anderer 20, kannst du ihre Ergebnisse nicht fair vergleichen. Ein festes Zeitbudget bedeutet, dass jede Verbesserung unter gleichen Bedingungen gemessen wird.
Sie ermöglicht schnelle Iteration. 5 Minuten ist lang genug, um bedeutsamen Trainingsfortschritt zu sehen, aber kurz genug, um 12 Experimente pro Stunde durchzuführen.
Sie verhindert unkontrollierte Kosten. Ohne Zeitlimit könnte ein Agent stundenlang an einer einzigen vielversprechenden Änderung trainieren. Die 5-Minuten-Grenze hält die Rückkopplungsschleife straff.
Das Git-Gedächtnis
Jedes Experiment ist ein Git-Commit. Das gibt dem System Gedächtnis:
- Erfolgreiche Änderungen werden auf einem Feature-Branch committed und bauen eine Kette von Verbesserungen auf
- Fehlgeschlagene Experimente werden mit
git resetzurückgesetzt und hinterlassen keine Spuren - Die Historie zeigt genau, was versucht wurde, was funktioniert hat und was nicht
Das bedeutet, du kannst die Arbeit des Agenten als eine Reihe von Git-Commits überprüfen. Jede Commit-Nachricht erklärt, was der Agent geändert hat und warum. Es ist ein vollständiger Audit-Trail autonomer Forschung.
Über ML hinaus: Das Muster, das zählt
Autoresearch handelt vom Training von Sprachmodellen, aber das Muster, das es einführt, ist universell:
Mensch schreibt Markdown-Anweisungen → KI-Agent führt autonom aus → Ergebnisse werden gemessen und behalten/verworfen → Schleife wiederholt sich
Dieses Muster funktioniert in jedem Bereich, wo du:
- Klare Ziele in natürlicher Sprache definieren kannst
- Erfolg automatisch messen kannst
- Änderungen basierend auf Ergebnissen behalten oder verwerfen kannst
Unternehmen wenden dieses Muster bereits über ML-Forschung hinaus an — auf Code-Optimierung, Marketing-Experimente und Produktentwicklung.
Der Markdown-First-Ansatz
Im Zentrum von autoresearch steht eine Markdown-Datei. Kein Python. Kein YAML. Keine GUI. Eine Nur-Text-Datei, die jeder lesen und bearbeiten kann.
Das ist wichtig, weil es die Hürde senkt, KI-Forschung zu steuern. Du musst kein ML-Ingenieur sein, um ein program.md zu schreiben. Du musst das Problem, die Ziele und die Einschränkungen verstehen. Der Agent übernimmt die Implementierung.
Der Skill-Shift ist klar: vom Wissen, wie man Trainingscode schreibt, zum Wissen, wie man effektive Agenten-Anweisungen schreibt.
Loslegen
Wenn du das Autoresearch-Muster ausprobieren möchtest (auch außerhalb von ML), beginne mit diesen Schritten:
- Definiere deine Metrik. Was bedeutet „besser”, und wie misst du es automatisch?
- Schreibe deine program.md. Setze Ziele, Einschränkungen und Strategie in klarem Markdown.
- Halte den Umfang klein. Wie Autoresearchs 630-Zeilen-Codebasis — kleinere Systeme liefern bessere Ergebnisse.
- Lass es laufen. Der Punkt ist autonomer Betrieb. Widerstehe dem Drang zu intervenieren.
- Überprüfe die Ergebnisse. Schau dir die Git-Historie an, um zu sehen, was der Agent versucht hat und was funktioniert hat.
Das Wissen aufbauen, um gute Anweisungen zu schreiben
Die Qualität deines program.md hängt von deinem Domänenwissen ab. Je mehr du über den Problembereich weißt, desto besser werden deine Anweisungen sein.
Hier wird eine kuratierte Bibliothek von Referenzmaterial im Markdown-Format wertvoll. Dokumentation, Artikel, Blogbeiträge und Beispiele — alles als sauberes Markdown gespeichert, bereit, deine Agenten-Anweisungen zu informieren.
Save konvertiert jede Webseite in sauberes Markdown — und baut die Referenzbibliothek auf, die du brauchst, um effektive KI-Agenten-Anweisungen zu schreiben. Save kostenlos testen.
## Continue reading
Der Git-Commit als wissenschaftliche Entdeckung: Wie Autoresearch Versionskontrolle in ein Forschungslabor verwandelt
In Karpathys autoresearch ist jedes erfolgreiche Experiment ein Git-Commit. Jedes fehlgeschlagene ist ein git reset. Versionskontrolle ist zum Gedächtnis autonomer KI-Forschung geworden.
Karpathys Autoresearch & PROGRAM.md: KI, die Experimente macht, während Sie schlafen
Andrej Karpathys Autoresearch lässt KI-Agenten 100+ ML-Experimente über Nacht durchführen, geleitet von einer einzigen Markdown-Datei namens program.md. Hier ist, wie es funktioniert und warum es wichtig ist.
Shopifys 19%-Verbesserung: Wie Unternehmen das Autoresearch-Muster bereits nutzen
Tage nachdem Karpathy autoresearch veröffentlichte, ließ Shopifys CEO es auf eigenen Modellen laufen und sah eine 19%ige Verbesserung. Hier ist, wie Unternehmen autonome KI-Experimente übernehmen.
Wie man ein gutes program.md schreibt: Ein praktischer Leitfaden für KI-Agenten-Anweisungen
program.md ist die Datei, die KI-Agenten in Karpathys Autoresearch programmiert. Hier ist, wie man eine schreibt, die Ergebnisse liefert — mit Struktur, Beispielen und Best Practices.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.