Autoresearch für alle: Wie man 100 KI-Experimente im Schlaf durchführt

Was wäre, wenn du 100 Machine-Learning-Experimente über Nacht — auf einer einzigen GPU — durchführen könntest, ohne eine Zeile Code zu schreiben?

Genau das macht Andrej Karpathys autoresearch. Dieses 630-Zeilen-Python-Skript, das am 7. März 2026 veröffentlicht wurde, ermöglicht es KI-Agenten, Trainingscode autonom zu modifizieren, Experimente durchzuführen, Ergebnisse zu bewerten und weiter zu verbessern — während du schläfst.

Innerhalb von zwei Tagen hatte die Ankündigung Millionen von Aufrufen. Forscher, Entwickler und Unternehmen führten bereits ihre eigenen Übernacht-Experimente durch.

Hier ist, wie es funktioniert und warum es wichtig ist.

Die Hauptschleife

Das Design von Autoresearch ist in seiner Einfachheit elegant:

Die program.md-Datei lesen (deine Markdown-Anweisungen)
train.py basierend auf diesen Anweisungen modifizieren
Genau 5 Minuten lang trainieren
Das Ergebnis (Validation Loss) messen
Behalten oder verwerfen — wenn die Metrik verbessert wurde, committen; wenn nicht, git reset
Wiederholen auf unbestimmte Zeit

Bei etwa 12 Experimenten pro Stunde bekommst du ungefähr 100 Experimente in einer Übernacht-Session. Jede erfolgreiche Verbesserung baut auf der letzten auf und schafft einen Compounding-Effekt.

Was du brauchst

Die Einstiegshürde ist bemerkenswert niedrig:

Eine GPU — das gesamte System ist für Single-GPU-Training konzipiert
630 Zeilen Python — klein genug, um in das Kontextfenster jedes LLM zu passen
Ein LLM-API-Schlüssel — Claude, GPT oder ein anderes fähiges Modell
Eine program.md-Datei — deine Markdown-Anweisungen, die dem Agenten sagen, was er optimieren soll

Das ist alles. Kein Cluster. Kein Distributed-Training-Setup. Kein ML-Engineering-Team. Eine Person, eine GPU, eine Markdown-Datei.

Echte Ergebnisse

Karpathy ließ autoresearch etwa zwei Tage lang auf einem Depth-12-Modell laufen. Der KI-Agent entdeckte autonom etwa 20 Verbesserungen:

Die Trainingszeit für den GPT-2-Benchmark sank von 2,02 Stunden auf 1,80 Stunden
Eine Verbesserung von 11 % ohne menschliches Eingreifen
Der Agent fand Probleme, die Menschen übersehen hatten: Aufmerksamkeitsmechanismen ohne korrekte Skalierung, fehlende Regularisierung und suboptimale Hyperparameter

Die Schlüsselerkenntnis: Der Agent entdeckte Dinge, die erfahrene ML-Forscher nicht bemerkt hatten. Nicht weil er klüger ist, sondern weil er 100 Variationen ausprobieren konnte, wo ein Mensch vielleicht 5 versuchen würde.

Warum 630 Zeilen wichtig sind

Die Codebasis ist absichtlich winzig. Bei ~630 Zeilen passt die gesamte train.py-Datei in das Kontextfenster eines LLM. Das ist eine kritische Designentscheidung.

Wenn der Agent das gesamte System auf einmal sehen kann, kann er intelligente Modifikationen vornehmen. Er versteht, wie die Lernrate mit der Batch-Größe interagiert, wie der Aufmerksamkeitsmechanismus mit der Ausgabeschicht verbunden ist, wie eine Änderung durch die gesamte Trainings-Pipeline rippt.

Gib einem KI-Agenten eine 50.000-Zeilen-Codebasis und er macht lokale Änderungen, die möglicherweise global keinen Sinn ergeben. Gib ihm 630 Zeilen und er kann über das gesamte System nachdenken.

Das 5-Minuten-Budget

Jedes Experiment läuft genau 5 Minuten. Diese Einschränkung ist brillant:

Sie macht Experimente vergleichbar. Wenn ein Lauf 3 Minuten dauert und ein anderer 20, kannst du ihre Ergebnisse nicht fair vergleichen. Ein festes Zeitbudget bedeutet, dass jede Verbesserung unter gleichen Bedingungen gemessen wird.

Sie ermöglicht schnelle Iteration. 5 Minuten ist lang genug, um bedeutsamen Trainingsfortschritt zu sehen, aber kurz genug, um 12 Experimente pro Stunde durchzuführen.

Sie verhindert unkontrollierte Kosten. Ohne Zeitlimit könnte ein Agent stundenlang an einer einzigen vielversprechenden Änderung trainieren. Die 5-Minuten-Grenze hält die Rückkopplungsschleife straff.

Das Git-Gedächtnis

Jedes Experiment ist ein Git-Commit. Das gibt dem System Gedächtnis:

Erfolgreiche Änderungen werden auf einem Feature-Branch committed und bauen eine Kette von Verbesserungen auf
Fehlgeschlagene Experimente werden mit git reset zurückgesetzt und hinterlassen keine Spuren
Die Historie zeigt genau, was versucht wurde, was funktioniert hat und was nicht

Das bedeutet, du kannst die Arbeit des Agenten als eine Reihe von Git-Commits überprüfen. Jede Commit-Nachricht erklärt, was der Agent geändert hat und warum. Es ist ein vollständiger Audit-Trail autonomer Forschung.

Über ML hinaus: Das Muster, das zählt

Autoresearch handelt vom Training von Sprachmodellen, aber das Muster, das es einführt, ist universell:

Mensch schreibt Markdown-Anweisungen → KI-Agent führt autonom aus → Ergebnisse werden gemessen und behalten/verworfen → Schleife wiederholt sich

Dieses Muster funktioniert in jedem Bereich, wo du:

Klare Ziele in natürlicher Sprache definieren kannst
Erfolg automatisch messen kannst
Änderungen basierend auf Ergebnissen behalten oder verwerfen kannst

Unternehmen wenden dieses Muster bereits über ML-Forschung hinaus an — auf Code-Optimierung, Marketing-Experimente und Produktentwicklung.

Der Markdown-First-Ansatz

Im Zentrum von autoresearch steht eine Markdown-Datei. Kein Python. Kein YAML. Keine GUI. Eine Nur-Text-Datei, die jeder lesen und bearbeiten kann.

Das ist wichtig, weil es die Hürde senkt, KI-Forschung zu steuern. Du musst kein ML-Ingenieur sein, um ein program.md zu schreiben. Du musst das Problem, die Ziele und die Einschränkungen verstehen. Der Agent übernimmt die Implementierung.

Der Skill-Shift ist klar: vom Wissen, wie man Trainingscode schreibt, zum Wissen, wie man effektive Agenten-Anweisungen schreibt.

Loslegen

Wenn du das Autoresearch-Muster ausprobieren möchtest (auch außerhalb von ML), beginne mit diesen Schritten:

Definiere deine Metrik. Was bedeutet „besser”, und wie misst du es automatisch?
Schreibe deine program.md. Setze Ziele, Einschränkungen und Strategie in klarem Markdown.
Halte den Umfang klein. Wie Autoresearchs 630-Zeilen-Codebasis — kleinere Systeme liefern bessere Ergebnisse.
Lass es laufen. Der Punkt ist autonomer Betrieb. Widerstehe dem Drang zu intervenieren.
Überprüfe die Ergebnisse. Schau dir die Git-Historie an, um zu sehen, was der Agent versucht hat und was funktioniert hat.

Das Wissen aufbauen, um gute Anweisungen zu schreiben

Die Qualität deines program.md hängt von deinem Domänenwissen ab. Je mehr du über den Problembereich weißt, desto besser werden deine Anweisungen sein.

Hier wird eine kuratierte Bibliothek von Referenzmaterial im Markdown-Format wertvoll. Dokumentation, Artikel, Blogbeiträge und Beispiele — alles als sauberes Markdown gespeichert, bereit, deine Agenten-Anweisungen zu informieren.

Save konvertiert jede Webseite in sauberes Markdown — und baut die Referenzbibliothek auf, die du brauchst, um effektive KI-Agenten-Anweisungen zu schreiben. Save kostenlos testen.

Autoresearch für alle: Wie man 100 KI-Experimente im Schlaf durchführt

Die Hauptschleife

Was du brauchst

Echte Ergebnisse

Warum 630 Zeilen wichtig sind

Das 5-Minuten-Budget

Das Git-Gedächtnis

Über ML hinaus: Das Muster, das zählt

Der Markdown-First-Ansatz

Loslegen

Das Wissen aufbauen, um gute Anweisungen zu schreiben

## Continue reading

Der Git-Commit als wissenschaftliche Entdeckung: Wie Autoresearch Versionskontrolle in ein Forschungslabor verwandelt

Karpathys Autoresearch & PROGRAM.md: KI, die Experimente macht, während Sie schlafen

Shopifys 19%-Verbesserung: Wie Unternehmen das Autoresearch-Muster bereits nutzen

Wie man ein gutes program.md schreibt: Ein praktischer Leitfaden für KI-Agenten-Anweisungen

Jean-Sébastien Wallez