Autoresearch für alle: Wie man 100 KI-Experimente im Schlaf durchführt

·

Was wäre, wenn du 100 Machine-Learning-Experimente über Nacht — auf einer einzigen GPU — durchführen könntest, ohne eine Zeile Code zu schreiben?

Genau das macht Andrej Karpathys autoresearch. Dieses 630-Zeilen-Python-Skript, das am 7. März 2026 veröffentlicht wurde, ermöglicht es KI-Agenten, Trainingscode autonom zu modifizieren, Experimente durchzuführen, Ergebnisse zu bewerten und weiter zu verbessern — während du schläfst.

Innerhalb von zwei Tagen hatte die Ankündigung Millionen von Aufrufen. Forscher, Entwickler und Unternehmen führten bereits ihre eigenen Übernacht-Experimente durch.

Hier ist, wie es funktioniert und warum es wichtig ist.

Die Hauptschleife

Das Design von Autoresearch ist in seiner Einfachheit elegant:

  1. Die program.md-Datei lesen (deine Markdown-Anweisungen)
  2. train.py basierend auf diesen Anweisungen modifizieren
  3. Genau 5 Minuten lang trainieren
  4. Das Ergebnis (Validation Loss) messen
  5. Behalten oder verwerfen — wenn die Metrik verbessert wurde, committen; wenn nicht, git reset
  6. Wiederholen auf unbestimmte Zeit

Bei etwa 12 Experimenten pro Stunde bekommst du ungefähr 100 Experimente in einer Übernacht-Session. Jede erfolgreiche Verbesserung baut auf der letzten auf und schafft einen Compounding-Effekt.

Was du brauchst

Die Einstiegshürde ist bemerkenswert niedrig:

  • Eine GPU — das gesamte System ist für Single-GPU-Training konzipiert
  • 630 Zeilen Python — klein genug, um in das Kontextfenster jedes LLM zu passen
  • Ein LLM-API-Schlüssel — Claude, GPT oder ein anderes fähiges Modell
  • Eine program.md-Datei — deine Markdown-Anweisungen, die dem Agenten sagen, was er optimieren soll

Das ist alles. Kein Cluster. Kein Distributed-Training-Setup. Kein ML-Engineering-Team. Eine Person, eine GPU, eine Markdown-Datei.

Echte Ergebnisse

Karpathy ließ autoresearch etwa zwei Tage lang auf einem Depth-12-Modell laufen. Der KI-Agent entdeckte autonom etwa 20 Verbesserungen:

  • Die Trainingszeit für den GPT-2-Benchmark sank von 2,02 Stunden auf 1,80 Stunden
  • Eine Verbesserung von 11 % ohne menschliches Eingreifen
  • Der Agent fand Probleme, die Menschen übersehen hatten: Aufmerksamkeitsmechanismen ohne korrekte Skalierung, fehlende Regularisierung und suboptimale Hyperparameter

Die Schlüsselerkenntnis: Der Agent entdeckte Dinge, die erfahrene ML-Forscher nicht bemerkt hatten. Nicht weil er klüger ist, sondern weil er 100 Variationen ausprobieren konnte, wo ein Mensch vielleicht 5 versuchen würde.

Warum 630 Zeilen wichtig sind

Die Codebasis ist absichtlich winzig. Bei ~630 Zeilen passt die gesamte train.py-Datei in das Kontextfenster eines LLM. Das ist eine kritische Designentscheidung.

Wenn der Agent das gesamte System auf einmal sehen kann, kann er intelligente Modifikationen vornehmen. Er versteht, wie die Lernrate mit der Batch-Größe interagiert, wie der Aufmerksamkeitsmechanismus mit der Ausgabeschicht verbunden ist, wie eine Änderung durch die gesamte Trainings-Pipeline rippt.

Gib einem KI-Agenten eine 50.000-Zeilen-Codebasis und er macht lokale Änderungen, die möglicherweise global keinen Sinn ergeben. Gib ihm 630 Zeilen und er kann über das gesamte System nachdenken.

Das 5-Minuten-Budget

Jedes Experiment läuft genau 5 Minuten. Diese Einschränkung ist brillant:

Sie macht Experimente vergleichbar. Wenn ein Lauf 3 Minuten dauert und ein anderer 20, kannst du ihre Ergebnisse nicht fair vergleichen. Ein festes Zeitbudget bedeutet, dass jede Verbesserung unter gleichen Bedingungen gemessen wird.

Sie ermöglicht schnelle Iteration. 5 Minuten ist lang genug, um bedeutsamen Trainingsfortschritt zu sehen, aber kurz genug, um 12 Experimente pro Stunde durchzuführen.

Sie verhindert unkontrollierte Kosten. Ohne Zeitlimit könnte ein Agent stundenlang an einer einzigen vielversprechenden Änderung trainieren. Die 5-Minuten-Grenze hält die Rückkopplungsschleife straff.

Das Git-Gedächtnis

Jedes Experiment ist ein Git-Commit. Das gibt dem System Gedächtnis:

  • Erfolgreiche Änderungen werden auf einem Feature-Branch committed und bauen eine Kette von Verbesserungen auf
  • Fehlgeschlagene Experimente werden mit git reset zurückgesetzt und hinterlassen keine Spuren
  • Die Historie zeigt genau, was versucht wurde, was funktioniert hat und was nicht

Das bedeutet, du kannst die Arbeit des Agenten als eine Reihe von Git-Commits überprüfen. Jede Commit-Nachricht erklärt, was der Agent geändert hat und warum. Es ist ein vollständiger Audit-Trail autonomer Forschung.

Über ML hinaus: Das Muster, das zählt

Autoresearch handelt vom Training von Sprachmodellen, aber das Muster, das es einführt, ist universell:

Mensch schreibt Markdown-Anweisungen → KI-Agent führt autonom aus → Ergebnisse werden gemessen und behalten/verworfen → Schleife wiederholt sich

Dieses Muster funktioniert in jedem Bereich, wo du:

  1. Klare Ziele in natürlicher Sprache definieren kannst
  2. Erfolg automatisch messen kannst
  3. Änderungen basierend auf Ergebnissen behalten oder verwerfen kannst

Unternehmen wenden dieses Muster bereits über ML-Forschung hinaus an — auf Code-Optimierung, Marketing-Experimente und Produktentwicklung.

Der Markdown-First-Ansatz

Im Zentrum von autoresearch steht eine Markdown-Datei. Kein Python. Kein YAML. Keine GUI. Eine Nur-Text-Datei, die jeder lesen und bearbeiten kann.

Das ist wichtig, weil es die Hürde senkt, KI-Forschung zu steuern. Du musst kein ML-Ingenieur sein, um ein program.md zu schreiben. Du musst das Problem, die Ziele und die Einschränkungen verstehen. Der Agent übernimmt die Implementierung.

Der Skill-Shift ist klar: vom Wissen, wie man Trainingscode schreibt, zum Wissen, wie man effektive Agenten-Anweisungen schreibt.

Loslegen

Wenn du das Autoresearch-Muster ausprobieren möchtest (auch außerhalb von ML), beginne mit diesen Schritten:

  1. Definiere deine Metrik. Was bedeutet „besser”, und wie misst du es automatisch?
  2. Schreibe deine program.md. Setze Ziele, Einschränkungen und Strategie in klarem Markdown.
  3. Halte den Umfang klein. Wie Autoresearchs 630-Zeilen-Codebasis — kleinere Systeme liefern bessere Ergebnisse.
  4. Lass es laufen. Der Punkt ist autonomer Betrieb. Widerstehe dem Drang zu intervenieren.
  5. Überprüfe die Ergebnisse. Schau dir die Git-Historie an, um zu sehen, was der Agent versucht hat und was funktioniert hat.

Das Wissen aufbauen, um gute Anweisungen zu schreiben

Die Qualität deines program.md hängt von deinem Domänenwissen ab. Je mehr du über den Problembereich weißt, desto besser werden deine Anweisungen sein.

Hier wird eine kuratierte Bibliothek von Referenzmaterial im Markdown-Format wertvoll. Dokumentation, Artikel, Blogbeiträge und Beispiele — alles als sauberes Markdown gespeichert, bereit, deine Agenten-Anweisungen zu informieren.


Save konvertiert jede Webseite in sauberes Markdown — und baut die Referenzbibliothek auf, die du brauchst, um effektive KI-Agenten-Anweisungen zu schreiben. Save kostenlos testen.

## Continue reading

Jean-Sébastien Wallez

Written by

Jean-Sébastien Wallez

I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.