Karpathys Autoresearch & PROGRAM.md: KI, die Experimente macht, während Sie schlafen

·

Am 7. März 2026 veröffentlichte Andrej Karpathy — ehemaliger Tesla-KI-Direktor und OpenAI-Mitgründer — ein Repository, das die KI-Welt aufwühlte: autoresearch.

Die Idee ist täuschend einfach: einem KI-Agenten ein kleines aber echtes LLM-Training-Setup geben und ihn über Nacht autonom Experimente durchführen lassen. Er modifiziert den Code, trainiert 5 Minuten, prüft ob das Ergebnis sich verbessert hat, behält oder verwirft die Änderung und wiederholt.

100 Experimente während Sie schlafen. Null menschliche Eingriffe.

Aber hier ist der Teil, der für die Zukunft der Programmierung wichtig ist: Der Mensch schreibt kein Python. Der Mensch schreibt eine Markdown-Datei.

Was ist program.md?

Im Herzen von Autoresearch liegt eine Datei namens program.md. Es ist ein Markdown-Dokument, das als Bedienungsanleitung für den KI-Agenten dient.

Anstatt Hyperparameter manuell anzupassen, Lernraten zu ändern oder neuronale Netzwerkarchitekturen in Python zu modifizieren, schreibt der Forscher Anweisungen in natürlicher Sprache in program.md. Der KI-Agent liest diese Anweisungen und modifiziert den Trainingscode (train.py) autonom auf dieser Basis.

Wie Karpathy es formulierte: Sie berühren keine der Python-Dateien wie Sie es normalerweise als Forscher tun würden. Stattdessen programmieren Sie die program.md-Markdown-Dateien, die den KI-Agenten Kontext geben.

Wie Autoresearch funktioniert

Das System ist elegant in seiner Einfachheit:

  1. Der Mensch bearbeitet program.md — setzt Forschungsziele, Einschränkungen und Strategie
  2. Der KI-Agent (Claude, Codex oder ein anderes LLM) liest program.md und modifiziert train.py
  3. Training läuft genau 5 Minuten und misst den Validierungsverlust (val_bpb)
  4. Bei Verbesserung wird die Änderung als Git-Commit auf einem Feature-Branch behalten
  5. Bei keiner Verbesserung setzt Git zurück auf den Ausgangszustand
  6. Wiederholt sich indefinit

Die gesamte Trainings-Codebasis umfasst ~630 Zeilen Python — klein genug, um vollständig in das Kontextfenster eines LLM zu passen. Das ist beabsichtigt. Der Agent muss das gesamte System verstehen, um intelligente Modifikationen vorzunehmen.

Die Ergebnisse

Karpathy ließ Autoresearch etwa zwei Tage auf einem Tiefe-12-Modell laufen. Der KI-Agent entdeckte autonom rund 20 Verbesserungen, die den Time-to-GPT-2-Benchmark von 2,02 Stunden auf 1,80 Stunden reduzierten — eine Verbesserung von 11 % ohne menschliche Eingriffe.

Jeder Punkt in der Visualisierung repräsentiert einen vollständigen LLM-Trainings-Run. Der Agent arbeitet in einer autonomen Schleife und häuft Git-Commits an, während er bessere Einstellungen für die neuronale Netzwerkarchitektur, den Optimierer und die Hyperparameter findet.

Warum program.md über ML-Forschung hinaus wichtig ist

Autoresearch dreht sich um ML-Training, aber das Muster, das es einführt, ist universell: KI-Agenten mit Markdown-Dateien programmieren.

Das ist keine isolierte Idee. Schauen Sie sich an, was im KI-Ökosystem passiert:

DateiZweck
program.mdProgrammiert autonome Forschungsagenten (Karpathy)
AGENTS.mdProgrammiert KI-Coding-Agenten (60K+ Repos, Linux Foundation)
CLAUDE.mdProgrammiert Claude Code-Verhalten
.cursorrulesProgrammiert Cursor-KI-Verhalten
llms.txtProgrammiert, wie KI-Crawler Websites verstehen

Das Muster ist jedes Mal identisch: Ein Mensch schreibt eine Markdown-Datei, und ein KI-Agent verwendet sie als Anweisungen, um autonom zu operieren.

Markdown ist zur Programmiersprache für KI-Agenten geworden.

Vom Vibe Coding zum Agentic Engineering

Karpathy selbst prägte 2025 „Vibe Coding” — die Idee, Code zu schreiben, indem man Intent statt Syntax beschreibt. Aber Anfang 2026 sagte er, Vibe Coding ist bereits passé.

Der neue Begriff? Agentic Engineering: Sie schreiben 99 % der Zeit keinen Code direkt. Sie orchestrieren Agenten, die es tun, und agieren als Aufseher.

Autoresearch ist der reinste Ausdruck dieser Idee. Die Arbeit des Forschers verschiebt sich von „Wie viele Experimente haben Sie heute durchgeführt?” zu „Wie gut waren die Experimentrichtungen, die Sie gesetzt haben?” Die Markdown-Datei ist, wie Sie diese Richtungen setzen.

Was das für Wissensarbeiter bedeutet

Sie müssen keine LLMs trainieren, um von Autoresearch zu lernen. Das Muster gilt überall:

  • Entwickler schreiben AGENTS.md, um KI-Coding-Assistenten zu leiten
  • Forscher schreiben program.md, um autonome Experimente zu leiten
  • Content-Ersteller schreiben Prompts, um KI-Schreibassistenten zu leiten
  • Analysten schreiben Anweisungen, um KI-Datenverarbeitungspipelines zu leiten

In jedem Fall wird die Aufgabe des Menschen: die bestmöglichen Markdown-Anweisungen schreiben. Die KI übernimmt die Ausführung.

Ihren Markdown-First-Workflow aufbauen

Wenn Markdown zur universellen Schnittstelle für KI-Agenten wird, wird das Haben sauberer Markdown-Versionen Ihres Referenzmaterials unverzichtbar.

Wenn Sie eine program.md für Autoresearch oder eine AGENTS.md für Ihre Codebasis schreiben, greifen Sie auf Dokumentation, Artikel, Blog-Posts und Beispiele zurück, die Sie im Web gesehen haben. Save ermöglicht es Ihnen, all das mit einem Klick als sauberes Markdown zu erfassen — bereit, es zu referenzieren, zu extrahieren oder in Ihre Agenten-Anweisungen einzuspeisen.

Der Workflow: etwas Nützliches im Web finden, als Markdown speichern, es verwenden, um bessere Agenten-Anweisungen zu schreiben.


Save konvertiert jede Webseite in sauberes Markdown — das Format, das KI-Agenten am besten verstehen. Bauen Sie Ihre Referenzbibliothek auf, um bessere KI-Anweisungen zu schreiben. Save kostenlos testen.

## Continue reading

Jean-Sébastien Wallez

Written by

Jean-Sébastien Wallez

I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.