Wie man ein gutes program.md schreibt: Ein praktischer Leitfaden für KI-Agenten-Anweisungen
Andrej Karpathys Autoresearch hat bewiesen, dass eine gut geschriebene Markdown-Datei KI-Agenten anleiten kann, über Nacht echte wissenschaftliche Entdeckungen zu machen. Aber nicht alle program.md-Dateien sind gleich.
Die Qualität Ihrer Markdown-Anweisungen bestimmt direkt die Qualität der Ausgabe des KI-Agenten. Eine vage program.md produziert zufällige, ziellose Experimente. Eine präzise produziert fokussierte Verbesserungen, die sich summieren.
So schreiben Sie eine program.md, die tatsächlich funktioniert.
Die Struktur einer guten program.md
Jede effektive program.md benötigt fünf Abschnitte, ob Sie ML-Forschung betreiben oder andere agenten-gesteuerte Arbeiten durchführen.
1. Kontext: Was muss der Agent wissen?
Der Agent startet mit null Verständnis Ihres Projekts. Ihre erste Aufgabe ist es, ihm genug Kontext zu geben, um intelligente Entscheidungen zu treffen.
Was einzuschließen ist:
- Was das Projekt tut
- Wie die Codebasis aussieht
- Schlüsseldateien und ihre Zwecke
- Domänenspezifische Terminologie
- Aktueller Zustand und bekannte Probleme
Was wegzulassen ist:
- Offensichtliche Informationen, die der LLM bereits kennt
- Implementierungsdetails, die er aus dem Code lesen kann
- Geschichte, die aktuelle Entscheidungen nicht beeinflusst
2. Ziele: Was soll der Agent optimieren?
Das ist der kritischste Abschnitt. Der Agent braucht ein klares, messbares Ziel.
Beim Autoresearch ist das Ziel einfach: val_bpb (Validierungs-Bits pro Byte) reduzieren. Der Agent kann das nach jedem 5-minütigen Trainings-Run messen.
Für Ihre eigenen Projekte definieren Sie Erfolg in Begriffen, die der Agent bewerten kann:
- „Seitenladezeit unter 2 Sekunden bringen”
- „Testabdeckung über 80 % erhöhen”
- „Bundle-Größe um mindestens 15 % reduzieren”
Vage Ziele wie „den Code besser machen” produzieren vage Ergebnisse. Messbare Ziele produzieren fokussierte Verbesserungen.
3. Einschränkungen: Was soll der Agent niemals tun?
Einschränkungen sind genauso wichtig wie Ziele. Ohne sie könnte der Agent kreative Lösungen finden, die Sie nicht wollen — wie alle Tests zu löschen, um die Build-Geschwindigkeit zu „verbessern”.
Häufige Einschränkungen:
- Test-Dateien oder Evaluierungscode nicht modifizieren
- Die öffentliche API nicht ändern
- Keine neuen Abhängigkeiten einführen
- Ein Speicherbudget nicht überschreiten
- Code lesbar und wartbar halten
Beim Autoresearch ist die Schlüsseleinschränkung, dass nur train.py geändert werden darf. Die Datenpipeline, der Evaluierungscode und der Test-Satz sind gesperrt. Das verhindert, dass der Agent die Metriken manipuliert.
4. Strategie: Wie soll der Agent das Problem angehen?
Hier glänzt Ihre Domänen-Expertise. Sie wissen Dinge, die der Agent nicht weiß — welche Richtungen vielversprechend sind und welche Sackgassen.
Gute Strategie-Anweisungen:
- „Mit Hyperparameter-Tuning beginnen, bevor architektonische Änderungen vorgenommen werden”
- „Auf den Attention-Mechanismus konzentrieren — die aktuelle Implementierung könnte suboptimal sein”
- „Zunächst Regularisierungstechniken versuchen: Dropout, Weight Decay, Layer Norm”
- „Änderungen vermeiden, die die Trainingszeit um mehr als 10 % erhöhen”
Schlechte Strategie-Anweisungen:
- „Alles versuchen” (zu vage)
- „Lernrate auf 0,001 ändern” (zu spezifisch — Sie mikro-managen)
Der Sweet Spot ist eine Richtungsführung, die dem Agenten erlaubt, innerhalb produktiver Grenzen zu erkunden.
5. Evaluation: Wie soll der Agent Erfolg beurteilen?
Der Agent muss wissen, wie er misst, ob seine Änderungen geholfen haben. Beim Autoresearch ist das in die Schleife eingebaut: Wenn sich val_bpb verbessert, Änderung behalten. Wenn nicht, zurücksetzen.
Für andere Kontexte definieren Sie Ihre Evaluierungskriterien:
- Welche Metriken sind wichtig?
- Welche Schwelle gilt als Verbesserung?
- Wie soll der Agent mit mehrdeutigen Ergebnissen umgehen?
- Wann soll der Agent aufhören und Bericht erstatten?
Häufige Fehler
Zu vage sein
„Das Modell besser machen” gibt dem Agenten keine Richtung. Seien Sie konkret darüber, was „besser” bedeutet, wie es gemessen wird, und welche Ansätze zuerst versucht werden sollen.
Zu spezifisch sein
„Zeile 47 auf eine Lernrate von 3e-4 ändern” macht den Zweck des Agentic Engineering zunichte. Sie sollen die Richtung vorgeben, nicht die Implementierung diktieren. Lassen Sie den Agenten erkunden.
Einschränkungen vergessen
Ohne Einschränkungen wird der Agent den Weg des geringsten Widerstands finden — was oft nicht das ist, was Sie wollen. Ein Agent, dem gesagt wird, die „Trainingszeit zu reduzieren”, könnte die Hälfte der Trainingsdaten überspringen, wenn Sie es nicht verbieten.
Nicht iterieren
Ihre erste program.md wird nicht perfekt sein. Beobachten Sie, was der Agent tut, sehen Sie, wo er falsch liegt, und aktualisieren Sie Ihre Anweisungen. Die besten program.md-Dateien entwickeln sich über Dutzende von Iterationen.
Die Iterationsschleife
program.md zu schreiben ist kein einmaliger Prozess. Es ist eine Schleife:
- Ihre initiale
program.mdschreiben - Den Agenten ausführen
- Überprüfen, was der Agent getan hat
- Anweisungen aktualisieren basierend auf dem, was funktioniert hat und was nicht
- Wiederholen
Jede Iteration macht Ihre Anweisungen präziser. Nach ein paar Runden haben Sie eine program.md, die konstant gute Ergebnisse produziert.
Das ist die Kernkompetenz des Agentic Engineering: nicht Code schreiben, sondern durch Iteration immer effektivere Agenten-Anweisungen schreiben.
Ihre Referenzbibliothek aufbauen
Die besten program.md-Dateien entstehen nicht aus dem Nichts. Sie bauen auf tiefem Domänenwissen auf — Dokumentation, Artikel, Best Practices und Beispiele.
Wenn Sie nützliches Referenzmaterial im Web finden, speichern Sie es als Markdown. Wenn Sie dann Ihre program.md schreiben, können Sie relevanten Kontext einbeziehen, spezifische Techniken zitieren und dem Agenten das Hintergrundwissen geben, das er braucht.
Die Forscher, die die besten Ergebnisse mit Autoresearch erzielen, sind nicht nur gute Schreiber. Sie sind Domänen-Experten mit gut organisiertem Referenzmaterial, das sie in klare Agenten-Anweisungen synthetisieren können.
Save konvertiert jede Webseite in sauberes Markdown — ideal zum Aufbau der Referenzbibliothek, die effektive program.md-Dateien antreibt. Save kostenlos testen.
## Continue reading
Karpathys Autoresearch & PROGRAM.md: KI, die Experimente macht, während Sie schlafen
Andrej Karpathys Autoresearch lässt KI-Agenten 100+ ML-Experimente über Nacht durchführen, geleitet von einer einzigen Markdown-Datei namens program.md. Hier ist, wie es funktioniert und warum es wichtig ist.
Von README.md zu PROGRAM.md: Markdown ist jetzt eine Programmiersprache
README.md war für Menschen. AGENTS.md ist für Coding-Assistenten. PROGRAM.md ist für autonome Forschung. Markdown hat sich von der Dokumentation zur Programmiersprache für KI-Agenten entwickelt.
Karpathys 'Zwei Gruppen' von KI-Nutzern — zu welcher gehörst du?
Andrej Karpathy sagt, es gibt eine wachsende Lücke im Verständnis von KI-Fähigkeiten. Eine Gruppe hält KI für ein Spielzeug. Die andere erlebt 'AI Psychosis'. Hier ist, was sie trennt — und wie man die Kluft überbrückt.
Autoresearch für alle: Wie man 100 KI-Experimente im Schlaf durchführt
Karpathys Autoresearch führt 100+ ML-Experimente über Nacht auf einer einzigen GPU durch. Hier ist, wie es funktioniert, was du brauchst, und warum ein 630-Zeilen-Python-Skript die KI-Forschung verändert.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.