Wie man ein gutes program.md schreibt: Ein praktischer Leitfaden für KI-Agenten-Anweisungen

Andrej Karpathys Autoresearch hat bewiesen, dass eine gut geschriebene Markdown-Datei KI-Agenten anleiten kann, über Nacht echte wissenschaftliche Entdeckungen zu machen. Aber nicht alle program.md-Dateien sind gleich.

Die Qualität Ihrer Markdown-Anweisungen bestimmt direkt die Qualität der Ausgabe des KI-Agenten. Eine vage program.md produziert zufällige, ziellose Experimente. Eine präzise produziert fokussierte Verbesserungen, die sich summieren.

So schreiben Sie eine program.md, die tatsächlich funktioniert.

Die Struktur einer guten program.md

Jede effektive program.md benötigt fünf Abschnitte, ob Sie ML-Forschung betreiben oder andere agenten-gesteuerte Arbeiten durchführen.

1. Kontext: Was muss der Agent wissen?

Der Agent startet mit null Verständnis Ihres Projekts. Ihre erste Aufgabe ist es, ihm genug Kontext zu geben, um intelligente Entscheidungen zu treffen.

Was einzuschließen ist:

Was das Projekt tut
Wie die Codebasis aussieht
Schlüsseldateien und ihre Zwecke
Domänenspezifische Terminologie
Aktueller Zustand und bekannte Probleme

Was wegzulassen ist:

Offensichtliche Informationen, die der LLM bereits kennt
Implementierungsdetails, die er aus dem Code lesen kann
Geschichte, die aktuelle Entscheidungen nicht beeinflusst

2. Ziele: Was soll der Agent optimieren?

Das ist der kritischste Abschnitt. Der Agent braucht ein klares, messbares Ziel.

Beim Autoresearch ist das Ziel einfach: val_bpb (Validierungs-Bits pro Byte) reduzieren. Der Agent kann das nach jedem 5-minütigen Trainings-Run messen.

Für Ihre eigenen Projekte definieren Sie Erfolg in Begriffen, die der Agent bewerten kann:

„Seitenladezeit unter 2 Sekunden bringen”
„Testabdeckung über 80 % erhöhen”
„Bundle-Größe um mindestens 15 % reduzieren”

Vage Ziele wie „den Code besser machen” produzieren vage Ergebnisse. Messbare Ziele produzieren fokussierte Verbesserungen.

3. Einschränkungen: Was soll der Agent niemals tun?

Einschränkungen sind genauso wichtig wie Ziele. Ohne sie könnte der Agent kreative Lösungen finden, die Sie nicht wollen — wie alle Tests zu löschen, um die Build-Geschwindigkeit zu „verbessern”.

Häufige Einschränkungen:

Test-Dateien oder Evaluierungscode nicht modifizieren
Die öffentliche API nicht ändern
Keine neuen Abhängigkeiten einführen
Ein Speicherbudget nicht überschreiten
Code lesbar und wartbar halten

Beim Autoresearch ist die Schlüsseleinschränkung, dass nur train.py geändert werden darf. Die Datenpipeline, der Evaluierungscode und der Test-Satz sind gesperrt. Das verhindert, dass der Agent die Metriken manipuliert.

4. Strategie: Wie soll der Agent das Problem angehen?

Hier glänzt Ihre Domänen-Expertise. Sie wissen Dinge, die der Agent nicht weiß — welche Richtungen vielversprechend sind und welche Sackgassen.

Gute Strategie-Anweisungen:

„Mit Hyperparameter-Tuning beginnen, bevor architektonische Änderungen vorgenommen werden”
„Auf den Attention-Mechanismus konzentrieren — die aktuelle Implementierung könnte suboptimal sein”
„Zunächst Regularisierungstechniken versuchen: Dropout, Weight Decay, Layer Norm”
„Änderungen vermeiden, die die Trainingszeit um mehr als 10 % erhöhen”

Schlechte Strategie-Anweisungen:

„Alles versuchen” (zu vage)
„Lernrate auf 0,001 ändern” (zu spezifisch — Sie mikro-managen)

Der Sweet Spot ist eine Richtungsführung, die dem Agenten erlaubt, innerhalb produktiver Grenzen zu erkunden.

5. Evaluation: Wie soll der Agent Erfolg beurteilen?

Der Agent muss wissen, wie er misst, ob seine Änderungen geholfen haben. Beim Autoresearch ist das in die Schleife eingebaut: Wenn sich val_bpb verbessert, Änderung behalten. Wenn nicht, zurücksetzen.

Für andere Kontexte definieren Sie Ihre Evaluierungskriterien:

Welche Metriken sind wichtig?
Welche Schwelle gilt als Verbesserung?
Wie soll der Agent mit mehrdeutigen Ergebnissen umgehen?
Wann soll der Agent aufhören und Bericht erstatten?

Häufige Fehler

Zu vage sein

„Das Modell besser machen” gibt dem Agenten keine Richtung. Seien Sie konkret darüber, was „besser” bedeutet, wie es gemessen wird, und welche Ansätze zuerst versucht werden sollen.

Zu spezifisch sein

„Zeile 47 auf eine Lernrate von 3e-4 ändern” macht den Zweck des Agentic Engineering zunichte. Sie sollen die Richtung vorgeben, nicht die Implementierung diktieren. Lassen Sie den Agenten erkunden.

Einschränkungen vergessen

Ohne Einschränkungen wird der Agent den Weg des geringsten Widerstands finden — was oft nicht das ist, was Sie wollen. Ein Agent, dem gesagt wird, die „Trainingszeit zu reduzieren”, könnte die Hälfte der Trainingsdaten überspringen, wenn Sie es nicht verbieten.

Nicht iterieren

Ihre erste program.md wird nicht perfekt sein. Beobachten Sie, was der Agent tut, sehen Sie, wo er falsch liegt, und aktualisieren Sie Ihre Anweisungen. Die besten program.md-Dateien entwickeln sich über Dutzende von Iterationen.

Die Iterationsschleife

program.md zu schreiben ist kein einmaliger Prozess. Es ist eine Schleife:

Ihre initiale program.md schreiben
Den Agenten ausführen
Überprüfen, was der Agent getan hat
Anweisungen aktualisieren basierend auf dem, was funktioniert hat und was nicht
Wiederholen

Jede Iteration macht Ihre Anweisungen präziser. Nach ein paar Runden haben Sie eine program.md, die konstant gute Ergebnisse produziert.

Das ist die Kernkompetenz des Agentic Engineering: nicht Code schreiben, sondern durch Iteration immer effektivere Agenten-Anweisungen schreiben.

Ihre Referenzbibliothek aufbauen

Die besten program.md-Dateien entstehen nicht aus dem Nichts. Sie bauen auf tiefem Domänenwissen auf — Dokumentation, Artikel, Best Practices und Beispiele.

Wenn Sie nützliches Referenzmaterial im Web finden, speichern Sie es als Markdown. Wenn Sie dann Ihre program.md schreiben, können Sie relevanten Kontext einbeziehen, spezifische Techniken zitieren und dem Agenten das Hintergrundwissen geben, das er braucht.

Die Forscher, die die besten Ergebnisse mit Autoresearch erzielen, sind nicht nur gute Schreiber. Sie sind Domänen-Experten mit gut organisiertem Referenzmaterial, das sie in klare Agenten-Anweisungen synthetisieren können.

Save konvertiert jede Webseite in sauberes Markdown — ideal zum Aufbau der Referenzbibliothek, die effektive program.md-Dateien antreibt. Save kostenlos testen.