Shopifys 19%-Verbesserung: Wie Unternehmen das Autoresearch-Muster bereits nutzen
Als Karpathy autoresearch am 7. März 2026 veröffentlichte, dauerte es genau Tage — nicht Wochen, nicht Monate — bis Unternehmen begannen, es auf ihren eigenen Problemen zu starten.
Der bemerkenswerteste frühe Adopter: Shopify-CEO Tobi Lutke, der das autoresearch-Framework für ein internes Projekt adaptierte. Das Ergebnis? Ein 0,8-Milliarden-Parameter-Modell, das über Nacht trainiert wurde, übertraf ein vorheriges 1,6-Milliarden-Parameter-Modell um 19 % nach nur 37 Experimenten in 8 Stunden.
Kleineres Modell. Bessere Ergebnisse. Null menschliche Eingriffe über Nacht.
Das Autoresearch-Muster im Business
Was Shopify demonstrierte, ist nicht nur ein hübsches ML-Experiment. Es ist ein Proof of Concept für eine neue Art, wie Unternehmen R&D betreiben.
Der traditionelle Ansatz: ML-Ingenieure einstellen, sie Experimente manuell durchführen lassen, Ergebnisse in Meetings überprüfen, nächste Schritte entscheiden, langsam wiederholen. Ein gutes Team könnte 30 fokussierte Experimente pro Monat durchführen.
Der autoresearch-Ansatz: ein program.md mit deinen Zielen schreiben, einen KI-Agenten über Nacht Experimente durchführen lassen, die Ergebnisse morgens überprüfen. Ein Ingenieur, eine GPU, 100+ Experimente pro Nacht.
Die Mathematik ist überwältigend. Manuelle Forschung produziert ~1 Experiment pro Tag pro Forscher. Autoresearch produziert ~12 pro Stunde. Das ist ein 100-facher Anstieg im experimentellen Durchsatz.
Über ML hinaus: Die 36.500-Experimente-pro-Jahr
Das Muster erstreckt sich über das Modell-Training hinaus. Marketing-Teams führen typischerweise etwa 30 Experimente pro Jahr durch — A/B-Tests, Copy-Variationen, Audience-Targeting-Änderungen. Es ist langsam, weil jedes Experiment menschliches Setup, Monitoring und Analyse erfordert.
Frühe Adopter stellen sich bereits eine Welt vor, in der autonome Agenten 100 Marketing-Experimente pro Tag durchführen, Konversionsraten messen, Copy anpassen und Targeting iterieren — alles gelenkt von einem program.md, das die Ziele und Einschränkungen der Marke definiert.
Das sind 36.500+ Experimente pro Jahr gegenüber 30. Die Unternehmen, die dieses Muster zuerst übernehmen, werden einen Compounding-Vorteil haben, den man kaum aufholen kann.
Was Shopifys Ergebnisse möglich machte
Shopifys 19%ige Verbesserung war kein Glück. Mehrere Faktoren ließen es funktionieren:
Klare Metriken. Sie hatten eine klar definierte Evaluierungsmetrik, die der Agent nach jedem Experiment automatisch messen konnte. Ohne automatisierte Messung bricht die Schleife.
Eingeschränkter Umfang. Wie Karpathys 630-Zeilen-train.py hielt Shopify die modifizierbare Codebasis klein genug, damit das LLM sie vollständig verstehen kann. Du wirfst keine Millionen-Zeilen-Codebasis auf einen Agenten und hoffst das Beste.
Gute anfängliche Anweisungen. Das program.md, das den Agenten steuerte, war durch das Domänenwissen des Teams informiert. Der Agent suchte nicht zufällig — er erkundete Richtungen, die das Team als vielversprechend identifiziert hatte.
Vertrauen in den Prozess. Sie ließen es über Nacht laufen, ohne einzugreifen. Die Versuchung, jede Stunde zu überprüfen und anzupassen, untergräbt den Zweck autonomer Experimente.
Das Übernacht-Lauf-Muster
Die typische autoresearch-Übernahme folgt einem Muster:
Tag 1: Umgebung einrichten, erstes program.md schreiben, einige Experimente manuell durchführen, um zu überprüfen, ob die Schleife funktioniert.
Nacht 1: Agenten vor dem Gehen starten. Ihn so einstellen, dass er auf unbestimmte Zeit läuft, Verbesserungen committet und Fehler zurücksetzt.
Morgen des 2. Tages: Git-Log überprüfen. Sehen, was der Agent versucht hat, was funktioniert hat und was nicht. program.md basierend auf dem Gelernten aktualisieren.
Nacht 2: Erneut mit verbesserten Anweisungen laufen lassen. Der Agent startet dort, wo das beste Ergebnis der Nacht 1 aufgehört hat.
Innerhalb einer Woche: Du hast ein verfeinertes program.md und Dutzende validierter Verbesserungen, die ein menschliches Team Monate gebraucht hätte zu entdecken.
Branchen, die für dieses Muster reif sind
Jedes Gebiet, das systematische Experimente beinhaltet, kann die autoresearch-Schleife übernehmen:
Machine Learning — der ursprüngliche Anwendungsfall. Hyperparameter-Tuning, Architektur-Suche, Regularisierungs-Experimente.
Software-Optimierung — Performance-Tuning, Bundle-Größenreduktion, Query-Optimierung. Überall wo du eine messbare Metrik und modifizierbaren Code hast.
Wirkstoffforschung — molekulare Simulationen mit messbarer Bindungsaffinität. Das Experiment ist rechnerisch, die Metrik ist numerisch, die Schleife ist automatisierbar.
Finanzmodellierung — Backtesting von Trading-Strategien gegen historische Daten. Klare Metriken, schnelles Feedback, großer Suchraum.
Content-Optimierung — A/B-Testing von Headlines, Layouts und Copy mit Konversionsrate als Metrik.
Der Markdown-Vorteil
In jedem Fall ist der Beitrag des Menschen derselbe: eine Markdown-Datei, die definiert, was optimiert werden soll, welche Einschränkungen zu respektieren sind und welche Strategien ausprobiert werden sollen.
Deshalb wird Markdown-Kompetenz zu einem Wettbewerbsvorteil. Die Unternehmen, die die besten program.md-Dateien schreiben, sind diejenigen, die die besten Ergebnisse von autonomen Agenten erzielen. Und gute program.md-Dateien zu schreiben erfordert tiefes Domänenwissen, organisiert in einem Format, das KI verarbeiten kann.
Unternehmen, die Referenzbibliotheken aufbauen — Dokumentation, Wettbewerbsanalysen, Forschungsartikel und Best Practices als sauberes Markdown speichern — haben einen Vorsprung. Wenn es Zeit ist, das program.md zu schreiben, das ein Übernacht-Experiment leitet, können sie aus einer kuratierten Wissensdatenbank schöpfen statt von null anzufangen.
Save konvertiert jede Webseite in sauberes Markdown — und baut die Wissensbibliothek auf, die Unternehmen brauchen, um effektive KI-Agenten-Anweisungen zu schreiben. Save kostenlos testen.
## Continue reading
Autoresearch für alle: Wie man 100 KI-Experimente im Schlaf durchführt
Karpathys Autoresearch führt 100+ ML-Experimente über Nacht auf einer einzigen GPU durch. Hier ist, wie es funktioniert, was du brauchst, und warum ein 630-Zeilen-Python-Skript die KI-Forschung verändert.
Karpathys Autoresearch & PROGRAM.md: KI, die Experimente macht, während Sie schlafen
Andrej Karpathys Autoresearch lässt KI-Agenten 100+ ML-Experimente über Nacht durchführen, geleitet von einer einzigen Markdown-Datei namens program.md. Hier ist, wie es funktioniert und warum es wichtig ist.
Der Git-Commit als wissenschaftliche Entdeckung: Wie Autoresearch Versionskontrolle in ein Forschungslabor verwandelt
In Karpathys autoresearch ist jedes erfolgreiche Experiment ein Git-Commit. Jedes fehlgeschlagene ist ein git reset. Versionskontrolle ist zum Gedächtnis autonomer KI-Forschung geworden.
Wie man ein gutes program.md schreibt: Ein praktischer Leitfaden für KI-Agenten-Anweisungen
program.md ist die Datei, die KI-Agenten in Karpathys Autoresearch programmiert. Hier ist, wie man eine schreibt, die Ergebnisse liefert — mit Struktur, Beispielen und Best Practices.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.