Shopifys 19%-Verbesserung: Wie Unternehmen das Autoresearch-Muster bereits nutzen

Als Karpathy autoresearch am 7. März 2026 veröffentlichte, dauerte es genau Tage — nicht Wochen, nicht Monate — bis Unternehmen begannen, es auf ihren eigenen Problemen zu starten.

Der bemerkenswerteste frühe Adopter: Shopify-CEO Tobi Lutke, der das autoresearch-Framework für ein internes Projekt adaptierte. Das Ergebnis? Ein 0,8-Milliarden-Parameter-Modell, das über Nacht trainiert wurde, übertraf ein vorheriges 1,6-Milliarden-Parameter-Modell um 19 % nach nur 37 Experimenten in 8 Stunden.

Kleineres Modell. Bessere Ergebnisse. Null menschliche Eingriffe über Nacht.

Das Autoresearch-Muster im Business

Was Shopify demonstrierte, ist nicht nur ein hübsches ML-Experiment. Es ist ein Proof of Concept für eine neue Art, wie Unternehmen R&D betreiben.

Der traditionelle Ansatz: ML-Ingenieure einstellen, sie Experimente manuell durchführen lassen, Ergebnisse in Meetings überprüfen, nächste Schritte entscheiden, langsam wiederholen. Ein gutes Team könnte 30 fokussierte Experimente pro Monat durchführen.

Der autoresearch-Ansatz: ein program.md mit deinen Zielen schreiben, einen KI-Agenten über Nacht Experimente durchführen lassen, die Ergebnisse morgens überprüfen. Ein Ingenieur, eine GPU, 100+ Experimente pro Nacht.

Die Mathematik ist überwältigend. Manuelle Forschung produziert ~1 Experiment pro Tag pro Forscher. Autoresearch produziert ~12 pro Stunde. Das ist ein 100-facher Anstieg im experimentellen Durchsatz.

Über ML hinaus: Die 36.500-Experimente-pro-Jahr

Das Muster erstreckt sich über das Modell-Training hinaus. Marketing-Teams führen typischerweise etwa 30 Experimente pro Jahr durch — A/B-Tests, Copy-Variationen, Audience-Targeting-Änderungen. Es ist langsam, weil jedes Experiment menschliches Setup, Monitoring und Analyse erfordert.

Frühe Adopter stellen sich bereits eine Welt vor, in der autonome Agenten 100 Marketing-Experimente pro Tag durchführen, Konversionsraten messen, Copy anpassen und Targeting iterieren — alles gelenkt von einem program.md, das die Ziele und Einschränkungen der Marke definiert.

Das sind 36.500+ Experimente pro Jahr gegenüber 30. Die Unternehmen, die dieses Muster zuerst übernehmen, werden einen Compounding-Vorteil haben, den man kaum aufholen kann.

Was Shopifys Ergebnisse möglich machte

Shopifys 19%ige Verbesserung war kein Glück. Mehrere Faktoren ließen es funktionieren:

Klare Metriken. Sie hatten eine klar definierte Evaluierungsmetrik, die der Agent nach jedem Experiment automatisch messen konnte. Ohne automatisierte Messung bricht die Schleife.

Eingeschränkter Umfang. Wie Karpathys 630-Zeilen-train.py hielt Shopify die modifizierbare Codebasis klein genug, damit das LLM sie vollständig verstehen kann. Du wirfst keine Millionen-Zeilen-Codebasis auf einen Agenten und hoffst das Beste.

Gute anfängliche Anweisungen. Das program.md, das den Agenten steuerte, war durch das Domänenwissen des Teams informiert. Der Agent suchte nicht zufällig — er erkundete Richtungen, die das Team als vielversprechend identifiziert hatte.

Vertrauen in den Prozess. Sie ließen es über Nacht laufen, ohne einzugreifen. Die Versuchung, jede Stunde zu überprüfen und anzupassen, untergräbt den Zweck autonomer Experimente.

Das Übernacht-Lauf-Muster

Die typische autoresearch-Übernahme folgt einem Muster:

Tag 1: Umgebung einrichten, erstes program.md schreiben, einige Experimente manuell durchführen, um zu überprüfen, ob die Schleife funktioniert.

Nacht 1: Agenten vor dem Gehen starten. Ihn so einstellen, dass er auf unbestimmte Zeit läuft, Verbesserungen committet und Fehler zurücksetzt.

Morgen des 2. Tages: Git-Log überprüfen. Sehen, was der Agent versucht hat, was funktioniert hat und was nicht. program.md basierend auf dem Gelernten aktualisieren.

Nacht 2: Erneut mit verbesserten Anweisungen laufen lassen. Der Agent startet dort, wo das beste Ergebnis der Nacht 1 aufgehört hat.

Innerhalb einer Woche: Du hast ein verfeinertes program.md und Dutzende validierter Verbesserungen, die ein menschliches Team Monate gebraucht hätte zu entdecken.

Branchen, die für dieses Muster reif sind

Jedes Gebiet, das systematische Experimente beinhaltet, kann die autoresearch-Schleife übernehmen:

Machine Learning — der ursprüngliche Anwendungsfall. Hyperparameter-Tuning, Architektur-Suche, Regularisierungs-Experimente.

Software-Optimierung — Performance-Tuning, Bundle-Größenreduktion, Query-Optimierung. Überall wo du eine messbare Metrik und modifizierbaren Code hast.

Wirkstoffforschung — molekulare Simulationen mit messbarer Bindungsaffinität. Das Experiment ist rechnerisch, die Metrik ist numerisch, die Schleife ist automatisierbar.

Finanzmodellierung — Backtesting von Trading-Strategien gegen historische Daten. Klare Metriken, schnelles Feedback, großer Suchraum.

Content-Optimierung — A/B-Testing von Headlines, Layouts und Copy mit Konversionsrate als Metrik.

Der Markdown-Vorteil

In jedem Fall ist der Beitrag des Menschen derselbe: eine Markdown-Datei, die definiert, was optimiert werden soll, welche Einschränkungen zu respektieren sind und welche Strategien ausprobiert werden sollen.

Deshalb wird Markdown-Kompetenz zu einem Wettbewerbsvorteil. Die Unternehmen, die die besten program.md-Dateien schreiben, sind diejenigen, die die besten Ergebnisse von autonomen Agenten erzielen. Und gute program.md-Dateien zu schreiben erfordert tiefes Domänenwissen, organisiert in einem Format, das KI verarbeiten kann.

Unternehmen, die Referenzbibliotheken aufbauen — Dokumentation, Wettbewerbsanalysen, Forschungsartikel und Best Practices als sauberes Markdown speichern — haben einen Vorsprung. Wenn es Zeit ist, das program.md zu schreiben, das ein Übernacht-Experiment leitet, können sie aus einer kuratierten Wissensdatenbank schöpfen statt von null anzufangen.

Save konvertiert jede Webseite in sauberes Markdown — und baut die Wissensbibliothek auf, die Unternehmen brauchen, um effektive KI-Agenten-Anweisungen zu schreiben. Save kostenlos testen.

Shopifys 19%-Verbesserung: Wie Unternehmen das Autoresearch-Muster bereits nutzen

Das Autoresearch-Muster im Business

Über ML hinaus: Die 36.500-Experimente-pro-Jahr

Was Shopifys Ergebnisse möglich machte

Das Übernacht-Lauf-Muster

Branchen, die für dieses Muster reif sind

Der Markdown-Vorteil

## Continue reading

Autoresearch für alle: Wie man 100 KI-Experimente im Schlaf durchführt

Karpathys Autoresearch & PROGRAM.md: KI, die Experimente macht, während Sie schlafen

Der Git-Commit als wissenschaftliche Entdeckung: Wie Autoresearch Versionskontrolle in ein Forschungslabor verwandelt

Wie man ein gutes program.md schreibt: Ein praktischer Leitfaden für KI-Agenten-Anweisungen

Jean-Sébastien Wallez