← Terug naar blog

Shopify's 19% Verbetering: Hoe Bedrijven het Autobadatroon Al Gebruiken

· Save Team
aiautoresearchshopifykarpathybusinessmachine-learningreal-world

Toen Karpathy op 7 maart 2026 autoresearch uitbracht, duurde het slechts dagen — niet weken, niet maanden — voordat bedrijven het op hun eigen problemen begonnen te draaien.

De meest opvallende vroege adopter: Shopify-CEO Tobi Lutke, die het autoresearch-framework aanpaste voor een intern project. Het resultaat? Een model van 0,8 miljard parameters dat ‘s nachts getraind werd, overtrof een eerder model van 1,6 miljard parameters met 19% na slechts 37 experimenten in 8 uur.

Kleiner model. Betere resultaten. Nul menselijke interventie ‘s nachts.

Het Autobadatroon in het Bedrijfsleven

Wat Shopify demonstreerde is niet zomaar een leuk ML-experiment. Het is een proof of concept voor een nieuwe manier waarop bedrijven R&D doen.

De traditionele aanpak: ML-engineers inhuren, hen handmatig experimenten laten uitvoeren, resultaten in vergaderingen bespreken, volgende stappen bepalen, langzaam herhalen. Een goed team voert misschien 30 gerichte experimenten per maand uit.

De autoresearch-aanpak: schrijf een program.md die je doelen definieert, laat een AI-agent ‘s nachts experimenten uitvoeren, bekijk ‘s ochtends de resultaten. Eén engineer, één GPU, 100+ experimenten per nacht.

De wiskunde is overweldigend. Handmatig onderzoek produceert ~1 experiment per dag per onderzoeker. Autoresearch produceert ~12 per uur. Dat is een 100-voudige toename in experimentele doorvoer.

Voorbij ML: Het 36.500-Experimenten Jaar

Het patroon reikt verder dan modeltraining. Marketingteams voeren doorgaans ongeveer 30 experimenten per jaar uit — A/B-tests, copy-variaties, wijzigingen in doelgroeptargeting. Het is langzaam omdat elk experiment menselijke opzet, monitoring en analyse vereist.

Vroege adopters stellen zich al een wereld voor waarin autonome agents 100 marketingexperimenten per dag uitvoeren, conversieratio’s meten, copy aanpassen en targeting itereren — allemaal geleid door een program.md die de doelen en beperkingen van het merk definieert.

Dat zijn 36.500+ experimenten per jaar versus 30. De bedrijven die dit patroon als eerste adopteren, zullen een samengesteld voordeel hebben dat bijna onmogelijk in te halen is.

Wat Shopify’s Resultaten Mogelijk Maakte

Shopify’s 19% verbetering was geen geluk. Verschillende factoren maakten het mogelijk:

Duidelijke metrics. Ze hadden een goed gedefinieerde evaluatiemetric die de agent automatisch kon meten na elk experiment. Zonder geautomatiseerde meting breekt de lus.

Beperkte scope. Net als Karpathy’s 630-regelige train.py hield Shopify de aanpasbare codebase klein genoeg voor het LLM om volledig te begrijpen. Je gooit geen codebase van een miljoen regels naar een agent en hoopt op het beste.

Goede initiële instructies. De program.md die de agent stuurde was geïnformeerd door de domeinkennis van het team. De agent zocht niet willekeurig — hij verkende richtingen die het team als veelbelovend had geïdentificeerd.

Vertrouwen in het proces. Ze lieten het ‘s nachts draaien zonder in te grijpen. De verleiding om elk uur te controleren en aan te passen verslaat het doel van autonoom experimenteren.

Het Nachtelijke Run Patroon

De typische autoresearch-adoptie volgt een patroon:

Dag 1: Stel de omgeving in, schrijf je eerste program.md, voer een paar experimenten handmatig uit om te verifiëren dat de lus werkt.

Nacht 1: Start de agent voor je vertrekt. Stel hem in om oneindig te draaien, verbeteringen te committen en mislukkingen te herstellen.

Ochtend dag 2: Bekijk het git-logboek. Zie wat de agent probeerde, wat werkte en wat niet. Update je program.md op basis van wat je hebt geleerd.

Nacht 2: Draai opnieuw met verbeterde instructies. De agent begint vanuit waar het beste resultaat van Nacht 1 gebleven was.

Binnen een week: Je hebt een verfijnde program.md en tientallen gevalideerde verbeteringen die een menselijk team maanden hadden gekost om te ontdekken.

Industrieën Rijp voor Dit Patroon

Elk vakgebied met systematisch experimenteren kan de autoresearch-lus adopteren:

Machine learning — het oorspronkelijke gebruiksscenario. Hyperparameter-afstemming, architectuurzoektocht, regularisatie-experimenten.

Software-optimalisatie — prestatieafstemming, vermindering van bundelgrootte, query-optimalisatie. Overal waar je een meetbare metric en aanpasbare code hebt.

Geneesmiddelonderzoek — moleculaire simulaties met meetbare bindingsaffiniteit. Het experiment is computationeel, de metric is numeriek, de lus is automatiseerbaar.

Financieel modelleren — backtesting van handelsstrategieën op historische gegevens. Duidelijke metrics, snelle feedback, enorme zoekruimte.

Content-optimalisatie — A/B-testen van koppen, lay-outs en copy met conversieratio als metric.

Het Markdown Voordeel

In elk geval is de bijdrage van de mens hetzelfde: een Markdown-bestand dat definieert wat geoptimaliseerd moet worden, welke beperkingen gerespecteerd moeten worden en welke strategieën geprobeerd moeten worden.

Daarom wordt Markdown-geletterdheid een concurrentievoordeel. De bedrijven die de beste program.md-bestanden schrijven, zijn degenen die de beste resultaten behalen van autonome agents. En het schrijven van goede program.md-bestanden vereist diepgaande domeinkennis georganiseerd in een formaat dat AI kan consumeren.

Bedrijven die referentiebibliotheken opbouwen — documentatie, concurrentieanalyses, onderzoekspapers en best practices opslaan als schone Markdown — hebben een voorsprong. Wanneer het tijd is om de program.md te schrijven die een nachtelijk experiment stuurt, kunnen ze putten uit een gecureerde kennisbank in plaats van van nul te beginnen.


Save converteert elke webpagina naar schone Markdown — en bouwt de kennisbibliotheek die bedrijven nodig hebben om effectieve AI-agent-instructies te schrijven. Probeer Save gratis.