Shopifys 19% Forbedring: Hvordan Virksomheder Allerede Bruger Autoforskningsmønstret
Da Karpathy udgav autoforskning den 7. marts 2026, tog det præcis dage — ikke uger, ikke måneder — for virksomheder at begynde at køre det på deres egne problemer.
Den mest bemærkelsesværdige tidlige adopter: Shopifys CEO Tobi Lutke, som tilpassede autoforskning-rammeværket til et internt projekt. Resultatet? En model med 0,8 milliarder parametre, trænet natten over, overgik en tidligere model med 1,6 milliarder parametre med 19% efter kun 37 eksperimenter på 8 timer.
Mindre model. Bedre resultater. Nul menneskelig indgriben natten over.
Autoforskningsmønstret i Erhvervslivet
Det Shopify demonstrerede er ikke bare et sødt ML-eksperiment. Det er et proof of concept for en ny måde, virksomheder driver F&U på.
Den traditionelle tilgang: ansæt ML-ingeniører, lad dem køre eksperimenter manuelt, gennemgå resultater på møder, beslut næste skridt, gentag langsomt. Et godt team kører måske 30 fokuserede eksperimenter om måneden.
Autoforskningstilgangen: skriv en program.md, der definerer dine mål, lad en AI-agent køre eksperimenter natten over, gennemgå resultaterne om morgenen. Én ingeniør, én GPU, 100+ eksperimenter pr. nat.
Regnestykket er overvældende. Manuel forskning producerer ~1 eksperiment pr. dag pr. forsker. Autoforskning producerer ~12 i timen. Det er en 100 gange stigning i eksperimentel gennemstrømning.
Ud over ML: 36.500-Eksperimentåret
Mønstret rækker ud over modeltræning. Marketingteams kører typisk ca. 30 eksperimenter om året — A/B-tests, kopivariationer, ændringer i målgruppetargeting. Det er langsomt, fordi hvert eksperiment kræver menneskelig opsætning, overvågning og analyse.
Tidlige adoptere forestiller sig allerede en verden, hvor autonome agenter kører 100 marketingeksperimenter om dagen, måler konverteringsrater, justerer kopi og itererer på targeting — alt styret af en program.md, der definerer brandets mål og begrænsninger.
Det er 36.500+ eksperimenter om året mod 30. De virksomheder, der adopterer dette mønster først, vil have en sammensat fordel, der er næsten umulig at indhente.
Hvad der Gjorde Shopifys Resultater Mulige
Shopifys 19% forbedring var ikke held. Flere faktorer fik det til at virke:
Klare målinger. De havde en veldefineret evalueringsmåling, som agenten automatisk kunne måle efter hvert eksperiment. Uden automatiseret måling bryder løkken sammen.
Afgrænset omfang. Som med Karpathys 630-linjers train.py holdt Shopify den modificerbare kodebase lille nok til, at LLM’et kunne forstå den fuldstændigt. Du kaster ikke en millionlinjers kodebase mod en agent og håber på det bedste.
Gode indledende instruktioner. Den program.md, der styrede agenten, var informeret af teamets domænviden. Agenten søgte ikke tilfældigt — den udforskede retninger, som teamet identificerede som lovende.
Tillid til processen. De lod den køre natten over uden at gribe ind. Fristelsen til at tjekke og justere hver time modvirker formålet med autonom eksperimentering.
Mønstret for Natlige Kørsler
Den typiske autoforskning-adoption følger et mønster:
Dag 1: Opsæt miljøet, skriv din første program.md, kør et par eksperimenter manuelt for at verificere, at løkken virker.
Nat 1: Start agenten, inden du går. Sæt den til at køre på ubestemt tid, commit forbedringer og gensæt fejl.
Morgen dag 2: Gennemgå git-loggen. Se hvad agenten forsøgte, hvad der virkede, og hvad der ikke virkede. Opdater din program.md baseret på hvad du lærte.
Nat 2: Kør igen med forbedrede instruktioner. Agenten starter fra, hvor Nat 1’s bedste resultat slap.
Inden for en uge: Du har en raffineret program.md og snesevis af validerede forbedringer, som et mennesketeam ville have brugt måneder på at opdage.
Brancher Modne til Dette Mønster
Ethvert felt, der involverer systematisk eksperimentering, kan adoptere autoforskning-løkken:
Maskinlæring — det oprindelige brugstilfælde. Hyperparameterjustering, arkitektursøgning, regulariseringseksperimenter.
Softwareoptimering — ydeevnejustering, reduktion af buntstørrelse, forespørgselsoptimering. Overalt, hvor du har en målbar metrik og modificerbar kode.
Lægemiddelopdagelse — molekylære simuleringer med målbar bindingsaffinitet. Eksperimentet er computationelt, metrikken er numerisk, løkken er automatiserbar.
Finansiel modellering — backtesting af handelsstrategier mod historiske data. Klare målinger, hurtig feedback, enormt søgerum.
Indholdsoptimering — A/B-test af overskrifter, layouts og kopi med konverteringsrate som metrik.
Markdown-Fordelen
I alle tilfælde er menneskets bidrag det samme: en Markdown-fil, der definerer hvad der skal optimeres, hvilke begrænsninger der skal respekteres, og hvilke strategier der skal afprøves.
Derfor bliver Markdown-kompetence en konkurrencefordel. De virksomheder, der skriver de bedste program.md-filer, er dem, der får de bedste resultater fra autonome agenter. Og at skrive gode program.md-filer kræver dyb domænviden organiseret i et format, som AI kan konsumere.
Virksomheder, der bygger referencebiblioteker — gemmer dokumentation, konkurrenceanalyse, forskningsartikler og bedste praksisser som ren Markdown — har et forspring. Når det er tid til at skrive den program.md, der styrer et natligt eksperiment, kan de trække på en kureret vidensbase i stedet for at starte fra bunden.
Save konverterer enhver webside til ren Markdown — og opbygger det vidensbibliotek, som virksomheder har brug for til at skrive effektive AI-agentinstruktioner. Prøv Save gratis.