← Tillbaka till bloggen

Shopifys 19% Förbättring: Hur Företag Redan Använder Autoforskningsmönstret

· Save Team
aiautoresearchshopifykarpathybusinessmachine-learningreal-world

När Karpathy släppte autoforskning den 7 mars 2026 tog det exakt dagar — inte veckor, inte månader — för företag att börja köra det på sina egna problem.

Den mest anmärkningsvärda tidiga adoptern: Shopifys VD Tobi Lutke, som anpassade autoforskning-ramverket för ett internt projekt. Resultatet? En modell med 0,8 miljarder parametrar tränad över natten överträffade en tidigare modell med 1,6 miljarder parametrar med 19% efter bara 37 experiment på 8 timmar.

Mindre modell. Bättre resultat. Noll mänsklig inblandning över natten.

Autoforskningsmönstret i Affärsvärlden

Vad Shopify demonstrerade är inte bara ett gulligt ML-experiment. Det är ett konceptbevis för ett nytt sätt som företag bedriver forskning och utveckling.

Det traditionella tillvägagångssättet: anställ ML-ingenjörer, låt dem köra experiment manuellt, granska resultat på möten, bestäm nästa steg, upprepa långsamt. Ett bra team kanske kör 30 fokuserade experiment per månad.

Autoforskningstillvägagångssättet: skriv en program.md som definierar dina mål, låt en AI-agent köra experiment över natten, granska resultaten på morgonen. En ingenjör, ett GPU, 100+ experiment per natt.

Matematiken är överväldigande. Manuell forskning producerar ~1 experiment per dag per forskare. Autoforskning producerar ~12 per timme. Det är en 100-faldig ökning i experimentell genomströmning.

Bortom ML: Det 36 500-Experiments Året

Mönstret sträcker sig bortom modellträning. Marknadsföringsteam kör vanligtvis ungefär 30 experiment per år — A/B-tester, kopivariationer, förändringar i målgruppsinriktning. Det är långsamt eftersom varje experiment kräver mänsklig konfiguration, övervakning och analys.

Tidiga adopters föreställer sig redan en värld där autonoma agenter kör 100 marknadsföringsexperiment per dag, mäter konverteringsfrekvenser, justerar kopia och itererar på inriktning — allt styrt av en program.md som definierar varumärkets mål och begränsningar.

Det är 36 500+ experiment per år jämfört med 30. De företag som adopterar detta mönster först kommer att ha en sammansatt fördel som är nästan omöjlig att ta igen.

Vad Som Möjliggjorde Shopifys Resultat

Shopifys 19% förbättring var inte tur. Flera faktorer fick det att fungera:

Tydliga mätvärden. De hade ett väldefinierat utvärderingsmätvärde som agenten kunde mäta automatiskt efter varje experiment. Utan automatiserad mätning bryts slingan.

Begränsad räckvidd. Precis som Karpathys 630-radiga train.py höll Shopify den modifierbara kodbasen tillräckligt liten för att LLM:et skulle förstå den helt. Du kastar inte en kodbas med en miljon rader mot en agent och hoppas på det bästa.

Bra initiala instruktioner. program.md som styrde agenten var informerad av teamets domänkunskap. Agenten sökte inte slumpmässigt — den utforskade riktningar som teamet hade identifierat som lovande.

Tillit till processen. De lät det köra över natten utan att ingripa. Frestelsen att kontrollera och justera varje timme motverkar syftet med autonom experimentering.

Mönstret för Nattliga Körningar

Den typiska autoforskning-adoptionen följer ett mönster:

Dag 1: Sätt upp miljön, skriv din första program.md, kör några experiment manuellt för att verifiera att slingan fungerar.

Natt 1: Starta agenten innan du lämnar. Ställ in den att köra på obestämd tid, committa förbättringar och återgå från misslyckanden.

Morgon dag 2: Granska git-loggen. Se vad agenten försökte, vad som fungerade och vad som inte fungerade. Uppdatera din program.md baserat på vad du lärde dig.

Natt 2: Kör igen med förbättrade instruktioner. Agenten börjar från där Natt 1:s bästa resultat slutade.

Inom en vecka: Du har en förfinad program.md och dussintals validerade förbättringar som skulle ha tagit ett mänskligt team månader att upptäcka.

Branscher Mogna för Detta Mönster

Alla områden som involverar systematisk experimentering kan ta till sig autoforskning-slingan:

Maskininlärning — det ursprungliga användningsfallet. Hyperparameterinställning, arkitektursökning, regulariseringsexperiment.

Mjukvaruoptimering — prestandainställning, minskning av buntstorlek, frågeoptimerng. Var som helst du har ett mätbart mätvärde och modifierbar kod.

Läkemedelsutveckling — molekylära simuleringar med mätbar bindningsaffinitet. Experimentet är beräkningsmässigt, mätvärdet är numeriskt, slingan är automatiserbar.

Finansiell modellering — backtesting av handelsstrategier mot historiska data. Tydliga mätvärden, snabb feedback, enormt sökutrymme.

Innehållsoptimering — A/B-testning av rubriker, layouter och kopia med konverteringsfrekvens som mätvärde.

Markdown-Fördelen

I alla fall är människans bidrag detsamma: en Markdown-fil som definierar vad som ska optimeras, vilka begränsningar som ska respekteras och vilka strategier som ska prövas.

Det är därför Markdown-kompetens håller på att bli en konkurrensfördel. De företag som skriver de bästa program.md-filerna är de som får de bästa resultaten från autonoma agenter. Och att skriva bra program.md-filer kräver djup domänkunskap organiserad i ett format som AI kan konsumera.

Företag som bygger referensbibliotek — sparar dokumentation, konkurrensanalys, forskningsartiklar och bästa praxis som ren Markdown — har ett försprång. När det är dags att skriva den program.md som styr ett nattligt experiment kan de hämta från en kuraterad kunskapsbas istället för att börja från noll.


Save konverterar vilken webbsida som helst till ren Markdown — och bygger det kunskapsbibliotek som företag behöver för att skriva effektiva AI-agentinstruktioner. Prova Save gratis.