19% Poprawa Shopify: Jak Firmy Już Używają Wzorca Autobadania
Gdy Karpathy wydał autoresearch 7 marca 2026 roku, minęły dokładnie dni — nie tygodnie, nie miesiące — zanim firmy zaczęły uruchamiać go na własnych problemach.
Najbardziej godny uwagi wczesny adopter: CEO Shopify Tobi Lutke, który zaadaptował framework autoresearch do projektu wewnętrznego. Wynik? Model 0,8 miliarda parametrów wytrenowany przez noc przewyższył poprzedni model 1,6 miliarda parametrów o 19% po zaledwie 37 eksperymentach w 8 godzin.
Mniejszy model. Lepsze wyniki. Zero ludzkiej interwencji przez noc.
Wzorzec Autobadania w Biznesie
To, co zademonstrował Shopify, to nie tylko ciekawy eksperyment ML. To proof of concept dla nowego sposobu prowadzenia R&D przez firmy.
Tradycyjne podejście: zatrudnij inżynierów ML, każemy im ręcznie przeprowadzać eksperymenty, przeglądaj wyniki na spotkaniach, ustalaj kolejne kroki, powoli powtarzaj. Dobry zespół może przeprowadzić 30 ukierunkowanych eksperymentów miesięcznie.
Podejście autoresearch: napisz program.md definiujący twoje cele, pozwól agentowi AI przeprowadzać eksperymenty przez noc, przejrzyj wyniki rano. Jeden inżynier, jeden GPU, 100+ eksperymentów na noc.
Matematyka jest przytłaczająca. Ręczne badania produkują ~1 eksperyment dziennie na badacza. Autoresearch produkuje ~12 na godzinę. To 100-krotny wzrost przepustowości eksperymentalnej.
Poza ML: Rok z 36 500 Eksperymentami
Wzorzec wykracza poza trening modeli. Zespoły marketingowe zazwyczaj przeprowadzają około 30 eksperymentów rocznie — testy A/B, warianty treści, zmiany targetowania odbiorców. Jest to powolne, ponieważ każdy eksperyment wymaga ludzkiej konfiguracji, monitorowania i analizy.
Wcześni adopters już wyobrażają sobie świat, w którym autonomiczne agenty przeprowadzają 100 eksperymentów marketingowych dziennie, mierząc współczynniki konwersji, dostosowując treści i iterując targetowanie — wszystko kierowane przez program.md, który definiuje cele i ograniczenia marki.
To 36 500+ eksperymentów rocznie versus 30. Firmy, które jako pierwsze adoptują ten wzorzec, będą miały składającą się przewagę, którą niemal niemożliwe jest nadrobić.
Co Umożliwiło Wyniki Shopify
19% poprawa Shopify nie była przypadkiem. Kilka czynników sprawiło, że to zadziałało:
Jasne metryki. Mieli dobrze zdefiniowaną metrykę ewaluacji, którą agent mógł automatycznie mierzyć po każdym eksperymencie. Bez automatycznego pomiaru pętla się psuje.
Ograniczony zakres. Podobnie jak 630-wierszowy train.py Karpathy’ego, Shopify utrzymał modyfikowalną bazę kodu wystarczająco małą, aby LLM mógł ją w pełni zrozumieć. Nie rzucasz bazy kodu z milionem linii na agenta i nie masz nadziei na najlepsze.
Dobre instrukcje początkowe. program.md kierujący agentem był informowany wiedzą dziedzinową zespołu. Agent nie szukał losowo — eksplorował kierunki, które zespół zidentyfikował jako obiecujące.
Zaufanie do procesu. Pozwolili mu działać przez noc bez ingerencji. Pokusa sprawdzania i dostosowywania co godzinę niszczy cel autonomowego eksperymentowania.
Wzorzec Nocnego Uruchomienia
Typowa adopcja autoresearch podąża wzorcem:
Dzień 1: Skonfiguruj środowisko, napisz pierwszy program.md, uruchom kilka eksperymentów ręcznie, aby zweryfikować, że pętla działa.
Noc 1: Uruchom agenta przed wyjściem. Ustaw go na nieskończone działanie, commitowanie ulepszeń i cofanie niepowodzeń.
Ranek dnia 2: Przejrzyj logi git. Zobacz, co agent próbował, co działało, a co nie. Zaktualizuj program.md na podstawie tego, czego się nauczyłeś.
Noc 2: Uruchom ponownie z ulepszonymi instrukcjami. Agent zaczyna od najlepszego wyniku Nocy 1.
W ciągu tygodnia: Masz dopracowany program.md i dziesiątki zwalidowanych ulepszeń, które ludzkiemu zespołowi zajęłyby miesiące do odkrycia.
Branże Gotowe na Ten Wzorzec
Każda dziedzina wymagająca systematycznych eksperymentów może adoptować pętlę autoresearch:
Machine learning — oryginalny przypadek użycia. Dostrajanie hiperparametrów, wyszukiwanie architektury, eksperymenty regularyzacji.
Optymalizacja oprogramowania — dostrajanie wydajności, redukcja rozmiaru bundla, optymalizacja zapytań. Wszędzie tam, gdzie masz mierzalną metrykę i modyfikowalny kod.
Odkrywanie leków — symulacje molekularne z mierzalnym powinowactwem wiązania. Eksperyment jest obliczeniowy, metryka jest numeryczna, pętla jest automatyzowalna.
Modelowanie finansowe — backtesting strategii handlowych na danych historycznych. Jasne metryki, szybka informacja zwrotna, ogromna przestrzeń poszukiwań.
Optymalizacja treści — testy A/B nagłówków, układów i treści ze współczynnikiem konwersji jako metryką.
Przewaga Markdown
W każdym przypadku wkład człowieka jest taki sam: plik Markdown definiujący, co ma być optymalizowane, jakie ograniczenia należy respektować i jakie strategie wypróbować.
Dlatego biegłość w Markdown staje się przewagą konkurencyjną. Firmy piszące najlepsze pliki program.md to te, które uzyskują najlepsze wyniki od autonomicznych agentów. A pisanie dobrych plików program.md wymaga głębokiej wiedzy dziedzinowej zorganizowanej w formacie, który AI może konsumować.
Firmy budujące biblioteki referencyjne — zapisujące dokumentację, analizy konkurencji, artykuły badawcze i najlepsze praktyki jako czysty Markdown — mają przewagę. Gdy nadejdzie czas na napisanie program.md kierującego nocnym eksperymentem, mogą czerpać z kuratorowanej bazy wiedzy zamiast zaczynać od zera.
Save konwertuje każdą stronę internetową na czysty Markdown — budując bibliotekę wiedzy, której firmy potrzebują, aby pisać skuteczne instrukcje dla agentów AI. Wypróbuj Save za darmo.