← Wróć do bloga

19% Poprawa Shopify: Jak Firmy Już Używają Wzorca Autobadania

· Save Team
aiautoresearchshopifykarpathybusinessmachine-learningreal-world

Gdy Karpathy wydał autoresearch 7 marca 2026 roku, minęły dokładnie dni — nie tygodnie, nie miesiące — zanim firmy zaczęły uruchamiać go na własnych problemach.

Najbardziej godny uwagi wczesny adopter: CEO Shopify Tobi Lutke, który zaadaptował framework autoresearch do projektu wewnętrznego. Wynik? Model 0,8 miliarda parametrów wytrenowany przez noc przewyższył poprzedni model 1,6 miliarda parametrów o 19% po zaledwie 37 eksperymentach w 8 godzin.

Mniejszy model. Lepsze wyniki. Zero ludzkiej interwencji przez noc.

Wzorzec Autobadania w Biznesie

To, co zademonstrował Shopify, to nie tylko ciekawy eksperyment ML. To proof of concept dla nowego sposobu prowadzenia R&D przez firmy.

Tradycyjne podejście: zatrudnij inżynierów ML, każemy im ręcznie przeprowadzać eksperymenty, przeglądaj wyniki na spotkaniach, ustalaj kolejne kroki, powoli powtarzaj. Dobry zespół może przeprowadzić 30 ukierunkowanych eksperymentów miesięcznie.

Podejście autoresearch: napisz program.md definiujący twoje cele, pozwól agentowi AI przeprowadzać eksperymenty przez noc, przejrzyj wyniki rano. Jeden inżynier, jeden GPU, 100+ eksperymentów na noc.

Matematyka jest przytłaczająca. Ręczne badania produkują ~1 eksperyment dziennie na badacza. Autoresearch produkuje ~12 na godzinę. To 100-krotny wzrost przepustowości eksperymentalnej.

Poza ML: Rok z 36 500 Eksperymentami

Wzorzec wykracza poza trening modeli. Zespoły marketingowe zazwyczaj przeprowadzają około 30 eksperymentów rocznie — testy A/B, warianty treści, zmiany targetowania odbiorców. Jest to powolne, ponieważ każdy eksperyment wymaga ludzkiej konfiguracji, monitorowania i analizy.

Wcześni adopters już wyobrażają sobie świat, w którym autonomiczne agenty przeprowadzają 100 eksperymentów marketingowych dziennie, mierząc współczynniki konwersji, dostosowując treści i iterując targetowanie — wszystko kierowane przez program.md, który definiuje cele i ograniczenia marki.

To 36 500+ eksperymentów rocznie versus 30. Firmy, które jako pierwsze adoptują ten wzorzec, będą miały składającą się przewagę, którą niemal niemożliwe jest nadrobić.

Co Umożliwiło Wyniki Shopify

19% poprawa Shopify nie była przypadkiem. Kilka czynników sprawiło, że to zadziałało:

Jasne metryki. Mieli dobrze zdefiniowaną metrykę ewaluacji, którą agent mógł automatycznie mierzyć po każdym eksperymencie. Bez automatycznego pomiaru pętla się psuje.

Ograniczony zakres. Podobnie jak 630-wierszowy train.py Karpathy’ego, Shopify utrzymał modyfikowalną bazę kodu wystarczająco małą, aby LLM mógł ją w pełni zrozumieć. Nie rzucasz bazy kodu z milionem linii na agenta i nie masz nadziei na najlepsze.

Dobre instrukcje początkowe. program.md kierujący agentem był informowany wiedzą dziedzinową zespołu. Agent nie szukał losowo — eksplorował kierunki, które zespół zidentyfikował jako obiecujące.

Zaufanie do procesu. Pozwolili mu działać przez noc bez ingerencji. Pokusa sprawdzania i dostosowywania co godzinę niszczy cel autonomowego eksperymentowania.

Wzorzec Nocnego Uruchomienia

Typowa adopcja autoresearch podąża wzorcem:

Dzień 1: Skonfiguruj środowisko, napisz pierwszy program.md, uruchom kilka eksperymentów ręcznie, aby zweryfikować, że pętla działa.

Noc 1: Uruchom agenta przed wyjściem. Ustaw go na nieskończone działanie, commitowanie ulepszeń i cofanie niepowodzeń.

Ranek dnia 2: Przejrzyj logi git. Zobacz, co agent próbował, co działało, a co nie. Zaktualizuj program.md na podstawie tego, czego się nauczyłeś.

Noc 2: Uruchom ponownie z ulepszonymi instrukcjami. Agent zaczyna od najlepszego wyniku Nocy 1.

W ciągu tygodnia: Masz dopracowany program.md i dziesiątki zwalidowanych ulepszeń, które ludzkiemu zespołowi zajęłyby miesiące do odkrycia.

Branże Gotowe na Ten Wzorzec

Każda dziedzina wymagająca systematycznych eksperymentów może adoptować pętlę autoresearch:

Machine learning — oryginalny przypadek użycia. Dostrajanie hiperparametrów, wyszukiwanie architektury, eksperymenty regularyzacji.

Optymalizacja oprogramowania — dostrajanie wydajności, redukcja rozmiaru bundla, optymalizacja zapytań. Wszędzie tam, gdzie masz mierzalną metrykę i modyfikowalny kod.

Odkrywanie leków — symulacje molekularne z mierzalnym powinowactwem wiązania. Eksperyment jest obliczeniowy, metryka jest numeryczna, pętla jest automatyzowalna.

Modelowanie finansowe — backtesting strategii handlowych na danych historycznych. Jasne metryki, szybka informacja zwrotna, ogromna przestrzeń poszukiwań.

Optymalizacja treści — testy A/B nagłówków, układów i treści ze współczynnikiem konwersji jako metryką.

Przewaga Markdown

W każdym przypadku wkład człowieka jest taki sam: plik Markdown definiujący, co ma być optymalizowane, jakie ograniczenia należy respektować i jakie strategie wypróbować.

Dlatego biegłość w Markdown staje się przewagą konkurencyjną. Firmy piszące najlepsze pliki program.md to te, które uzyskują najlepsze wyniki od autonomicznych agentów. A pisanie dobrych plików program.md wymaga głębokiej wiedzy dziedzinowej zorganizowanej w formacie, który AI może konsumować.

Firmy budujące biblioteki referencyjne — zapisujące dokumentację, analizy konkurencji, artykuły badawcze i najlepsze praktyki jako czysty Markdown — mają przewagę. Gdy nadejdzie czas na napisanie program.md kierującego nocnym eksperymentem, mogą czerpać z kuratorowanej bazy wiedzy zamiast zaczynać od zera.


Save konwertuje każdą stronę internetową na czysty Markdown — budując bibliotekę wiedzy, której firmy potrzebują, aby pisać skuteczne instrukcje dla agentów AI. Wypróbuj Save za darmo.