Co gdybyś mógł uruchamiać 100 eksperymentów uczenia maszynowego w ciągu nocy — na jednym GPU — bez pisania ani linii kodu?

To dokładnie to, co robi autoresearch Andreja Karpathy’ego. Ten 630-liniowy skrypt Python, wydany 7 marca 2026, pozwala agentom AI autonomicznie modyfikować kod treningowy, uruchamiać eksperymenty, oceniać wyniki i stale się poprawiać — podczas gdy śpisz.

W ciągu dwóch dni ogłoszenie miało miliony wyświetleń. Badacze, programiści i firmy już uruchamiały własne nocne eksperymenty.

Oto jak to działa i dlaczego ma to znaczenie.

Główna Pętla

Projekt autoresearch jest elegancki w swojej prostocie:

Czytaj plik program.md (twoje instrukcje Markdown)
Modyfikuj train.py na podstawie tych instrukcji
Trenuj przez dokładnie 5 minut
Mierz wynik (strata walidacyjna)
Zachowaj lub odrzuć — jeśli metryka się poprawiła, commituj; jeśli nie, git reset
Powtarzaj w nieskończoność

Przy około 12 eksperymentach na godzinę, w sesji nocnej przeprowadzasz około 100 eksperymentów. Każde udane ulepszenie buduje na poprzednim, tworząc efekt złożony.

Czego Potrzebujesz

Bariera wejścia jest zadziwiająco niska:

Jedno GPU — cały system jest zaprojektowany do treningu na jednym GPU
630 linii Python — wystarczająco mały, aby zmieścić się w oknie kontekstowym LLM
Klucz API LLM — Claude, GPT lub inny zdolny model
Plik program.md — twoje instrukcje Markdown mówiące agentowi, co optymalizować

To wszystko. Żadnego klastra. Żadnej konfiguracji treningu rozproszonego. Żadnego zespołu inżynierów ML. Jedna osoba, jedno GPU, jeden plik Markdown.

Rzeczywiste Wyniki

Karpathy pozwolił autoresearch działać przez około dwa dni na modelu depth-12. Agent AI autonomicznie odkrył około 20 ulepszeń:

Czas treningu dla benchmarku GPT-2 spadł z 2,02 godziny do 1,80 godziny
11% poprawa bez interwencji człowieka
Agent znalazł problemy, które ludzie przeoczyli: mechanizmy uwagi pozbawione właściwego skalowania, brakująca regularyzacja i nieoptymalnych hiperparametrów

Kluczowe spostrzeżenie: agent odkrył rzeczy, których doświadczeni badacze ML nie zauważyli. Nie dlatego, że jest mądrzejszy, ale dlatego, że mógł wypróbować 100 wariantów tam, gdzie człowiek mógłby wypróbować 5.

Dlaczego 630 Linii Ma Znaczenie

Baza kodu jest celowo mała. Przy ~630 liniach cały plik train.py mieści się w oknie kontekstowym LLM. To krytyczna decyzja projektowa.

Jeśli agent może zobaczyć cały system naraz, może dokonywać inteligentnych modyfikacji. Rozumie, jak szybkość uczenia się współdziała z rozmiarem batcha, jak mechanizm uwagi łączy się z warstwą wyjściową, jak jedna zmiana przenika przez cały potok treningowy.

Daj agentowi AI bazę kodu o 50 000 liniach a wprowadza lokalne zmiany, które mogą nie mieć sensu globalnie. Daj mu 630 linii a może rozumować o całym systemie.

Budżet 5 Minut

Każdy eksperyment trwa dokładnie 5 minut. To ograniczenie jest genialne:

Sprawia, że eksperymenty są porównywalne. Jeśli jeden przebieg trwa 3 minuty, a drugi 20, nie możesz sprawiedliwie porównać ich wyników. Stały budżet czasu oznacza, że każde ulepszenie jest mierzone na równych warunkach.

Umożliwia szybką iterację. 5 minut to wystarczająco długo, aby zobaczyć znaczący postęp treningowy, ale wystarczająco krótko, aby przeprowadzić 12 eksperymentów na godzinę.

Zapobiega niekontrolowanym kosztom. Bez limitu czasu agent może trenować przez godziny na jednej obiecującej zmianie. Limit 5 minut utrzymuje pętlę zwrotną ciasną.

Pamięć Git

Każdy eksperyment to commit git. Daje to systemowi pamięć:

Udane zmiany są commitowane na gałęzi feature, budując łańcuch ulepszeń
Nieudane eksperymenty są przywracane z git reset, nie pozostawiając śladów
Historia pokazuje dokładnie, co próbowano, co działało i co nie

Oznacza to, że możesz przeglądać pracę agenta jako serię commitów git. Każdy komunikat commitu wyjaśnia, co agent zmienił i dlaczego. To kompletny ślad audytu autonomicznych badań.

Poza ML: Wzorzec, który Ma Znaczenie

Autoresearch dotyczy trenowania modeli językowych, ale wzorzec, który wprowadza, jest uniwersalny:

Człowiek pisze instrukcje Markdown → Agent AI wykonuje autonomicznie → Wyniki są mierzone i zachowywane/odrzucane → Pętla się powtarza

Ten wzorzec działa dla każdej dziedziny, gdzie możesz:

Definiować jasne cele w języku naturalnym
Mierzyć sukces automatycznie
Zachowywać lub odrzucać zmiany na podstawie wyników

Firmy już stosują ten wzorzec poza badaniami ML — do optymalizacji kodu, eksperymentów marketingowych i rozwoju produktów.

Podejście Markdown-Pierwszego

W centrum autoresearch znajduje się plik Markdown. Nie Python. Nie YAML. Nie GUI. Zwykły plik tekstowy, który każdy może czytać i edytować.

Ma to znaczenie, ponieważ obniża barierę kierowania badaniami AI. Nie musisz być inżynierem ML, aby napisać program.md. Musisz rozumieć problem, cele i ograniczenia. Agent zajmuje się implementacją.

Zmiana umiejętności jest jasna: od wiedzenia jak pisać kod treningowy do wiedzenia jak pisać skuteczne instrukcje dla agentów.

Pierwsze Kroki

Jeśli chcesz wypróbować wzorzec autoresearch (nawet poza ML), zacznij od tych kroków:

Zdefiniuj swoją metrykę. Co oznacza “lepiej” i jak to zmierzysz automatycznie?
Napisz swój program.md. Ustaw cele, ograniczenia i strategię w jasnym Markdown.
Utrzymuj mały zakres. Tak jak baza kodu autoresearch o 630 liniach, mniejsze systemy dają lepsze wyniki.
Pozwól mu działać. Chodzi o autonomiczne działanie. Opieraj się chęci interwencji.
Przejrzyj wyniki. Sprawdź historię git, aby zobaczyć, co agent próbował i co działało.

Budowanie Wiedzy do Pisania Dobrych Instrukcji

Jakość twojego program.md zależy od twojej wiedzy dziedzinowej. Im więcej rozumiesz o przestrzeni problemowej, tym lepsze będą twoje instrukcje.

Tutaj posiadanie wyselekcjonowanej biblioteki materiałów referencyjnych w formacie Markdown staje się cenne. Dokumentacja, artykuły, posty na blogu i przykłady — wszystko zapisane jako czysty Markdown, gotowe do informowania instrukcji agentów.

Save konwertuje dowolną stronę internetową do czystego Markdown — budując bibliotekę referencyjną potrzebną do pisania skutecznych instrukcji agentów AI. Wypróbuj Save za darmo.