Git Commit jako Odkrycie Naukowe: Jak Autoresearch Zamienia Kontrolę Wersji w Laboratorium Badawcze

W tradycyjnym tworzeniu oprogramowania git commit oznacza “ten kod działa.” W autoresearchu Karpathy’ego git commit oznacza coś innego: “ta zmiana sprawiła, że model jest wymiernie lepszy.”

Każdy commit to małe odkrycie naukowe. Każdy git reset to hipoteza, która się nie sprawdziła. Dziennik git staje się dziennikiem badań, automatycznie pisanym przez agenta AI.

To kontrola wersji przemyślana na nowo jako narzędzie badawcze.

Decyzja Binarna

Użycie gita przez autoresearch jest elegancko proste:

Agent modyfikuje train.py
Trening działa przez 5 minut
Mierzy się stratę walidacyjną
Jeśli poprawiona: git commit --- zmiana jest zachowana
Jeśli nie poprawiona: git reset --- zmiana nigdy nie nastąpiła

Żadnych pull requestów. Żadnego code review. Żadnych konfliktów scalania. Tylko binarna decyzja: czy ta zmiana sprawiła, że rzeczy są lepsze czy nie?

Tworzy to czystą, liniową historię ulepszeń. Każdy commit w dzienniku reprezentuje zwalidowany krok naprzód. Nie ma szumu --- żadnych commitów “WIP”, żadnych commitów “naprawienie literówki”, żadnych łańcuchów “revert revert”. Tylko sekwencja zmian, które każda z osobna sprawiła, że model był wymiernie lepszy.

Dziennik Git jako Notatnik Badawczy

Po nocnej sesji autoresearch dziennik git czyta się jak notatnik badawczy:

Każda wiadomość commita (napisana przez agenta AI) opisuje, co zostało zmienione i jaki miało efekt. Diff pokazuje dokładnie, który kod został zmodyfikowany. Poprawa w stracie walidacyjnej jest zapisana.

Jest to radykalnie bardziej audytowalne niż tradycyjne badania ML. Zamiast notatek badacza mówiących “próbowałem dostosować szybkość uczenia, zdawało się pomagać”, masz dokładny diff, dokładny pomiar i odtwarzalny wynik.

Pamięć Między Sesjami

Git daje autoresearchowi coś, czego agenty AI desperacko potrzebują: trwałą pamięć.

Gdy zaczynasz nową sesję autoresearchu, agent może czytać historię git, aby zrozumieć, co było wcześniej próbowane. Może zobaczyć, które kierunki przyniosły ulepszenia, a które nie. Zapobiega to ponownemu próbowaniu przez agenta nieudanych eksperymentów i pomaga mu budować na tym, co zadziałało.

To właśnie Markdown plus git działające razem: plik program.md zapewnia strategiczny kierunek (co próbować), a historia git zapewnia kontekst taktyczny (co było próbowane).

Efekt Kumulacyjny

Ponieważ każdy udany commit staje się nową linią bazową, ulepszenia się kumulują. Agent nie zaczyna od zera każdej nocy --- zaczyna od najlepszego wyniku osiągniętego do tej pory.

W dwudniowym uruchomieniu Karpathy’ego nagromadziło się około 20 ulepszeń. Każde było małe, ale razem zmniejszyły czas trenowania GPT-2 o 11%. Agent znalazł optymalizacje w skalowaniu uwagi, regularyzacji i hiperparametrach, które budowały na sobie nawzajem.

To właśnie jest siła podejścia opartego na git: naturalnie tworzy rygiel. Postęp jest zablokowany jako commity. Niepowodzenia są odrzucane. Baza kodu przesuwa się tylko do przodu.

Co Jest Cofane

Nieudane eksperymenty --- operacje git reset --- są równie interesujące jak sukcesy. W typowym nocnym uruchomieniu około 70-80% eksperymentów jest cofanych.

Te cofnięte eksperymenty nie są zmarnowane. Są to wyniki negatywne, które informują przyszłe decyzje agenta. Dzięki pamięci cross-agentowej i wspólnej historii git, rozproszony system autoresearchu może uczyć się na niepowodzeniach w całym roju.

Git jako Baza Danych Eksperymentów

Tradycyjne badania ML używają narzędzi do śledzenia eksperymentów --- MLflow, Weights & Biases, Neptune --- do logowania hiperparametrów, metryk i artefaktów.

Autoresearch zastępuje to wszystko gitem. Historia commitów JEST dziennikiem eksperymentów. Diffy SĄ zmianami hiperparametrów. Wiadomości commitów SĄ opisami eksperymentów.

To uproszczenie jest potężne. Nie ma oddzielnej bazy danych eksperymentów do utrzymania. Żadnego dashboardu do konfiguracji. Żadnego schematu do zdefiniowania. Tylko git, który każdy deweloper już zna.

Szerszy Wzorzec

Wzorzec git-jako-notatnik-badawczy działa poza treningiem ML:

Optymalizacja kodu: Każdy commit reprezentuje zmianę, która sprawiła, że kod jest szybszy
Pokrycie testami: Każdy commit reprezentuje zmianę, która poprawiła pokrycie testami
Naprawianie błędów: Każdy commit reprezentuje naprawkę, która rozwiązała nieudany test
Optymalizacja treści: Każdy commit reprezentuje zmianę, która poprawiła wymierną metrykę

Każda dziedzina, gdzie można automatycznie mierzyć “lepsze” i “gorsze”, może używać gita jako narzędzia do śledzenia eksperymentów.

Rola Człowieka: Czytanie Dziennika

W inżynierii agentowej poranną rutyną człowieka po nocnej sesji autoresearchu jest czytanie dziennika git.

To inna umiejętność niż pisanie kodu. Oceniasz serię zmian wygenerowanych przez AI, rozumiesz, dlaczego każda z nich zadziałała, i decydujesz, czy ogólny kierunek jest prawidłowy. Na podstawie tej recenzji aktualizujesz swój program.md, aby kierować następną sesją.

Dziennik git jest kanałem komunikacji między człowiekiem a agentem. Agent komunikuje się przez commity. Człowiek komunikuje się przez aktualizacje program.md. Markdown przepływa w obu kierunkach.

Budowanie Wiedzy Przyjaznej dla Git

Pisanie skutecznych plików program.md --- takich, które produkują czyste, znaczące historie git --- wymaga zrozumienia zarówno domeny, jak i narzędzi. Najlepsze instrukcje agentowe pochodzą od ludzi, którzy głęboko zbadali przestrzeń problemową.

Zapisywanie materiałów referencyjnych jako czysty Markdown tworzy bazę wiedzy, z której można czerpać przy pisaniu instrukcji dla agentów. Dokumentacja, artykuły badawcze i najlepsze praktyki, wszystko w formacie, który naturalnie przepływa do program.md, a ostatecznie do historii git odkryć.

Save konwertuje dowolną stronę internetową na czysty Markdown --- buduje bibliotekę wiedzy, która zasila skuteczne instrukcje agentów AI i autonomiczne badania. Wypróbuj Save za darmo.

Git Commit jako Odkrycie Naukowe: Jak Autoresearch Zamienia Kontrolę Wersji w Laboratorium Badawcze

Decyzja Binarna

Dziennik Git jako Notatnik Badawczy

Pamięć Między Sesjami

Efekt Kumulacyjny

Co Jest Cofane

Git jako Baza Danych Eksperymentów

Szerszy Wzorzec

Rola Człowieka: Czytanie Dziennika

Budowanie Wiedzy Przyjaznej dla Git

## Continue reading

Autoresearch dla Wszystkich: Jak Uruchamiać 100 Eksperymentów AI Gdy Śpisz

Jak Napisać Dobry program.md: Praktyczny Przewodnik po Instrukcjach dla Agentów AI

Autoresearch i PROGRAM.md Karpathy'ego: AI Prowadzące Eksperymenty Podczas Gdy Śpisz

Od README.md do PROGRAM.md: Markdown jest teraz językiem programowania

Jean-Sébastien Wallez