과학적 발견으로서의 Git Commit: Autoresearch가 버전 관리를 연구 실험실로 바꾸는 방법

전통적인 소프트웨어 개발에서 git commit은 “이 코드가 작동한다”를 의미합니다. Karpathy의 autoresearch에서 git commit은 다른 것을 의미합니다: “이 변경이 모델을 측정 가능하게 더 좋게 만들었다.”

모든 commit은 작은 과학적 발견입니다. 모든 git reset은 통하지 않은 가설입니다. git log는 AI 에이전트가 자동으로 작성하는 연구 일지가 됩니다.

이것이 연구 도구로 재구성된 버전 관리입니다.

이진 결정

autoresearch의 git 사용은 우아하게 단순합니다:

에이전트가 train.py 수정
훈련이 5분간 실행
검증 손실 측정
향상되면: git commit --- 변경 사항 유지
향상되지 않으면: git reset --- 변경 사항은 없었던 것처럼

풀 리퀘스트 없음. 코드 리뷰 없음. 병합 충돌 없음. 단지 이진 결정: 이 변경이 상황을 더 좋게 만들었는가 아닌가?

이것은 깨끗하고 선형적인 개선 이력을 만듭니다. 로그의 각 commit은 검증된 앞으로의 단계를 나타냅니다. 노이즈가 없습니다 --- “WIP” commit 없음, “fix typo” commit 없음, “revert revert” 체인 없음. 각각이 모델을 측정 가능하게 더 좋게 만든 변경들의 시퀀스만 있습니다.

연구 일지로서의 Git Log

하룻밤 autoresearch 세션 후에 git log는 연구 노트처럼 읽힙니다:

각 commit 메시지 (AI 에이전트가 작성한)는 무엇이 변경되었고 어떤 효과가 있었는지 설명합니다. diff는 정확히 어떤 코드가 수정되었는지 보여줍니다. 검증 손실의 개선이 기록됩니다.

이것은 전통적인 ML 연구보다 급진적으로 더 감사할 수 있습니다. “learning rate 조정 시도, 도움이 된 것 같음”이라고 말하는 연구자의 메모 대신, 정확한 diff, 정확한 측정값, 재현 가능한 결과를 갖습니다.

세션 간 메모리

Git는 autoresearch에 AI 에이전트가 절실히 필요로 하는 것을 제공합니다: 영속적 메모리.

새로운 autoresearch 세션을 시작할 때, 에이전트는 이전에 시도된 것을 이해하기 위해 git 이력을 읽을 수 있습니다. 어떤 방향이 개선을 가져왔고 어떤 것이 그렇지 않았는지 볼 수 있습니다. 이것은 에이전트가 실패한 실험을 다시 시��하는 것을 방지하고 효과가 있었던 것을 기반으로 구축하는 데 도움이 됩니다.

이것이 Markdown과 git이 함께 작동하는 것입니다: program.md 파일은 전략적 방향을 제공하고 (무엇을 시도할지), git 이력은 전술적 컨텍스트를 제공합니다 (무엇이 시도되었는지).

복리 효과

성공적인 각 commit이 새로운 기준이 되기 때문에, 개선이 복합됩니다. 에이전트는 매밤 처음부터 시작하지 않습니다 --- 지금까지 달성한 최고의 결과에서 시작합니다.

Karpathy의 이틀 실행에서 약 20개의 개선이 누적되었습니다. 각각은 작았지만, 함께 GPT-2 훈련 시간을 11% 줄였습니다. 에이전트는 서로 기반으로 구축된 attention scaling, 정규화, 하이퍼파라미터에서 최적화를 찾았습니다.

이것이 git 기반 접근의 힘입니다: 자연스럽게 래칫을 만듭니다. 진행이 commit으로 잠깁니다. 실패는 폐기됩니다. 코드베이스는 앞으로만 나아갑니다.

되돌려진 것들

실패한 실험들 --- git reset 작업들 --- 은 성공만큼 흥미롭습니다. 일반적인 하룻밤 실행에서 약 70-80%의 실험이 되돌려집니다.

이 되돌려진 실험들은 낭비되지 않습니다. 에이전트의 미래 결정에 정보를 제공하는 부정적 결과입니다. 교차 에이전트 메모리와 공유 git 이력을 통해, 분산 autoresearch 시스템은 전체 무리 전반의 실패로부터 배울 수 있습니다.

실험 데이터베이스로서의 Git

전통적인 ML 연구는 실험 추적 도구들을 사용합니다 --- MLflow, Weights & Biases, Neptune --- 하이퍼파라미터, 메트릭, 아티팩트를 기록하기 위해.

Autoresearch는 이 모든 것을 git으로 대체합니다. commit 이력이 실험 로그입니다. diff들이 하이퍼파라미터 변경들입니다. commit 메시지들이 실험 설명들입니다.

이 단순화는 강력합니다. 유지해야 할 별도의 실험 데이터베이스가 없습니다. 구성할 대시보드가 없습니다. 정의할 스키마가 없습니다. 모든 개발자가 이미 아는 git만 있습니다.

더 넓은 패턴

git-연구일지 패턴은 ML 훈련 너머에서도 작동합니다:

코드 최적화: 각 commit은 코드를 더 빠르게 만든 변경을 나타냄
테스트 커버리지: 각 commit은 테스트 커버리지를 향상시킨 변경을 나타냄
버그 수정: 각 commit은 실패한 테스트를 해결한 수정을 나타냄
콘텐츠 최적화: 각 commit은 측정 가능한 메트릭을 향상시킨 변경을 나타냄

“더 좋다”와 “더 나쁘다”를 자동으로 측정할 수 있는 어떤 도메인이든 git을 실험 추적기로 사용할 수 있습니다.

인간의 역할: 로그 읽기

에이전틱 엔지니어링에서, 하룻밤 autoresearch 세션 후 인간의 아침 루틴은 git log를 읽는 것입니다.

이것은 코드를 작성하는 것과는 다른 기술입니다. AI 생성 변경들의 시리즈를 평가하고, 각각이 왜 작동했는지 이해하고, 전반적인 방향이 올바른지 ��정합니다. 이 검토를 바탕으로 다음 세션을 안내하기 위해 program.md를 업데이트합니다.

git log는 인간과 에이전트 사이의 커뮤니케이션 채널입니다. 에이전트는 commit을 통해 소통합니다. 인간은 program.md 업데이트를 통해 소통합니다. Markdown은 양방향으로 흐릅니다.

Git 친화적 지식 구축

효과적인 program.md 파일 작성 --- 깨끗하고 의미 있는 git 이력을 생성하는 종류 --- 는 도메인과 도구 모두를 이해해야 합니다. 최고의 에이전트 지침은 문제 공간을 깊이 연구한 사람들에게서 나옵니다.

참조 자료를 깨끗한 Markdown으로 저장하면 에이전트 지침을 작성할 때 활용할 수 있는 지식 베이스가 만들어집니다. 문서, 연구 논문, 모범 사례 모두 program.md로 자연스럽게 흐르고 궁극적으로 발견의 git 이력으로 흐르는 형식으로.

Save는 어떤 웹페이지든 깨끗한 Markdown으로 변환합니다 --- 효과적인 AI 에이전트 지침과 자율 연구를 구동하는 지식 라이브러리를 구축합니다. Save 무료로 사용해보기.

과학적 발견으로서의 Git Commit: Autoresearch가 버전 관리를 연구 실험실로 바꾸는 방법

이진 결정

연구 일지로서의 Git Log

세션 간 메모리

복리 효과

되돌려진 것들

실험 데이터베이스로서의 Git

더 넓은 패턴

인간의 역할: 로그 읽기

Git 친화적 지식 구축

## Continue reading

모두를 위한 Autoresearch: 자는 동안 100가지 AI 실험 실행하기

좋은 program.md 작성 방법: AI 에이전트 지침을 위한 실용 가이드

Karpathy의 Autoresearch & PROGRAM.md: 잠자는 동안 실험을 실행하는 AI

README.md에서 PROGRAM.md로: Markdown이 이제 프로그래밍 언어가 되다

Jean-Sébastien Wallez