모두를 위한 Autoresearch: 자는 동안 100가지 AI 실험 실행하기
단 하나의 GPU로, 코드 한 줄 작성 없이 하룻밤 사이에 100가지 머신러닝 실험을 실행할 수 있다면 어떨까요?
그것이 바로 Andrej Karpathy의 autoresearch가 하는 일입니다. 2026년 3월 7일 공개된 이 630줄 Python 스크립트는 AI 에이전트가 자율적으로 학습 코드를 수정하고, 실험을 실행하고, 결과를 평가하고, 계속 개선합니다 --- 당신이 자는 동안 모두.
이틀 만에 발표는 수백만 건의 조회수를 기록했습니다. 연구자, 개발자, 기업들은 이미 자신들의 야간 실험을 실행하고 있었습니다.
작동 방식과 왜 중요한지 알아봅시다.
핵심 루프
autoresearch의 설계는 간결함에서 우아합니다:
program.md파일 읽기 (Markdown 지시사항)- 그 지시사항을 바탕으로
train.py수정 - 정확히 5분 동안 학습
- 결과 측정 (검증 손실)
- 유지 또는 폐기 --- 메트릭이 개선되었으면 커밋; 아니면 git reset
- 무한 반복
시간당 약 12번의 실험으로, 하룻밤 세션에서 약 100번의 실험을 얻습니다. 각 성공적인 개선은 마지막 것 위에 구축되어 복리 효과를 만듭니다.
필요한 것
진입 장벽은 놀랍도록 낮습니다:
- GPU 하나 --- 전체 시스템이 단일 GPU 학습을 위해 설계됨
- 630줄의 Python --- 어떤 LLM의 컨텍스트 창에도 들어갈 만큼 작음
- LLM API 키 --- Claude, GPT, 또는 다른 유능한 모델
program.md파일 --- 에이전트에게 무엇을 최적화할지 알려주는 Markdown 지시사항
그게 전부입니다. 클러스터 없음. 분산 학습 설정 없음. ML 엔지니어링 팀 없음. 한 사람, GPU 하나, Markdown 파일 하나.
실제 결과
Karpathy는 깊이 12 모델에서 약 이틀 동안 autoresearch를 실행했습니다. AI 에이전트는 자율적으로 약 20가지 개선을 발견했습니다:
- GPT-2 벤치마크의 학습 시간이 2.02시간에서 1.80시간으로 감소
- 인간 개입 없이 11% 개선
- 에이전트가 인간이 놓쳤던 문제 발견: 적절한 스케일링이 없는 어텐션 메커니즘, 누락된 정규화, 비최적 하이퍼파라미터
핵심 통찰: 에이전트는 경험 있는 ML 연구자들이 알아채지 못한 것들을 발견했습니다. 더 똑똑해서가 아니라, 인간이 5가지를 시도할 곳에서 100가지 변형을 시도할 수 있었기 때문입니다.
630줄이 중요한 이유
코드베이스는 의도적으로 작습니다. ~630줄에서 전체 train.py 파일이 LLM의 컨텍스트 창에 들어갑니다. 이것은 중요한 설계 결정입니다.
에이전트가 전체 시스템을 한 번에 볼 수 있다면, 지능적인 수정을 할 수 있습니다. 학습률이 배치 크기와 어떻게 상호작용하는지, 어텐션 메커니즘이 출력 레이어에 어떻게 연결되는지, 한 변경이 전체 학습 파이프라인을 통해 어떻게 파급되는지 이해합니다.
50,000줄 코드베이스를 AI 에이전트에게 주면 전체적으로 의미가 없을 수 있는 로컬 변경을 합니다. 630줄을 주면 전체 시스템에 대해 추론할 수 있습니다.
5분 예산
모든 실험은 정확히 5분 동안 실행됩니다. 이 제약은 훌륭합니다:
실험을 비교 가능하게 만듭니다. 한 실행이 3분, 다른 것이 20분 걸린다면 결과를 공정하게 비교할 수 없습니다. 고정된 시간 예산은 모든 개선이 동등한 조건에서 측정됨을 의미합니다.
빠른 반복을 가능하게 합니다. 5분은 의미 있는 학습 진행을 볼 만큼 길지만 시간당 12번의 실험을 실행할 만큼 짧습니다.
비용 폭주를 방지합니다. 시간 제한 없이는 에이전트가 하나의 유망한 변경에 대해 수 시간 동안 학습할 수 있습니다. 5분 제한은 피드백 루프를 타이트하게 유지합니다.
Git 메모리
모든 실험은 git 커밋입니다. 이것이 시스템에 메모리를 제공합니다:
- 성공적인 변경은 피처 브랜치에 커밋되어 개선의 체인을 구축
- 실패한 실험은
git reset으로 되돌려져 흔적을 남기지 않음 - 히스토리는 무엇이 시도되었고, 무엇이 작동했으며, 무엇이 안 되었는지 정확히 보여줌
이것은 에이전트의 작업을 일련의 git 커밋으로 검토할 수 있음을 의미합니다. 각 커밋 메시지는 에이전트가 무엇을 변경했고 왜인지 설명합니다. 자율 연구의 완전한 감사 추적입니다.
ML 너머: 중요한 패턴
autoresearch는 언어 모델 학습에 관한 것이지만, 도입하는 패턴은 보편적입니다:
인간이 Markdown 지시사항 작성 → AI 에이전트가 자율적으로 실행 → 결과 측정 및 유지/폐기 → 루프 반복
이 패턴은 다음이 가능한 모든 도메인에서 작동합니다:
- 자연어로 명확한 목표 정의
- 성공 자동 측정
- 결과에 따라 변경 유지 또는 폐기
기업들은 이미 ML 연구 너머로 이 패턴을 적용하고 있습니다 --- 코드 최적화, 마케팅 실험, 제품 개발에.
Markdown 우선 접근 방식
autoresearch의 중심에는 Markdown 파일이 있습니다. Python이 아닙니다. YAML이 아닙니다. GUI가 아닙니다. 누구나 읽고 편집할 수 있는 일반 텍스트 파일.
이것이 중요한 이유는 AI 연구를 지시하는 장벽을 낮추기 때문입니다. program.md를 작성하기 위해 ML 엔지니어일 필요가 없습니다. 문제, 목표, 제약을 이해해야 합니다. 에이전트가 구현을 처리합니다.
기술 전환은 명확합니다: 학습 코드 작성 방법을 아는 것에서 효과적인 에이전트 지시사항 작성 방법을 아는 것으로.
시작하기
autoresearch 패턴을 시도하고 싶다면 (ML 외부에서도), 다음 단계로 시작하세요:
- 메트릭 정의. “더 낫다”는 것이 무엇을 의미하며, 어떻게 자동으로 측정하나요?
- program.md 작성. 명확한 Markdown으로 목표, 제약, 전략 설정.
- 범위를 작게 유지. autoresearch의 630줄 코드베이스처럼, 더 작은 시스템이 더 나은 결과를 줍니다.
- 실행하게 두세요. 핵심은 자율 운영입니다. 개입 충동을 억제하세요.
- 결과 검토. git 히스토리를 확인하여 에이전트가 무엇을 시도했고 무엇이 작동했는지 확인.
좋은 지시사항 작성을 위한 지식 구축
program.md의 품질은 도메인 지식에 달려 있습니다. 문제 공간을 더 잘 이해할수록 지시사항이 더 좋아집니다.
Markdown 형식으로 큐레이션된 참조 자료 라이브러리를 갖추는 것이 가치 있어지는 곳입니다. 문서, 논문, 블로그 게시물, 예시 --- 모두 깔끔한 Markdown으로 저장되어 에이전트 지시사항을 알리는 데 준비됩니다.
Save는 어떤 웹페이지든 깔끔한 Markdown으로 변환합니다 --- 효과적인 AI 에이전트 지시사항을 작성하는 데 필요한 참조 라이브러리 구축. Save 무료로 사용해보기.