단 하나의 GPU로, 코드 한 줄 작성 없이 하룻밤 사이에 100가지 머신러닝 실험을 실행할 수 있다면 어떨까요?

그것이 바로 Andrej Karpathy의 autoresearch가 하는 일입니다. 2026년 3월 7일 공개된 이 630줄 Python 스크립트는 AI 에이전트가 자율적으로 학습 코드를 수정하고, 실험을 실행하고, 결과를 평가하고, 계속 개선합니다 --- 당신이 자는 동안 모두.

이틀 만에 발표는 수백만 건의 조회수를 기록했습니다. 연구자, 개발자, 기업들은 이미 자신들의 야간 실험을 실행하고 있었습니다.

작동 방식과 왜 중요한지 알아봅시다.

핵심 루프

autoresearch의 설계는 간결함에서 우아합니다:

program.md 파일 읽기 (Markdown 지시사항)
그 지시사항을 바탕으로 train.py 수정
정확히 5분 동안 학습
결과 측정 (검증 손실)
유지 또는 폐기 --- 메트릭이 개선되었으면 커밋; 아니면 git reset
무한 반복

시간당 약 12번의 실험으로, 하룻밤 세션에서 약 100번의 실험을 얻습니다. 각 성공적인 개선은 마지막 것 위에 구축되어 복리 효과를 만듭니다.

필요한 것

진입 장벽은 놀랍도록 낮습니다:

GPU 하나 --- 전체 시스템이 단일 GPU 학습을 위해 설계됨
630줄의 Python --- 어떤 LLM의 컨텍스트 창에도 들어갈 만큼 작음
LLM API 키 --- Claude, GPT, 또는 다른 유능한 모델
program.md 파일 --- 에이전트에게 무엇을 최적화할지 알려주는 Markdown 지시사항

그게 전부입니다. 클러스터 없음. 분산 학습 설정 없음. ML 엔지니어링 팀 없음. 한 사람, GPU 하나, Markdown 파일 하나.

실제 결과

Karpathy는 깊이 12 모델에서 약 이틀 동안 autoresearch를 실행했습니다. AI 에이전트는 자율적으로 약 20가지 개선을 발견했습니다:

GPT-2 벤치마크의 학습 시간이 2.02시간에서 1.80시간으로 감소
인간 개입 없이 11% 개선
에이전트가 인간이 놓쳤던 문제 발견: 적절한 스케일링이 없는 어텐션 메커니즘, 누락된 정규화, 비최적 하이퍼파라미터

핵심 통찰: 에이전트는 경험 있는 ML 연구자들이 알아채지 못한 것들을 발견했습니다. 더 똑똑해서가 아니라, 인간이 5가지를 시도할 곳에서 100가지 변형을 시도할 수 있었기 때문입니다.

630줄이 중요한 이유

코드베이스는 의도적으로 작습니다. ~630줄에서 전체 train.py 파일이 LLM의 컨텍스트 창에 들어갑니다. 이것은 중요한 설계 결정입니다.

에이전트가 전체 시스템을 한 번에 볼 수 있다면, 지능적인 수정을 할 수 있습니다. 학습률이 배치 크기와 어떻게 상호작용하는지, 어텐션 메커니즘이 출력 레이어에 어떻게 연결되는지, 한 변경이 전체 학습 파이프라인을 통해 어떻게 파급되는지 이해합니다.

50,000줄 코드베이스를 AI 에이전트에게 주면 전체적으로 의미가 없을 수 있는 로컬 변경을 합니다. 630줄을 주면 전체 시스템에 대해 추론할 수 있습니다.

5분 예산

모든 실험은 정확히 5분 동안 실행됩니다. 이 제약은 훌륭합니다:

실험을 비교 가능하게 만듭니다. 한 실행이 3분, 다른 것이 20분 걸린다면 결과를 공정하게 비교할 수 없습니다. 고정된 시간 예산은 모든 개선이 동등한 조건에서 측정됨을 의미합니다.

빠른 반복을 가능하게 합니다. 5분은 의미 있는 학습 진행을 볼 만큼 길지만 시간당 12번의 실험을 실행할 만큼 짧습니다.

비용 폭주를 방지합니다. 시간 제한 없이는 에이전트가 하나의 유망한 변경에 대해 수 시간 동안 학습할 수 있습니다. 5분 제한은 피드백 루프를 타이트하게 유지합니다.

Git 메모리

모든 실험은 git 커밋입니다. 이것이 시스템에 메모리를 제공합니다:

성공적인 변경은 피처 브랜치에 커밋되어 개선의 체인을 구축
실패한 실험은 git reset으로 되돌려져 흔적을 남기지 않음
히스토리는 무엇이 시도되었고, 무엇이 작동했으며, 무엇이 안 되었는지 정확히 보여줌

이것은 에이전트의 작업을 일련의 git 커밋으로 검토할 수 있음을 의미합니다. 각 커밋 메시지는 에이전트가 무엇을 변경했고 왜인지 설명합니다. 자율 연구의 완전한 감사 추적입니다.

ML 너머: 중요한 패턴

autoresearch는 언어 모델 학습에 관한 것이지만, 도입하는 패턴은 보편적입니다:

인간이 Markdown 지시사항 작성 → AI 에이전트가 자율적으로 실행 → 결과 측정 및 유지/폐기 → 루프 반복

이 패턴은 다음이 가능한 모든 도메인에서 작동합니다:

자연어로 명확한 목표 정의
성공 자동 측정
결과에 따라 변경 유지 또는 폐기

기업들은 이미 ML 연구 너머로 이 패턴을 적용하고 있습니다 --- 코드 최적화, 마케팅 실험, 제품 개발에.

Markdown 우선 접근 방식

autoresearch의 중심에는 Markdown 파일이 있습니다. Python이 아닙니다. YAML이 아닙니다. GUI가 아닙니다. 누구나 읽고 편집할 수 있는 일반 텍스트 파일.

이것이 중요한 이유는 AI 연구를 지시하는 장벽을 낮추기 때문입니다. program.md를 작성하기 위해 ML 엔지니어일 필요가 없습니다. 문제, 목표, 제약을 이해해야 합니다. 에이전트가 구현을 처리합니다.

기술 전환은 명확합니다: 학습 코드 작성 방법을 아는 것에서 효과적인 에이전트 지시사항 작성 방법을 아는 것으로.

시작하기

autoresearch 패턴을 시도하고 싶다면 (ML 외부에서도), 다음 단계로 시작하세요:

메트릭 정의. “더 낫다”는 것이 무엇을 의미하며, 어떻게 자동으로 측정하나요?
program.md 작성. 명확한 Markdown으로 목표, 제약, 전략 설정.
범위를 작게 유지. autoresearch의 630줄 코드베이스처럼, 더 작은 시스템이 더 나은 결과를 줍니다.
실행하게 두세요. 핵심은 자율 운영입니다. 개입 충동을 억제하세요.
결과 검토. git 히스토리를 확인하여 에이전트가 무엇을 시도했고 무엇이 작동했는지 확인.

좋은 지시사항 작성을 위한 지식 구축

program.md의 품질은 도메인 지식에 달려 있습니다. 문제 공간을 더 잘 이해할수록 지시사항이 더 좋아집니다.

Markdown 형식으로 큐레이션된 참조 자료 라이브러리를 갖추는 것이 가치 있어지는 곳입니다. 문서, 논문, 블로그 게시물, 예시 --- 모두 깔끔한 Markdown으로 저장되어 에이전트 지시사항을 알리는 데 준비됩니다.

Save는 어떤 웹페이지든 깔끔한 Markdown으로 변환합니다 --- 효과적인 AI 에이전트 지시사항을 작성하는 데 필요한 참조 라이브러리 구축. Save 무료로 사용해보기.