Karpathy의 Autoresearch & PROGRAM.md: 잠자는 동안 실험을 실행하는 AI

2026년 3월 7일, 전 Tesla AI 디렉터이자 OpenAI 공동 창업자인 Andrej Karpathy가 AI 세계를 뒤흔든 레포를 공개했습니다: autoresearch.

아이디어는 놀랍도록 단순합니다: AI 에이전트에게 작지만 실제 LLM 훈련 설정을 주고 밤새 자율적으로 실험을 실행하게 합니다. 코드를 수정하고, 5분 동안 훈련하고, 결과가 개선되었는지 확인하고, 변경 사항을 유지하거나 버리고, 반복합니다.

당신이 자는 동안 100번의 실험. 인간 개입 제로.

하지만 여기에 프로그래밍의 미래와 관련된 중요한 부분이 있습니다: 인간은 Python을 작성하지 않습니다. 인간은 Markdown 파일을 작성합니다.

program.md란 무엇인가?

autoresearch의 핵심에는 program.md라는 파일이 있습니다. 이것은 AI 에이전트의 지침서 역할을 하는 Markdown 문서입니다.

연구자는 Python에서 하이퍼파라미터를 수동으로 조정하거나, 학습률을 조정하거나, 신경망 아키텍처를 수정하는 대신 program.md에 자연어 지침을 작성합니다. AI 에이전트는 이 지침을 읽고 그에 따라 훈련 코드(train.py)를 자율적으로 수정합니다.

Karpathy가 말했듯이: 당신은 연구자로서 평소처럼 Python 파일을 건드리지 않습니다. 대신, AI 에이전트에게 컨텍스트를 제공하는 program.md Markdown 파일을 프로그래밍하고 있습니다.

Autoresearch 작동 방식

시스템은 단순함에서 우아합니다:

인간이 program.md를 편집 — 연구 목표, 제약, 전략 설정
AI 에이전트 (Claude, Codex 또는 다른 LLM)가 program.md를 읽고 train.py를 수정
훈련이 정확히 5분 동안 실행되며 검증 손실 (val_bpb) 측정
개선되면 변경 사항이 feature branch의 git commit으로 유지
개선되지 않으면 git이 시작점으로 리셋
무한 반복

전체 훈련 코드베이스는 약 630줄의 Python — LLM의 컨텍스트 윈도우에 완전히 들어갈 만큼 작습니다. 이것은 의도적입니다. 에이전트는 지능적인 수정을 하기 위해 전체 시스템을 이해해야 합니다.

결과

Karpathy는 depth-12 모델에서 약 이틀 동안 autoresearch를 실행했습니다. AI 에이전트는 자율적으로 약 20개의 개선 사항을 발견하여 Time to GPT-2 벤치마크를 2.02시간에서 1.80시간으로 줄였습니다 — 인간 개입 없이 11% 개선.

시각화의 각 점은 완전한 LLM 훈련 실행을 나타냅니다. 에이전트는 자율 루프에서 작동하며, 신경망 아키텍처, 옵티마이저, 하이퍼파라미터에 대한 더 나은 설정을 찾으면서 git commit을 축적합니다.

ML 연구를 넘어서는 program.md의 중요성

Autoresearch는 ML 훈련에 관한 것이지만, 그것이 도입하는 패턴은 보편적입니다: Markdown 파일로 AI 에이전트 프로그래밍.

이것은 고립된 아이디어가 아닙니다. AI 생태계 전반에서 일어나고 있는 일을 보세요:

파일	목적
`program.md`	자율 연구 에이전트 프로그래밍 (Karpathy)
`AGENTS.md`	AI 코딩 에이전트 프로그래밍 (60K+ 레포, Linux Foundation)
`CLAUDE.md`	Claude Code 동작 프로그래밍
`.cursorrules`	Cursor AI 동작 프로그래밍
`llms.txt`	AI 크롤러가 웹사이트를 이해하는 방식 프로그래밍

패턴은 매번 동일합니다: 인간이 Markdown 파일을 작성하고, AI 에이전트가 이를 자율적으로 운영하기 위한 지침으로 사용합니다.

Markdown은 AI 에이전트의 프로그래밍 언어가 되었습니다.

바이브 코딩에서 에이전틱 엔지니어링으로

Karpathy 자신이 2025년에 “바이브 코딩”이라는 용어를 만들었습니다 — 구문이 아닌 의도를 설명하여 코드를 작성하는 아이디어. 하지만 2026년 초, 그는 바이브 코딩이 이미 구식이 되었다고 말했습니다.

새로운 용어는? 에이전틱 엔지니어링: 99%의 시간 동안 코드를 직접 작성하지 않습니다. 코드를 작성하는 에이전트를 조율하고 감독자로 행동합니다.

Autoresearch는 이 아이디어의 가장 순수한 표현입니다. 연구자의 일은 “오늘 몇 번의 실험을 했나요?”에서 “설정한 실험 방향이 얼마나 좋았나요?”로 이동합니다. Markdown 파일이 그 방향을 설정하는 방법입니다.

지식 노동자에게 의미하는 바

LLM을 훈련할 필요가 없어도 autoresearch에서 배울 수 있습니다. 패턴은 어디에나 적용됩니다:

개발자는 AGENTS.md를 작성하여 AI 코딩 어시스턴트를 지시
연구자는 program.md를 작성하여 자율 실험을 지시
콘텐츠 크리에이터는 프롬프트를 작성하여 AI 작문 어시스턴트를 지시
분석가는 지침을 작성하여 AI 데이터 처리 파이프라인을 지시

모든 경우에, 인간의 일은 이렇게 변하고 있습니다: 가능한 최선의 Markdown 지침 작성. AI가 실행을 처리합니다.

Markdown 우선 워크플로우 구축

Markdown이 AI 에이전트를 위한 보편적인 인터페이스가 되고 있다면, 참조 자료의 깨끗한 Markdown 버전을 갖는 것이 필수적이 됩니다.

autoresearch를 위한 program.md나 코드베이스를 위한 AGENTS.md를 작성할 때, 웹에서 본 문서, 논문, 블로그 포스트, 예시에서 가져옵니다. Save는 클릭 한 번으로 이 모든 것을 깨끗한 Markdown으로 캡처할 수 있게 합니다 — 참조, 발췌, 또는 에이전트 지침에 넣을 준비가 된 상태로.

워크플로우: 웹에서 유용한 것을 찾고, Save로 Markdown으로 저장하고, 더 나은 에이전트 지침을 작성하는 데 사용하세요.

Save는 어떤 웹페이지든 깨끗한 Markdown으로 변환합니다 — AI 에이전트가 가장 잘 이해하는 형식. 더 나은 AI 지침을 작성하기 위한 참조 라이브러리를 구축하세요. Save 무료로 사용해보기.

Karpathy의 Autoresearch & PROGRAM.md: 잠자는 동안 실험을 실행하는 AI

program.md란 무엇인가?

Autoresearch 작동 방식

결과

ML 연구를 넘어서는 program.md의 중요성

바이브 코딩에서 에이전틱 엔지니어링으로

지식 노동자에게 의미하는 바

Markdown 우선 워크플로우 구축

## Continue reading

좋은 program.md 작성 방법: AI 에이전트 지침을 위한 실용 가이드

모두를 위한 Autoresearch: 자는 동안 100가지 AI 실험 실행하기

README.md에서 PROGRAM.md로: Markdown이 이제 프로그래밍 언어가 되다

SETI@home에서 AgentHub까지: 분산형 AI 연구에 대한 카르파티의 비전

Jean-Sébastien Wallez