Shopify의 19% 개선: 기업들이 이미 Autoresearch 패턴을 어떻게 활용하고 있는가

Karpathy가 2026년 3월 7일에 autoresearch를 출시하자, 기업들이 자사 문제에 실행하기까지 주나 달이 아닌 정확히 며칠밖에 걸리지 않았습니다.

가장 주목할만한 초기 채택자: Shopify CEO Tobi Lutke가 내부 프로젝트를 위해 autoresearch 프레임워크를 적용했습니다. 결과는? 0.8억 매개변수 모델이 밤새 훈련되어 8시간 동안 37번의 실험 후에 기존 1.6억 매개변수 모델을 19% 능가했습니다.

더 작은 모델. 더 나은 결과. 밤새 인간 개입 없이.

비즈니스에서의 Autoresearch 패턴

Shopify가 보여준 것은 단순한 ML 실험이 아닙니다. 기업이 R&D를 하는 새로운 방식의 개념 증명입니다.

전통적인 접근법: ML 엔지니어를 고용하고, 수동으로 실험을 실행하게 하고, 회의에서 결과를 검토하고, 다음 단계를 결정하고, 천천히 반복합니다. 좋은 팀이 한 달에 30개의 집중된 실험을 실행할 수 있습니다.

Autoresearch 접근법: 목표를 정의하는 program.md를 작성하고, AI 에이전트가 밤새 실험을 실행하게 하고, 아침에 결과를 검토합니다. 엔지니어 한 명, GPU 하나, 밤마다 100개 이상의 실험.

수치는 압도적입니다. 수동 연구는 연구자 한 명당 하루 약 1회의 실험을 생산합니다. Autoresearch는 시간당 약 12회를 생산합니다. 실험 처리량이 100배 증가한 것입니다.

ML을 넘어서: 연간 36,500번의 실험

이 패턴은 모델 훈련을 넘어 확장됩니다. 마케팅 팀은 보통 연간 약 30개의 실험을 실행합니다 — A/B 테스트, 카피 변형, 타겟팅 변경. 각 실험에 인간의 설정, 모니터링, 분석이 필요하기 때문에 느립니다.

초기 채택자들은 이미 자율 에이전트가 하루에 100개의 마케팅 실험을 실행하고, 전환율을 측정하고, 카피를 조정하고, 타겟팅을 반복하는 세상을 상상하고 있습니다 — 모두 브랜드의 목표와 제약을 정의하는 program.md에 의해 안내됩니다.

이것은 30개 대비 연간 36,500개 이상의 실험입니다. 이 패턴을 먼저 채택하는 기업들은 따라잡기 거의 불가능한 복리 이점을 갖게 될 것입니다.

Shopify 결과를 가능하게 한 것

Shopify의 19% 개선은 운이 아니었습니다. 여러 요소가 이를 가능하게 했습니다:

명확한 메트릭. 에이전트가 각 실험 후 자동으로 측정할 수 있는 잘 정의된 평가 메트릭이 있었습니다. 자동화된 측정 없이는 루프가 깨집니다.

제한된 범위. Karpathy의 630줄 train.py처럼, Shopify는 LLM이 완전히 이해할 수 있을 만큼 수정 가능한 코드베이스를 작게 유지했습니다. 에이전트에게 100만 줄 코드베이스를 던지고 좋은 결과를 바랄 수는 없습니다.

좋은 초기 지침. 에이전트를 이끈 program.md는 팀의 도메인 지식을 반영했습니다. 에이전트는 무작위로 탐색하지 않았습니다 — 팀이 유망하다고 확인한 방향을 탐색했습니다.

프로세스에 대한 신뢰. 개입 없이 밤새 실행하게 했습니다. 매 시간 확인하고 조정하고 싶은 유혹은 자율 실험의 목적을 무산시킵니다.

야간 실행 패턴

일반적인 autoresearch 채택은 패턴을 따릅니다:

1일차: 환경 설정, 첫 번째 program.md 작성, 루프가 작동하는지 확인하기 위해 몇 가지 실험 수동 실행.

1일 밤: 퇴근 전에 에이전트 시작. 무한정 실행되도록 설정, 개선 사항을 커밋하고 실패를 되돌림.

2일 아침: git 로그 검토. 에이전트가 시도한 것, 효과가 있었던 것, 없었던 것 확인. 배운 것을 바탕으로 program.md 업데이트.

2일 밤: 개선된 지침으로 다시 실행. 에이전트는 1일 밤의 최고 결과에서 시작.

일주일 내: 정제된 program.md와 인간 팀이 발견하는 데 몇 달이 걸렸을 수십 가지 검증된 개선 사항을 갖게 됩니다.

이 패턴에 적합한 산업

체계적인 실험을 포함하는 모든 분야는 autoresearch 루프를 채택할 수 있습니다:

머신러닝 — 원래의 사용 사례. 하이퍼파라미터 튜닝, 아키텍처 탐색, 정규화 실험.

소프트웨어 최적화 — 성능 튜닝, 번들 크기 축소, 쿼리 최적화. 측정 가능한 메트릭과 수정 가능한 코드가 있는 모든 곳.

신약 개발 — 측정 가능한 결합 친화도를 가진 분자 시뮬레이션. 실험은 계산적이고, 메트릭은 수치이며, 루프는 자동화 가능합니다.

금융 모델링 — 역사적 데이터에 대한 거래 전략 백테스팅. 명확한 메트릭, 빠른 피드백, 큰 탐색 공간.

콘텐츠 최적화 — 전환율을 메트릭으로 하는 헤드라인, 레이아웃, 카피 A/B 테스트.

Markdown의 이점

모든 경우에서 인간의 기여는 동일합니다: 무엇을 최적화할지, 어떤 제약을 존중할지, 어떤 전략을 시도할지 정의하는 Markdown 파일.

바로 이런 이유로 Markdown 능숙도가 경쟁 우위가 되고 있습니다. 최고의 program.md 파일을 작성하는 기업들이 자율 에이전트에서 최고의 결과를 얻는 기업들입니다. 그리고 좋은 program.md 파일을 작성하려면 AI가 소비할 수 있는 형식으로 구성된 깊은 도메인 지식이 필요합니다.

참고 라이브러리를 구축하는 기업들 — 문서, 경쟁 분석, 연구 논문, 모범 사례를 깔끔한 Markdown으로 저장하는 — 은 유리한 출발점을 갖습니다. 야간 실험을 이끄는 program.md를 작성할 때가 되면, 처음부터 시작하는 대신 큐레이션된 지식 베이스에서 끌어올 수 있습니다.

Save는 모든 웹페이지를 깔끔한 Markdown으로 변환합니다 — 기업들이 효과적인 AI 에이전트 지침을 작성하는 데 필요한 지식 라이브러리를 구축합니다. Save 무료로 사용해보기.

Shopify의 19% 개선: 기업들이 이미 Autoresearch 패턴을 어떻게 활용하고 있는가

비즈니스에서의 Autoresearch 패턴

ML을 넘어서: 연간 36,500번의 실험

Shopify 결과를 가능하게 한 것

야간 실행 패턴

이 패턴에 적합한 산업

Markdown의 이점

## Continue reading

모두를 위한 Autoresearch: 자는 동안 100가지 AI 실험 실행하기

Karpathy의 Autoresearch & PROGRAM.md: 잠자는 동안 실험을 실행하는 AI

과학적 발견으로서의 Git Commit: Autoresearch가 버전 관리를 연구 실험실로 바꾸는 방법

좋은 program.md 작성 방법: AI 에이전트 지침을 위한 실용 가이드

Jean-Sébastien Wallez