KarpathyのAutoresearch & PROGRAM.md：あなたが眠っている間に実験を実行するAI

2026年3月7日、元Tesla AIディレクターでOpenAIの共同創業者であるAndrej Karpathyは、AI界を沸かせるリポジトリを公開しました。autoresearchです。

アイデアは驚くほどシンプルです。AIエージェントに小さくも本物のLLMトレーニング環境を与え、一晩中自律的に実験を実行させます。コードを修正し、5分間トレーニングし、結果が改善したか確認し、変更を保持または破棄し、繰り返します。

あなたが眠っている間に100回の実験。ゼロの人間介入。

しかしプログラミングの未来にとって重要な部分があります。人間はPythonを書きません。人間はMarkdownファイルを書きます。

program.mdとは何か？

autoresearchの中心にあるのはprogram.mdというファイルです。AIエージェントへの指示書として機能するMarkdownドキュメントです。

ハイパーパラメータを手動で調整したり、学習率を変更したり、Pythonでニューラルネットワークアーキテクチャを修正したりする代わりに、研究者はprogram.mdに自然言語で指示を書きます。AIエージェントはこれらの指示を読み、それに基づいてトレーニングコード（train.py）を自律的に修正します。

Karpathyが述べたように：研究者として通常行うようにPythonファイルをいじることはしません。代わりに、AIエージェントにコンテキストを提供するprogram.md Markdownファイルをプログラミングします。

Autoresearchの仕組み

システムはシンプルで優雅です：

人間がprogram.mdを編集——研究目標、制約、戦略を設定
AIエージェント（Claude、Codex、または他のLLM）がprogram.mdを読みtrain.pyを修正
トレーニングがちょうど5分間実行され、検証ロス（val_bpb）を測定
改善した場合、変更がフィーチャーブランチのgitコミットとして保持
改善しない場合、gitが元に戻す
無限に繰り返す

トレーニングコードベース全体は約630行のPythonで、LLMのコンテキストウィンドウ全体に収まるほど小さいです。これは設計によるものです。エージェントは知的な修正を行うためにシステム全体を理解する必要があります。

結果

Karpathyはdepth-12モデルでautoresearchを約2日間実行しました。AIエージェントは自律的に約20の改善を発見し、Time to GPT-2ベンチマークを2.02時間から1.80時間に短縮しました。ゼロの人間介入で11%の改善です。

ビジュアライゼーションの各点は完全なLLMトレーニング実行を表します。エージェントは自律的なループで作業し、ニューラルネットワークアーキテクチャ、オプティマイザ、ハイパーパラメータのより良い設定を見つけるごとにgitコミットを積み重ねます。

ML研究を超えてprogram.mdが重要な理由

Autoresearchはのトレーニングについてですが、それが導入するパターンは普遍的です。MarkdownファイルでAIエージェントをプログラミングする。

これは孤立したアイデアではありません。AIエコシステム全体で何が起きているか見てください。

ファイル	目的
`program.md`	自律的なリサーチエージェントをプログラム（Karpathy）
`AGENTS.md`	AIコーディングエージェントをプログラム（6万以上のリポジトリ、Linux Foundation）
`CLAUDE.md`	Claude Codeのふるまいをプログラム
`.cursorrules`	Cursor AIのふるまいをプログラム
`llms.txt`	AIクローラーがウェブサイトを理解する方法をプログラム

パターンは毎回同じです。人間がMarkdownファイルを書き、AIエージェントがそれを指示として自律的に動作するために使用する。

Markdownはアガンティックなエージェントのプログラミング言語になっています。

バイブコーディングからAgentic Engineeringへ

Karpathy自身が2025年に「バイブコーディング」を生み出しました。構文ではなく意図を説明することでコードを書くという考えです。しかし2026年初頭、彼はバイブコーディングはすでに時代遅れだと言いました。

新しい言葉？Agentic Engineering：あなたは99%の時間は直接コードを書きません。それを行うエージェントをオーケストレーションし、監督として行動します。

Autoresearchはこの考えの最もピュアな表現です。研究者の仕事は「今日何回実験を実行したか？」から「設定した実験の方向性はどれだけ良かったか？」に変わります。MarkdownファイルはそれらDirektionを設定する方法です。

ナレッジワーカーにとっての意味

LLMをトレーニングしなくても、autoresearchから学べることがあります。パターンはどこにでも適用できます：

開発者はAGENTS.mdを書いてAIコーディングアシスタントを指揮する
研究者はprogram.mdを書いて自律実験を指揮する
コンテンツクリエーターはプロンプトを書いてAIライティングアシスタントを指揮する
アナリストは指示を書いてAIデータ処理パイプラインを指揮する

すべての場合において、人間の仕事は：可能な限り最高のMarkdown指示を書くことになっています。AIが実行を担当します。

Markdownファーストなワークフローの構築

MarkdownがAIエージェントの普遍的なインターフェースになるなら、参照資料のクリーンなMarkdownバージョンを持つことが不可欠になります。

autoresearchのためのprogram.mdやコードベースのためのAGENTS.mdを書くとき、ウェブで見てきたドキュメント、論文、ブログ記事、例から引用しています。Saveを使えばこれらすべてをワンクリックでクリーンなMarkdownとしてキャプチャできます——参照、抜粋、エージェント指示へのフィードに即座に使えます。

ワークフロー：ウェブで役立つものを見つけ、Markdownとして保存し、より良いエージェント指示を書くために活用する。

SaveはどんなWebページでもクリーンなMarkdownに変換します——AIエージェントが最もよく理解するフォーマットです。より良いAI指示を書くための参照ライブラリを構築しましょう。Saveを無料で試す。

KarpathyのAutoresearch & PROGRAM.md：あなたが眠っている間に実験を実行するAI

program.mdとは何か？

Autoresearchの仕組み

結果

ML研究を超えてprogram.mdが重要な理由

バイブコーディングからAgentic Engineeringへ

ナレッジワーカーにとっての意味

Markdownファーストなワークフローの構築

## Continue reading

良いprogram.mdの書き方：AIエージェント指示の実践ガイド

誰でも使えるAutoresearch：眠っている間に100回のAI実験を実行する方法

README.mdからPROGRAM.mdへ：MarkdownはAIのプログラミング言語になった

SETI@homeからAgentHubへ：分散型AIリサーチに関するKarpathyのビジョン

Jean-Sébastien Wallez