誰でも使えるAutoresearch：眠っている間に100回のAI実験を実行する方法

コードを1行も書かずに、シングルGPUで100回の機械学習実験を一晩で実行できたら？

それがまさにAndrej Karpathyのautoresearchが実現することです。2026年3月7日にリリースされたこの630行のPythonスクリプトは、AIエージェントがトレーニングコードを自律的に修正し、実験を実行し、結果を評価し、改善し続けることを可能にします ― あなたが眠っている間に。

発表から2日以内に数百万回の閲覧数を獲得。研究者、開発者、企業が既に自分たちの一晩実験を実行し始めていました。

仕組みと重要性を解説します。

コアループ

Autoresearchの設計はシンプルさの中にエレガントさがあります：

program.mdファイルを読む（Markdownの指示）
それらの指示に基づいてtrain.pyを修正する
ちょうど5分間トレーニングする
結果（検証損失）を計測する
保持または破棄する ― メトリクスが改善されたらコミット；そうでなければgit reset
無限に繰り返す

1時間に約12回の実験ペースで、一晩のセッションに約100回の実験が可能です。成功した改善はそれぞれ前の改善の上に構築され、複利効果を生み出します。

必要なもの

参入障壁は驚くほど低いです：

シングルGPU ― システム全体がシングルGPUトレーニング向けに設計されています
630行のPython ― 任意のLLMのコンテキストウィンドウに収まるほど小さい
LLM APIキー ― Claude、GPT、または他の有能なモデル
program.mdファイル ― エージェントに何を最適化するかを伝えるMarkdownの指示

それだけです。クラスターも、分散トレーニングのセットアップも、MLエンジニアリングチームも不要。1人の人間、1つのGPU、1つのMarkdownファイル。

実際の結果

Karpathyはdepth-12モデルでautoresearchを約2日間実行しました。AIエージェントは自律的に約20の改善を発見しました：

GPT-2ベンチマークのトレーニング時間が2.02時間から1.80時間に短縮
ゼロの人間介入で11%の改善
エージェントは人間が見逃していた問題を発見：適切なスケーリングのないアテンションメカニズム、欠けている正則化、最適でないハイパーパラメータ

重要な洞察：エージェントは経験豊富なML研究者が気づいていなかったことを発見しました。より賢いからではなく、人間が5回試すところを100バリエーションで試せるからです。

630行が重要な理由

コードベースは意図的に小さくなっています。約630行で、train.pyファイル全体がLLMのコンテキストウィンドウに収まります。これは重要な設計決定です。

エージェントがシステム全体を一度に見ることができれば、インテリジェントな修正ができます。学習率がバッチサイズとどう相互作用するか、アテンションメカニズムが出力レイヤーとどう接続するか、一つの変更がトレーニングパイプライン全体にどう波及するかを理解します。

AIエージェントに50,000行のコードベースを与えると、グローバルには意味をなさないかもしれないローカルな変更をします。630行を与えると、システム全体について推論できます。

5分の予算

各実験はちょうど5分間実行されます。この制約は見事です：

実験を比較可能にします。 1回の実行が3分で別の実行が20分かかると、公平に比較できません。固定された時間予算は、すべての改善が同じ条件で計測されることを意味します。

素早いイテレーションを可能にします。 5分は有意義なトレーニングの進捗を見るのに十分長く、1時間に12回の実験を実行するのに十分短い。

コストの暴走を防ぎます。 時間制限なしでは、エージェントは1つの有望な変更に何時間もかけるかもしれません。5分の上限でフィードバックループが引き締まります。

Gitメモリ

各実験はgitコミットです。これがシステムにメモリを与えます：

成功した変更はフィーチャーブランチにコミットされ、改善の連鎖を構築
失敗した実験はgit resetで元に戻され、痕跡を残さない
履歴は試みたこと、うまくいったこと、うまくいかなかったことを正確に示す

つまり、エージェントの作業を一連のgitコミットとしてレビューできます。各コミットメッセージはエージェントが何を変更し、なぜそうしたかを説明します。自律的なリサーチの完全な監査証跡です。

MLを超えて：重要なパターン

Autoresearchは言語モデルのトレーニングについてですが、それが導入するパターンは普遍的です：

人間がMarkdownの指示を書く → AIエージェントが自律的に実行 → 結果を計測して保持/破棄 → ループを繰り返す

このパターンは次のことができる任意のドメインで機能します：

自然言語で明確な目標を定義する
成功を自動的に計測する
結果に基づいて変更を保持または破棄する

企業はML研究を超えて、コード最適化、マーケティング実験、製品開発にこのパターンをすでに適用しています。

Markdown優先アプローチ

Autoresearchの中心にはMarkdownファイルがあります。Pythonでも、YAMLでも、GUIでもなく。誰でも読み書きできるプレーンテキストファイル。

これが重要なのは、AIリサーチを指示する障壁を下げるからです。program.mdを書くためにMLエンジニアである必要はありません。問題、目標、制約を理解する必要があります。エージェントが実装を処理します。

スキルのシフトは明確です：トレーニングコードの書き方を知ることから、効果的なエージェント指示の書き方を知ることへ。

始め方

Autoresearchパターン（MLの外でも）を試したいなら、これらのステップから始めてください：

メトリクスを定義する。 「より良い」とはどういう意味で、どう自動的に計測しますか？
program.mdを書く。 明確なMarkdownで目標、制約、戦略を設定する。
スコープを小さく保つ。 Autoresearchの630行コードベースのように、小さなシステムほど良い結果が出る。
実行させる。 自律的な操作がポイントです。介入したい衝動に抵抗してください。
結果をレビューする。 gitの履歴を確認して、エージェントが何を試し、何が機能したかを見る。

良い指示を書くための知識を構築する

program.mdの質はドメイン知識に依存します。問題空間をより深く理解しているほど、指示が良くなります。

ここで、Markdown形式でキュレーションされた参考資料ライブラリを持つことが価値を持ちます。ドキュメント、論文、ブログ記事、サンプル ― すべてクリーンなMarkdownとして保存され、エージェント指示に情報を提供する準備ができています。

SaveはどんなウェブページもクリーンなMarkdownに変換します ― 効果的なAIエージェント指示を書くために必要な参考資料ライブラリを構築します。Saveを無料で試す。

誰でも使えるAutoresearch：眠っている間に100回のAI実験を実行する方法

コアループ

必要なもの

実際の結果

630行が重要な理由

5分の予算

Gitメモリ

MLを超えて：重要なパターン

Markdown優先アプローチ

始め方

良い指示を書くための知識を構築する

## Continue reading

科学的発見としてのGitコミット：Autoresearchがどのようにバージョンコントロールをリサーチラボに変えるか

KarpathyのAutoresearch & PROGRAM.md：あなたが眠っている間に実験を実行するAI

Shopifyの19%改善：企業がすでにAutoresearchパターンを使っている方法

良いprogram.mdの書き方：AIエージェント指示の実践ガイド

Jean-Sébastien Wallez