Shopifyの19%改善：企業がすでにAutoresearchパターンを使っている方法

KarpathyがAutoresearchを2026年3月7日にリリースしたとき、企業が自社の問題で実行し始めるまで ― 週でも月でもなく ― 数日しかかかりませんでした。

最も注目すべき早期採用者：ShopifyのCEOであるTobi Lutkeが内部プロジェクトにAutoresearchフレームワークを適用しました。結果は？8時間で37回の実験を経て、一晩で訓練された8億パラメータのモデルが以前の16億パラメータのモデルを**19%**上回りました。

より小さいモデル。より良い結果。一晩ゼロの人間介入。

ビジネスにおけるAutoresearchパターン

Shopifyが示したことは、かわいいML実験だけではありません。企業がR&Dを行う新しい方法の概念実証です。

従来のアプローチ：MLエンジニアを雇い、手動で実験を実行させ、会議で結果を確認し、次のステップを決定し、ゆっくり繰り返す。良いチームなら月に30回の集中した実験を実行できるかもしれません。

Autoresearchのアプローチ：目標を定義したprogram.mdを書き、AIエージェントに一晩実験を実行させ、朝に結果をレビューする。1人のエンジニア、1つのGPU、一晩に100回以上の実験。

数学は圧倒的です。手動リサーチは研究者1人当たり1日約1回の実験を生産します。Autoresearchは1時間に約12回生産します。実験スループットが100倍に増加します。

MLを超えて：年間36,500回の実験

パターンはモデルトレーニングを超えて拡張します。マーケティングチームは通常、年間約30回の実験 ― A/Bテスト、コピーのバリエーション、オーディエンスターゲティングの変更 ― を実行します。各実験に人間のセットアップ、モニタリング、分析が必要なので遅いのです。

早期採用者はすでに、自律エージェントが1日100回のマーケティング実験を実行し、コンバージョン率を計測し、コピーを調整し、ターゲティングをイテレーションする世界を想像しています ― すべてブランドの目標と制約を定義したprogram.mdによって誘導されながら。

それは年間30回対36,500回以上の実験です。このパターンを最初に採用する企業は、追いつくことがほぼ不可能な複利的優位性を持つことになります。

ShopifyのResultsを可能にしたもの

Shopifyの19%の改善は幸運ではありませんでした。いくつかの要因がうまくいくようにしました：

明確なメトリクス。 各実験後にエージェントが自動的に計測できる、明確に定義された評価メトリクスがありました。自動計測なしではループが壊れます。

制約されたスコープ。 Karpathyの630行のtrain.pyと同様に、ShopifyはLLMが完全に理解できる程度に修正可能なコードベースを小さく保ちました。百万行のコードベースをエージェントに投げて最善を期待するのではありません。

良い初期指示。 エージェントを指示したprogram.mdはチームのドメイン知識によって情報提供されていました。エージェントはランダムに検索していたのではなく ― チームが有望だと特定した方向を探索していました。

プロセスへの信頼。 介入せずに一晩実行させました。毎時間チェックして調整したいという誘惑は、自律実験の目的を損ないます。

一晩実行のパターン

典型的なAutoresearch採用は以下のパターンに従います：

1日目： 環境をセットアップし、最初のprogram.mdを書き、ループが機能することを確認するために手動でいくつかの実験を実行する。

1夜目： 帰る前にエージェントを開始。改善をコミットし、失敗を元に戻しながら無限に実行するよう設定。

2日目の朝： gitログをレビュー。エージェントが試みたこと、機能したこと、機能しなかったことを確認。学んだことに基づいてprogram.mdを更新。

2夜目： 改善された指示で再実行。エージェントは1夜目の最良の結果から開始。

1週間以内： 洗練されたprogram.mdと、人間チームが発見するのに数ヶ月かかったであろう数十の検証済み改善があります。

このパターンに適した業界

体系的な実験を含む任意の分野でAutoresearchループを採用できます：

機械学習 ― オリジナルのユースケース。ハイパーパラメータチューニング、アーキテクチャサーチ、正則化実験。

ソフトウェア最適化 ― パフォーマンスチューニング、バンドルサイズ削減、クエリ最適化。計測可能なメトリクスと修正可能なコードがある場所はどこでも。

創薬 ― 計測可能な結合親和性を持つ分子シミュレーション。実験は計算的で、メトリクスは数値で、ループは自動化可能。

金融モデリング ― 過去データに対してトレーディング戦略をバックテスト。明確なメトリクス、高速なフィードバック、大きなサーチスペース。

コンテンツ最適化 ― コンバージョン率をメトリクスとしたヘッドライン、レイアウト、コピーのA/Bテスト。

Markdownの優位性

いずれの場合も、人間の貢献は同じです：最適化するもの、尊重する制約、試みる戦略を定義したMarkdownファイル。

だからこそMarkdownリテラシーが競争上の優位性になっています。最良のprogram.mdファイルを書く企業が、自律エージェントから最良の結果を得る企業です。そして良いprogram.mdファイルを書くには、AIが消費できる形式で整理された深いドメイン知識が必要です。

参考ライブラリを構築している企業 ― ドキュメント、競合分析、研究論文、ベストプラクティスをクリーンなMarkdownとして保存 ― には先行優位があります。一晩実験を指示するprogram.mdを書く時が来たら、ゼロから始める代わりにキュレーションされたナレッジベースから引き出すことができます。

SaveはどんなウェブページもクリーンなMarkdownに変換します ― 効果的なAIエージェント指示を書くために企業が必要とする知識ライブラリを構築します。Saveを無料で試す。

Shopifyの19%改善：企業がすでにAutoresearchパターンを使っている方法

ビジネスにおけるAutoresearchパターン

MLを超えて：年間36,500回の実験

ShopifyのResultsを可能にしたもの

一晩実行のパターン

このパターンに適した業界

Markdownの優位性

## Continue reading

誰でも使えるAutoresearch：眠っている間に100回のAI実験を実行する方法

KarpathyのAutoresearch & PROGRAM.md：あなたが眠っている間に実験を実行するAI

科学的発見としてのGitコミット：Autoresearchがどのようにバージョンコントロールをリサーチラボに変えるか

良いprogram.mdの書き方：AIエージェント指示の実践ガイド

Jean-Sébastien Wallez