2026 年 3 月 7 日，Karpathy 发布了自动研究（autoresearch）。仅仅几天之后——而非数周或数月——企业就开始将其用于解决自身问题。

最值得关注的早期采用者：Shopify CEO Tobi Lütke，他将自动研究框架应用于内部项目。结果如何？仅用 8 小时进行了 37 次实验，一夜之间训练的 8 亿参数模型就以 19% 的差距超越了之前的 16 亿参数模型。

更小的模型。更好的结果。零人工干预。

企业中的自动研究模式

Shopify 展示的不仅仅是一个可爱的机器学习实验。这是企业开展研发新方式的概念验证。

传统方法：雇用机器学习工程师，让他们手动运行实验，在会议中审查结果，决定下一步，然后缓慢重复。一个优秀的团队每月可能运行 30 个专项实验。

自动研究方法：编写一个 program.md 定义你的目标，让 AI 智能体通宵运行实验，早上查看结果。一名工程师、一块 GPU，每晚 100+ 个实验。

数学是压倒性的。手动研究每位研究员每天产生约 1 个实验。自动研究每小时产生约 12 个实验。这是实验吞吐量的 100 倍增长。

超越机器学习：每年 36,500 个实验

这一模式超越了模型训练。营销团队通常每年运行约 30 个实验——A/B 测试、文案变体、受众定位变化。之所以缓慢，是因为每个实验都需要人工设置、监控和分析。

早期采用者已经在设想一个世界，其中自主智能体每天运行 100 个营销实验，衡量转化率，调整文案，并迭代定向——所有这些都由定义品牌目标和限制条件的 program.md 指导。

每年 36,500+ 个实验，对比 30 个。率先采用这一模式的公司将拥有几乎无法追赶的复利优势。

Shopify 的 19% 提升并非偶然。有几个因素使其成功：

明确的指标。 他们有一个定义明确的评估指标，智能体可以在每次实验后自动测量。没有自动测量，循环就会中断。

范围受限。 与 Karpathy 的 630 行 train.py 类似，Shopify 将可修改的代码库保持在足够小的范围内，以便 LLM 完全理解。你不会把一个百万行的代码库扔给智能体，然后寄希望于好运。

良好的初始指令。 指导智能体的 program.md 是由团队的领域知识提供信息的。智能体不是在随机搜索——它在探索团队认为有前景的方向。

信任流程。 他们让它通宵运行而不进行干预。每小时检查和调整的冲动会破坏自主实验的目的。

典型的自动研究采用遵循以下模式：

第一天： 设置环境，编写第一个 program.md，手动运行几个实验以验证循环是否正常工作。

第一夜： 在离开之前启动智能体。设置其无限运行，提交改进并恢复失败。

第二天早上： 查看 git 日志。了解智能体尝试了什么，什么有效，什么无效。根据所学更新你的 program.md。

第二夜： 使用改进的指令再次运行。智能体从第一夜的最佳结果开始。

一周之内： 你拥有了一份经过完善的 program.md 和数十项经过验证的改进，这些改进需要人类团队数月才能发现。

任何涉及系统性实验的领域都可以采用自动研究循环：

机器学习 — 最初的使用场景。超参数调整、架构搜索、正则化实验。

软件优化 — 性能调优、包大小缩减、查询优化。任何有可测量指标和可修改代码的地方。

药物发现 — 具有可测量结合亲和力的分子模拟。实验是计算性的，指标是数字的，循环是可自动化的。

金融建模 — 针对历史数据回测交易策略。明确的指标、快速的反馈、巨大的搜索空间。

内容优化 — 以转化率为指标对标题、布局和文案进行 A/B 测试。

在每种情况下，人类的贡献都是相同的：一个 Markdown 文件，定义要优化什么、要遵守哪些限制，以及要尝试哪些策略。

这就是 Markdown 素养正在成为竞争优势的原因。编写最佳 program.md 文件的公司从自主智能体那里获得最佳结果。而编写好的 program.md 文件需要以 AI 可以消费的格式组织的深厚领域知识。

建立参考库的公司——将文档、竞争分析、研究论文和最佳实践保存为干净的 Markdown——具有先发优势。当需要编写指导通宵实验的 program.md 时，他们可以从精心策划的知识库中汲取，而不是从零开始。

Save 将任意网页转换为整洁的 Markdown——构建公司编写有效 AI 智能体指令所需的知识库。免费试用 Save。