Shopify 提升 19%:企业已开始使用自动研究模式的案例
2026 年 3 月 7 日,Karpathy 发布了自动研究(autoresearch)。仅仅几天之后——而非数周或数月——企业就开始将其用于解决自身问题。
最值得关注的早期采用者:Shopify CEO Tobi Lütke,他将自动研究框架应用于内部项目。结果如何?仅用 8 小时进行了 37 次实验,一夜之间训练的 8 亿参数模型就以 19% 的差距超越了之前的 16 亿参数模型。
更小的模型。更好的结果。零人工干预。
企业中的自动研究模式
Shopify 展示的不仅仅是一个可爱的机器学习实验。这是企业开展研发新方式的概念验证。
传统方法:雇用机器学习工程师,让他们手动运行实验,在会议中审查结果,决定下一步,然后缓慢重复。一个优秀的团队每月可能运行 30 个专项实验。
自动研究方法:编写一个 program.md 定义你的目标,让 AI 智能体通宵运行实验,早上查看结果。一名工程师、一块 GPU,每晚 100+ 个实验。
数学是压倒性的。手动研究每位研究员每天产生约 1 个实验。自动研究每小时产生约 12 个实验。这是实验吞吐量的 100 倍增长。
超越机器学习:每年 36,500 个实验
这一模式超越了模型训练。营销团队通常每年运行约 30 个实验——A/B 测试、文案变体、受众定位变化。之所以缓慢,是因为每个实验都需要人工设置、监控和分析。
早期采用者已经在设想一个世界,其中自主智能体每天运行 100 个营销实验,衡量转化率,调整文案,并迭代定向——所有这些都由定义品牌目标和限制条件的 program.md 指导。
每年 36,500+ 个实验,对比 30 个。率先采用这一模式的公司将拥有几乎无法追赶的复利优势。
是什么让 Shopify 的结果成为可能
Shopify 的 19% 提升并非偶然。有几个因素使其成功:
明确的指标。 他们有一个定义明确的评估指标,智能体可以在每次实验后自动测量。没有自动测量,循环就会中断。
范围受限。 与 Karpathy 的 630 行 train.py 类似,Shopify 将可修改的代码库保持在足够小的范围内,以便 LLM 完全理解。你不会把一个百万行的代码库扔给智能体,然后寄希望于好运。
良好的初始指令。 指导智能体的 program.md 是由团队的领域知识提供信息的。智能体不是在随机搜索——它在探索团队认为有前景的方向。
信任流程。 他们让它通宵运行而不进行干预。每小时检查和调整的冲动会破坏自主实验的目的。
通宵运行模式
典型的自动研究采用遵循以下模式:
第一天: 设置环境,编写第一个 program.md,手动运行几个实验以验证循环是否正常工作。
第一夜: 在离开之前启动智能体。设置其无限运行,提交改进并恢复失败。
第二天早上: 查看 git 日志。了解智能体尝试了什么,什么有效,什么无效。根据所学更新你的 program.md。
第二夜: 使用改进的指令再次运行。智能体从第一夜的最佳结果开始。
一周之内: 你拥有了一份经过完善的 program.md 和数十项经过验证的改进,这些改进需要人类团队数月才能发现。
适合这一模式的行业
任何涉及系统性实验的领域都可以采用自动研究循环:
机器学习 — 最初的使用场景。超参数调整、架构搜索、正则化实验。
软件优化 — 性能调优、包大小缩减、查询优化。任何有可测量指标和可修改代码的地方。
药物发现 — 具有可测量结合亲和力的分子模拟。实验是计算性的,指标是数字的,循环是可自动化的。
金融建模 — 针对历史数据回测交易策略。明确的指标、快速的反馈、巨大的搜索空间。
内容优化 — 以转化率为指标对标题、布局和文案进行 A/B 测试。
Markdown 优势
在每种情况下,人类的贡献都是相同的:一个 Markdown 文件,定义要优化什么、要遵守哪些限制,以及要尝试哪些策略。
这就是 Markdown 素养正在成为竞争优势的原因。编写最佳 program.md 文件的公司从自主智能体那里获得最佳结果。而编写好的 program.md 文件需要以 AI 可以消费的格式组织的深厚领域知识。
建立参考库的公司——将文档、竞争分析、研究论文和最佳实践保存为干净的 Markdown——具有先发优势。当需要编写指导通宵实验的 program.md 时,他们可以从精心策划的知识库中汲取,而不是从零开始。
Save 将任意网页转换为整洁的 Markdown——构建公司编写有效 AI 智能体指令所需的知识库。免费试用 Save。