Os 19% de Melhoria da Shopify: Como Empresas Já Estão Usando o Padrão Autoresearch
Quando Karpathy lançou o autoresearch em 7 de março de 2026, levou exatamente dias — não semanas, não meses — para empresas começarem a executá-lo em seus próprios problemas.
O adotante inicial mais notável: o CEO da Shopify, Tobi Lutke, que adaptou o framework autoresearch para um projeto interno. O resultado? Um modelo de 0,8 bilhão de parâmetros treinado durante a noite superou um modelo anterior de 1,6 bilhão de parâmetros em 19% após apenas 37 experimentos em 8 horas.
Modelo menor. Resultados melhores. Zero intervenção humana durante a noite.
O Padrão Autoresearch nos Negócios
O que a Shopify demonstrou não é apenas um experimento de ML curioso. É uma prova de conceito para uma nova forma de as empresas fazerem P&D.
A abordagem tradicional: contratar engenheiros de ML, fazê-los executar experimentos manualmente, revisar resultados em reuniões, decidir próximos passos, repetir lentamente. Uma boa equipe pode realizar 30 experimentos focados por mês.
A abordagem autoresearch: escrever um program.md definindo seus objetivos, deixar um agente de IA executar experimentos durante a noite, revisar os resultados de manhã. Um engenheiro, uma GPU, 100+ experimentos por noite.
A matemática é esmagadora. A pesquisa manual produz ~1 experimento por dia por pesquisador. O autoresearch produz ~12 por hora. Isso é um aumento de 100x no throughput experimental.
Além do ML: O Ano dos 36.500 Experimentos
O padrão se estende além do treinamento de modelos. Equipes de marketing normalmente realizam cerca de 30 experimentos por ano — testes A/B, variações de copy, mudanças de segmentação. É lento porque cada experimento exige configuração, monitoramento e análise humana.
Os primeiros adotantes já estão imaginando um mundo onde agentes autônomos executam 100 experimentos de marketing por dia, medindo taxas de conversão, ajustando copy e iterando no targeting — tudo guiado por um program.md que define as metas e restrições da marca.
São 36.500+ experimentos por ano versus 30. As empresas que adotarem esse padrão primeiro terão uma vantagem composta que é quase impossível de alcançar.
O que Tornou os Resultados da Shopify Possíveis
Os 19% de melhoria da Shopify não foram sorte. Vários fatores tornaram isso possível:
Métricas claras. Eles tinham uma métrica de avaliação bem definida que o agente podia medir automaticamente após cada experimento. Sem medição automatizada, o loop se quebra.
Escopo restrito. Como o train.py de 630 linhas de Karpathy, a Shopify manteve a base de código modificável pequena o suficiente para o LLM entender completamente. Você não joga uma base de código de um milhão de linhas em um agente e espera o melhor.
Boas instruções iniciais. O program.md que dirigiu o agente foi informado pelo conhecimento de domínio da equipe. O agente não estava pesquisando aleatoriamente — estava explorando direções que a equipe identificou como promissoras.
Confiança no processo. Eles o deixaram rodar durante a noite sem intervir. A tentação de verificar e ajustar a cada hora derrota o propósito da experimentação autônoma.
O Padrão da Execução Noturna
A adoção típica do autoresearch segue um padrão:
Dia 1: Configurar o ambiente, escrever seu primeiro program.md, executar alguns experimentos manualmente para verificar que o loop funciona.
Noite 1: Iniciar o agente antes de sair. Configurá-lo para rodar indefinidamente, fazendo commit de melhorias e revertendo falhas.
Manhã do Dia 2: Revisar o log do git. Ver o que o agente tentou, o que funcionou e o que não funcionou. Atualizar o program.md com base no que aprendeu.
Noite 2: Executar novamente com instruções melhoradas. O agente começa do melhor resultado da Noite 1.
Dentro de uma semana: Você tem um program.md refinado e dezenas de melhorias validadas que teriam levado uma equipe humana meses para descobrir.
Setores Prontos para Este Padrão
Qualquer campo que envolva experimentação sistemática pode adotar o loop autoresearch:
Machine learning — o caso de uso original. Ajuste de hiperparâmetros, busca de arquitetura, experimentos de regularização.
Otimização de software — ajuste de desempenho, redução de tamanho de bundle, otimização de consultas. Em qualquer lugar com uma métrica mensurável e código modificável.
Descoberta de medicamentos — simulações moleculares com afinidade de ligação mensurável. O experimento é computacional, a métrica é numérica, o loop é automatizável.
Modelagem financeira — backtesting de estratégias de trading com dados históricos. Métricas claras, feedback rápido, grande espaço de busca.
Otimização de conteúdo — testes A/B de títulos, layouts e copy com taxa de conversão como métrica.
A Vantagem do Markdown
Em todos os casos, a contribuição humana é a mesma: um arquivo Markdown que define o que otimizar, quais restrições respeitar e quais estratégias tentar.
É por isso que a fluência em Markdown está se tornando uma vantagem competitiva. As empresas que escrevem os melhores arquivos program.md são as que obtêm os melhores resultados de agentes autônomos. E escrever bons arquivos program.md exige conhecimento profundo do domínio organizado em um formato que a IA pode consumir.
Empresas construindo bibliotecas de referência — salvando documentação, análise competitiva, papers de pesquisa e melhores práticas como Markdown limpo — têm vantagem inicial. Quando chega a hora de escrever o program.md que dirige um experimento noturno, podem buscar em uma base de conhecimento curada em vez de começar do zero.
O Save converte qualquer página web em Markdown limpo — construindo a biblioteca de conhecimento que as empresas precisam para escrever instruções eficazes para agentes de IA. Experimente o Save gratuitamente.