← Voltar ao blog

Os 19% de Melhoria da Shopify: Como Empresas Já Estão Usando o Padrão Autoresearch

· Save Team
aiautoresearchshopifykarpathybusinessmachine-learningreal-world

Quando Karpathy lançou o autoresearch em 7 de março de 2026, levou exatamente dias — não semanas, não meses — para empresas começarem a executá-lo em seus próprios problemas.

O adotante inicial mais notável: o CEO da Shopify, Tobi Lutke, que adaptou o framework autoresearch para um projeto interno. O resultado? Um modelo de 0,8 bilhão de parâmetros treinado durante a noite superou um modelo anterior de 1,6 bilhão de parâmetros em 19% após apenas 37 experimentos em 8 horas.

Modelo menor. Resultados melhores. Zero intervenção humana durante a noite.

O Padrão Autoresearch nos Negócios

O que a Shopify demonstrou não é apenas um experimento de ML curioso. É uma prova de conceito para uma nova forma de as empresas fazerem P&D.

A abordagem tradicional: contratar engenheiros de ML, fazê-los executar experimentos manualmente, revisar resultados em reuniões, decidir próximos passos, repetir lentamente. Uma boa equipe pode realizar 30 experimentos focados por mês.

A abordagem autoresearch: escrever um program.md definindo seus objetivos, deixar um agente de IA executar experimentos durante a noite, revisar os resultados de manhã. Um engenheiro, uma GPU, 100+ experimentos por noite.

A matemática é esmagadora. A pesquisa manual produz ~1 experimento por dia por pesquisador. O autoresearch produz ~12 por hora. Isso é um aumento de 100x no throughput experimental.

Além do ML: O Ano dos 36.500 Experimentos

O padrão se estende além do treinamento de modelos. Equipes de marketing normalmente realizam cerca de 30 experimentos por ano — testes A/B, variações de copy, mudanças de segmentação. É lento porque cada experimento exige configuração, monitoramento e análise humana.

Os primeiros adotantes já estão imaginando um mundo onde agentes autônomos executam 100 experimentos de marketing por dia, medindo taxas de conversão, ajustando copy e iterando no targeting — tudo guiado por um program.md que define as metas e restrições da marca.

São 36.500+ experimentos por ano versus 30. As empresas que adotarem esse padrão primeiro terão uma vantagem composta que é quase impossível de alcançar.

O que Tornou os Resultados da Shopify Possíveis

Os 19% de melhoria da Shopify não foram sorte. Vários fatores tornaram isso possível:

Métricas claras. Eles tinham uma métrica de avaliação bem definida que o agente podia medir automaticamente após cada experimento. Sem medição automatizada, o loop se quebra.

Escopo restrito. Como o train.py de 630 linhas de Karpathy, a Shopify manteve a base de código modificável pequena o suficiente para o LLM entender completamente. Você não joga uma base de código de um milhão de linhas em um agente e espera o melhor.

Boas instruções iniciais. O program.md que dirigiu o agente foi informado pelo conhecimento de domínio da equipe. O agente não estava pesquisando aleatoriamente — estava explorando direções que a equipe identificou como promissoras.

Confiança no processo. Eles o deixaram rodar durante a noite sem intervir. A tentação de verificar e ajustar a cada hora derrota o propósito da experimentação autônoma.

O Padrão da Execução Noturna

A adoção típica do autoresearch segue um padrão:

Dia 1: Configurar o ambiente, escrever seu primeiro program.md, executar alguns experimentos manualmente para verificar que o loop funciona.

Noite 1: Iniciar o agente antes de sair. Configurá-lo para rodar indefinidamente, fazendo commit de melhorias e revertendo falhas.

Manhã do Dia 2: Revisar o log do git. Ver o que o agente tentou, o que funcionou e o que não funcionou. Atualizar o program.md com base no que aprendeu.

Noite 2: Executar novamente com instruções melhoradas. O agente começa do melhor resultado da Noite 1.

Dentro de uma semana: Você tem um program.md refinado e dezenas de melhorias validadas que teriam levado uma equipe humana meses para descobrir.

Setores Prontos para Este Padrão

Qualquer campo que envolva experimentação sistemática pode adotar o loop autoresearch:

Machine learning — o caso de uso original. Ajuste de hiperparâmetros, busca de arquitetura, experimentos de regularização.

Otimização de software — ajuste de desempenho, redução de tamanho de bundle, otimização de consultas. Em qualquer lugar com uma métrica mensurável e código modificável.

Descoberta de medicamentos — simulações moleculares com afinidade de ligação mensurável. O experimento é computacional, a métrica é numérica, o loop é automatizável.

Modelagem financeira — backtesting de estratégias de trading com dados históricos. Métricas claras, feedback rápido, grande espaço de busca.

Otimização de conteúdo — testes A/B de títulos, layouts e copy com taxa de conversão como métrica.

A Vantagem do Markdown

Em todos os casos, a contribuição humana é a mesma: um arquivo Markdown que define o que otimizar, quais restrições respeitar e quais estratégias tentar.

É por isso que a fluência em Markdown está se tornando uma vantagem competitiva. As empresas que escrevem os melhores arquivos program.md são as que obtêm os melhores resultados de agentes autônomos. E escrever bons arquivos program.md exige conhecimento profundo do domínio organizado em um formato que a IA pode consumir.

Empresas construindo bibliotecas de referência — salvando documentação, análise competitiva, papers de pesquisa e melhores práticas como Markdown limpo — têm vantagem inicial. Quando chega a hora de escrever o program.md que dirige um experimento noturno, podem buscar em uma base de conhecimento curada em vez de começar do zero.


O Save converte qualquer página web em Markdown limpo — construindo a biblioteca de conhecimento que as empresas precisam para escrever instruções eficazes para agentes de IA. Experimente o Save gratuitamente.