Autoresearch para Todos: Como Executar 100 Experimentos de IA Enquanto Você Dorme
E se você pudesse rodar 100 experimentos de machine learning durante a noite --- em uma única GPU --- sem escrever uma linha de código?
É exatamente isso que o autoresearch de Andrej Karpathy faz. Lançado em 7 de março de 2026, este script Python de 630 linhas permite que agentes de IA modifiquem autonomamente código de treinamento, rodem experimentos, avaliem resultados e continuem melhorando --- enquanto você dorme.
Em dois dias, o anúncio tinha milhões de visualizações. Pesquisadores, desenvolvedores e empresas já estavam rodando seus próprios experimentos noturnos.
Veja como funciona e por que isso importa.
O Loop Principal
O design do autoresearch é elegante em sua simplicidade:
- Ler o arquivo
program.md(suas instruções em Markdown) - Modificar
train.pycom base nessas instruções - Treinar por exatamente 5 minutos
- Medir o resultado (validation loss)
- Manter ou descartar --- se a métrica melhorou, commit; se não, git reset
- Repetir indefinidamente
Com cerca de 12 experimentos por hora, você obtém cerca de 100 experimentos em uma sessão noturna. Cada melhoria bem-sucedida se constrói sobre a anterior, criando um efeito composto.
O Que Você Precisa
A barreira de entrada é surpreendentemente baixa:
- Uma GPU --- todo o sistema foi projetado para treinamento em GPU única
- 630 linhas de Python --- pequeno o suficiente para caber na janela de contexto de qualquer LLM
- Uma chave de API LLM --- Claude, GPT, ou outro modelo capaz
- Um arquivo
program.md--- suas instruções em Markdown dizendo ao agente o que otimizar
Só isso. Sem cluster. Sem configuração de treinamento distribuído. Sem equipe de engenharia de ML. Uma pessoa, uma GPU, um arquivo Markdown.
Resultados Reais
Karpathy deixou o autoresearch rodando por cerca de dois dias em um modelo de profundidade 12. O agente de IA descobriu autonomamente cerca de 20 melhorias:
- O tempo de treinamento para o benchmark GPT-2 caiu de 2,02 horas para 1,80 horas
- Uma melhoria de 11% com zero intervenção humana
- O agente encontrou problemas que humanos tinham perdido: mecanismos de atenção sem escalonamento adequado, regularização ausente e hiperparâmetros subótimos
A percepção chave: o agente descobriu coisas que pesquisadores experientes de ML não tinham notado. Não porque é mais inteligente, mas porque poderia tentar 100 variações onde um humano tentaria 5.
Por Que 630 Linhas Importa
O codebase é intencionalmente pequeno. Com ~630 linhas, o arquivo train.py inteiro cabe na janela de contexto de um LLM. Esta é uma decisão de design crítica.
Se o agente pode ver todo o sistema de uma vez, ele pode fazer modificações inteligentes. Ele entende como a taxa de aprendizado interage com o tamanho do lote, como o mecanismo de atenção se conecta à camada de saída, como uma mudança se propaga por todo o pipeline de treinamento.
Dê a um agente de IA um codebase de 50.000 linhas e ele faz mudanças locais que podem não fazer sentido globalmente. Dê 630 linhas e ele pode raciocinar sobre o sistema inteiro.
O Orçamento de 5 Minutos
Cada experimento roda por exatamente 5 minutos. Essa restrição é brilhante:
Torna os experimentos comparáveis. Se uma execução leva 3 minutos e outra 20, você não pode comparar seus resultados de forma justa. Um orçamento de tempo fixo significa que toda melhoria é medida em igualdade de condições.
Permite iteração rápida. 5 minutos é tempo suficiente para ver progresso de treinamento significativo, mas curto o suficiente para rodar 12 experimentos por hora.
Previne custos fora de controle. Sem limite de tempo, um agente poderia treinar por horas em uma única mudança promissora. O limite de 5 minutos mantém o ciclo de feedback apertado.
A Memória Git
Cada experimento é um commit git. Isso dá ao sistema memória:
- Mudanças bem-sucedidas são commitadas em um feature branch, construindo uma cadeia de melhorias
- Experimentos falhados são revertidos com
git reset, sem deixar rastro - O histórico mostra exatamente o que foi tentado, o que funcionou e o que não funcionou
Isso significa que você pode revisar o trabalho do agente como uma série de commits git. Cada mensagem de commit explica o que o agente mudou e por quê. É uma trilha de auditoria completa da pesquisa autônoma.
Além do ML: O Padrão Que Importa
O autoresearch é sobre treinar modelos de linguagem, mas o padrão que introduz é universal:
Humano escreve instruções em Markdown → Agente de IA executa autonomamente → Resultados são medidos e mantidos/descartados → Loop se repete
Esse padrão funciona para qualquer domínio onde você pode:
- Definir objetivos claros em linguagem natural
- Medir o sucesso automaticamente
- Manter ou descartar mudanças com base nos resultados
Empresas já estão aplicando esse padrão além da pesquisa em ML --- para otimização de código, experimentos de marketing e desenvolvimento de produto.
A Abordagem Markdown-First
No centro do autoresearch está um arquivo Markdown. Não Python. Não YAML. Não uma GUI. Um arquivo de texto simples que qualquer pessoa pode ler e editar.
Isso importa porque diminui a barreira para dirigir pesquisa de IA. Você não precisa ser um engenheiro de ML para escrever um program.md. Você precisa entender o problema, os objetivos e as restrições. O agente lida com a implementação.
A mudança de habilidade é clara: de saber como escrever código de treinamento para saber como escrever instruções eficazes para agentes.
Começando
Se você quiser experimentar o padrão autoresearch (mesmo fora do ML), comece com estes passos:
- Defina sua métrica. O que “melhor” significa, e como você mede isso automaticamente?
- Escreva seu program.md. Defina objetivos, restrições e estratégia em Markdown claro.
- Mantenha o escopo pequeno. Como o codebase de 630 linhas do autoresearch, sistemas menores dão melhores resultados.
- Deixe rodar. O ponto é operação autônoma. Resista ao impulso de intervir.
- Revise os resultados. Verifique o histórico git para ver o que o agente tentou e o que funcionou.
Construindo o Conhecimento para Escrever Boas Instruções
A qualidade do seu program.md depende do seu conhecimento de domínio. Quanto mais você entende o espaço do problema, melhores serão suas instruções.
É aqui que ter uma biblioteca curada de material de referência em formato Markdown se torna valioso. Documentação, artigos, posts de blog e exemplos --- todos salvos como Markdown limpo, prontos para informar suas instruções de agente.
O Save converte qualquer página web para Markdown limpo --- construindo a biblioteca de referência necessária para escrever instruções eficazes para agentes de IA. Experimente o Save gratuitamente.