← Voltar ao blog

Autoresearch para Todos: Como Executar 100 Experimentos de IA Enquanto Você Dorme

· Save Team
aiautoresearchkarpathymachine-learningexperimentsgpuprogramming

E se você pudesse rodar 100 experimentos de machine learning durante a noite --- em uma única GPU --- sem escrever uma linha de código?

É exatamente isso que o autoresearch de Andrej Karpathy faz. Lançado em 7 de março de 2026, este script Python de 630 linhas permite que agentes de IA modifiquem autonomamente código de treinamento, rodem experimentos, avaliem resultados e continuem melhorando --- enquanto você dorme.

Em dois dias, o anúncio tinha milhões de visualizações. Pesquisadores, desenvolvedores e empresas já estavam rodando seus próprios experimentos noturnos.

Veja como funciona e por que isso importa.

O Loop Principal

O design do autoresearch é elegante em sua simplicidade:

  1. Ler o arquivo program.md (suas instruções em Markdown)
  2. Modificar train.py com base nessas instruções
  3. Treinar por exatamente 5 minutos
  4. Medir o resultado (validation loss)
  5. Manter ou descartar --- se a métrica melhorou, commit; se não, git reset
  6. Repetir indefinidamente

Com cerca de 12 experimentos por hora, você obtém cerca de 100 experimentos em uma sessão noturna. Cada melhoria bem-sucedida se constrói sobre a anterior, criando um efeito composto.

O Que Você Precisa

A barreira de entrada é surpreendentemente baixa:

  • Uma GPU --- todo o sistema foi projetado para treinamento em GPU única
  • 630 linhas de Python --- pequeno o suficiente para caber na janela de contexto de qualquer LLM
  • Uma chave de API LLM --- Claude, GPT, ou outro modelo capaz
  • Um arquivo program.md --- suas instruções em Markdown dizendo ao agente o que otimizar

Só isso. Sem cluster. Sem configuração de treinamento distribuído. Sem equipe de engenharia de ML. Uma pessoa, uma GPU, um arquivo Markdown.

Resultados Reais

Karpathy deixou o autoresearch rodando por cerca de dois dias em um modelo de profundidade 12. O agente de IA descobriu autonomamente cerca de 20 melhorias:

  • O tempo de treinamento para o benchmark GPT-2 caiu de 2,02 horas para 1,80 horas
  • Uma melhoria de 11% com zero intervenção humana
  • O agente encontrou problemas que humanos tinham perdido: mecanismos de atenção sem escalonamento adequado, regularização ausente e hiperparâmetros subótimos

A percepção chave: o agente descobriu coisas que pesquisadores experientes de ML não tinham notado. Não porque é mais inteligente, mas porque poderia tentar 100 variações onde um humano tentaria 5.

Por Que 630 Linhas Importa

O codebase é intencionalmente pequeno. Com ~630 linhas, o arquivo train.py inteiro cabe na janela de contexto de um LLM. Esta é uma decisão de design crítica.

Se o agente pode ver todo o sistema de uma vez, ele pode fazer modificações inteligentes. Ele entende como a taxa de aprendizado interage com o tamanho do lote, como o mecanismo de atenção se conecta à camada de saída, como uma mudança se propaga por todo o pipeline de treinamento.

Dê a um agente de IA um codebase de 50.000 linhas e ele faz mudanças locais que podem não fazer sentido globalmente. Dê 630 linhas e ele pode raciocinar sobre o sistema inteiro.

O Orçamento de 5 Minutos

Cada experimento roda por exatamente 5 minutos. Essa restrição é brilhante:

Torna os experimentos comparáveis. Se uma execução leva 3 minutos e outra 20, você não pode comparar seus resultados de forma justa. Um orçamento de tempo fixo significa que toda melhoria é medida em igualdade de condições.

Permite iteração rápida. 5 minutos é tempo suficiente para ver progresso de treinamento significativo, mas curto o suficiente para rodar 12 experimentos por hora.

Previne custos fora de controle. Sem limite de tempo, um agente poderia treinar por horas em uma única mudança promissora. O limite de 5 minutos mantém o ciclo de feedback apertado.

A Memória Git

Cada experimento é um commit git. Isso dá ao sistema memória:

  • Mudanças bem-sucedidas são commitadas em um feature branch, construindo uma cadeia de melhorias
  • Experimentos falhados são revertidos com git reset, sem deixar rastro
  • O histórico mostra exatamente o que foi tentado, o que funcionou e o que não funcionou

Isso significa que você pode revisar o trabalho do agente como uma série de commits git. Cada mensagem de commit explica o que o agente mudou e por quê. É uma trilha de auditoria completa da pesquisa autônoma.

Além do ML: O Padrão Que Importa

O autoresearch é sobre treinar modelos de linguagem, mas o padrão que introduz é universal:

Humano escreve instruções em Markdown → Agente de IA executa autonomamente → Resultados são medidos e mantidos/descartados → Loop se repete

Esse padrão funciona para qualquer domínio onde você pode:

  1. Definir objetivos claros em linguagem natural
  2. Medir o sucesso automaticamente
  3. Manter ou descartar mudanças com base nos resultados

Empresas já estão aplicando esse padrão além da pesquisa em ML --- para otimização de código, experimentos de marketing e desenvolvimento de produto.

A Abordagem Markdown-First

No centro do autoresearch está um arquivo Markdown. Não Python. Não YAML. Não uma GUI. Um arquivo de texto simples que qualquer pessoa pode ler e editar.

Isso importa porque diminui a barreira para dirigir pesquisa de IA. Você não precisa ser um engenheiro de ML para escrever um program.md. Você precisa entender o problema, os objetivos e as restrições. O agente lida com a implementação.

A mudança de habilidade é clara: de saber como escrever código de treinamento para saber como escrever instruções eficazes para agentes.

Começando

Se você quiser experimentar o padrão autoresearch (mesmo fora do ML), comece com estes passos:

  1. Defina sua métrica. O que “melhor” significa, e como você mede isso automaticamente?
  2. Escreva seu program.md. Defina objetivos, restrições e estratégia em Markdown claro.
  3. Mantenha o escopo pequeno. Como o codebase de 630 linhas do autoresearch, sistemas menores dão melhores resultados.
  4. Deixe rodar. O ponto é operação autônoma. Resista ao impulso de intervir.
  5. Revise os resultados. Verifique o histórico git para ver o que o agente tentou e o que funcionou.

Construindo o Conhecimento para Escrever Boas Instruções

A qualidade do seu program.md depende do seu conhecimento de domínio. Quanto mais você entende o espaço do problema, melhores serão suas instruções.

É aqui que ter uma biblioteca curada de material de referência em formato Markdown se torna valioso. Documentação, artigos, posts de blog e exemplos --- todos salvos como Markdown limpo, prontos para informar suas instruções de agente.


O Save converte qualquer página web para Markdown limpo --- construindo a biblioteca de referência necessária para escrever instruções eficazes para agentes de IA. Experimente o Save gratuitamente.