El Autoresearch de Karpathy & PROGRAM.md: la IA que hace experimentos mientras duermes
El 7 de marzo de 2026, Andrej Karpathy — exdirector de IA de Tesla y cofundador de OpenAI — publicó un repositorio que encendió el mundo de la IA: autoresearch.
La idea es engañosamente simple: darle a un agente IA un setup de entrenamiento de LLM pequeño pero real y dejarlo hacer experimentos de forma autónoma durante la noche. Modifica el código, entrena durante 5 minutos, comprueba si el resultado mejoró, conserva o descarta el cambio, y repite.
100 experimentos mientras duermes. Cero intervención humana.
Pero aquí está la parte que importa para el futuro de la programación: el humano no escribe Python. El humano escribe un archivo Markdown.
¿Qué es program.md?
En el corazón de autoresearch hay un archivo llamado program.md. Es un documento Markdown que sirve como manual de instrucciones para el agente IA.
En lugar de ajustar manualmente hiperparámetros, modificar tasas de aprendizaje, o cambiar arquitecturas de redes neuronales en Python, el investigador escribe instrucciones en lenguaje natural en program.md. El agente IA lee estas instrucciones y modifica de forma autónoma el código de entrenamiento (train.py) basándose en ellas.
Como Karpathy lo expresó: no tocas ninguno de los archivos Python como normalmente harías como investigador. En cambio, programas los archivos Markdown program.md que proporcionan contexto a los agentes IA.
Cómo funciona Autoresearch
El sistema es elegante en su simplicidad:
- El humano edita
program.md— estableciendo objetivos de investigación, restricciones y estrategia - El agente IA (Claude, Codex, u otro LLM) lee
program.mdy modificatrain.py - El entrenamiento corre exactamente 5 minutos, midiendo la pérdida de validación (val_bpb)
- Si mejora, el cambio se conserva como commit de git en una rama de características
- Si no mejora, git vuelve al estado anterior
- Se repite indefinidamente
La base de código de entrenamiento completa tiene ~630 líneas de Python — lo suficientemente pequeña para caber enteramente en la ventana de contexto de un LLM. Esto es por diseño. El agente necesita entender todo el sistema para hacer modificaciones inteligentes.
Los resultados
Karpathy dejó autoresearch corriendo durante unos dos días en un modelo de profundidad 12. El agente IA descubrió de forma autónoma unas 20 mejoras que redujeron el benchmark Time to GPT-2 de 2,02 horas a 1,80 horas — una mejora del 11 % sin intervención humana.
Cada punto en la visualización representa una ejecución completa de entrenamiento de LLM. El agente trabaja en un bucle autónomo, acumulando commits de git a medida que encuentra mejores configuraciones para la arquitectura de red neuronal, el optimizador y los hiperparámetros.
Por qué program.md importa más allá de la investigación en ML
Autoresearch trata sobre el entrenamiento de ML, pero el patrón que introduce es universal: programar agentes IA con archivos Markdown.
Esta no es una idea aislada. Mira lo que está pasando en el ecosistema IA:
| Archivo | Propósito |
|---|---|
program.md | Programa agentes de investigación autónomos (Karpathy) |
AGENTS.md | Programa agentes de codificación IA (60K+ repos, Linux Foundation) |
CLAUDE.md | Programa el comportamiento de Claude Code |
.cursorrules | Programa el comportamiento de Cursor AI |
llms.txt | Programa cómo los rastreadores IA entienden los sitios web |
El patrón es idéntico cada vez: un humano escribe un archivo Markdown, y un agente IA lo usa como instrucciones para operar de forma autónoma.
Markdown se ha convertido en el lenguaje de programación para los agentes IA.
Del Vibe Coding al Agentic Engineering
El propio Karpathy acuñó “vibe coding” en 2025 — la idea de escribir código describiendo la intención en lugar de la sintaxis. Pero a principios de 2026, dijo que el vibe coding ya es pasado.
¿El nuevo término? Agentic Engineering: no escribes código directamente el 99 % del tiempo. Orquestas agentes que lo hacen, y actúas como supervisor.
Autoresearch es la expresión más pura de esta idea. El trabajo del investigador pasa de “¿cuántos experimentos hiciste hoy?” a “¿qué tan buenas fueron las direcciones de experimentos que estableciste?” El archivo Markdown es la forma en que estableces esas direcciones.
Lo que esto significa para los trabajadores del conocimiento
No necesitas entrenar LLMs para aprender de autoresearch. El patrón se aplica en todas partes:
- Los desarrolladores escriben AGENTS.md para dirigir asistentes de codificación IA
- Los investigadores escriben program.md para dirigir experimentos autónomos
- Los creadores de contenido escriben prompts para dirigir asistentes de escritura IA
- Los analistas escriben instrucciones para dirigir pipelines de procesamiento de datos IA
En cada caso, el trabajo del humano se convierte en: escribir las mejores instrucciones Markdown posibles. La IA maneja la ejecución.
Construir tu flujo de trabajo Markdown-First
Si Markdown se convierte en la interfaz universal para agentes IA, tener versiones Markdown limpias de tu material de referencia se vuelve esencial.
Cuando escribes un program.md para autoresearch o un AGENTS.md para tu base de código, estás extrayendo de documentación, artículos, entradas de blog y ejemplos que has visto en la web. Save te permite capturar todo eso como Markdown limpio con un clic — listo para referenciar, extractar o incorporar en tus instrucciones de agentes.
El flujo de trabajo: encontrar algo útil en la web, guardarlo como Markdown, usarlo para escribir mejores instrucciones de agentes.
Save convierte cualquier página web en Markdown limpio — el formato que los agentes IA entienden mejor. Construye tu biblioteca de referencia para escribir mejores instrucciones de IA. Prueba Save gratis.
## Continue reading
Cómo escribir un buen program.md: guía práctica para instrucciones de agentes IA
program.md es el archivo que programa agentes IA en el autoresearch de Karpathy. Aquí está cómo escribir uno que obtenga resultados — con estructura, ejemplos y mejores prácticas.
Autoresearch para todos: cómo ejecutar 100 experimentos de IA mientras duermes
El autoresearch de Karpathy ejecuta más de 100 experimentos ML en una sola noche con una sola GPU. Así funciona, qué necesitas, y por qué un script de Python de 630 líneas está cambiando la investigación de IA.
De README.md a PROGRAM.md: Markdown ya es un lenguaje de programación
README.md era para humanos. AGENTS.md es para asistentes de código. PROGRAM.md es para investigación autónoma. Markdown ha evolucionado de la documentación al lenguaje de programación para agentes de IA.
De SETI@home a AgentHub: la visión de Karpathy para la investigación IA distribuida
Karpathy dice que el siguiente paso para autoresearch es la colaboración distribuida al estilo SETI@home. AgentHub y Hyperspace ya lo están haciendo real. Esto es lo que significa.
Written by
Jean-Sébastien Wallez
I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.