El Autoresearch de Karpathy & PROGRAM.md: la IA que hace experimentos mientras duermes

El 7 de marzo de 2026, Andrej Karpathy — exdirector de IA de Tesla y cofundador de OpenAI — publicó un repositorio que encendió el mundo de la IA: autoresearch.

La idea es engañosamente simple: darle a un agente IA un setup de entrenamiento de LLM pequeño pero real y dejarlo hacer experimentos de forma autónoma durante la noche. Modifica el código, entrena durante 5 minutos, comprueba si el resultado mejoró, conserva o descarta el cambio, y repite.

100 experimentos mientras duermes. Cero intervención humana.

Pero aquí está la parte que importa para el futuro de la programación: el humano no escribe Python. El humano escribe un archivo Markdown.

¿Qué es program.md?

En el corazón de autoresearch hay un archivo llamado program.md. Es un documento Markdown que sirve como manual de instrucciones para el agente IA.

En lugar de ajustar manualmente hiperparámetros, modificar tasas de aprendizaje, o cambiar arquitecturas de redes neuronales en Python, el investigador escribe instrucciones en lenguaje natural en program.md. El agente IA lee estas instrucciones y modifica de forma autónoma el código de entrenamiento (train.py) basándose en ellas.

Como Karpathy lo expresó: no tocas ninguno de los archivos Python como normalmente harías como investigador. En cambio, programas los archivos Markdown program.md que proporcionan contexto a los agentes IA.

Cómo funciona Autoresearch

El sistema es elegante en su simplicidad:

El humano edita program.md — estableciendo objetivos de investigación, restricciones y estrategia
El agente IA (Claude, Codex, u otro LLM) lee program.md y modifica train.py
El entrenamiento corre exactamente 5 minutos, midiendo la pérdida de validación (val_bpb)
Si mejora, el cambio se conserva como commit de git en una rama de características
Si no mejora, git vuelve al estado anterior
Se repite indefinidamente

La base de código de entrenamiento completa tiene ~630 líneas de Python — lo suficientemente pequeña para caber enteramente en la ventana de contexto de un LLM. Esto es por diseño. El agente necesita entender todo el sistema para hacer modificaciones inteligentes.

Los resultados

Karpathy dejó autoresearch corriendo durante unos dos días en un modelo de profundidad 12. El agente IA descubrió de forma autónoma unas 20 mejoras que redujeron el benchmark Time to GPT-2 de 2,02 horas a 1,80 horas — una mejora del 11 % sin intervención humana.

Cada punto en la visualización representa una ejecución completa de entrenamiento de LLM. El agente trabaja en un bucle autónomo, acumulando commits de git a medida que encuentra mejores configuraciones para la arquitectura de red neuronal, el optimizador y los hiperparámetros.

Por qué program.md importa más allá de la investigación en ML

Autoresearch trata sobre el entrenamiento de ML, pero el patrón que introduce es universal: programar agentes IA con archivos Markdown.

Esta no es una idea aislada. Mira lo que está pasando en el ecosistema IA:

Archivo	Propósito
`program.md`	Programa agentes de investigación autónomos (Karpathy)
`AGENTS.md`	Programa agentes de codificación IA (60K+ repos, Linux Foundation)
`CLAUDE.md`	Programa el comportamiento de Claude Code
`.cursorrules`	Programa el comportamiento de Cursor AI
`llms.txt`	Programa cómo los rastreadores IA entienden los sitios web

El patrón es idéntico cada vez: un humano escribe un archivo Markdown, y un agente IA lo usa como instrucciones para operar de forma autónoma.

Markdown se ha convertido en el lenguaje de programación para los agentes IA.

Del Vibe Coding al Agentic Engineering

El propio Karpathy acuñó “vibe coding” en 2025 — la idea de escribir código describiendo la intención en lugar de la sintaxis. Pero a principios de 2026, dijo que el vibe coding ya es pasado.

¿El nuevo término? Agentic Engineering: no escribes código directamente el 99 % del tiempo. Orquestas agentes que lo hacen, y actúas como supervisor.

Autoresearch es la expresión más pura de esta idea. El trabajo del investigador pasa de “¿cuántos experimentos hiciste hoy?” a “¿qué tan buenas fueron las direcciones de experimentos que estableciste?” El archivo Markdown es la forma en que estableces esas direcciones.

Lo que esto significa para los trabajadores del conocimiento

No necesitas entrenar LLMs para aprender de autoresearch. El patrón se aplica en todas partes:

Los desarrolladores escriben AGENTS.md para dirigir asistentes de codificación IA
Los investigadores escriben program.md para dirigir experimentos autónomos
Los creadores de contenido escriben prompts para dirigir asistentes de escritura IA
Los analistas escriben instrucciones para dirigir pipelines de procesamiento de datos IA

En cada caso, el trabajo del humano se convierte en: escribir las mejores instrucciones Markdown posibles. La IA maneja la ejecución.

Construir tu flujo de trabajo Markdown-First

Si Markdown se convierte en la interfaz universal para agentes IA, tener versiones Markdown limpias de tu material de referencia se vuelve esencial.

Cuando escribes un program.md para autoresearch o un AGENTS.md para tu base de código, estás extrayendo de documentación, artículos, entradas de blog y ejemplos que has visto en la web. Save te permite capturar todo eso como Markdown limpio con un clic — listo para referenciar, extractar o incorporar en tus instrucciones de agentes.

El flujo de trabajo: encontrar algo útil en la web, guardarlo como Markdown, usarlo para escribir mejores instrucciones de agentes.

Save convierte cualquier página web en Markdown limpio — el formato que los agentes IA entienden mejor. Construye tu biblioteca de referencia para escribir mejores instrucciones de IA. Prueba Save gratis.

El Autoresearch de Karpathy & PROGRAM.md: la IA que hace experimentos mientras duermes

¿Qué es program.md?

Cómo funciona Autoresearch

Los resultados

Por qué program.md importa más allá de la investigación en ML

Del Vibe Coding al Agentic Engineering

Lo que esto significa para los trabajadores del conocimiento

Construir tu flujo de trabajo Markdown-First

## Continue reading

Cómo escribir un buen program.md: guía práctica para instrucciones de agentes IA

Autoresearch para todos: cómo ejecutar 100 experimentos de IA mientras duermes

De README.md a PROGRAM.md: Markdown ya es un lenguaje de programación

De SETI@home a AgentHub: la visión de Karpathy para la investigación IA distribuida

Jean-Sébastien Wallez