La mejora del 19% de Shopify: cómo las empresas ya usan el patrón Autoresearch

Cuando Karpathy publicó autoresearch el 7 de marzo de 2026, tardó exactamente días — no semanas, no meses — para que las empresas empezaran a ejecutarlo en sus propios problemas.

El adoptante temprano más notable: el CEO de Shopify, Tobi Lutke, quien adaptó el framework de autoresearch para un proyecto interno. ¿El resultado? Un modelo de 0,8 mil millones de parámetros entrenado de noche superó a un modelo previo de 1,6 mil millones de parámetros en un 19% después de solo 37 experimentos en 8 horas.

Modelo más pequeño. Mejores resultados. Cero intervención humana durante la noche.

El patrón autoresearch en los negocios

Lo que Shopify demostró no es solo un experimento ML simpático. Es una prueba de concepto para una nueva forma en que las empresas hacen I+D.

El enfoque tradicional: contratar ingenieros ML, hacer que ejecuten experimentos manualmente, revisar resultados en reuniones, decidir los próximos pasos, repetir lentamente. Un buen equipo podría ejecutar 30 experimentos enfocados al mes.

El enfoque autoresearch: escribir un program.md definiendo tus objetivos, dejar que un agente de IA ejecute experimentos de noche, revisar los resultados por la mañana. Un ingeniero, una GPU, 100+ experimentos por noche.

La matemática es aplastante. La investigación manual produce ~1 experimento por día por investigador. Autoresearch produce ~12 por hora. Eso es un aumento de 100 veces en el rendimiento experimental.

Más allá del ML: los 36.500 experimentos al año

El patrón se extiende más allá del entrenamiento de modelos. Los equipos de marketing normalmente realizan unos 30 experimentos al año — pruebas A/B, variaciones de copy, cambios de targeting de audiencia. Es lento porque cada experimento requiere configuración, monitoreo y análisis humanos.

Los adoptantes tempranos ya imaginan un mundo donde agentes autónomos ejecutan 100 experimentos de marketing al día, midiendo tasas de conversión, ajustando copy e iterando sobre el targeting — todo guiado por un program.md que define los objetivos y restricciones de la marca.

Eso son 36.500+ experimentos al año frente a 30. Las empresas que adopten este patrón primero tendrán una ventaja compuesta que será casi imposible de alcanzar.

Lo que hizo posibles los resultados de Shopify

La mejora del 19% de Shopify no fue suerte. Varios factores lo hicieron funcionar:

Métricas claras. Tenían una métrica de evaluación bien definida que el agente podía medir automáticamente después de cada experimento. Sin medición automatizada, el bucle se rompe.

Alcance restringido. Como el train.py de 630 líneas de Karpathy, Shopify mantuvo la base de código modificable lo suficientemente pequeña para que el LLM la entendiera completamente. No lanzas una base de código de un millón de líneas a un agente y esperas lo mejor.

Buenas instrucciones iniciales. El program.md que dirigía al agente estaba informado por el conocimiento del dominio del equipo. El agente no buscaba aleatoriamente — exploraba direcciones que el equipo había identificado como prometedoras.

Confianza en el proceso. Lo dejaron correr de noche sin intervenir. La tentación de verificar y ajustar cada hora derrota el propósito de la experimentación autónoma.

El patrón de ejecución nocturna

La adopción típica de autoresearch sigue un patrón:

Día 1: Configurar el entorno, escribir tu primer program.md, ejecutar algunos experimentos manualmente para verificar que el bucle funciona.

Noche 1: Iniciar el agente antes de salir. Configurarlo para que corra indefinidamente, commiteando mejoras y revirtiendo fallos.

Mañana del día 2: Revisar el git log. Ver qué intentó el agente, qué funcionó y qué no. Actualizar tu program.md basándote en lo que aprendiste.

Noche 2: Ejecutar de nuevo con instrucciones mejoradas. El agente empieza desde donde quedó el mejor resultado de la noche 1.

En una semana: Tienes un program.md refinado y docenas de mejoras validadas que un equipo humano habría tardado meses en descubrir.

Industrias listas para este patrón

Cualquier campo que implique experimentación sistemática puede adoptar el bucle autoresearch:

Machine learning — el caso de uso original. Ajuste de hiperparámetros, búsqueda de arquitectura, experimentos de regularización.

Optimización de software — ajuste de rendimiento, reducción del tamaño del bundle, optimización de consultas. Donde sea que tengas una métrica medible y código modificable.

Descubrimiento de fármacos — simulaciones moleculares con afinidad de unión medible. El experimento es computacional, la métrica es numérica, el bucle es automatizable.

Modelización financiera — backtesting de estrategias de trading contra datos históricos. Métricas claras, retroalimentación rápida, gran espacio de búsqueda.

Optimización de contenido — pruebas A/B de titulares, layouts y copy con tasa de conversión como métrica.

La ventaja del Markdown

En todos los casos, la contribución del humano es la misma: un archivo Markdown que define qué optimizar, qué restricciones respetar y qué estrategias intentar.

Por eso la alfabetización en Markdown se está convirtiendo en una ventaja competitiva. Las empresas que escriben los mejores archivos program.md son las que obtienen los mejores resultados de los agentes autónomos. Y escribir buenos archivos program.md requiere conocimiento profundo del dominio organizado en un formato que la IA pueda consumir.

Las empresas que construyen bibliotecas de referencia — guardando documentación, análisis competitivos, artículos de investigación y mejores prácticas como Markdown limpio — tienen ventaja. Cuando llega el momento de escribir el program.md que dirigirá un experimento nocturno, pueden recurrir a una base de conocimiento curada en lugar de empezar desde cero.

Save convierte cualquier página web en Markdown limpio — construyendo la biblioteca de conocimiento que las empresas necesitan para escribir instrucciones de agente de IA efectivas. Prueba Save gratis.

La mejora del 19% de Shopify: cómo las empresas ya usan el patrón Autoresearch

El patrón autoresearch en los negocios

Más allá del ML: los 36.500 experimentos al año

Lo que hizo posibles los resultados de Shopify

El patrón de ejecución nocturna

Industrias listas para este patrón

La ventaja del Markdown

## Continue reading

Autoresearch para todos: cómo ejecutar 100 experimentos de IA mientras duermes

El Autoresearch de Karpathy & PROGRAM.md: la IA que hace experimentos mientras duermes

El commit de Git como descubrimiento científico: cómo Autoresearch convierte el control de versiones en un laboratorio de investigación

Cómo escribir un buen program.md: guía práctica para instrucciones de agentes IA

Jean-Sébastien Wallez