La mejora del 19% de Shopify: cómo las empresas ya usan el patrón Autoresearch

·

Cuando Karpathy publicó autoresearch el 7 de marzo de 2026, tardó exactamente días — no semanas, no meses — para que las empresas empezaran a ejecutarlo en sus propios problemas.

El adoptante temprano más notable: el CEO de Shopify, Tobi Lutke, quien adaptó el framework de autoresearch para un proyecto interno. ¿El resultado? Un modelo de 0,8 mil millones de parámetros entrenado de noche superó a un modelo previo de 1,6 mil millones de parámetros en un 19% después de solo 37 experimentos en 8 horas.

Modelo más pequeño. Mejores resultados. Cero intervención humana durante la noche.

El patrón autoresearch en los negocios

Lo que Shopify demostró no es solo un experimento ML simpático. Es una prueba de concepto para una nueva forma en que las empresas hacen I+D.

El enfoque tradicional: contratar ingenieros ML, hacer que ejecuten experimentos manualmente, revisar resultados en reuniones, decidir los próximos pasos, repetir lentamente. Un buen equipo podría ejecutar 30 experimentos enfocados al mes.

El enfoque autoresearch: escribir un program.md definiendo tus objetivos, dejar que un agente de IA ejecute experimentos de noche, revisar los resultados por la mañana. Un ingeniero, una GPU, 100+ experimentos por noche.

La matemática es aplastante. La investigación manual produce ~1 experimento por día por investigador. Autoresearch produce ~12 por hora. Eso es un aumento de 100 veces en el rendimiento experimental.

Más allá del ML: los 36.500 experimentos al año

El patrón se extiende más allá del entrenamiento de modelos. Los equipos de marketing normalmente realizan unos 30 experimentos al año — pruebas A/B, variaciones de copy, cambios de targeting de audiencia. Es lento porque cada experimento requiere configuración, monitoreo y análisis humanos.

Los adoptantes tempranos ya imaginan un mundo donde agentes autónomos ejecutan 100 experimentos de marketing al día, midiendo tasas de conversión, ajustando copy e iterando sobre el targeting — todo guiado por un program.md que define los objetivos y restricciones de la marca.

Eso son 36.500+ experimentos al año frente a 30. Las empresas que adopten este patrón primero tendrán una ventaja compuesta que será casi imposible de alcanzar.

Lo que hizo posibles los resultados de Shopify

La mejora del 19% de Shopify no fue suerte. Varios factores lo hicieron funcionar:

Métricas claras. Tenían una métrica de evaluación bien definida que el agente podía medir automáticamente después de cada experimento. Sin medición automatizada, el bucle se rompe.

Alcance restringido. Como el train.py de 630 líneas de Karpathy, Shopify mantuvo la base de código modificable lo suficientemente pequeña para que el LLM la entendiera completamente. No lanzas una base de código de un millón de líneas a un agente y esperas lo mejor.

Buenas instrucciones iniciales. El program.md que dirigía al agente estaba informado por el conocimiento del dominio del equipo. El agente no buscaba aleatoriamente — exploraba direcciones que el equipo había identificado como prometedoras.

Confianza en el proceso. Lo dejaron correr de noche sin intervenir. La tentación de verificar y ajustar cada hora derrota el propósito de la experimentación autónoma.

El patrón de ejecución nocturna

La adopción típica de autoresearch sigue un patrón:

Día 1: Configurar el entorno, escribir tu primer program.md, ejecutar algunos experimentos manualmente para verificar que el bucle funciona.

Noche 1: Iniciar el agente antes de salir. Configurarlo para que corra indefinidamente, commiteando mejoras y revirtiendo fallos.

Mañana del día 2: Revisar el git log. Ver qué intentó el agente, qué funcionó y qué no. Actualizar tu program.md basándote en lo que aprendiste.

Noche 2: Ejecutar de nuevo con instrucciones mejoradas. El agente empieza desde donde quedó el mejor resultado de la noche 1.

En una semana: Tienes un program.md refinado y docenas de mejoras validadas que un equipo humano habría tardado meses en descubrir.

Industrias listas para este patrón

Cualquier campo que implique experimentación sistemática puede adoptar el bucle autoresearch:

Machine learning — el caso de uso original. Ajuste de hiperparámetros, búsqueda de arquitectura, experimentos de regularización.

Optimización de software — ajuste de rendimiento, reducción del tamaño del bundle, optimización de consultas. Donde sea que tengas una métrica medible y código modificable.

Descubrimiento de fármacos — simulaciones moleculares con afinidad de unión medible. El experimento es computacional, la métrica es numérica, el bucle es automatizable.

Modelización financiera — backtesting de estrategias de trading contra datos históricos. Métricas claras, retroalimentación rápida, gran espacio de búsqueda.

Optimización de contenido — pruebas A/B de titulares, layouts y copy con tasa de conversión como métrica.

La ventaja del Markdown

En todos los casos, la contribución del humano es la misma: un archivo Markdown que define qué optimizar, qué restricciones respetar y qué estrategias intentar.

Por eso la alfabetización en Markdown se está convirtiendo en una ventaja competitiva. Las empresas que escriben los mejores archivos program.md son las que obtienen los mejores resultados de los agentes autónomos. Y escribir buenos archivos program.md requiere conocimiento profundo del dominio organizado en un formato que la IA pueda consumir.

Las empresas que construyen bibliotecas de referencia — guardando documentación, análisis competitivos, artículos de investigación y mejores prácticas como Markdown limpio — tienen ventaja. Cuando llega el momento de escribir el program.md que dirigirá un experimento nocturno, pueden recurrir a una base de conocimiento curada en lugar de empezar desde cero.


Save convierte cualquier página web en Markdown limpio — construyendo la biblioteca de conocimiento que las empresas necesitan para escribir instrucciones de agente de IA efectivas. Prueba Save gratis.

## Continue reading

Jean-Sébastien Wallez

Written by

Jean-Sébastien Wallez

I've been making internet products for 10+ years. Built Save on weekends because I wanted my own reading library in clean markdown for Claude and Obsidian. Write here about web clipping, AI workflows, and the small things that make a personal knowledge base actually useful.

## try save

¿Listo para guardar de forma más inteligente?

Convierte cualquier página web a Markdown con un clic.

Agregar a Chrome 🐿️