Scaling Laws for Neural Language Models — Kaplan et al. (2020)
Leyes de escala para modelos de lenguaje neuronales — Kaplan et al. (2020)
La física de los modelos de lenguaje
El equipo de OpenAI descubrió algo que cambió las prioridades de toda la industria: el rendimiento de los modelos de lenguaje sigue leyes de potencia predecibles en función de tres variables — el número de parámetros, el tamaño del dataset y la cantidad de cómputo utilizado. No hay mesetas sorpresivas ni rendimientos decrecientes abruptos. Más es simplemente mejor, de forma matemáticamente regular.
Las implicaciones prácticas fueron enormes. Si podés predecir cuánto mejora un modelo al duplicar sus parámetros, podés planificar inversiones en infraestructura con confianza. Esto transformó el entrenamiento de LLMs de un arte experimental a algo más parecido a ingeniería: sabés de antemano qué resultado esperar para un presupuesto dado. Las empresas empezaron a apostar miles de millones en GPUs porque los números decían que iba a funcionar.
Lo que el paper también reveló es que la arquitectura específica importa menos de lo que creíamos. Dentro de una familia de modelos, la forma exacta del Transformer (ancho vs. profundidad) tiene un efecto secundario comparado con la escala total. Esta observación reforzó la tesis de que estamos en una era donde el recurso más valioso no es la innovación algorítmica sino el acceso a cómputo masivo.
Paper original: https://arxiv.org/abs/2001.08361
Newsletter
Si llegaste hasta acá, sabés que esto vale la pena.
Un email por paper. Sin resúmenes semanales ni contenido de relleno.
También en Magacín
Entrenamiento de modelos de lenguaje grandes optimizados para cómputo — Hoffmann et al. (2022)
El paper de Chinchilla que demostró que la mayoría de los LLMs estaban sub-entrenados. No solo necesitás más parámetros: necesitás más datos.
Software 2.0 — Andrej Karpathy (2017)
Acuña el término 'Software 2.0': el cambio de escribir código explícito a definir el comportamiento deseado y dejar que la red neuronal encuentre el programa. El ensayo que reenmarcó cómo pensar en aprendizaje automático.
The AI Layoff Trap — Falk & Tsoukalas (2026)
Un modelo matemático que demuestra que empresas racionales se automatizan más allá del punto óptimo colectivo. Una trampa de coordinación, no de irracionalidad.