Training Compute-Optimal Large Language Models — Hoffmann et al. (2022)
Entrenamiento de modelos de lenguaje grandes optimizados para cómputo — Hoffmann et al. (2022)
El equilibrio que faltaba
Cuando Kaplan et al. publicaron las leyes de escalamiento en 2020, la conclusión práctica fue clara: hacé el modelo más grande posible. Pero el equipo de DeepMind descubrió que esa interpretación era incompleta. Hoffmann et al. demostraron que para un presupuesto de cómputo fijo, existe una relación óptima entre el número de parámetros y la cantidad de tokens de entrenamiento. Y la mayoría de los modelos existentes estaban dramáticamente sub-entrenados.
El resultado estrella fue Chinchilla, un modelo de 70B parámetros entrenado con 1,4 trillones de tokens que superó a Gopher (280B parámetros, 300B tokens) en prácticamente todos los benchmarks. Cuatro veces menos parámetros, significativamente mejor rendimiento. La regla de oro que emergió fue que el número de tokens de entrenamiento debería escalar proporcionalmente al número de parámetros — aproximadamente 20 tokens por parámetro para ser compute-optimal.
Las consecuencias sacudieron la industria. De repente, el cuello de botella no era solo tener suficientes GPUs sino tener suficientes datos de calidad. Esto desencadenó una carrera por la obtención de datos de entrenamiento, la creación de datasets sintéticos y debates legales sobre el uso de datos con copyright. También explica por qué modelos como Llama 2 de Meta fueron entrenados con muchos más tokens de lo que las leyes originales de Kaplan sugerirían — la lección de Chinchilla fue absorbida rápidamente por toda la industria.
Paper original: https://arxiv.org/abs/2203.15556
Newsletter
Si llegaste hasta acá, sabés que esto vale la pena.
Un email por paper. Sin resúmenes semanales ni contenido de relleno.
También en Magacín
Leyes de escala para modelos de lenguaje neuronales — Kaplan et al. (2020)
Las leyes de escalamiento que predijeron que modelos más grandes entrenados con más datos serían sistemáticamente mejores. La base teórica de la carrera por el tamaño.
Software 2.0 — Andrej Karpathy (2017)
Acuña el término 'Software 2.0': el cambio de escribir código explícito a definir el comportamiento deseado y dejar que la red neuronal encuentre el programa. El ensayo que reenmarcó cómo pensar en aprendizaje automático.
The AI Layoff Trap — Falk & Tsoukalas (2026)
Un modelo matemático que demuestra que empresas racionales se automatizan más allá del punto óptimo colectivo. Una trampa de coordinación, no de irracionalidad.