★

Training Compute-Optimal Large Language Models — Hoffmann et al. (2022)

Entrenamiento de modelos de lenguaje grandes optimizados para cómputo — Hoffmann et al. (2022)

3 de abr de 2025•6 min de lectura•visitas

El equilibrio que faltaba

Cuando Kaplan et al. publicaron las leyes de escalamiento en 2020, la conclusión práctica fue clara: hacé el modelo más grande posible. Pero el equipo de DeepMind descubrió que esa interpretación era incompleta. Hoffmann et al. demostraron que para un presupuesto de cómputo fijo, existe una relación óptima entre el número de parámetros y la cantidad de tokens de entrenamiento. Y la mayoría de los modelos existentes estaban dramáticamente sub-entrenados.

El resultado estrella fue Chinchilla, un modelo de 70B parámetros entrenado con 1,4 trillones de tokens que superó a Gopher (280B parámetros, 300B tokens) en prácticamente todos los benchmarks. Cuatro veces menos parámetros, significativamente mejor rendimiento. La regla de oro que emergió fue que el número de tokens de entrenamiento debería escalar proporcionalmente al número de parámetros — aproximadamente 20 tokens por parámetro para ser compute-optimal.

Las consecuencias sacudieron la industria. De repente, el cuello de botella no era solo tener suficientes GPUs sino tener suficientes datos de calidad. Esto desencadenó una carrera por la obtención de datos de entrenamiento, la creación de datasets sintéticos y debates legales sobre el uso de datos con copyright. También explica por qué modelos como Llama 2 de Meta fueron entrenados con muchos más tokens de lo que las leyes originales de Kaplan sugerirían — la lección de Chinchilla fue absorbida rápidamente por toda la industria.

Paper original: https://arxiv.org/abs/2203.15556

Newsletter

Subscribite al Newsletter

Un email semanal con un resumen de los últimos artículos.

También en Magacín

IA · leyes de escala

Leyes de escalabilidad para modelos de lenguaje neuronal — Kaplan et al. (2020)

Traducción al español de 'Scaling Laws for Neural Language Models' (Kaplan et al., 2020). Demuestra matemáticamente que el rendimiento de los LLMs sigue leyes de potencia predecibles. La base teórica de GPT-4, Claude y Gemini, explicada en español.

Leer→

IA · arquitectura · transformer

La Atención es Todo lo que Necesitas — Vaswani et al. (2017)

Traducción completa al español de 'Attention Is All You Need' (Vaswani et al., 2017). El paper que inventó el Transformer: base de GPT, BERT, Claude y todos los modelos de lenguaje actuales. Incluye análisis editorial y contexto histórico.

Leer→

IA · seguridad · alineación

¿Cómo se manifiesta el fracaso? — Paul Christiano (2019)

Traducción al español de 'What Failure Looks Like' de Paul Christiano (2019). Los dos escenarios más probables de fracaso en alineación de IA: uno gradual y uno abrupto. El ensayo de referencia en seguridad de inteligencia artificial.

Leer→