Attention Is All You Need — Vaswani et al. (2017)

La atención es todo lo que necesitas — Vaswani et al. (2017)

15 de mar de 2024—6 min de lectura—visitas

Por qué importa este paper

Antes de 2017, el procesamiento de lenguaje natural estaba dominado por arquitecturas recurrentes — LSTMs y GRUs que procesaban tokens de forma secuencial. El equipo de Google Brain propuso algo radical: eliminar la recurrencia por completo y reemplazarla con un mecanismo de auto-atención que permite a cada token "ver" todos los demás tokens en paralelo. El resultado fue una arquitectura más rápida de entrenar, más escalable y con mejor rendimiento en traducción automática.

La clave del Transformer es el mecanismo de multi-head attention, que permite al modelo aprender diferentes tipos de relaciones entre palabras simultáneamente. Una cabeza puede capturar relaciones sintácticas mientras otra captura relaciones semánticas. Combinado con codificaciones posicionales y conexiones residuales, el modelo logró superar el estado del arte en WMT 2014 English-to-German con significativamente menos tiempo de entrenamiento.

Lo que nadie anticipó fue el impacto a largo plazo. El Transformer no solo revolucionó la traducción — se convirtió en la arquitectura base de GPT, BERT, T5, y prácticamente todos los modelos de lenguaje modernos. Siete años después, seguimos iterando sobre la misma idea fundamental: atención es todo lo que necesitás.

Paper original: https://arxiv.org/abs/1706.03762

Newsletter

Si llegaste hasta acá, sabés que esto vale la pena.

Un email por paper. Sin resúmenes semanales ni contenido de relleno.

También en Magacín

IA · software★

Software 2.0 — Andrej Karpathy (2017)

Acuña el término 'Software 2.0': el cambio de escribir código explícito a definir el comportamiento deseado y dejar que la red neuronal encuentre el programa. El ensayo que reenmarcó cómo pensar en aprendizaje automático.

Leer→

economía · IA · política

The AI Layoff Trap — Falk & Tsoukalas (2026)

Un modelo matemático que demuestra que empresas racionales se automatizan más allá del punto óptimo colectivo. Una trampa de coordinación, no de irracionalidad.

Leer→

IA · scaling · DeepMind★

Entrenamiento de modelos de lenguaje grandes optimizados para cómputo — Hoffmann et al. (2022)

El paper de Chinchilla que demostró que la mayoría de los LLMs estaban sub-entrenados. No solo necesitás más parámetros: necesitás más datos.

Leer→