Attention Is All You Need — Vaswani et al. (2017)
La atención es todo lo que necesitas — Vaswani et al. (2017)
Por qué importa este paper
Antes de 2017, el procesamiento de lenguaje natural estaba dominado por arquitecturas recurrentes — LSTMs y GRUs que procesaban tokens de forma secuencial. El equipo de Google Brain propuso algo radical: eliminar la recurrencia por completo y reemplazarla con un mecanismo de auto-atención que permite a cada token "ver" todos los demás tokens en paralelo. El resultado fue una arquitectura más rápida de entrenar, más escalable y con mejor rendimiento en traducción automática.
La clave del Transformer es el mecanismo de multi-head attention, que permite al modelo aprender diferentes tipos de relaciones entre palabras simultáneamente. Una cabeza puede capturar relaciones sintácticas mientras otra captura relaciones semánticas. Combinado con codificaciones posicionales y conexiones residuales, el modelo logró superar el estado del arte en WMT 2014 English-to-German con significativamente menos tiempo de entrenamiento.
Lo que nadie anticipó fue el impacto a largo plazo. El Transformer no solo revolucionó la traducción — se convirtió en la arquitectura base de GPT, BERT, T5, y prácticamente todos los modelos de lenguaje modernos. Siete años después, seguimos iterando sobre la misma idea fundamental: atención es todo lo que necesitás.
Paper original: https://arxiv.org/abs/1706.03762
Newsletter
Si llegaste hasta acá, sabés que esto vale la pena.
Un email por paper. Sin resúmenes semanales ni contenido de relleno.
También en Magacín
Software 2.0 — Andrej Karpathy (2017)
Acuña el término 'Software 2.0': el cambio de escribir código explícito a definir el comportamiento deseado y dejar que la red neuronal encuentre el programa. El ensayo que reenmarcó cómo pensar en aprendizaje automático.
The AI Layoff Trap — Falk & Tsoukalas (2026)
Un modelo matemático que demuestra que empresas racionales se automatizan más allá del punto óptimo colectivo. Una trampa de coordinación, no de irracionalidad.
Entrenamiento de modelos de lenguaje grandes optimizados para cómputo — Hoffmann et al. (2022)
El paper de Chinchilla que demostró que la mayoría de los LLMs estaban sub-entrenados. No solo necesitás más parámetros: necesitás más datos.