← ATRÁS
PAPER·IA · deep learning · NLP

Attention Is All You Need — Vaswani et al. (2017)

La atención es todo lo que necesitas — Vaswani et al. (2017)

6 min de lecturavisitas


Por qué importa este paper

Antes de 2017, el procesamiento de lenguaje natural estaba dominado por arquitecturas recurrentes — LSTMs y GRUs que procesaban tokens de forma secuencial. El equipo de Google Brain propuso algo radical: eliminar la recurrencia por completo y reemplazarla con un mecanismo de auto-atención que permite a cada token "ver" todos los demás tokens en paralelo. El resultado fue una arquitectura más rápida de entrenar, más escalable y con mejor rendimiento en traducción automática.

La clave del Transformer es el mecanismo de multi-head attention, que permite al modelo aprender diferentes tipos de relaciones entre palabras simultáneamente. Una cabeza puede capturar relaciones sintácticas mientras otra captura relaciones semánticas. Combinado con codificaciones posicionales y conexiones residuales, el modelo logró superar el estado del arte en WMT 2014 English-to-German con significativamente menos tiempo de entrenamiento.

Lo que nadie anticipó fue el impacto a largo plazo. El Transformer no solo revolucionó la traducción — se convirtió en la arquitectura base de GPT, BERT, T5, y prácticamente todos los modelos de lenguaje modernos. Siete años después, seguimos iterando sobre la misma idea fundamental: atención es todo lo que necesitás.



Newsletter

Si llegaste hasta acá, sabés que esto vale la pena.

Un email por paper. Sin resúmenes semanales ni contenido de relleno.

También en Magacín