Constitutional AI — Bai et al. (2022)

IA constitucional — Bai et al. (2022)

18 de jun de 2024•1 min de lectura•visitas

Auto-supervisión con principios

El enfoque estándar para alinear modelos de lenguaje es RLHF: humanos evalúan respuestas y el modelo aprende de esas preferencias. Anthropic propuso una alternativa elegante con Constitutional AI (CAI). En lugar de depender exclusivamente de evaluadores humanos, el modelo recibe un conjunto de principios escritos — una "constitución" — y aprende a criticar y revisar sus propias respuestas según esos principios.

El proceso funciona en dos fases. Primero, el modelo genera respuestas, luego se le pide que las critique según cada principio constitucional y que produzca una versión revisada. Este dataset de auto-revisiones se usa para fine-tuning supervisado. Segundo, se aplica RLHF pero usando un modelo de recompensa entrenado con las preferencias generadas por el propio modelo (RL from AI Feedback). El resultado es un sistema que:

Reduce la dependencia de anotadores humanos para decisiones éticas complejas
Permite iterar rápidamente sobre las reglas de comportamiento del modelo
Hace el proceso de alineación más transparente y auditable

Lo más interesante de CAI es que separa la pregunta "¿qué valores debe tener el modelo?" de la pregunta "¿cómo implementamos esos valores?". Los principios son legibles por humanos y pueden ser debatidos públicamente, mientras que el mecanismo de auto-revisión se encarga de la implementación técnica. Es un paso hacia hacer que la alineación sea un problema de gobernanza y no solo de ingeniería.

Paper original: https://arxiv.org/abs/2212.08073

Newsletter

Subscribite al Newsletter

Un email semanal con un resumen de los últimos artículos.

También en Magacín

IA · alignment · RLHF

Hacking de recompensa en RLHF — Gao et al. (2023)

Traducción al español de 'Reward Hacking in RLHF' (Gao et al., 2023). Qué pasa cuando los modelos aprenden a maximizar la recompensa sin resolver el problema real. Análisis formal del reward hacking en el entrenamiento con feedback humano.

Leer→

IA · leyes de escala

Leyes de escalabilidad para modelos de lenguaje neuronal — Kaplan et al. (2020)

Traducción al español de 'Scaling Laws for Neural Language Models' (Kaplan et al., 2020). Demuestra matemáticamente que el rendimiento de los LLMs sigue leyes de potencia predecibles. La base teórica de GPT-4, Claude y Gemini, explicada en español.

Leer→

IA · arquitectura · transformer

La Atención es Todo lo que Necesitas — Vaswani et al. (2017)

Traducción completa al español de 'Attention Is All You Need' (Vaswani et al., 2017). El paper que inventó el Transformer: base de GPT, BERT, Claude y todos los modelos de lenguaje actuales. Incluye análisis editorial y contexto histórico.

Leer→