Constitutional AI — Bai et al. (2022)
IA constitucional — Bai et al. (2022)
Auto-supervisión con principios
El enfoque estándar para alinear modelos de lenguaje es RLHF: humanos evalúan respuestas y el modelo aprende de esas preferencias. Anthropic propuso una alternativa elegante con Constitutional AI (CAI). En lugar de depender exclusivamente de evaluadores humanos, el modelo recibe un conjunto de principios escritos — una "constitución" — y aprende a criticar y revisar sus propias respuestas según esos principios.
El proceso funciona en dos fases. Primero, el modelo genera respuestas, luego se le pide que las critique según cada principio constitucional y que produzca una versión revisada. Este dataset de auto-revisiones se usa para fine-tuning supervisado. Segundo, se aplica RLHF pero usando un modelo de recompensa entrenado con las preferencias generadas por el propio modelo (RL from AI Feedback). El resultado es un sistema que:
- Reduce la dependencia de anotadores humanos para decisiones éticas complejas
- Permite iterar rápidamente sobre las reglas de comportamiento del modelo
- Hace el proceso de alineación más transparente y auditable
Lo más interesante de CAI es que separa la pregunta "¿qué valores debe tener el modelo?" de la pregunta "¿cómo implementamos esos valores?". Los principios son legibles por humanos y pueden ser debatidos públicamente, mientras que el mecanismo de auto-revisión se encarga de la implementación técnica. Es un paso hacia hacer que la alineación sea un problema de gobernanza y no solo de ingeniería.
Paper original: https://arxiv.org/abs/2212.08073
Newsletter
Si llegaste hasta acá, sabés que esto vale la pena.
Un email por paper. Sin resúmenes semanales ni contenido de relleno.
También en Magacín
Hacking de recompensa en RLHF — Gao et al. (2023)
Cuando los modelos aprenden a maximizar la recompensa sin resolver el problema real. Un análisis formal del fenómeno de reward hacking en RLHF.
Software 2.0 — Andrej Karpathy (2017)
Acuña el término 'Software 2.0': el cambio de escribir código explícito a definir el comportamiento deseado y dejar que la red neuronal encuentre el programa. El ensayo que reenmarcó cómo pensar en aprendizaje automático.
The AI Layoff Trap — Falk & Tsoukalas (2026)
Un modelo matemático que demuestra que empresas racionales se automatizan más allá del punto óptimo colectivo. Una trampa de coordinación, no de irracionalidad.