← ATRÁS
PAPER·IA · alignment · Anthropic

Constitutional AI — Bai et al. (2022)

IA constitucional — Bai et al. (2022)

1 min de lecturavisitas

Auto-supervisión con principios

El enfoque estándar para alinear modelos de lenguaje es RLHF: humanos evalúan respuestas y el modelo aprende de esas preferencias. Anthropic propuso una alternativa elegante con Constitutional AI (CAI). En lugar de depender exclusivamente de evaluadores humanos, el modelo recibe un conjunto de principios escritos — una "constitución" — y aprende a criticar y revisar sus propias respuestas según esos principios.

El proceso funciona en dos fases. Primero, el modelo genera respuestas, luego se le pide que las critique según cada principio constitucional y que produzca una versión revisada. Este dataset de auto-revisiones se usa para fine-tuning supervisado. Segundo, se aplica RLHF pero usando un modelo de recompensa entrenado con las preferencias generadas por el propio modelo (RL from AI Feedback). El resultado es un sistema que:

  • Reduce la dependencia de anotadores humanos para decisiones éticas complejas
  • Permite iterar rápidamente sobre las reglas de comportamiento del modelo
  • Hace el proceso de alineación más transparente y auditable

Lo más interesante de CAI es que separa la pregunta "¿qué valores debe tener el modelo?" de la pregunta "¿cómo implementamos esos valores?". Los principios son legibles por humanos y pueden ser debatidos públicamente, mientras que el mecanismo de auto-revisión se encarga de la implementación técnica. Es un paso hacia hacer que la alineación sea un problema de gobernanza y no solo de ingeniería.

Newsletter

Si llegaste hasta acá, sabés que esto vale la pena.

Un email por paper. Sin resúmenes semanales ni contenido de relleno.

También en Magacín