PAPER·ia·aprendizaje automático·procesamiento de lenguaje natural

LongTraceRL: Aprendizaje de razonamiento de contexto largo desde trayectorias de agentes de búsqueda con recompensas de rúbrica — Autor (2023)

1 de dic de 2023•3 min de lectura•visitas

Abstract

El razonamiento de contexto largo sigue siendo un desafío central para los grandes modelos de lenguaje, que a menudo no logran localizar y integrar la información clave en contenido distractor extenso. El aprendizaje por refuerzo con recompensas verificables (RLVR) ha demostrado ser prometedor para esta tarea, sin embargo, los métodos existentes están limitados por distractores de baja confusabilidad y señales de recompensa esparsas y solo de resultado que no pueden supervisar los pasos intermedios del razonamiento. Para abordar estos problemas, presentamos LongTraceRL, que utiliza un enfoque de aprendizaje por refuerzo con feedback humano para mejorar el razonamiento de contexto largo. Para la construcción de datos, generamos preguntas de multi-salto a través de caminatas aleatorias en grafos de conocimiento y aprovechamos las trayectorias de los agentes de búsqueda para construir distractores jerárquicos: documentos que el agente leyó pero no citó (alta confusabilidad) y documentos que aparecieron en los resultados de búsqueda pero nunca se abrieron (baja confusabilidad), produciendo contextos de entrenamiento que son mucho más desafiantes que aquellos construidos por muestreo aleatorio o búsqueda de un solo disparo. Para el diseño de recompensas, proponemos una recompensa de rúbrica que utiliza las entidades doradas a lo largo de cada cadena de razonamiento como supervisión de proceso a nivel de entidad, lo que permite una evaluación más detallada del desempeño del modelo. Esta recompensa de rúbrica se aplica solo a respuestas con respuestas finales correctas (estrategia de solo positivos), lo que distingue la calidad del razonamiento entre respuestas correctas y evita el , que se refiere a la manipulación del sistema para obtener recompensas sin realmente resolver el problema. Los experimentos en tres LLM de razonamiento (4B-30B) en cinco benchmarks de contexto largo demuestran que LongTraceRL supera consistentemente a los puntos de referencia fuertes y fomenta un razonamiento integral y basado en evidencia. Los códigos, conjuntos de datos y modelos están disponibles en https://github.com/THU-KEG/LongTraceRL.

Introducción

El razonamiento de contexto largo es un desafío importante en el procesamiento de lenguaje natural, ya que requiere la capacidad de localizar y integrar información clave en contenido extenso y distractor. En este trabajo, presentamos LongTraceRL, un enfoque innovador que combina aprendizaje por refuerzo con recompensas de rúbrica para mejorar el razonamiento de contexto largo en modelos de lenguaje grande.

Metodología

Nuestra metodología se basa en la generación de preguntas de multi-salto a través de caminatas aleatorias en grafos de conocimiento y la utilización de trayectorias de agentes de búsqueda para construir distractores jerárquicos. Luego, diseñamos una recompensa de rúbrica que utiliza las entidades doradas a lo largo de cada cadena de razonamiento como supervisión de proceso a nivel de entidad.

Resultados

Los experimentos en tres LLM de razonamiento (4B-30B) en cinco benchmarks de contexto largo demuestran que LongTraceRL supera consistentemente a los puntos de referencia fuertes y fomenta un razonamiento integral y basado en evidencia.

Conclusión

En este trabajo, presentamos LongTraceRL, un enfoque innovador para mejorar el razonamiento de contexto largo en modelos de lenguaje grande. Nuestros resultados demuestran que LongTraceRL es una herramienta efectiva para mejorar la capacidad de razonamiento de los modelos de lenguaje y fomentar un razonamiento integral y basado en evidencia.

Paper original: http://arxiv.org/abs/2605.31584v1

Newsletter

Subscribite al Newsletter

Un email semanal con un resumen de los últimos artículos.

También en Magacín

ia · ensayo · sistemas

Lumos-Nexus: Puenteo Eficiente de Frecuencia con Espacio Latente Homogéneo para Modelos Unificados de Video (2023)

Traducción al español de Lumos-Nexus (2023). Un framework unificado de generación de video que combina razonamiento de alta fidelidad visual con eficiencia de frecuencia. Cómo los modelos de IA aprenden a generar video coherente y detallado.

Leer→

ia · optimización · distribuida

Una Teoría Estricta de Algoritmos de Retroalimentación de Error en Optimización Distribuida — Autor (2023)

Traducción al español del paper sobre algoritmos de retroalimentación de error en optimización distribuida (2023). Análisis formal de cómo los errores de comunicación afectan la convergencia en sistemas de aprendizaje distribuido a gran escala.

Leer→