LongTraceRL: Aprendizaje de razonamiento de contexto largo desde trayectorias de agentes de búsqueda con recompensas de rúbrica — Autor (2023)
Abstract
El razonamiento de contexto largo sigue siendo un desafío central para los grandes modelos de lenguaje, que a menudo no logran localizar y integrar la información clave en contenido distractor extenso. El aprendizaje por refuerzo con recompensas verificables (RLVR) ha demostrado ser prometedor para esta tarea, sin embargo, los métodos existentes están limitados por distractores de baja confusabilidad y señales de recompensa esparsas y solo de resultado que no pueden supervisar los pasos intermedios del razonamiento. Para abordar estos problemas, presentamos LongTraceRL, que utiliza un enfoque de aprendizaje por refuerzo con feedback humano para mejorar el razonamiento de contexto largo. Para la construcción de datos, generamos preguntas de multi-salto a través de caminatas aleatorias en grafos de conocimiento y aprovechamos las trayectorias de los agentes de búsqueda para construir distractores jerárquicos: documentos que el agente leyó pero no citó (alta confusabilidad) y documentos que aparecieron en los resultados de búsqueda pero nunca se abrieron (baja confusabilidad), produciendo contextos de entrenamiento que son mucho más desafiantes que aquellos construidos por muestreo aleatorio o búsqueda de un solo disparo. Para el diseño de recompensas, proponemos una recompensa de rúbrica que utiliza las entidades doradas a lo largo de cada cadena de razonamiento como supervisión de proceso a nivel de entidad, lo que permite una evaluación más detallada del desempeño del modelo. Esta recompensa de rúbrica se aplica solo a respuestas con respuestas finales correctas (estrategia de solo positivos), lo que distingue la calidad del razonamiento entre respuestas correctas y evita el , que se refiere a la manipulación del sistema para obtener recompensas sin realmente resolver el problema. Los experimentos en tres LLM de razonamiento (4B-30B) en cinco benchmarks de contexto largo demuestran que LongTraceRL supera consistentemente a los puntos de referencia fuertes y fomenta un razonamiento integral y basado en evidencia. Los códigos, conjuntos de datos y modelos están disponibles en https://github.com/THU-KEG/LongTraceRL.Introducción
El razonamiento de contexto largo es un desafío importante en el procesamiento de lenguaje natural, ya que requiere la capacidad de localizar y integrar información clave en contenido extenso y distractor. En este trabajo, presentamos LongTraceRL, un enfoque innovador que combina aprendizaje por refuerzo con recompensas de rúbrica para mejorar el razonamiento de contexto largo en modelos de lenguaje grande.
Metodología
Nuestra metodología se basa en la generación de preguntas de multi-salto a través de caminatas aleatorias en grafos de conocimiento y la utilización de trayectorias de agentes de búsqueda para construir distractores jerárquicos. Luego, diseñamos una recompensa de rúbrica que utiliza las entidades doradas a lo largo de cada cadena de razonamiento como supervisión de proceso a nivel de entidad.
Resultados
Los experimentos en tres LLM de razonamiento (4B-30B) en cinco benchmarks de contexto largo demuestran que LongTraceRL supera consistentemente a los puntos de referencia fuertes y fomenta un razonamiento integral y basado en evidencia.
Conclusión
En este trabajo, presentamos LongTraceRL, un enfoque innovador para mejorar el razonamiento de contexto largo en modelos de lenguaje grande. Nuestros resultados demuestran que LongTraceRL es una herramienta efectiva para mejorar la capacidad de razonamiento de los modelos de lenguaje y fomentar un razonamiento integral y basado en evidencia.
Paper original: http://arxiv.org/abs/2605.31584v1
Newsletter
Si llegaste hasta acá, sabés que esto vale la pena.
Un email por paper. Sin resúmenes semanales ni contenido de relleno.
También en Magacín
Lumos-Nexus: Puenteo Eficiente de Frecuencia con Espacio Latente Homogéneo para Modelos Unificados de Video (2023)
Un marco de generación de video unificado que facilita el desarrollo de capacidades de generación impulsadas por razonamiento con alta fidelidad visual.
Una Teoría Estricta de Algoritmos de Retroalimentación de Error en Optimización Distribuida — Autor (2023)
Una investigación que analiza la retroalimentación de error en la optimización distribuida y su impacto en la convergencia de los algoritmos.