Se presenta un modelo para valorar el nivel de razonamiento jurídico de los grandes modelos de lenguaje, como ChatGPT

12-9-2023 | LA LEY

Un grupo de expertos de diversas universidades y centros de investigación norteamericanos han elaborado un modelo, centrado en el idioma inglés y el derecho anglosajón, para determinar un benchmark o umbral de acierto mínimo que, una vez superado, permita aceptar como fiable un sistema de IA en el ámbito jurídico.

Carlos B Fernández. La aplicación de la inteligencia artificial generativa (GenAI, por la abreviatura por la que es conocida en inglés) basada en grandes modelos de lenguaje (LLM), al ámbito del Derecho plantea, como recientemente ha explicado en estas páginas el profesor Saiz Garitaonandia, numerosas interrogantes.

Sin embargo, la rápida difusión de estas tecnologías y su inmediata utilización por muchos profesionales (en ocasiones, con nefastos resultados), no se compadecen con los riesgos que plantea su utilización.

Como explicó Enrique Dans en su blog “lo que un algoritmo generativo hace es una versión avanzada de un autocomplete, pero en función de los datos con los que contó en su entrenamiento y de las pautas y patrones que ha deducido a partir de ellos. ChatGPT no es, en ningún caso, una base de datos de jurisprudencia, y su funcionalidad no es rebuscar en ella”.

Esta explicación es aplicable a cualquier actividad jurídica relacionada con el Derecho. Sin embargo, deberá ser matizada en la medida en que estos sistemas puedan ser entrenados con datos de calidad jurídica, que le sirvan, previo un adecuado entrenamiento, para ofrecer a sus usuarios, resultados fiables. Algo que, sin duda, va ir sucediendo, a medida que entidades públicas y privadas, desde universidades a despachos de abogados, pasando por editoriales y empresas de servicios jurídicos, utilicen esta tecnología y la preparen con dichos datos.

Por eso resulta particularmente interesante el documento "Legalbench: A collaboratively built benchmark for measuring legal reasoning in large language model" (Legalbench: un sistema de medición del razonamiento legal de los grandes modelos de lenguaje, construido en modo colaborativo), del que son autores Neel Guda, de la Universidad de Stanford y 39 expertos más de otros centros académicos como las Universidades de Chicago, Southern California, Georgetown o Toronto y centros como el Dartmouth College, la Harvard Law School, el Stanford Center for Legal Informatics - CodeX, University of, o el Stanford Law School.

La finalidad de este estudio, centrado en el idioma inglés y el derecho anglosajón, es presentar un benchmark o un umbral de acierto mínimo que, una vez superado, permita aceptar como fiable un sistema de IA (Saiz Garitaonandia).

Criterios para valorar la calidad jurídica de un gran modelo de lenguaje

El documento parte de la observación de que los LLM poseen propiedades especiales que los hacen adecuados para las tareas jurídicas, en particular por su aparente destreza para la realización de tareas que exigen un razonamiento sofisticado, que exige analizar textos obtusos con mucha jerga, así como procesos inferenciales que combinan distintas modalidades de razonamiento.

Sin embargo, estos sistemas se han demostrado igualmente capaces de generar contenidos ofensivos, engañosos e incorrectos que, si se reproducen en aplicaciones jurídicas podrían provocar daños sustanciales, en especial sobre poblaciones tradicionalmente marginadas y con escasos recursos.

Por tanto, las exigencias de seguridad a que obligan estos sistemas, plantean la necesidad acuciante de desarrollar infraestructuras y procesos para la evaluación comparativa de los LLM en contextos jurídicos. Una tarea no sencilla, ya que, por una parte, solo existe un limitado ecosistema de benchmark jurídicos y los que existen se centran en tareas que los modelos han aprendido entrenando y afinando con datos específicos para una tarea (como aprobar el Uniform Bar Exam, o examen de acceso a la abogacía en los EEUU), que no es representativa de los casos reales de uso de los LLM. Por otra parte, existe una incongruencia entre lo que los abogados y los benchmark existentes entienden por "razonamiento jurídico", pues los primeros miden el “razonamiento jurídico” generalizando grosso modo todas las tareas que implican datos jurídicos o normas, mientras que los profesionales entienden que el razonamiento jurídico es un término general que engloba muchos tipos distintos de razonamiento, pues diferentes tareas jurídicas requieren diferentes habilidades y conjuntos de conocimientos. En resumen: los benchmark utilizados hasta la fecha en el ámbito jurídico no utilizan el mismo vocabulario ni los mismos marcos conceptuales que la profesión jurídica.

A la luz de estas limitaciones, los autores consideran que una evaluación rigurosa de las capacidades de razonamiento jurídico de los LLM requiere que la comunidad jurídica adopte un papel proactivo en el proceso de evaluación comparativa.

Para ello, han identificado 162 tareas que abarcan seis tipos diferentes de razonamiento jurídico.

Estos seis tipos de razonamiento jurídico que pueden evaluarse en los LLM son: 1) identificación de problemas (issue-spotting), 2) invocación de normas (rule-recall), 3) aplicación de normas (rule-application), 4) conclusión de normas (rule-conclusion), (5) interpretación (interpretation) y (6) comprensión en términos verbales (rhetorical-understanding).

En el ámbito de la identificación de los problemas, Legalbench evalúa la capacidad del LLM para razonar sobre las implicaciones jurídicas de diferentes actividades, acontecimientos y sucesos.

Por lo que se refiere a la invocación de las normas, Legalbench evalúa si el LLM identifica la norma jurídica correcta sobre una cuestión en una jurisdicción determinada (por ejemplo, la norma sobre pruebas de cargo en un tribunal federal de EE.UU.), o determinar si tal norma existe en esa jurisdicción (un aspecto relevante, ya que las normas legales difieren en las distintas jurisdicciones). Esta tarea de identificación de la norma aplicable resulta especialmente útil para medir las posibles alucinaciones (o falsos resultados) generados por el sistema. Para ello, cabe preguntar igualmente al sistema que enuncie distintas redacciones de una norma, que identifique dónde están codificadas las leyes y que responda a preguntas generales sobre la doctrina.

En la valoración de su capacidad de aplicación de normas, Legalbench evalúa la capacidad del sistema para determinar el resultado de aplicar una regla específica a un conjunto de hechos. Los LLM se evalúan únicamente en función de si el resultado que predicen es correcto. Por ejemplo, que determine si un contrato determinado se rige por el Código Comercial Uniforme (UCC) o por el derecho común de los contratos.

En el ámbito de la conclusión de normas, Legalbench evalúa la aplicación de normas mediante las mismas tareas utilizadas para medir la conclusión de normas. Sin embargo, en en este caso se pide al LLM que explique cómo se aplica la regla a un conjunto de hechos, para evaluar la calidad de la explicación generada en dos dimensiones: 1) si la explicación es correcta y 2) si contiene un análisis. Cada una de estas métricas capta una dimensión diferente en la que una aplicación de reglas concreta puede ser buena. La corrección corresponde al criterio de que las explicaciones no deben contener errores. En concreto, se persiguen cinco tipos de errores: errores en la identificación de la norma jurídica; enunciados erróneos de los hechos; afirmaciones incorrectas del resultado jurídico; errores lógicos y errores aritméticos. El criterio para valorar estos errores es el de que las explicaciones deben contener inferencias de los hechos que son relevantes según la norma, e ilustrar cómo se llega a una conclusión. Se trata de un ámbito que a menudo genera resultados insatisfactorios en el contexto del trabajo jurídico.

En quinto lugar, Legalbench evalúa la interpretación realizada de la nroma mediante tareas que requieren que el LLM analice y comprenda un texto jurídico. jurídico. Las tareas interpretativas proporcionan al LLM un texto y le piden que extraiga una información relevante, responda a una pregunta o clasifique el texto según alguna propiedad. Las tareas interpretativas se encuentran entre las tareas más estudiadas y de mayor relevancia práctica en LEGALBENCH, y muchas se han tomado de casos de uso reales. Un ejemplo de tarea interpretativa es pedir al LLM que determine si una cláusula contractual contiene un "derecho de auditoría".

Finalmente, el proyecto evalúa la comprensión retórica a través de tareas que requieren que un LLM razone sobre la argumentación y el análisis jurídicos. En estas tareas, se proporciona al sistema un argumento jurídico (normalmente extraído de una opinión judicial) y se le pide que determine si cumple una determinada función o tiene una determinada propiedad. Un ejemplo es la tarea de clasificación de definiciones, en la que un LLM debe determinar si una frase de una opinión judicial proporciona una definición de un término.

Para valorar el comportamiento del LLM en cada una de estas tipos de razonamiento, se le asignan diversos tipos de tareas, que se han evaluado en veinte tipos de LLM, entre aquellos de formato comercial (familia OpenAI: GPT-4, GPT-3.5 y Claude-1) y otros de código abierto. En todos los casos por medio de la utilización de consultas (prompts) específicos para cada tarea.

Opinar (0)

Queremos saber tu opiniónNombreE-mail (no será publicado)Comentario

Conozco y acepto las condiciones sobre protección de datos

LA LEY no se hace responsable de las opiniones vertidas en los comentarios. Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista.

Introduce el código que aparece en la imagen captcha

Enviar

Volver a página de inicio

Volver a página de inicio

Generales / Multidisciplinares

Civil

Mercantil

Procesal

Penal

Administrativo

Fiscal

Laboral

Se presenta un modelo para valorar el nivel de razonamiento jurídico de los grandes modelos de lenguaje, como ChatGPT