El procesamiento de lenguaje natural y su impacto en tareas legales

Cuando hoy en día una herramienta legaltech avanzada describe las tecnologías o procesos aplicados, suele incluir alguno de los siguientes términos (o todos a la vez): procesamiento de lenguaje natural, machine learning (aprendizaje automático) y redes neuronales profundas. Todas ellas siempre enmarcadas en la idea de IA o Inteligencia Artificial.

Desde ese momento, y como si de un mantra de tratara, los términos son repetidos una y otra vez como elementos positivos y a destacar. Ahora bien, ¿qué significan y qué implican?

Si bien son términos que en parte pueden llegar a solaparse, vamos a ver a lo largo de varios posts cada uno de ellos, intentando explicar con cierto detalle cuál es su significado, qué problemas intentan resolver y cómo se están aplicando en el tratamiento de tareas legales.

Comenzaremos con el procesamiento de lenguaje natural o como dicen los anglosajones, «Natural Language Processing» (de ahora en adelante NLP).

El Procesamiento de Lenguaje Natural o NLP es el campo que estudia la comprensión y manipulación del lenguaje natural humano, es decir tal y como nos expresamos por escrito o de viva voz, por parte de un ordenador. Por ello trabaja áreas como el entendimiento por parte de una máquina del lenguaje humano, su percepción o generación. Por ejemplo, un software de traducción aplica NLP, siendo una de sus tareas entender que «Hello» es una palabra inglesa que en castellano se traduce como «Hola».

Como tantos otros conceptos, no es algo nuevo. De hecho, cuando Alan Turing formula por allá 1950 su famoso test en «Computing Machinery and Intelligence», está fijando las bases del NLP. Y es que si para pasar el test un humano no debe darse cuenta que está hablando con un programa de ordenador, es básico que la máquina entienda lo que le están diciendo.

El NLP, en mayor o menor grado de complejidad, se aplica a múltiples tareas de nuestro día a día, y desde hace bastantes años. Por ejemplo, y como ya se ha comentado, cualquier traducción de texto (por ejemplo un tuit) emplea NLP. De la misma forma, un sistema que extrae información de un email y partir de esos datos sugiere apuntar una cita en la agenda. También es NLP un análisis de sentimiento sobre si una expresión es positiva, negativa o neutra («Me encanta mi nuevo teléfono» vs «Mi nuevo teléfono va lento«). Igualmente usan NLP la clasificación de texto para detectar spam en el correo electrónico o la indicación de errores gramaticales mientras se escribe un texto.

¿Cómo intenta un ordenador analizar nuestras palabras y sus múltiples significados y variantes? Hay dos grandes corrientes: la simbólica y la estadística.

La aproximación simbólica consiste en un sistema de reglas del estilo «Si ocurre esto, haz eso», y hasta los años 80 fue la dominante bajo las teorías lingüísticas de Chomsky. Puede llegar a generar árboles de reglas realmente complejos, y para un humano resulta más sencillo de entender y predecir su comportamiento. La estadística es más moderna y explotó con la aparición de las técnicas de machine learning o aprendizaje automático y la abundancia de datos proporcionados por Internet. Muy simplificadamente, consiste en anotar y estructurar una serie de textos relacionados con la materia que nos interesa (por ejemplo, contratos de alquiler). Es decir, textos que el software puede comprender sin dificultad. A partir de esos primeros datos anotados, se crea un modelo estadístico al que se le comenzarán a proporcionar datos no anotados ni estructurados, que el algoritmo por su cuenta deberá comenzar a estructurar y clasificar de acuerdo a la información inicialmente suministrada. La base del modelo estadístico es que con suficientes datos previos, puede predecirse estadísticamente el tipo de palabras que se usarán en una frase. De modo que con relativamente menos trabajo, y muchos datos, se puede avanzar de forma más rápida y eficiente en una tarea como el NLP.

A día de hoy se usan casi por igual, incluso se combinan, aunque parece que el método estadístico se ha colocado a la cabeza.

Por otro lado, si alguien quiere profundizar en la materia, el siguiente vídeo de la Universidad de Stanford de introducción a un curso sobre NLP puede ser de gran ayuda. Además, muestra algunas de las tareas que el NLP ya entiende como resueltas, aquellas en las que todavía hay trabajo por hacer o las que aún son complejas para una máquina.

Course Introduction – Stanford NLP – Professor Dan Jurafsky & Chris Manning

Por ejemplo, son tareas casi resueltas la detección de spam, el etiquetaje de palabras (saber si lo leído es un verbo o un adjetivo) o el reconocimiento de nombres propios. Se progresa en conocer el sentido positivo, negativo o neutro de un texto, en deducir el significado de las palabras, la relación entre términos (por ejemplo que un «él» hace referencia a «Juan»), su traducción o la extracción de información. Ahora bien, todavía es difícil para una máquina responder una pregunta, parafrasear, hacer un resumen o mantener un diálogo en tiempo real.

Al final del día, el NLP intenta hacer comprensible el lenguaje humano para una máquina en 5 grandes áreas: la fonología, la morfología, la sintaxis, la semántica y la pragmática. Su archienemigo es la ambigüedad, algo de lo que el lenguaje humano está repleto. Ya sea por el uso de la ironía, el sarcasmo, los registros informales, los errores de pronunciación o escritura, los emojis, la mezcla de idiomas y tantas otras variantes que afectan al lenguaje humano escrito y hablado.

Por tanto, que una máquina sea capaz de comprendernos y dar respuesta no es tarea fácil todavía. Hay progresos obviamente importantes (véase el caso de asistentes inteligentes como Siri, Alexa, Google Now o Cortana). Pero todavía hay un camino largo por recorrer, especialmente cuando el software debe entender más allá de áreas o dominios muy concretos. De ahí que cuando un software señale que habla y entiende como un humano, ya que en su ficha técnica diga usar NLP, eso deba tomarse con una razonable reserva.

Dicho esto, ¿cómo afecta el procesamiento de lenguaje natural en tareas y textos legales?

Visto lo visto, y teniendo en cuenta que el Derecho es texto en su gran mayoría, parece que el sector legal es un caldo de cultivo ideal para aplicar técnicas de NLP y comenzar a automatizar los análisis, revisiones, extracción de información, y con el tiempo, los resúmenes y generación de nuevo texto.

De hecho, proyectos a nivel europeo como MIREL usan NLP para la creación internacional de un marco formal de trabajo en el minado y comprensión de textos legales. La facultad de Derecho de Harvard ha digitalizado toda su base de jurisprudencia, la mayor de EE.UU. junto a la de la Biblioteca del Congreso de EE.UU. Y en materia de términos y condiciones tenemos proyectos como Usable Privacy, que usando NLP analiza la estructura de políticas de privacidad para facilitar al usuario la detección de las áreas que más le importan.

Sin embargo, en realidad el lenguaje humano legal o «legalés» tiene complejidades bastante particulares: la sintaxis legal es enrevesada y poco natural, se usan frases mucho más largas (entre 20 y 25 palabras más de media que en un periódico, por ejemplo), hay un mayor número de preposiciones pero un menor número de verbos o adverbios, se usan múltiples complementos encadenados y frases subordinadas, lo que hace que existan vínculos entre palabras o frases muy separadas. Además, muchos de los términos legales usados solo tienen sentido en el ámbito jurídico, sin existir una correlación en el lenguaje natural común.

En todo caso, el «legalés» presenta aspectos favorables como su estructura rígida o el uso de una terminología bastante común. Para más detalles sobre la aplicación de NLP en textos legales, aquí un buen trabajo (en inglés).

Natural Language Processing and Legal Knowledge Extraction – Simonetta Montemagni, Giula Venturi

Por tanto, aplicar NLP a textos legales implica unos esfuerzos concretos, no es una tarea tan sencilla como aplicar los métodos del lenguaje natural común al «legalés», pero en cualquier caso no es una barrera insuperable. De hecho, en la actualidad las herramientas avanzadas de legaltech usan el NLP y lo hacen mayormente para dos tareas:

1.- Recuperar información

El Information Retrieval o Recuperación de Información consiste en la ciencia de buscar información o metadatos en un documento o incluso buscar documentos en sí en múltiples y variados repositorios.

Las herramientas de e-Discovery o descubrimiento electrónico son los grandes avanzados en esta materia. El e-Discovery no es más que la búsqueda, localización aseguración y examen de datos o documentos electrónicos con la intención de usarlos como evidencia en un caso. Por tanto, ayudan a que una firma legal descubra entre miles de documentos los que pueden ser relevantes en un asunto.

Esa búsqueda podría hacerse por frases o palabras clave, pero el NLP ayuda a hacerla mediante conceptos. De modo que si se buscan documentos que incluyan el término «pago», el software muestra los que mencionan «pago» expresamente pero también los que incluyen conceptos relacionados como facturas, presupuestos, tarifas, honorarios o indemnizaciones, aunque no incluya en término «pago». La cuestión es que el software entiende que aunque esos documentos no incluyen el término «pago», están vinculados al mismo. Y eso es gracias al NLP.

Las herramientas de e-Discovery son mucho más populares en el mercado anglosajón, debido a algunas particularidades legales. Entre ellas destacan software como Brainspace, Relativity o Everlaw, entre otras.

2.- Extraer información

El Information Extraction o Extracción de Información consiste en la tarea de extraer automáticamente información estructurada de documentos desestructurados o semiestructurados. Es decir, sacar datos útiles y ordenados de textos en principio no preparados para ser «entendidos» por una máquina.

Como hemos visto antes, es una de las áreas en las que se está progresando más en materia de NLP.

Ésta sea seguramente el área en la que más están trabajando muchas de las herramientas legaltech más conocidas. Ya sea las que se encargan de revisar contratos para detectar cláusulas inaceptables o requeridas (como hace LawGeex), ayudar en los procesos de due dilligence a detectar plazos, obligaciones o vigencias a tener en cuenta (como hace Luminance) o analizar jurisprudencia para extraer información relevante para plantear una estrategia procesal, según el histórico de resoluciones de un concreto juez, por ejemplo (como hace Ravel Law).

Luego esta información se usa para generar informes, crear visualizaciones a vista de pájaro de un gran conjunto de documentos o ayudar en la preparación de un asunto. Lo que al final del día ayuda al profesional a tomar mejores decisiones.

Obviamente estas técnicas no se emplean de forma independiente, sino que se combinan y se unen a otras como la semántica y la pragmática, o lo que es lo mismo, intentar que el software sea capaz de «entender» el texto y comprender el contexto en el que tiene lugar. Por ejemplo, resumiendo un texto a partir de la «lectura» de varios documentos, y creando de forma abstracta un texto nuevo (no usando por tanto las frases más destacadas de cada texto). Sin embargo, ésta es una de las tareas que todavía resulta compleja para un software, si bien es una simple cuestión de tiempo llegar a ello.

En conclusión, el Procesamiento de Lenguaje Natural o NLP consigue que las máquinas puedan entender, manipular y generar textos a partir del lenguaje humano, escrito o verbal. Se aplica en ámbitos comunes del día a día o en áreas y sectores específicos, como el legal. Dado que el Derecho es mayoritariamente texto, incluso con sus particularidades, la legaltech está haciendo cada vez mayor uso y análisis de esos textos, aumentando las capacidades del profesional (que ahorrará tiempo y ganará en eficiencia). Ahora bien, eso le obliga a centrarse cada vez más en tareas de mayor valor ya que el software se va encargando de las más rutinarias y comunes.

Por lo tanto, no se trata de si el procesamiento de lenguaje natural se va a aplicar o no al sector legal (, de hecho, ya se está aplicando). Se trata de cuándo será eso una práctica común en el día a día jurídico, y eso es una simple cuestión de tiempo.

Continuará…

El procesamiento de lenguaje natural y su impacto en tareas legales

1.- Recuperar información

2.- Extraer información

Comparte esto:

Comentarios

Deja un comentario Cancelar la respuesta

More posts

La línea Maginot y el sector legal

Hoy probamos a fondo… Vlex Analytics

Entrevista con los legaltechies de… Zegal

Los gráficos de la Legaltech española