SpQAun parser para análise de preguntas en español orientado a búsqueda de respostas

  1. DEL RÍO GAYO, Iria
Dirixida por:
  1. María Paula Santalla del Río Director

Universidade de defensa: Universidade de Santiago de Compostela

Fecha de defensa: 15 de xaneiro de 2014

Tribunal:
  1. Guillermo Rojo Sánchez Presidente
  2. Pablo Gamallo Otero Secretario
  3. Nelleke Oostdijk Vogal
  4. María Victoria Escandell Vidal Vogal
  5. Xabier Arregi Iparragirre Vogal
Departamento:
  1. Departamento de Lingua e Literatura Españolas, Teoría da Literatura e Lingüística Xeral

Tipo: Tese

Teseo: 357654 DIALNET

Resumo

Un sistema de Búsqueda de Respuestas (BR) permite a un usuario realizar una pregunta en lenguaje natural y obtener automáticamente una respuesta correcta y concisa a esa pregunta. La BR es una tarea compleja que implica la puesta en marcha de diversos procesos interdependientes que se estructuran en tres fases o módulos: (1) análisis y comprensión de la pregunta; (2) análisis de la información de la fuente de conocimiento y selección de fragmentos susceptibles de contener la respuesta; (3) selección, extracción y generación de la respuesta. Los sistemas de BR presentan distintos grados de comprensión del lenguaje natural: desde aproximaciones más cercanas a la RI que conciben los textos como bags of words (BOW), a sistemas con complejas representaciones semánticas de la pregunta y sus posibles respuestas. Una serie de argumentos y experimentos parecen apoyar que el procesamiento del lenguaje en BR no debe ser superficial, especialmente, en el análisis de la pregunta y en la fase de selección de la respuesta. Teniendo en cuenta estos argumentos y la compleja relación lingüística existente entre preguntas y respuestas, en este trabajo se defiende un modelo de BR en el que se maneje un conocimiento lingüístico profundo, idealmente, un modelo en el que poder utilizar representaciones semánticas del lenguaje, además de poder operar con inferencias y razonamiento lógico. Como este planteamiento es inviable por el momento, en este trabajo se defiende que, al menos, los sistemas de BR deben manejar una representación lo más completa posible (desde el punto de vista lingüístico) de las preguntas. En dicha representación de la pregunta, las relaciones sintácticas son muy relevantes. De hecho, prácticamente todos los sistemas de BR que realizan un procesamiento lingüístico de cierto nivel utilizan información sintáctica. Además, muchos sistemas que manejan representaciones semánticas de las preguntas construyen estas representaciones sobre representaciones sintácticas. La mayoría de los sistemas de BR utilizan para el análisis sintáctico parsers de tipo general, pese a que se ha demostrado que la eficacia de estos parsers disminuye al utilizarlos en dominios específicos. Esto se ha demostrado, en particular, para el análisis de preguntas, tanto en inglés como en español. Por esta razón, algunos autores defienden la necesidad de parsers específicos para el análisis de preguntas. Esta es la propuesta de este trabajo: la construcción de un parser diseñado para el análisis de preguntas en español en un entorno de BR lingüísticamente motivado, SpQA (Spanish Parser for Question Answering). Como no existen marcos teóricos que describan cómo construir un parser, la metodología seguida para la construcción de SpQA parte del objetivo del analizador: el análisis de preguntas en un entorno de BR lingüísticamente motivada. Por esta razón, SpQA se construye, por una parte, a partir de las necesidades del análisis de preguntas en BR y, por otra, a partir de un estudio lingüístico del funcionamiento de las preguntas y la relación pregunta-respuesta. La gramática formal de SpQA está escrita en el formalismo AGFL. Teniendo en cuenta que está orientada al análisis de preguntas, la gramática es más simple en los módulos generales y se centra en el módulo de las oraciones interrogativas. En dicho módulo, se distinguen tres tipos de interrogativas, cada una con una representación diferente: totales, parciales y disyuntivas. Para las parciales, además, se formalizan en la gramática una serie de valores semánticos que ponen de manifiesto el significado de la frase interrogativa. SpQA se genera a partir de esta gramática formal. El análisis que lleva a cabo el parser se representa en forma de grafo dependencial. El grafo, simple y compacto, permite la extracción de tripletes de dependencias y recoge información de tres niveles: léxico, sintáctico y semántico. La evaluación intrínseca de SpQA muestra que el parser alcanza una eficacia aceptable en aquellos objetivos para los que ha sido diseñado, aunque el análisis de errores hace explícito que son necesarias mejoras en algunos ámbitos (modificación en la frase nominal; asignación de función sintáctica en pares como sujeto/objeto). De cara a un futuro, se plantean varios frentes de trabajo para SpQA: subsanación de los errores detectados en la evaluación realizada, integración y evaluación en un sistema de BR, incorporación de otras estructuras lingüísticas que sirven para demandar información (peticiones de información), e integración de información semántica a la representación del grafo dependencial.