Extracção de relações semânticasrecursos, ferramentas e estratégias

  1. GARCÍA GONZÁLEZ, MARCOS
Dirixida por:
  1. Pablo Gamallo Otero Director

Universidade de defensa: Universidade de Santiago de Compostela

Fecha de defensa: 15 de decembro de 2014

Tribunal:
  1. Manuel Vilares Ferro Presidente/a
  2. María Paula Santalla del Río Secretaria
  3. Lluís Padró Cirera Vogal
  4. Hugo Ricardo Gonçalo Oliveira Vogal
  5. Iñaki Alegría Loinaz Vogal
Departamento:
  1. Departamento de Lingua e Literatura Españolas, Teoría da Literatura e Lingüística Xeral

Tipo: Tese

Resumo

La presente tesis se sitúa en el área del Procesamiento del Lenguaje Natural (PLN), cuyo objetivo es implementar mecanismos de interacción en lengua natural entre seres humanos y máquinas (Jurafsky e Martin, 2009). Concretamente, el proyecto combina diferentes técnicas de PLN para la Extracción de Relaciones (ER) semánticas. La ER es una subárea de la extracción de información que consiste en la obtención automática de pares de palabras relacionadas semánticamente (Banko e Etzioni, 2008). Por ejemplo, de la oración ¿Sergey Brin y Larry Page fundaron la empresa Google en 1996¿, un sistema de ER podría obtener el siguiente conocimiento estructurado: ¿ Fundador(Sergey Brin, Google) ¿ Fundador(Larry Page, Google) ¿ FechaFundación(Google, 1996) Una vez obtenido, este conocimiento puede ser organizado en formatos accesibles para los ordenadores, y ser utilizado en diferentes aplicaciones, como la recuperación de información (Wan et. al, 2005) o sistemas de respuesta a preguntas (Mann, 2002). Los sistemas de ER se aplican, de modo general, sobre la salida de herramientas de PLN, como etiquetadores morfosintácticos o reconocedores de entidades con nombre. (Padró, 2012). Como este tipo de herramientas no está siempre disponible de modo libre, este proyecto también tiene en cuenta la adaptación e implementación de diferentes módulos necesarios para la construcción de sistemas de extracción de relaciones semánticas. La tesis tiene como objetivo implementar y evaluar diferentes estrategias para la extracción automática de relaciones semánticas (de dominio biográfico) en portugués, español y gallego Para conseguir este objetivo, se asume que será necesaria la adaptación y/o creación de diferentes herramientas de PLN para alguna(s) de las lenguas referidas. Teniendo en cuenta las necesidades de los sistemas de ER y la escasez de recursos para portugués, español y gallego, se pretende, por un lado, conseguir un conjunto de corpus y léxicos con diferentes niveles de anotación lingüística, útiles tanto para construir sistemas de aprendizaje automático como para evaluar herramientas basadas en reglas de carácter lingüístico. Por otro lado, el propio diseño de herramientas para las diferentes tareas del PLN también será preciso para la implementación de los sistemas de ER. En esta tesis se considera necesaria la combinación de metodologías de base simbólica con el uso de técnicas estadísticas que permitan desenvolver herramientas de modo rápido y eficaz. En relación a las estrategias de ER, se pretende implementar y evaluar sistemas basados en reglas y patrones léxico-sintácticos y clasificadores supervisados que necesiten corpus de aprendizaje para la creación de modelos estadísticos. Sobre los diferentes módulos de PLN necesarios para la ER, se considera que, cuando sea posible, la mejor opción será la adaptación de herramientas libres que tengan resultados próximos al estado del arte. En el caso de que no existan, se intentará desarrollar sistemas, simbólicos o estadísticos, que puedan analizar las lenguas objeto de estudio con alta precisión.