Contribución a la Investigación de Nuevos Modelos de Extracción de Conocimiento sobre Sistemas Big Data

  1. Cerezo Costas, Héctor
Dirixida por:
  1. Francisco Javier González Castaño Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 30 de novembro de 2019

Tribunal:
  1. Ricardo Cao Abad Presidente/a
  2. Milagros Fernández Gavilanes Secretario/a
  3. Pablo Gamallo Otero Vogal

Tipo: Tese

Resumo

La clasificación de textos es uno de los principales campos de investigación del Procesado de Lenguaje Natural (PLN). Su estudio tiene un gran interés práctico dado el amplio espectro de aplicaciones finales de los sistemas de clasificación, tales como el etiquetado automático de mensajes de usuarios en redes sociales (p.e. detección de sentimiento o radicalización) y clasifi-cación de las interacciones de un usuario en su comunicación con agentes conversacionales. El objetivo principal de esta tesis es contribuir al avance de los sistemas de clasificación de textos desde su enfoque más práctico, allanando algunos de los principales obstáculos que se encuentra el científico de datos: la falta de datos etiquetados para el entrenamiento y la representación necesaria para los modelos de clasificación de textos. Para el primer problema se proponen distintas estrategias para realizar búsquedas de datos de un determinado contexto sobre grandes volúmenes de datos. Esto permite generar corpus para determinados ámbitos o detectar textos que guarden cierta similitud con un conjunto inicial. Por otro lado se propone la combinación de datos de varias fuentes con muy poca supervisión humana. También se aplican estrategias a la salida de los clasificadores que permiten filtrar resultados incorrectos, que explotan la semántica de las etiquetas y conocimiento experto. Para el segundo problema se mejora la representación vectorial a la en-trada de los modelos de clasificación mediante nuevas características que se obtienen de textos informales, y se propone un sistema para mejorar la abstracción del texto original entrenado con datos de un diccionario inverso.Se han validado las contribuciones de la tesis en competiciones interna-cionales o proyectos europeos. Por ejemplo, en la competición SemEval de análisis de sentimiento en textos de una red social, problema sumamente subjetivo y de amplio contexto. La búsqueda de textos similares se ha validado en la detección de incidencias urbanas a partir de datos generados por usuarios de redes sociales y también en el ámbito del proyecto europeo PRACTICIES para la detección de contenido radical. Se han verificado las mejoras en la abstracción de textos frente a los principales métodos exis-tentes. Finalmente se ha abordado la clasificación para la extracción de relaciones entre entidades, cuyos principales problemas son la ausencia total de datos de entrenamiento y las numerosas clases posibles