Exploiting multiple sources of evidence for opinion search in the web

  1. González Chenlo, José Manuel
Dirigida por:
  1. David Enrique Losada Carril Director

Universidad de defensa: Universidade de Santiago de Compostela

Fecha de defensa: 12 de septiembre de 2014

Tribunal:
  1. Álvaro Barreiro García Presidente/a
  2. Pablo Gamallo Otero Secretario
  3. Roi Blanco González Vocal
  4. Rafael Berlanga Vocal
  5. Fabio Crestani Vocal
Departamento:
  1. Departamento de Electrónica y Computación

Tipo: Tesis

Resumen

En esta tesis nos centramos en sistemas Minería de Opiniones y Análisis de Sentimientos y proponemos un análisis de grado fino de las opiniones vertidas en textos. Concretamente, la motivación principal de esta tesis es comprender cómo combinar diferentes tipos de evidencias para determinar de forma efectiva opiniones relevantes en textos de diferente índole. Para lograr dicho objetivo consideramos diferentes tipos de señales en los textos, desde evidencia de emparejamiento de contenido (obtenida a nivel de documento y de oración) hasta aspectos estructurales de los textos. La tecnología actual de Minería de Opiniones sufre una serie de carencias que no la hacen apta para resolver las necesidades de información actuales. Un hecho que evidencia dichas carencias es que la gente suele utilizar motores de búsqueda convencionales, los cuales adolecen de capacidades avanzadas de búsqueda de opiniones, para buscar opiniones sobre sus intereses. Esto hace que el esfuerzo de determinar cuales son las opiniones relevantes clave recaiga en el usuario. La falta de aceptación en la actualidad de los sistemas de Minería de Opiniones viene motivada por las limitaciones de los modelos desarrollados, que son simplistas y ofrecen un rendimiento modesto. En esta tesis estudiamos un conjunto concreto de factores indicadores de subjetividad y relevancia y tratamos de entender cual es la mejor manera de combinarlos para detectar documentos con opiniones, extraerlas y estimar su polaridad. También se propondrán nuevos métodos y modelos capaces de incorporar diferentes tipos de señales --obtenidas a nivel de documento y pasaje-- para determinar opiniones relevantes en textos. La intención de esta tesis es hacer aportaciones en diferentes áreas, incluyendo aquellas relacionadas con i) búsqueda de documentos con opiniones, ii) detección de subjetividad a nivel de documento y pasaje, y iii) estimación de polaridad. Otro aspecto importante que guía esta investigación es la eficiencia. Algunos tipos de señales o evidencias, como es la estructura del discurso de los textos, han sido probadas con anterioridad sólo en colecciones pequeñas y en dominios muy reducidos (por ejemplo, críticas de películas). Esto es debido a su elevada complejidad computacional. A lo largo de la presente tesis se demostrará que estas características lingüisticas avanzadas --basadas en análisis de discurso-- pueden conducir potencialmente a un mejor entendimiento de la manera de expresar subjetividad en los textos. Adicionalmente, se mostrará que este tipo de evidencia puede ser inyectada de manera eficiente en soluciones de búsqueda de opiniones de propósito general que operan con grandes volúmenes de datos (por ejemplo, la web).