On Data Engineering and Knowledge Graphs - A holistic, smarter approach to data enrichment
- Ayala Hernández, Daniel
- David Ruiz Cortés Director/a
- Inmaculada Concepción Hernández Salmerón Director/a
Universidad de defensa: Universidad de Sevilla
Fecha de defensa: 22 de octubre de 2020
- José Miguel Toro Bonilla Presidente/a
- José Antonio Troyano Jiménez Secretario/a
- Carlos Rafael Rivero Osuna Vocal
- Manuel Lama Penín Vocal
- Ernest Teniente López Vocal
Tipo: Tesis
Resumen
En los últimos años ha habido un aumento en el interés por desarrollar grandes repositorios de datos estructurados que permiten la aplicación de algoritmos para tareas como el dar respuestas a preguntas de forma automática, o la recomendación de productos. Esto ha popularizado el uso de y la investigación sobre grafos de conocimiento, que almacenan información como un grafo en el que los nodos representan a entidades con atributos, y las aristas representan relaciones entre ellas. La creación de un grafo de conocimiento de tamaño considerable no es trivial, ya que puede requerir la aplicación de técnicas de ingeniería de datos como la integración de datos de varias fuentes heterogéneas, o el completado de conocimiento ausente en el grafo. Estas toman un grafo de conocimiento inicial y lo enriquecen con datos adicionales. Integrar fuentes heterogéneas involucra integrar datos externos en un esquema local, algo que puede hacerse etiquetando datos externos con clases conocidas (etiquetado semántico), o encontrando equivalencias entre el esquema externo y el local (emparejado). Normalmente, esto se hace usando métricas relacionadas con el formato o los valores de los datos. Las propuestas existentes usan un conjunto de características reducido que en algunos casos puede ser insuficiente para identificar a dos conceptos como equivalentes o diferentes, lo que motiva el diseño de nuevas características más sofisticadas. Completar grafos de conocimiento involucra averiguar qué datos faltan en un grafo de conocimiento, como clases de entidades o relaciones entre ellas. Inferir aristas puede ser visto como un problema de clasificación in el que las aristas candidatas son clasificadas como verdaderas o falsas. Este es un proceso susceptible a fallos en el que una técnica mal entrenada podría introducir una gran cantidad de conocimiento erróneo en el grafo. Por tanto, la creación de recursos para el entrenamiento supervisado y evaluación de estas técnicas es crucial. Para contribuir al estado del arte en estos ámbitos (integración de datos y completado de grafos), hemos desarrollado métodos y herramientas para tres tareas específicas: etiquetado semántico, emparejamiento de propiedades, y evaluación de técnicas de completado de aristas en grafos de conocimiento. Nuestras contribuciones se centran en el uso de ingeniería de datos supervisada, que es de particular relevancia dados los avances recientes en el ámbito del aprendizaje automático. Nuestra evaluación muestra que nuestros métodos obtienen resultados significativamente mejores que las técnicas base estudiadas gracias al uso de grupos novedosos de características que podrían ser integradas en técnicas existentes. Estos resultados se muestran en detalle las publicaciones que presentamos como frutos de nuestra investigación.