A identificação e referenciação de entidades geográficas mencionadaso caso da peregrinação de Fernão Mendes Pinto

  1. Alfonso Javier Canosa Rodríguez
Dirixida por:
  1. Pablo Gamallo Otero Director
  2. José Antonio Souto Cabo Director
  3. Rubén Camilo Lois González Titora

Universidade de defensa: Universidade de Santiago de Compostela

Ano de defensa: 2017

Tribunal:
  1. J. Carlos Quiroga Díaz Presidente
  2. Daniel Ribeiro Alves Secretario/a
  3. Paulo Miguel Torres Duarte Quaresma Vogal
Departamento:
  1. Departamento de Lingua e Literatura Españolas, Teoría da Literatura e Lingüística Xeral

Tipo: Tese

Teseo: 513133 DIALNET

Resumo

As entidades geográficas mencionadas são uma das principais classes de entidades mencionadas. Um problema ocorre quando a entidade geográfica é identificada no texto, mas não há coordenadas para localizá-la. Esta tese propõe um modelo semântico como solução. As entidades são divididas em dois grupos segundo um critério epistemológico: aquelas que têm coordenadas conhecidas e as que não. Peregrinação, um extenso relatório escrito por um diplomata na Ásia no século dezasseis, serve de caso de estudo. Extrai-se manualmente uma lista de entidades geográficas mencionadas e comenta-se a partir da análise crítica e comparativa das descrições encontradas no corpus, a bibliografia relacionada e a geovisualização das áreas relevantes em bases de dados e programas geográficos. Esta lista é também usada para avaliar soluções automáticas de anotação e georreferenciação. A anotação é examinada em três fases: coincidência de expressões, otimização de resultados com uma ferramenta NERC e processo de automatização completo. Para a georreferenciação, as entidades com coordenadas conhecidas são procuradas numa base de dados aberta de âmbito global de onde se extraem dados geográficos que são adicionados a uma base de dados relacional local. As referências relativas são solucionadas para todas as entidades. O problema de atribuição do tipo geográfico liga-se ao de criação de uma taxonomia. Com esta finalidade, avalia-se a extração automática de termos: a combinatória de análise sintática, medida TF-IDF e validação com fontes externas conseguiu os melhores resultados. Explora-se o aprendizado de máquina com exemplos na procura de relações entre entidades e tipos geográficos, com resultados significativos para aquelas entidades de frequências mais altas. As entidades são instanciadas numa ontologia para organizar as relações. Finalmente, extrai-se um índice com uma definição estruturada para cada entidade, as suas ocorrências no corpus, nome contemporâneo e coordenadas quando disponíveis e relações com outras entidades para mais desenvolver a referência relativa.