A identificação e referenciação de entidades geográficas mencionadaso caso da peregrinação de Fernão Mendes Pinto

  1. Alfonso Javier Canosa Rodríguez
Supervised by:
  1. Pablo Gamallo Otero Director
  2. José Antonio Souto Cabo Director
  3. Rubén Camilo Lois González Tutor

Defence university: Universidade de Santiago de Compostela

Year of defence: 2017

Committee:
  1. J. Carlos Quiroga Díaz Chair
  2. Daniel Ribeiro Alves Secretary
  3. Paulo Miguel Torres Duarte Quaresma Committee member
Department:
  1. Department of Spanish Language and Literature, Literary Theory and General Linguistics

Type: Thesis

Teseo: 513133 DIALNET

Abstract

As entidades geográficas mencionadas são uma das principais classes de entidades mencionadas. Um problema ocorre quando a entidade geográfica é identificada no texto, mas não há coordenadas para localizá-la. Esta tese propõe um modelo semântico como solução. As entidades são divididas em dois grupos segundo um critério epistemológico: aquelas que têm coordenadas conhecidas e as que não. Peregrinação, um extenso relatório escrito por um diplomata na Ásia no século dezasseis, serve de caso de estudo. Extrai-se manualmente uma lista de entidades geográficas mencionadas e comenta-se a partir da análise crítica e comparativa das descrições encontradas no corpus, a bibliografia relacionada e a geovisualização das áreas relevantes em bases de dados e programas geográficos. Esta lista é também usada para avaliar soluções automáticas de anotação e georreferenciação. A anotação é examinada em três fases: coincidência de expressões, otimização de resultados com uma ferramenta NERC e processo de automatização completo. Para a georreferenciação, as entidades com coordenadas conhecidas são procuradas numa base de dados aberta de âmbito global de onde se extraem dados geográficos que são adicionados a uma base de dados relacional local. As referências relativas são solucionadas para todas as entidades. O problema de atribuição do tipo geográfico liga-se ao de criação de uma taxonomia. Com esta finalidade, avalia-se a extração automática de termos: a combinatória de análise sintática, medida TF-IDF e validação com fontes externas conseguiu os melhores resultados. Explora-se o aprendizado de máquina com exemplos na procura de relações entre entidades e tipos geográficos, com resultados significativos para aquelas entidades de frequências mais altas. As entidades são instanciadas numa ontologia para organizar as relações. Finalmente, extrai-se um índice com uma definição estruturada para cada entidade, as suas ocorrências no corpus, nome contemporâneo e coordenadas quando disponíveis e relações com outras entidades para mais desenvolver a referência relativa.