Corpus lingüísticos estruturados de grandes dimensións: metodoloxía e sistemas de recuperación de información

Barcala Rodríguez, Francisco Mario

Corpus lingüísticos estruturados de grandes dimensiónsmetodoloxía e sistemas de recuperación de información

Barcala Rodríguez, Francisco Mario

Supervised by:

Manuel Vilares Ferro Director
Jorge Graña Gil Director

Defence university: Universidade da Coruña

Fecha de defensa: 12 February 2010

Committee:

Laurence Danlos Chair
Jesús Vilares Secretary
Gaël Harry Dias Committee member
Sunny Paris Committee member
Xulio C. Sousa Fernández Committee member

Type: Thesis

Teseo: 283321 DIALNET RUC editor

Abstract

La reciente evolución de Internet ha permitido el acceso a un volumen de información enorme, pero toda esta no resulta útil si no existe una manera precisa de encontrar lo que se necesita en un momento dado, Por eso, casi paralelamente al crecimiento de Internet se han ido desarrollando sistemas de recuperación de información (RI) que permitían localizar la información relevante en cada caso, dando lugar a lo que hoy conocemos como buscadores. Pero uno de los principales problemas que presentan estos sistemas radica en que, en general, la información que utilizan está muy poco estructurada, lo que limita en cierto modo sus posibilidades: no se pueden delimitar secciones en los documentos, ni aplicar filtros de búsqueda, etc., es decir, solo se permite introducir una expresión de búsqueda que se intenta encontrar en toda la base documental. Debido a estas carencias, al mismo tiempo también se han ido desarrollando sistemas de RI que requerían que la información estuviera organizada de algún modo particular. Estos sistemas no están diseñados para hacer búsquedas en Internet en general, sino que actúan sobre un conjunto más grande o más pequeño de información disponible y ofrecen más oportunidades de búsqueda. Estas dos vertientes evolutivas, la de utilizar información desestructurada y la de tenerla organizada, llegaron a la actualidad propiciando la aparición de distintas herramientas de búsqueda. Por un lado, tenemos los buscadores de Internet, que permiten localizar documentos que satisfacen una búsqueda concreta y, por la otra, los sistemas que utilizan información estructurada, que cubren aspectos como la obtención de datos de clientes, facturación, control de stock, etc. Finalmente, incluso hai entornos que pueden combinar en diferente grado estas dos vertientes (herramientas de minería de datos, sistemas de predicción, etc.) En este trabajo tratamos un caso particular de los sistemas de RI que utilizan información estructurada: el de los sistemas lingüísticos que trabajan con grandes colecciones de documentos (corpus), lo que enmarca la presente tesis de doctorado dentro de la lingüística computacional y, más concretamente, en la lingüística de corpus. Aunque en este campo también hai un ámplio espectro de posibilidades, nos centramos en aquellos en los que la información que necesitan los usuarios, normalmente lingüistas, está relacionada con la frecuencia de ocurrencia de palabras o con la visualización de ejemplos en su contexto. La evolución de estos sistemas ha sido practicamente simultánea al desarrollo de la informática. Desde las primeras herramientas de búsqueda monolíticas que utilizaban colecciones textuales, consideradas ahora de reducidas dimensiones, se ha ido evolucionando gracias al incremento de la capacidad de los ordenadores, hasta los actuales sistemas de consulta a través de la red que manejan corpus de gran tamaño. Nos centramos en estos últimos, analizando las diferentes posibilidades y tecnologías disponibles actualmente para desarrollarlos pero, además, tambien hacemos una propuesta metodológica genérica para la creación de corpus, que son el sustento de datos de estos sistemas de RI. Ofrecemos, pues, una visión de conjunto que abarca, tanto la construcción de corpus como su posterior explotación, teniendo siempre en mente la utilización de los estándares más actuales. Además, ilustramos nuestras propuestas genéricas con su aplicación al caso concreto del Corpus de Referencia do Galego Actual (CORGA), desarrollado en el Centro Ramón Piñeiro para a Investigación en Humanidades, lo que permite aclarar cómo se concretan los conceptos abstractos en un caso práctico.