Unha mellora do CORGA extrapolable a outros corpus e linguasa etiquetaxe da nomenclatura científica binomial

  1. Eva María Domínguez Noya 1
  2. Vítor Míguez 2
  1. 1 Instituto da Lingua Galega
  2. 2 Universidad del País Vasco/Euskal Herriko Unibertsitatea
    info

    Universidad del País Vasco/Euskal Herriko Unibertsitatea

    Lejona, España

    ROR https://ror.org/000xsnr85

Revista:
Estudos de lingüística galega

ISSN: 1889-2566

Ano de publicación: 2022

Número: 14

Tipo: Artigo

DOI: 10.15304/ELG.14.8452 DIALNET GOOGLE SCHOLAR lock_openAcceso aberto editor

Outras publicacións en: Estudos de lingüística galega

Resumo

O tratamento das unidades multipalabra é unha tarefa inconclusa no procesamento da linguaxe natural. Neste contexto, illámo-las denominacións de nomenclatura científica binomial, cuxas principais características —expresións multipalabra latinas ou latinizadas e aceptación internacional— as afastan do acervo léxico do galego e converten o seu tratamento en extrapolable a outras linguas. Tras revisa-la súa caracterización no CORGA e noutros corpus peninsulares, propoñemos analizalas como un subtipo específico de substantivos, nomenclatura científica, sen concretar valores de xénero nin número. Describimos logo as actuacións desenvolvidas no kérnel ou núcleo e mais no corpus de adestramento para integra-la nova etiqueta no sistema XIADA e, a continuación, avaliamos dúas estratexias para a detección de candidatos: unha ferramenta específica para a súa extracción e inventarios dispoñibles en Internet. Por último, á luz dos datos que proporciona o CORGA, constatamos unha presenza notable de termos científicos binomiais e demostrámo-la importancia da nova etiqueta para a súa identificación e distribución.

Referencias bibliográficas

  • BNC: British National Corpus (XML edition) https://cqpweb.lancs.ac.uk> [Consultado: 9/2/2022]
  • CB: Corpus Brasileiro [Consultado: 9/2/2022]
  • CdE: Corpus del español (Género/Histórico) [Consultado: 9/2/2022]
  • CdP: Corpus do português (Género/Histórico) [Consultado: 9/2/2022]
  • CORGA: Corpus de Referencia do Galego Actual (CORGA) [Consultado: 1-17/2/2022]
  • CORPES: Corpus del Español del Siglo XXI. [Consultado: 9/2/2022]
  • CRPC: Corpus de Referencia do Português Contemporâneo. [Consultado: 9/2/2022]
  • CT: Corpus Tècnic. [Consultado: 9/2/2022]
  • CTAG: Corpus Técnico Anotado do Galego. [Consultado: 9/2/2022]
  • CTILC: Corpus textual informatitzat de la llengua catalana. [Consultado: 9/2/2022]
  • TILG: Tesouro informatizado da lingua galega. [Consultado: 9/2/2022]
  • XIADA: Etiquetador/Lematizador do Galego Actual (XIADA) [2.8]
  • Bunge, Mario. 1972. La investigación científica. Barcelona: Ariel.
  • Calzolari, Nicoletta, Charles J. Fillmore, Ralph Grishman, Nancy Ide, Alessandro Lenci, Catherine MacLeod & Antonio Zampolli. 2002. Towards Best Practice for Multiword Expressions in Computational Lexicons. En Manuel González Rodríguez & Carmen Paz Suarez Araujo (eds.), Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02). 1934-1940. Las Palmas: European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2002/pdf/259.pdf
  • Caseli, Helena, Aline Villavicencio, André Machado & Maria José Finatto. 2009. Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains. En Dimitra Anastasiou, Chikara Hashimoto, Preslav Nakov & Su Nam Kim (eds.), Proceedings of the Workshop on Multiword Expressions: Identification, Interpretation, Disambiguation and Applications (MWE 2009). 1-8. Singapore: Association for Computational Linguistics. https://aclanthology.org/W09-2901.pdf
  • Darriba, Víctor, Yerai Doval & Elmurod Kuriyozov. 2021. Procesamiento de expresiones multipalabra en gallego mediante Aprendizaje Profundo. Procesamiento del Lenguaje Natural, 67, 45-57. https://doi.org/10.26342/2021-67-4
  • Domínguez Noya, Eva María. 2013. Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA. Santiago de Compostela: Universidade de Santiago de Compostela. [Tese de doutoramento inédita]. http://hdl.handle.net/10347/9587
  • Domínguez Noya, Eva María. 2016. O etiquetador probabilístico de XIADA e o seu teito de acerto: a elaboración de regras lingüísticas. En Manuel González González (ed.), Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal. 213-232. Santiago de Compostela: Xunta de Galicia / Centro Ramón Piñeiro para a Investigación en Humanidades.
  • Ernout, Alfred & Antoine Meillet. 2001. Dictionnaire étymologique de la langue latine. Histoire des mots. Paris: Klincksieck. [Obra publicada orixinalmente en 1932].
  • Graña Gil, Jorge. 2000. Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje natural. A Coruña: Universidade da Coruña. [Tese de doutoramento inédita]. http://hdl.handle.net/2183/12358
  • Manning, Christopher D. 2011. Part-of-speech tagging from 97 % to 100 %: is it time for some linguistics?. En Alexander F. Gelbukh (ed.), Computational linguistics and intelligent text processing, 12th International Conference, CICLing 2011, Proceedings. Part I: Lecture notes in computer science 6608. 171-189. Berlin: Springer. https://doi.org/10.1007/978-3-642-19400-9_14
  • Nguyen, Nhung T. H., Roselyn S. Gabud & Sophia Ananiadou. 2019. COPIOUS: A gold standard corpus of named entities towards extracting species occurrence from biodiversity literature. Biodiversity Data Journal 7, e29626. https://doi.org/10.3897/BDJ.7.e29626
  • Pafilis, Evangelos, Sune P. Frankild, Lucia Fanini, Sarah Faulwetter, Christina Pavloudi, Aikaterini Vasileiadou, Christos Arvanitidis & Lars Juhl Jensen. 2013. The SPECIES and ORGANISMS resources for fast and accurate identification of taxonomic names in text. PLoSONE 8(6), e65390. https://doi.org/10.1371/journal.pone.0065390
  • Pavlinov, Igor Ya. 2021. Taxonomic nomenclature: What’s in a name – theory and history. Boca Raton: CRC Press. https://doi.org/10.1201/9781003182535
  • Pyle, Richard L. 2016. Towards a Global Names Architecture: The future of indexing scientific names. ZooKeys 550, 261-281. https://doi.org/10.3897/zookeys.550.10009
  • Resolución de 24 de mayo de 2019, de la Secretaría General de Pesca, por la que se publica el listado de denominaciones comerciales de especies pesqueras y de acuicultura admitidas en España, Boletín Oficial del Estado, 143, de 15/06/2019. https://www.boe.es/buscar/doc.php?id=BOE-A-2019-9026
  • Rivers, Malin. 2019. European Red List of trees. Cambridge / Brussels: IUCN. https://doi.org/10.2305/IUCN.CH.2019.ERL.1.en
  • Rojo, Guillermo. 2017. Sobre la configuración estadística de los corpus textuales. Lingüística 33(1), 121‑134. http://doi.org/10.5935/2079-312x.20170008
  • Rouco, Miguel, José Luis Copete, Eduardo de Juana, Marcel Gil-Velasco, Juan Antonio Lorenzo, Marce Martín, Borja Milá, Blas Molina & David M. Santos. 2019. Lista de las aves de España. Madrid: SEO/BirdLife. https://seo.org/wp-content/uploads/2019/05/ListaAvesdeEspa%C3%B1a2019.pdf
  • Seideh, Mohamed Aly Fall, Hela Fehri, & Kais Haddar. 2017. Recognition and extraction of Latin names of plants for matching common plant named entities. En Linda Barone, Mario Monteleone & Max Silberztein (eds.), Automatic processing of natural-language electronic texts with NooJ. 10th International Conference, NooJ 2016, České Budějovice, Czech Republic, June 9-11, 2016, Revised Selected Papers. 132-144. Berlin: Springer. https://doi.org/10.1007/978-3-319-55002-2_12
  • Villavicencio, Aline, Valia Kordoni, Yi Zhang, Marco Idiart & Carlos Ramisch. 2007. Validation and Evaluation of Automatically Acquired Multiword Expressions for Grammar Engineering. En Jason Eisner (ed.), Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 1034-1043. Prague: Association for Computational Linguistics. https://aclanthology.org/D07-1110.pdf