Uso de tecnologias linguı́sticas para estudar a evolução dos sufixos -ÇOM e -VEL no galego-português medieval a partir de corpora históricos

  1. Gamallo, Pablo 1
  2. Ramom Pichel, José 2
  3. Montero Santalha, José Martinho 3
  4. Neves, Marco 4
  1. 1 Universidade de Santiago de Compostela
    info

    Universidade de Santiago de Compostela

    Santiago de Compostela, España

    ROR https://ror.org/030eybx10

  2. 2 CITIUS/USC
  3. 3 Universidade de Vigo
    info

    Universidade de Vigo

    Vigo, España

    ROR https://ror.org/05rdf8595

  4. 4 Universidade Nova de Lisboa
    info

    Universidade Nova de Lisboa

    Lisboa, Portugal

    ROR https://ror.org/02xankh89

Revista:
Linguamática

ISSN: 1647-0818

Ano de publicación: 2021

Volume: 13

Número: 2

Páxinas: 3-17

Tipo: Artigo

DOI: 10.21814/LM.13.2.347 DIALNET GOOGLE SCHOLAR lock_openAcceso aberto editor

Outras publicacións en: Linguamática

Obxectivos de Desenvolvemento Sustentable

Resumo

O trabalho apresentado neste artigo tem dois objectivos. Por um lado, descreve a adaptação de duas ferramentas de processamento da língua natural ao galego-português medieval, nomeadamente um analisador morfossintático e um reconhededor de variedades medievais, e por outro, visa testar hipóteses linguísticas sobre a evolução de sufixos medievais mediante o uso dessas ferramentas em corpora históricos. Apesar de o desempenho das ferramentas ser inferior do que quando utilizadas para variedades modernas mais estandardizadas e com menos variabilidade formal, mostramos que é possível usá-las com grande fiabilidade para estudos quantitativos baseados em corpus. O estudo linguístico baseado em corpus permite-nos conferir que, pela sua distribuição de frequências, a presença dos sufixos -CION e -BLE nos textos medievais da Galiza foi provavelmente influenciada pelo castelhano baixo medieval.

Referencias bibliográficas

  • Canosa, Xavier, Pablo Gamallo, Xavier Ca-nosa, Joséángel Taboada, Paulo Martínez Lema & Marcos Garcia. 2019. Uma utilidadepara o reconhecimento de topónimos em docu-mentos medievais.Linguamática2(11). 3–15.10.21814/lm.11.1.291.
  • Cristine Prado, Natália & Gladis Massini-Cagliari. 2014. Forma ̧cão de nomes deverbaisnas cantigas de Santa Maria: Um estudo mor-fofonológico. Revista Do GEL11(2). 71–96.
  • Dieguez, Ignacio Vázquez. 2018. Sobre alg ́unssufixos galegos medievais. Estudios de Lingüística del Español39. 241–277.
  • Ferreiro, Manuel. 1997.Gramática histórica da lingua galega. ii. lexicoloxía. Santiago de Com-postela: Lailovento.
  • Fillo, Machado & Américo Venâncio Lopes. 2013. Dicionário etimológico do portuguˆes arcaico: Projeto DEPARC. Salvador: Edufba.
  • Freixeiro Mato, Xosé Ramón. 1997.Lingua ga-lega: normalidade e conflito. Santiago de Com-postela: Lailovento.
  • Gamallo,Pablo & Marcos Garcia. 2017. LinguaKit:uma ferramenta multilinguepara a análise linguística e a extra ̧cãode informa ̧cão.Linguamática9(1). 19–28.10.21814/lm.9.1.243.
  • Gamallo, Pablo, Marcos Garcia, Cesar Pineiro,Rodrigo Martinez-Castano & Juan C. Pichel.2018.LinguaKit:a big data-based mul-tilingual tool for linguistic analysis and in-formation extraction. Em 5th InternationalConference on Social Networks Analysis, Ma-nagement and Security (SNAMS), 239–244.10.1109/SNAMS.2018.8554689.
  • Gamallo, Pablo, Susana Sotelo & José RamomPichel. 2014. Comparing ranking-based andnaive bayes approaches to language detectionon tweets. EmWorkshop TweetLID: TwitterLanguage Identification Workshop at SEPLN2014, n/p.
  • Garcia, Marcos & Pablo Gamallo. 2015. Yetanother suite of multilingual NLP tools. EmLanguages, Applications and Technologies, 65–75.10.1007/978-3-319-27653-3_7.
  • Kettunen, Kimmo. 2014.Can type-tokenratiobeusedtoshowmorphologicalcomplexity of languages Journal of Quantitative Linguistics 21.223–245 DOI 10.1080/09296174.2014.911506.
  • Leach, Geoffrey & Andrew Wilson. 1996. Re-commendations for the morphosyntactic anno-tation of corpora. Em Technical Rapport, Ex-pert Advisory Group on Language EngineeringStandard (EAGLES).
  • Lorenzo, Ramón. 1985 Crónica troiana. intro-ducción e texto. A Coruña: Fundación Pedro Barrié de la Maza, Conde de Fenosa.
  • Mariño, Ramón. 1998. Notas sobre a historia dasterminacións -ión / -ón en galego. Em D. Kre-mer (ed.),Homenaxe a Ramón Lorenzo, 735–760. Vigo, Galaxia, vol. 2.
  • Mariño Paz, Ramón. 2005. Forma e función dosufixo -uel no galego medieval.Cadernos deLingua27. 155–193.
  • Messner, Dieter. 2007. Os dicionários portu-gueses, devedores da lexicografia espanhola.Península, Revista de Estudos Ibéricos4. 141–151.
  • Padró, Lluís. 2012. Analizadores multilingües enFreeLing.Linguamática3(2). 13–20.
  • Pichel, José Ramom, Pablo Gamallo, Iñaki Ale-gria & Marco Neves. 2020. A methodologyto measure the diachronic language distancebetween three languages based on perplexity.Journal of Quantitative Linguistics28(4). 306–336 DOI 10.1080/09296174.2020.1732177.
  • Pichel, José Ramom, Pablo Gamallo & InakiAlegria. 2019.Measuring diachronic lan-guage distance using perplexity: Applicationto english, portuguese, and spanish.Na-tural Language Engineering26(4). 433–454. 10.1017/S1351324919000378.
  • Rögnvaldsson, Eiríkur & Sigr ́un Helgadóttir.2008. Morphological tagging of old norse textsand its use in studying syntactic variation andchange. Em2ndWorkshop on Language Tech-nology for Cultural Heritage Data, 40–46.
  • Sánchez-Marco, Cristina, Gemma Boleda & LluísPadró. 2011. Extending the tool, or how toannotate historical language varieties. Em5thACL-HLT Workshop on Language Technologyfor Cultural Heritage, Social Sciences, and Hu-manities, 1–9.
  • Santalha, Montero & José-Martinho. 2005. Do-cumentos medievais galegos (3). Agália 81–82.255–264.
  • Silvestre, João Paulo. 2008.Bluteau e a origensda lexicografia moderna. Lisbon: Imprensa Na-cional – Casa da Moeda: Colecão filología portuguesa.
  • Sáenz, Marta. 2015. The lemmatization of OldEnglish verbs from the second weak class ona lexical database.Journal of English Studies13. 135.10.18172/jes.2861.
  • Varela Barreiro, Xavier, Maria Francisca Xavier& Charlotte Galves. 2016. Corpus informa-tizado Galego-Portugués antigo. Instituto da Lingua Galega / Centro de Lingüística da Uni-versidade Nova de Lisboa / Universidade de Campinas.http://ilg.usc.gal/tmilg.
  • Venâncio, Fernando. 2019.Assim nasceu umalíngua. sobre as origens do português. Lisbon : Guerra e Paz
  • Viaro, Mário Eduardo. 2012.A produti-vidade dos sufixos do ponto de vista di-acrônico. Em T. Lobo, Z. Carneiro, J. Soledade, A. Almeida & S. Ribeiro (eds.),Rosae: linguística histórica, história das línguas e outras histórias, 275–292. SciELO Books.
  • Xavier, Maria Francisca. 2005. A caminho deum dicionário do portuguˆes medieval.EmDes(a)fiando discursos: Homenagem a Maria Emília Ricardo Marques, 667–686. Lisboa: Universidade Aberta, Língua, Literaturae Cultura Portuguesas.
  • Xavier, Maria Francisca. 2016.O CIPM —corpus informatizado do portuguˆes medieval,fonte de um dicionário exaustivo. Em Carlota de Benito Moreno Johannes Kabatek (ed.),Lingüística de corpus y lingüística histórica iberorrománica, 137–156. De Gruyter.
  • Zampieri, Marcos, Shervin Malmasi, Nikola Ljubesic, Preslav Nakov, Ahmed Ali, Jörg Ti-edemann, Yves Scherrer & Noemi Aepli. Findings of the VarDial evaluation campaign 2017. Em 4th Workshop on NLP for SimilarLanguages, Varieties and Dialects (VarDial),1–15