Sobre la configuración estadística de los corpus textuales

Guillermo Rojo

doi:10.5935/2079-312X.20170008

Sobre la configuración estadística de los corpus textuales

Guillermo Rojo

Revista:

Lingüística

ISSN: 1132-0214, 2079-312X

Ano de publicación: 2017

Volume: 33

Número: 1

Páxinas: 121-134

Tipo: Artigo

DOI: 10.5935/2079-312X.20170008 DIALNET GOOGLE SCHOLAR Dialnet editor

Outras publicacións en: Lingüística

Obxectivos de Desenvolvemento Sustentable

Resumo

Resumen: La estructura estadística de los textos y de los corpus textuales es un tema al que se ha prestado muy escasa atención en la lingüística hispánica. El presente trabajo se propone revisar algunos de sus aspectos más importantes en dos direcciones distintas. Por una parte, mediante la aplicación a los datos procedentes de una versión intermedia del CORPES de los análisis realizados previamente sobre el CREA. Por otra, aprovechando los resultados de la anotación morfosintáctica del CORPES, tomando en consideración no solo las formas ortográficas, sino también los lemas.

Referencias bibliográficas

Almela Pérez, Ramón, Cantos, Pascual, Sánchez, Aquilino, Sarmiento, Ramón, Almela, Moisés. (2005). Frecuencias del español. Diccionario y estudios léxicos y morfológicos. Universitas. Madrid.
Bybee, Joan. (2007). Frequency of Use and the Organization of Language. Oxford University Press. Oxford.
Cantos, Pascual, Sánchez, Aquilino. (2011). El inglés y el español desde una perspectiva cuantitativa y distributiva: equivalencias y contrastes. Estudios ingleses de la Universidad Complutense. 19. 15-44
Capsada, Ramón, Torruella, Joan. Métodos para medir la riqueza léxica de un texto. Revisión y propuesta. Aplicación en el Corpus Informatizado del Catalán Antiguo. Verba. 44.
Davies, Mark. (2006). A Frequency Dictionary of Spanish. Core Vocabulary for Learners. Routledge. New York.
Diccionario de uso del español. Gredos. Madrid.
Kučera, Henry. (1992). The odd couple: The linguist and the software engineer. The struggle for high quality computerized language aids. Svartvik. 401
Rojo, Guillermo. (2001). Lingüística con corpus. Catorce aplicaciones sobre el español (= Gramática española. Enseñanza e investigación I.7). Univ. de Salamanca. Salamanca.
Rojo, Guillermo. (2003). Lengua, variación y contexto. Estudios dedicados a Humberto López Morales. Arco. Madrid.
Rojo, Guillermo. (2008). Lingüística de corpus y lingüística del español. XVcongreso de la Asociación de Lingüística y Filología de América Latina. Montevideo. 18-21 de agosto de 2008.
Rojo, Guillermo. (2011). Frecuencia de inventario y frecuencia de uso. Revista española de lingüística. 41. 5-43
Sánchez, Aquilino, Cantos, Pascual. (1997). Predictability of Word Forms (types) and Lemmas in Linguistic Corpora. A Case Study Based on the Analysis of the Cumbre Corpus: An 8-Millon-Word Corpus of Contemporary Spanish. IJCL. 2. 259
Torruella, Joan, Capsada, Ramón. (2013). Lexical Statistics and Typological Structures: a Measure of Lexical Richness. Procedia. Social and Behavioral Sciences. 95. 447

Fonte de datos: Dialnet