Sobre la configuración estadística de los corpus textuales
ISSN: 1132-0214, 2079-312X
Year of publication: 2017
Volume: 33
Issue: 1
Pages: 121-134
Type: Article
More publications in: Lingüística
Abstract
Abstract: The statistical structure of texts and textual corpora is a topic to which little attention has been paid in Hispanic linguistics. This paper tries to review some of their more relevant aspects in two different senses. On the one hand, through the application of the techniques previously applied to CREA on an intermediate version of CORPES. On the other hand, working on the morphosyntactically tagged version of CORPES, taking into consideration not only orthographic forms, but also lemmas.
Bibliographic References
- Almela Pérez, Ramón, Cantos, Pascual, Sánchez, Aquilino, Sarmiento, Ramón, Almela, Moisés. (2005). Frecuencias del español. Diccionario y estudios léxicos y morfológicos. Universitas. Madrid.
- Bybee, Joan. (2007). Frequency of Use and the Organization of Language. Oxford University Press. Oxford.
- Cantos, Pascual, Sánchez, Aquilino. (2011). El inglés y el español desde una perspectiva cuantitativa y distributiva: equivalencias y contrastes. Estudios ingleses de la Universidad Complutense. 19. 15-44
- Capsada, Ramón, Torruella, Joan. Métodos para medir la riqueza léxica de un texto. Revisión y propuesta. Aplicación en el Corpus Informatizado del Catalán Antiguo. Verba. 44.
- Davies, Mark. (2006). A Frequency Dictionary of Spanish. Core Vocabulary for Learners. Routledge. New York.
- Diccionario de uso del español. Gredos. Madrid.
- Kučera, Henry. (1992). The odd couple: The linguist and the software engineer. The struggle for high quality computerized language aids. Svartvik. 401
- Rojo, Guillermo. (2001). Lingüística con corpus. Catorce aplicaciones sobre el español (= Gramática española. Enseñanza e investigación I.7). Univ. de Salamanca. Salamanca.
- Rojo, Guillermo. (2003). Lengua, variación y contexto. Estudios dedicados a Humberto López Morales. Arco. Madrid.
- Rojo, Guillermo. (2008). Lingüística de corpus y lingüística del español. XVcongreso de la Asociación de Lingüística y Filología de América Latina. Montevideo. 18-21 de agosto de 2008.
- Rojo, Guillermo. (2011). Frecuencia de inventario y frecuencia de uso. Revista española de lingüística. 41. 5-43
- Sánchez, Aquilino, Cantos, Pascual. (1997). Predictability of Word Forms (types) and Lemmas in Linguistic Corpora. A Case Study Based on the Analysis of the Cumbre Corpus: An 8-Millon-Word Corpus of Contemporary Spanish. IJCL. 2. 259
- Torruella, Joan, Capsada, Ramón. (2013). Lexical Statistics and Typological Structures: a Measure of Lexical Richness. Procedia. Social and Behavioral Sciences. 95. 447