Sobre la configuración estadística de los corpus textuales

  1. Guillermo Rojo
Journal:
Lingüística

ISSN: 1132-0214 2079-312X

Year of publication: 2017

Volume: 33

Issue: 1

Pages: 121-134

Type: Article

DOI: 10.5935/2079-312X.20170008 DIALNET GOOGLE SCHOLAR lock_openDialnet editor

More publications in: Lingüística

Abstract

Abstract: The statistical structure of texts and textual corpora is a topic to which little attention has been paid in Hispanic linguistics. This paper tries to review some of their more relevant aspects in two different senses. On the one hand, through the application of the techniques previously applied to CREA on an intermediate version of CORPES. On the other hand, working on the morphosyntactically tagged version of CORPES, taking into consideration not only orthographic forms, but also lemmas.

Bibliographic References

  • Almela Pérez, Ramón, Cantos, Pascual, Sánchez, Aquilino, Sarmiento, Ramón, Almela, Moisés. (2005). Frecuencias del español. Diccionario y estudios léxicos y morfológicos. Universitas. Madrid.
  • Bybee, Joan. (2007). Frequency of Use and the Organization of Language. Oxford University Press. Oxford.
  • Cantos, Pascual, Sánchez, Aquilino. (2011). El inglés y el español desde una perspectiva cuantitativa y distributiva: equivalencias y contrastes. Estudios ingleses de la Universidad Complutense. 19. 15-44
  • Capsada, Ramón, Torruella, Joan. Métodos para medir la riqueza léxica de un texto. Revisión y propuesta. Aplicación en el Corpus Informatizado del Catalán Antiguo. Verba. 44.
  • Davies, Mark. (2006). A Frequency Dictionary of Spanish. Core Vocabulary for Learners. Routledge. New York.
  • Diccionario de uso del español. Gredos. Madrid.
  • Kučera, Henry. (1992). The odd couple: The linguist and the software engineer. The struggle for high quality computerized language aids. Svartvik. 401
  • Rojo, Guillermo. (2001). Lingüística con corpus. Catorce aplicaciones sobre el español (= Gramática española. Enseñanza e investigación I.7). Univ. de Salamanca. Salamanca.
  • Rojo, Guillermo. (2003). Lengua, variación y contexto. Estudios dedicados a Humberto López Morales. Arco. Madrid.
  • Rojo, Guillermo. (2008). Lingüística de corpus y lingüística del español. XVcongreso de la Asociación de Lingüística y Filología de América Latina. Montevideo. 18-21 de agosto de 2008.
  • Rojo, Guillermo. (2011). Frecuencia de inventario y frecuencia de uso. Revista española de lingüística. 41. 5-43
  • Sánchez, Aquilino, Cantos, Pascual. (1997). Predictability of Word Forms (types) and Lemmas in Linguistic Corpora. A Case Study Based on the Analysis of the Cumbre Corpus: An 8-Millon-Word Corpus of Contemporary Spanish. IJCL. 2. 259
  • Torruella, Joan, Capsada, Ramón. (2013). Lexical Statistics and Typological Structures: a Measure of Lexical Richness. Procedia. Social and Behavioral Sciences. 95. 447