Computational tools and spoken corpora design: an ongoing dialogue

Vázquez Rozas, Victoria; Barcala, Mario

doi:10.7203/CAPLLETRA.69.17270

Computational tools and spoken corpora designan ongoing dialogue

Vázquez Rozas, Victoria ²
Barcala, Mario ¹

1 NLPgo Technologies S.L.
2 Universidade de Santiago de Compostela

Universidade de Santiago de Compostela

Santiago de Compostela, España

ROR https://ror.org/030eybx10

Revista:

Caplletra: revista internacional de filología

ISSN: 0214-8188

Ano de publicación: 2020

Número: 69

Páxinas: 221-240

Tipo: Artigo

DOI: 10.7203/CAPLLETRA.69.17270 DIALNET GOOGLE SCHOLAR Acceso aberto editor

Outras publicacións en: Caplletra: revista internacional de filología

Obxectivos de Desenvolvemento Sustentable

Resumo

El disseny d’un corpus oral i els processos de registrar, codificar i tractar els materials per construir un recurs útil per a l’anàlisi lingüística, comporta nombroses decisions pel que fa a la teoria i la metodologia. Aquest article s’ocupa d’aquelles etapes de la construcció d’un corpus que més clarament estan condicionades pel processament informàtic necessari que ha de fer el corpus funcional. Per tal de conjugar les expectatives inicials i les possibilitats reals quan usem l’eina, cada característica que pretenem codificar ha de ser mesurada quant a la càrrega de treball que comporta i els mitjans que són requerits per fer-ho possible. Per això, és essencial tenir en compte els recursos disponibles a l’hora de processar i explotar el corpus, ja que tenen un impacte fonamental en les decisions pel que fa a la construcció del corpus. Basat en l’experiència adquirida en la construcció del corpus ESLORA, l’article analitza alguns dels problemes que sorgeixen en el procés de dissenyar un corpus oral, com ara el grau de detall en què és representat el fenomen oral, la segmentació del discurs, la convivència de diferents sistemes d’etiquetatge simultanis i les particularitats de l’anotació en un context bilingüe o multilingüe.

€ Ver financiamento

Información de financiamento

This study was financed by the Agencia Estatal de Investigación (AEI) ‘Spanish State Research Agency’ and by the Fondo Europeo de Desarrollo Regional (FEDER) (European Regional Development Fund) through the ESLORA+ project (FFI2017-86379-P). The authors are members of the research group Gramática del español ‘Spanish Grammar’ from the University of Santiago de Compostela, which has been awarded a grant for the Strengthening and Organisation of Research Groups with Potential for Growth by the Regional Government’s Education Department (ED431B 2017/39). The study has also benefited from the participation of the ESLORA project in the Red temática en estudios de Análisis del Discurso (FFI2017-90738-REDT).

Financiadores

European Regional Development Fund European Union
- FFI2017-86379-P
Agencia Estatal de Investigación Spain
- FFI2017-86379-P
Consellería de Cultura, Educación y Ordenación Universitaria Spain
- ED431B 2017/39
MINECO Spain
- FFI2017-90738-REDT

Referencias bibliográficas

Atkins, S., J. Clear & N. Ostler (1992) «Corpus design criteria», Literary and Linguistic Computing, 7 (1), p. 1-16. DOI: 10.1093/llc/7.1.1.
Biber, D. (1993) «Representativeness in corpus design», Literary and Linguistic Computing, 8/4, p. 243-257. DOI: 10.1093/llc/8.4.243.
Biber, D., S. Johansson, G. Leech, S. Conrad & E. Finegan (1999) Longman Grammar of Spoken and Written English, London/New York, Longman.
Cohen K. B., L. M. Fox, P. V. Ogren & L. Hunter (2005) «Corpus design for biomedical natural language processing», Proceedings of the ACL-ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, Detroit, June 2005, p. 38-45. DOI: 10.3115/1641484.1641490
Fernández Sanmartín, A. (2018) «La entrevista libre como método para evitar la paradoja del observador. Un estudio de corpus», CHIMERA. Romance Corpora and Linguistic Studies, 5 (2), p. 141-196. DOI: <http://dx.doi.org/10.15366/chimera2018.5.2.001>.
Gries, S. Th & J. Newman (2013) «Creating and using corpora», in R. J. Podesva & D. Sharma (eds.), Research Methods in Linguistics, Cambridge, Cambridge University Press. DOI: 10.1017/CBO9781139013734.015.
Gries, S. Th. (2011) «Methodological and interdisciplinary stance in Corpus Linguistics», in V. Viana, S. Zyngier & G. Barnbrook (eds.), Perspectives on Corpus Linguistics, Amsterdam-Philadelphia, John Benjamins, p. 81-98. DOI: 10.1075/scl.48.06gri
Hunston, S. (2002) Corpora in applied linguistics, Cambridge, Cambridge University Press.
Jesse, E. (2019) «Corpus Design and Representativeness», in T. Berber Sardinha & M. Veirano Pinto (eds.), Multi-Dimensional Analysis: Research Methods and Current Issues, London, Bloomsbury, p. 27-42. DOI: 10.5040/9781350023857.0010
Kavanagh, K. (2019) «XML mark-up: an annotation tool for discourse analysis». [Online: <https://walesdtp.ac.uk/methodsblog/2019/05/21/xml-mark-up-anannotation-tool-for-discourse-analysis/#more-116>, accessed: 2019-07-30.]
Labov, W. (1972) «Some principles of linguistic methodology», Language in Society, 1 (1), p. 97-120. DOI: 10.1017/S0047404500006576.
Labov, W. (1984) «Field Methods of the Project on Linguistic Change and Variation», in J. Baugh & J. Sherzer (eds.), Language in Use: Readings in Sociolinguistics, Englewood Cliffs, NJ, Prentice Hall, p. 28-66.
McEnery, T., R. Xiao & Y. Tono, eds. (2006) Corpus-Based Language Studies: An advanced resource book, London / New York, Routledge.
Pietrandrea, P., S. Kahane, A. Lacheret-Dujour & F. Sabio (2014) «The notion of sentence and other discourse units in spoken corpus annotation», in H. Mello & T. Raso (eds.), Spoken corpora and Linguistic Studies, Amsterdam, John Benjamins, p. 331-364. DOI: 10.1075/scl.61.12pie
Pushing the Envelope, Barcelona, p. 227-229. [Online: <http://www.ltg.ed.ac.uk/~ht/sgmleu97.html>, accessed: 2019-07-27.]
Pustejovsky, J. & A. Stubbs (2012) Natural Language Annotation for Machine Learning. A Guide to Corpus-Building for Applications, Sebastopol, California, O’Reilly Media.
Rojo, G. (2014) «Hispanic Corpus Linguistics», in M. Lacorte (ed.), The Routledge Handbook of Hispanic Applied Linguistics, New York, Routledge, p. 371-387.
Rojo, G. (2016) «Los corpus textuales del español», in J. Gutiérrez-Rexach (ed.), Enciclopedia lingüística hispánica, Oxon, Routledge, p. 285-296.
Sinclair, J. (1995) «Corpus typology a framework for classification», in G. Melchers & B. Warren (eds.), Studies in Anglistics, Stockholm, Almqvist and Wiksell International, p. 17-34.
Sinclair, J. (2005) «Corpus and Text Basic Principles», in M. Wynne (ed.), Developing Linguistic Corpora: a Guide to Good Practice, Oxford: Oxbow Books, p. 1-16. [Online: <http://ota.ox.ac.uk/documents/creating/dlc>, accessed: 2019-07-26.]
Stührenberg, M. (2012) «The TEI and Current Standards for Structuring Linguistic Data: An Overview», Journal of the text encoding initiative, 3. DOI: 10.4000/ jtei.523. [Online: <https://journals.openedition.org/jtei/523, accessed: 2019- 07-30>.].
Thompson, H. S. & D. McKelvie (1997) «Hyperlink semantics for standoff markup of read-only documents», Proceedings of SGML Europe 1997: The next decade
Tognini-Bonelli, E. (2001) Corpus Linguistics at Work, Amsterdam, John Benjamins.
Torruella Casañas, J. (2017) Lingüística de corpus: génesis y bases metodológicas de los corpus (históricos) para la investigación lingüística, Frankfurt, Peter Lang.
Wallis, S. (2007) «Annotation, retrieval and experimentation. Or: you only get out what you put in», Studies in Variation, Contacts and Change in English (VARIENG) 1: Annotating Variation and Change. [Online: <http://www.helsinki.fi/varieng/ series/volumes/01/wallis>, accessed: 2019-08-05.]
Wang, I., S. Kahane & I. Tellier (2014) «Macrosyntactic Segmenters of a French spoken corpus», Ninth Language Resources and Evaluation Conference (LREC’14), May 2014, Reykjavík, European Languages Resources Association (ELRA), p. 3891-3896. [Online: <http://www.lrec-conf.org/proceedings/lrec2014/ pdf/889_Paper.pdf>, accessed: 2019-08-02.]
Weisser, M. (2016) Practical Corpus Linguistics: An Introduction to Corpus-Based Language Analysis, Malden, MA: Wiley-Blackwell.

Fonte de datos: Dialnet