Using Dependency-Based Contextualization for transferring Passive Constructions from English to Spanish

  1. Pablo Gamallo Otero
  2. Gorka Labaka Intxauspe
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Ano de publicación: 2021

Número: 66

Páxinas: 53-64

Tipo: Artigo

Outras publicacións en: Procesamiento del lenguaje natural

Resumo

Formulamos la hipótesis de que los corpus paralelos así como los resultados de la traducción automática contienen muchas traducciones literales que son el resultado de la transferencia de las construcciones del idioma de origen al idioma de destino. Cuando se traducen expresiones pasivas del inglés al español, hay varias construcciones disponibles, sin embargo, tanto las traducciones automáticas como las humanas (si son de baja calidad) tienden a seleccionar la estructura perifásica, que es la construcción literal. El objetivo de este artículo es hacer uso de estrategias entrenadas a partir de corpus monolingües para traducir las expresiones pasivas del inglés al español, a fin de verificar si la traducción no supervisada con corpus monolingües beneficia la diversidad sintáctica. Se prestará especial atención al método semántico que se apoya en el proceso de contextualización en el marco de la sintaxes de dependencias. Los resultados obtenidos en los experimentos muestran que los métodos basados en corpus monolingües tienden a generar más traducciones no literales (voz media) que los entrenados con corpus paralelos.

Información de financiamento

This work has received financial sup port from DOMINO (PGC2018-102041- B-I00, MCIU/AEI/FEDER, UE), eRisk (RTI2018-093336-B-C21), the Consellería de Cultura, Educación e Ordenación Universi-taria (accreditation 2016-2019, ED431G/08, Groups of Reference: ED431C 2020/21) and the European Regional Development Fund.

Financiadores

Referencias bibliográficas

  • Alarcos Llorach, E. 1978. Valores de ’se’. In Estudios de gramática funcional del español. Madrid, Gredos, pages 156–165.
  • Artetxe, M., G. Labaka, and E. Agirre. 2018a. A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 789–798, Melbourne, Australia, July. Association for Computational Linguistics.
  • Artetxe, M., G. Labaka, and E. Agirre. 2018b. Unsupervised statistical machine translation. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3632–3642, Brussels, Belgium, OctoberNovember. Association for Computational Linguistics.
  • Artetxe, M., G. Labaka, and E. Agirre. 2019. An effective approach to unsupervised machine translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 194– 203, Florence, Italy, July. Association for Computational Linguistics.
  • Artetxe, M., G. Labaka, E. Agirre, and K. Cho. 2018. Unsupervised neural machine translation. In Proceedings of the Sixth International Conference on Learning Representations (ICLR-2018), April.
  • Boas, H. 2010. Contrastive Studies in Construction Grammar. John Benjamins Publishing Company.
  • de Miguel, E. 1999. El aspecto léxico. In I. Bosque and V. Demonte, editors, Gramática descriptiva de la lengua española, vol. 2. Madrid: Real Academia Española; Espasa Calpe.
  • Devlin, J., M.-W. Chang, K. Lee, and K. Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota, June. Association for Computational Linguistics.
  • Erk, K. and S. Padó. 2008. A structured vector space model for word meaning in context. In 2008 Conference on Empirical Methods in Natural Language Processing (EMNLP-2008, pages 897–906, Honolulu, HI.
  • Erk, K., Sebastian, Padó, and U. Padó. 2010. A flexible, corpus-driven model of regular and inverse selectional preferences. Computational Linguistics, 36(4):723–763.
  • Fernández, S. S. 2007. La voz pasiva en español: un análisis discursivo. Frankfurt am Main: Peter Lang.
  • Gamallo, P., M. Garcia, C. Piñeiro, R. Martinez-Castaño, and J. C. Pichel. 2018. LinguaKit: A Big Data-Based Multilingual Tool for Linguistic Analysis and Information Extraction. In 2018 Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), pages 239–244.
  • Gamallo, P. 2019. A dependency-based approach to word contextualization using compositional distributional semantics. Language Modelling, 7(1):53–92.
  • Gamallo, P. and M. Garcia. 2018. Dependency parsing with finite state transducers and compression rules. Information Processing & Management, 54(6):1244–1261.
  • Gamallo, P. and M. Garcia. 2019. Unsupervised compositional translation of multiword expressions. In Proceedings of the Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019), pages 40–48, Florence, Italy, August. Association for Computational Linguistics.
  • Gamallo, P., S. Sotelo, J. R. Pichel, and M. Artetxe. 2019. Contextualized translations of phrasal verbs with distributional compositional semantics and monolingual corpora. Computational Linguistics, 45(3):395–421.
  • García-Miguel, J. M., G. Vaamonde, and F. G. Domínguez. 2010. ADESSE, a database with syntactic and semantic annotation of a corpus of Spanish. In Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC’10), Valletta, Malta, May. European Language Resources Association (ELRA).
  • Garcia-Miguel, J. M. 1985. La voz media en español: Las construcciones pronominales con verbos transitivos. Verba: Anuario galego de filoloxia, 12:307–343.
  • Jisa, H., E. Baruch, J. Reilly, E. Rosado, L. Tolchinsky, L. Verhoeven, and A. Zamora. 2002. Passive voice constructions in written texts: A cross-linguistic developmental study. Written Language and Literacy, 5(2):163–182.
  • Keenan, E. L. 1985. Passive in the world’s languages. In T. Shopen, editor, Language Typology and Syntactic Description. Vol. I. Cambridge: Cambridge University Press.
  • Lample, G., A. Conneau, L. Denoyer, and M. A. Renzato. 2018a. Unsupervised machine translation using monolingual corpora only. In Proceedings of the Sixth International Conference on Learning Representations (ICLR-2018), April.
  • Lample, G., M. Ott, A. Conneau, L. Denoyer, and M. A. Ranzato. 2018b. PhraseBased ; neural unsupervised machine translation, April.
  • Lourdes Díaz Blanca, C. L. D. 2008. Los verbos en las pasivas con se: un intento de clasificación. Letras [online], 50(76).
  • Nivre, J. et al. 2017. Universal Dependencies 2.0. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics, Charles University, Prague, http://hdl.handle.net/11234/1-1983.
  • Rodríguez-Vergara, D. 2017. A systemic functional approach to the passive voice in english into spanish translation: Thematic development in a medical research article. Open Linguistics, 3(1).
  • Scarpa, F., 2020. Translating Specialised Texts, pages 187–290. Palgrave Macmillan UK, London.
  • Siewierska, A. 1984. The Passive: Comparative Linguistic Analysis. Routledge, Croom Helm Linguistics Series, London.
  • Sánchez-López, C. 2002. Las construcciones con se. estado de la cuestión. In C. Sánchez López, editor, Las construcciones con se. Madrid: Visor, pages 18–163.
  • Toral, A. 2019. Post-editese: an exacerbated translationese. In Proceedings of Machine Translation Summit XVII Volume 1: Research Track, pages 273–281, Dublin, Ireland, August. European Association for Machine Translation.
  • Vanmassenhove, E., D. Shterionov, and A. Way. 2019. Lost in translation: Loss and decay of linguistic richness in machine translation. In Proceedings of Machine Translation Summit XVII Volume 1: Research Track, pages 222–232, Dublin, Ireland, August. European Association for Machine Translation.
  • Vinay, J. and J. Darbelnet. 1995. Comparative stylistics of French and English Benjamins, Amsterdam