Obtaining computational resources for languages with scarce resourcesfrom closely related computationally-developed languages. The Galician and Portuguese case
- Paulo Malvar Fernández 1
- José Ramón Pichel Campos 1
- Óscar Senra Gómez 1
- Pablo Gamallo Otero 2
- Alberto García 3
- 1 Area of Language Technology, imaxin|software, Santiago de Compostela
-
2
Universidade de Santiago de Compostela
info
- 3 Engineering department of Igalia, A Coruña
- Isabel Moskowich-Spiegel Fandiño (coord.)
- Begoña Crespo García (coord.)
- Inés Lareo Martín (coord.)
- Paula Lojo Sandino (coord.)
Editorial: Servizo de Publicacións ; Universidade da Coruña
ISBN: 978-84-9749-401-4
Año de publicación: 2010
Título del volumen: Part II, L-Z
Volumen: 2
Páginas: 529-536
Congreso: International Conference on Corpus Linguistics (2. 2010. A Coruña)
Tipo: Aportación congreso
Resumen
Para desarrollar muchas herramientas estadísticas de Procesamiento del Lenguaje Natural resultaesencial utilizar grandes cantidades de datos. Para salvar la limitación de la escasez de recursoscomputacionales para lenguas, como el gallego, es necesario diseñar nuevas estrategias. En el caso delgallego, importantes romanistas han teorizado que gallego y portugués son dos variantes del portuguéseuropeo. Desde un punto de vista pragmático, esta hipótesis podería abrir una nueva línea deinvestigación para proporcionar al gallego ricos recursos computacionales. Partiendo del corpusparalelo inglés-portugués Europarl, imaxin|software ha compilado un corpus paralelo inglés-gallegoque hemos utilizado para crear un prototipo de traductor automático estadístico inglés-gallego, cuyorendimiento es comparable a Google Translate. Sostenemos que es posible implementar esta estrategiapara desarrollar una gran variedad de herramientas computacionales para lenguas, como el gallego,íntimamente relacionadas con lenguas que ya cuentan con un gran repertorio de recursoscomputacionales