Análisis morfosintáctico y clasificación de entidades nombradas en un entorno Big Data

  1. Pablo Gamallo
  2. Juan Carlos Pichel
  3. Marcos García
  4. José Manuel Abuín
  5. Tomás Fernández-Pena
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Ano de publicación: 2014

Número: 53

Páxinas: 17-24

Tipo: Artigo

Outras publicacións en: Procesamiento del lenguaje natural

Resumo

Este artículo describe una suite de módulos lingüísticos para el castellano, basado en una arquitectura en tuberías, que incluye tareas de análisis morfosintáctico así como de reconocimiento y clasificación de entidades nombradas. Se han aplicado técnicas de paralelización en un entorno Big Data para conseguir que la suite de módulos sea más eficiente y escalable y, de este modo, reducir de forma significativa los tiempos de cómputo con los que poder abordar problemas a la escala de la Web. Los módulos han sido desarrollados con técnicas básicas para facilitar su integración en entornos distribuidos, con un rendimiento próximo al estado del arte.

Referencias bibliográficas

  • Agerri, R., J. Bermudez, y G. Rigau. 2014. Efficient and easy nlp processing with ixa pipeline. En Demo Sessions of the 14th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2014), Gothenburg, Sweden.
  • Ahmad, R., P. Kumar, B. Rambabu, P. Sajja anda M.K. Sinha, y P. Sangal. 2011. Enhancing throughout of a machine translation system using mapreduce framework: An engineering approach,. En 9th International Conference on Natural Language Processing ICON-2011, Hyderabad, India.
  • Balkir, A.S., I. Foster, y A. Rzhetsky. 2011. A distributed look-up architecture for text mining applications using mapreduce. En International Conference for High Performance Computing, Networking, Storage and Analysis.
  • Banko, Michele y Robert Moore. 2004. Part of speech tagging in context. En COLING’04, 20th international conference on Computational Linguistics.
  • Brants, Throrsten. 2000. Tnt: A statistical part-of-speech tagger. En 6th Conference on Applied Natural Language Processing. ANLP, ACL-2000.
  • Carreras, X., I. Chao, L. Padró, y M. Padró 2004. An Open-Source Suite of Language Analyzers. En 4th International Conference on Language Resources and Evaluation (LREC’04), Lisbon, Portugal.
  • Carreras, X., L. Marquez, L. Padró, y M. Padró. 2002. Named entity extraction using adaboost. En COLING-02 proceedings of the 6th Conference on Natural Language Learning.
  • Dean, J. y S. Ghemawat. 2004. Mapreduce: Simplified data processing on large clusters OSDI-04. En Sixth Symposium on Operating System Design and Implementation, San Francisco, CA, EE.UU.
  • Dyer, C., A. Cordora, y J. Lin. 2008. Fast, easy and cheap: Construction of statistical machine translation model with mapreduce. En 3rd Workshop on Statistical Machine Translation, Columns, Ohio.
  • Gamallo, Pablo y Marcos Garcia. 2011. A resource-based method for named entity extraction and classification. LNCS, 7026:610–623.
  • Gamallo, Pablo y Marcos Garcia. 2013. Freeling e treetagger: um estudo comparativo no âmbito do portugués. En ProLNat Technical Report, vol. 01, URL: http://gramatica.usc.es/gamallo/artigos-web/PROLNAT Report 01.pdf.
  • Garcia, M., I. González, y I. del Río. 2012. IdentificaÇao e classificaÇao de entidades mencionadas em galego. Estudos de Linguística Galega, 4:13–25.
  • Kilgarriff, Adam. 2007. Googleology is bad science. Computational Linguistics, 31(1):147–151.
  • Lin, J. 2008. Scalable language processing algorithms for the masses: A case study in computing word co-occurrence matrices with mapreduce. En 2008 Conference on Empirical Methods in Natural Language Processing, Honolulu, USA.
  • Metzel, D. y E. Hovy. 2011. Mavuno: a scalable and effective hadoop-based paraphrase acquisition system. En LDMTA-11, Third Workshop on Large Scale Data Mining: Theory and Applications.
  • Padró, Lluís. y Evgeny Stanilovsky. 2012. Freeling 3.0: Towards wider multilinguality. En Language Resources and Evaluation (LREC’12), Istanbul, Turkey.
  • Pantel, P., E. Crestan, A. Borkovsky, A.M. Popescu, y V. Vyas. 2009. Web-scale distributional similarity and entity set expansion. En Conference on Empirical Methods in Natural Language Processing, Singapur.
  • Schimd, Helmut. 1995. Improvements in part-of-speech tagging with an application to german. En ACL SIGDAT Workshop, Dublin, Ireland.
  • Tablan, V., I. Roberts, H. Cunningham, y K. Bontcheva. 2013. Gatecloud. net: a platform for large-scale, open-source text processing on the cloud. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 371.
  • Taulé, M., M.A. Mart´ı, y M. Recasens. 2008. Ancora: Multilevel annotated corpora for catalan and spanish. En The 6th International Conference on Language Resources and Evaluation (LREC)., Marrakesh, Morocco.
  • Tjong, Kim Sang y F. Erik. 2002. Introduction ot the CoNLL-2002 shared task: Language independent named entity recognition. En Conference on Natural Language Learning.