MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese

Autores

  • Leonel Figueiredo de Alencar Universidade Federal do Ceará-UFC, Fortaleza/CE
  • Bruno Cuconato Fundação Getúlio Vargas, Escola de Matemática Aplicada
  • Alexandre Rademaker IBM Research ; Fundação Getúlio Vargas, Escola de Matemática Aplicada

DOI:

https://doi.org/10.17851/1983-3652.11.3.1-25

Palavras-chave:

computational linguistics, natural language processing, morphological analysis, full-form lexicon, diminutive formation

Resumo

ABSTRACT: One of the prerequisites for many natural language processing technologies is the availability of large lexical resources. This paper reports on MorphoBr, an ongoing project aiming at building a comprehensive full-form lexicon for morphological analysis of Portuguese. A first version of the resource is already freely available online under an open source, free software license. MorphoBr combines analogous free resources, correcting several thousand errors and gaps, and systematically adding new entries. In comparison to the integrated resources, lexical entries in MorphoBr follow a more user-friendly format, which can be straightforwardly compiled into finite-state transducers for morphological analysis, e.g. in the context of syntactic parsing with a grammar in the LFG formalism using the XLE system. MorphoBr results from a combination of computational techniques. Errors and the more obvious gaps in the integrated resources were automatically corrected with scripts. However, MorphoBr's main contribution is the expansion in the inventory of nouns and adjectives. This was carried out by systematically modeling diminutive formation in the paradigm of finite-state morphology. This allowed MorphoBr to significantly outperform analogous resources in the coverage of diminutives. The first evaluation results show MorphoBr to be a promising initiative which will directly contribute to the development of more robust natural language processing tools and applications which depend on wide-coverage morphological analysis.

KEYWORDS: computational linguistics; natural language processing; morphological analysis; full-form lexicon; diminutive formation.

 

RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.

PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos.

Downloads

Não há dados estatísticos.

Biografia do Autor

Leonel Figueiredo de Alencar, Universidade Federal do Ceará-UFC, Fortaleza/CE

Professor in the fields of Generative Grammar, Computational Linguistics, and German as a Foreign Language (DaF) at the Federal University of Ceará, Department of Foreign Languages and Literatures, and Linguistics Master's & PhD Program since 2004. Obtained the doctoral degree (Dr. phil.) in Linguistics from the University of Konstanz, Germany, in 2003. Concentrations: Contrastive Grammar, Formal Syntax and Semantics, Syntax-Lexical Semantics Interface, Language Typology. CAPES postdoctoral research fellow at the University of Konstanz in 2013. Successfully completed supervisions of eight master's theses and four PhD dissertations. Ongoing supervision of three master's students and two doctoral students. Founder and coordinator of the CompLin Research Group on Natural Language and Computation (http://complin.blogspot.com.br/). Present research interests: Interface between Generative Linguistics and Computational Linguistics, Natural Language Processing, Finite State Morphology, Syntactic Parsing, Lexical-Functional Grammar (LFG), Grammar Development, and Corpus Linguistics.
Author of the corpus annotation tool Aelius (http://aelius.sourceforge.net/). Recently published a book on computational grammar development within LFG using the Xerox Linguistic Environment (XLE), a joint work with Christoph Schwarze (University of Konstanz):

Schwarze, Christoph; de Alencar, Leonel F. Lexikalisch-funktionale Grammatik. Eine Einführung am Beispiel des Französischen mit computerlinguistischer Implementierung (Lexical-Functional Grammar: A French-based Introduction with Computational Implementation). Tübingen: Stauffenburg, 2016. 281 pp. Stauffenburg Einführungen, 30. ISBN 978-3-95809-411-6.

Alexandre Rademaker, IBM Research ; Fundação Getúlio Vargas, Escola de Matemática Aplicada

Bacharel em Ciência da Computação pela UFRJ (2001). Mestre em Ciência da Computação pela UFF (2005) e Doutor pela PUC-Rio (2010). Em 2008, durante o doutorado, fez estágio de pesquisa na Microsooft Research e em 2009 no SRI International.

Suas áreas de pesquisa abrangem: lógica, teoria da computação, métodos formais, representação do conhecimento e linguistica computacional. Entre seus trabalhos, destacam-se: construção de recursos linguísticos (corpora e léxico), sistemas de extração de informação, teoria as categorias aplicada para alinhamento de ontologias e sistemas dedutivos para lógicas descritivas. Alexandre é membro da Global WordNet Association e atual coordenador da Comissão Especial de Processamento de Linguagem Natural da Sociedade Brasileira de Computação (CE-PLN).

Referências

ALENCAR, L. F. de et al. JMorpher: A Finite-State Morphological Parser in Java for Android. In: BAPTISTA, J. et al. (Eds.). Computational Processing of the Portuguese Language. 11th International Conference, PROPOR 2014. São Carlos/SP, Brazil, October 6-8, 2014. Proceedings... Heidelberg: Springer, 2014, p. 59-69.

BAZENGA, A. M. Sufixos avaliativos -inh-/-zinh- em português: da morfologia à pragmática da ironia verbal. Pensardiverso, Funchal, v. 3, p. 115-130, 2012. Disponível em: https://digituma.uma.pt/handle/10400.13/1729. Acesso em: 2 abr. 2018.

BEESLEY, K. R.; KARTTUNEN, L. Finite state morphology. Stanford, California: CSLI, 2003.

BICK, E. PALAVRAS: a constraint grammar-based parsing system for portuguese. In: SARDINHA, T. B.; FERREIRA, T. L. S. B. (Org.). Working with Portuguese Corpora. [S.l.]: Bloomsbury Academic, 2014. p. 279-302.

BUTT, M. et al. A Grammar Writer's Cookbook. Stanford, California: CSLI, 1999.

CIPRO NETO, P. Está errado dizer “cheinho" e “sainha"? In: CIPRO NETO, P. Dicas do Pasquale. [S.n.t.]. Disponível em: http://www.educacional.com.br/espacopasquale/dicas.asp?intPagAtual=10&. Acesso em: 11 mai. 2018.

COSTA, J. A.; MELO, S. Dicionário da Língua Portuguesa. 6. ed. Porto: Porto Editora, 1991.

CUNHA, C.; CINTRA, L. F. L. Nova gramática do português contemporâneo. Rio de Janeiro: Nova Fronteira, 1985.

DIPPER, S. Implementing and documenting large-scale grammars – German LFG. 2003. 359 f. Tese (Doutorado) - Philosophisch-Historische Fakultät, Universidtät Stuttgart, 2003.

ELEUTÉRIO, S. et al. A system of electronic dictionaries of portuguese. Lingvisticae Investigationes, v. 19, n. 1, p. 57-82, 1995. Disponível em: http://label.ist.utl.pt/publications/docs/Eleuterio_et_al_95.pdf. Acesso em: 18 set. 2018.

FALK, Y. Lexical-Functional Grammar: an introduction to parallel constraint-based syntax. Stanford, California: CSLI, 2001.

FRADIN, B. Abbréviation des gloses morphologiques. Paris: Laboratoire de Linguistique Formelle, Université Paris-Diderot, [s.d.]. Disponível em: http://www.llf.cnrs.fr/fr/node/60. Acesso em: 16 set. 2018.

GARCIA, M.; GAMALLO, P. Análise morfossintáctica para português europeu e galego: Problemas, soluções e avaliação. Linguamática, Braga, v. 2, n. 2, p. 59-67, 2010. Disponível em: http://linguamatica.com/index.php/linguamatica/article/view/56. Acesso em: 15 out. 2018.

GARCIA, M. et al. PoS-tagging the Web in Portuguese: national varieties, text typologies and spelling systems. Procesamiento del Lenguaje Natural, v. 53, p. 95-101, 2014. Disponível em: http://linguamatica.com/index.php/linguamatica/article/view/56. Acesso em: 18 set. 2018.

HULDEN, M. Foma: a finite-state compiler and library. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 12, 2009, Athens. Proceedings... [S.l.]: Association for Computational Linguistics, 2009. p. 29-32. Disponível em: http://www.aclweb.org/anthology/E09-2008. Acesso em: 18 jun. 2018.

JURAFSKY, D.; MARTIN, J. H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. 2. ed. London: Pearson, 2009.

LAPA, M. R. Estilística da língua portuguesa. São Paulo: Martins Fontes, 1982.

LEACH, G.; WILSON, A. Recommendations for the morphosyntactic annotation of corpora. [S.n.t.], 1996. Disponível em: http://www.ilc.cnr.it/EAGLES/pub/eagles/corpora/annotate.ps.gz. Acesso em: 15 set. 2018.

LIMA, R. Gramática normativa da língua portuguesa. 49. ed. Rio de Janeiro: José Olympio, 2011.

MONTEIRO, J. L. Morfologia portuguesa. 2. ed. Fortaleza: EDUFC, 1987.

MCDONALD, R. et al. Universal dependency annotation for multilingual parsing. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 51, 2013, Sofia. Proceedings... [S.n.t.], 2013. p. 92-97. Disponível em: https://www.aclweb.org/anthology/P13-2017. Acesso em: 18 set. 2018.

MUNIZ, M. C. M. A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB. 2004. 92 f. Dissertação (Mestrado em Ciências de Computação e Matemática Computacional) - Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2004.

NIVRE, J. et al. Universal Dependencies 2.1. Prague: Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, 2017 Disponível em: http://hdl.handle.net/11234/1-2515. Acesso em: 18 set. 2018.

NOGUEIRA, S. As luzinhas ou as luzezinhas de Natal? In: NOGUEIRA, S. Dicas de português: Temas polêmicos. [S.l.]: Globo, 2010. Disponível em: http://g1.globo.com/educacao/blog/dicas-de-portugues/post/temas-polemicos-3.html. Acesso em: 15 mai. 2018.

PADRÓ, L.; STANILOVSKY, E. Freeling 3.0: Towards wider multilinguality. In: LANGUAGE RESOURCES AND EVALUATION CONFERENCE, 8, 2012, Istambul. Proceedings... [S.n.t.], 2012. p. 2473-2479. Disponível em: http://www.lrec-conf.org/proceedings/lrec2012/pdf/430_Paper.pdf. Acesso em: 15 set. 2018.

POLLARD, C.; SAG, I. A. Head-driven phrase structure grammar. Stanford: CSLI, 1994.

RANCHHOD, E.; MOTA, C.; BAPTISTA, J. A computational lexicon of Portuguese for automatic text parsing. In: STANDARDIZING LEXICAL RESOURCES, 1999, College Park, Maryland. Proceedings… [S.n.t], 1999. p. 74-80. Disponível em: http://www.aclweb.org/anthology/W99-0511. Acesso em: 15 set. 2018.

RANTA, A. Grammatical Framework: programming with multilingual grammars. Stanford, California: CSLI, 2011.

RIO-TORTO, G. Formação de avaliativos. In: RIO-TORTO, G. et al. (Org.). Gramática derivacional do português. Coimbra: Coimbra University Press, 2016. p. 357-389.

ROCHA, L. C. de A. Estruturas morfológicas do português. 2. ed. São Paulo: Martins Fontes, 2008.

VILLALVA, A.; SILVESTRE, J. P. Introdução ao estudo do léxico: descrição e análise do português. Petrópolis: Vozes, 2014.

ŠEVČÍKOVÁ, M. Modelling morphographemic alternations in derivation of Czech. The Prague Bulletin of Mathematical Linguistics, Prague, v. 110, p. 7-42, 2018. Disponível em: https://ufal.mff.cuni.cz/pbml/110/art-sevcikova.pdf. Acesso em: 4 mai. 2018.

Downloads

Publicado

26-12-2018

Como Citar

FIGUEIREDO DE ALENCAR, L.; CUCONATO, B.; RADEMAKER, A. MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese. Texto Livre, Belo Horizonte-MG, v. 11, n. 3, p. 1–25, 2018. DOI: 10.17851/1983-3652.11.3.1-25. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/16809. Acesso em: 28 mar. 2024.

Edição

Seção

Linguística e Tecnologia