Aspects of the construction of a Universal Dependencies treebank for Nheengatu

Authors

DOI:

https://doi.org/10.1590/1983-3652.2024.52653

Keywords:

Computational linguistics, Natural language processing, Tupinology, Treebank

Abstract

The alienation of natural language technologies adds up to the weakening of minority languages coexisting with majority languages. Especially younger speakers, who function as links in language transmission, tend to migrate to the language favored by these resources. Nheengatu, an endangered Brazilian indigenous language, has a digital support score of just 0.07 on the Digital Language Support (DLS) scale. This is significantly lower than the 0.97 score for Portuguese, to which Nheengatu has been continually losing speakers. The Nheengatu treebank of the Universal Dependencies collection aims to reduce this deficit by feeding the training of a neural parser. Initially released on 11/15/2023 with 196 sentences and 2,146 words, the latest version, as of 05/15/2024, comprises 1,470 sentences and 15,036 words from twenty publications spanning different historical phases of Nheengatu. This makes it the largest treebank for an Amerindian language in the collection. The use of an automatic analyzer facilitated the rapid expansion of the corpus, while human annotators reviewed each annotation to ensure a 100% validation rate, achieving a two-star rating, the highest for Amerindian language treebanks in the Universal Dependencies collection. The ongoing expansion and revision aim to include all public domain texts and achieve state-of-the-art parsing results.

Downloads

Download data is not yet available.

Author Biography

Leonel Figueiredo de Alencar, Universidade Federal do Ceará, Centro de Humanidades, Fortaleza, CE, Brasil

Professor in the fields of Generative Grammar, Computational Linguistics, and German as a Foreign Language (DaF) at the Federal University of Ceará, Department of Foreign Languages and Literatures, and Linguistics Master's & PhD Program since 2004. Obtained the doctoral degree (Dr. phil.) in Linguistics from the University of Konstanz, Germany, in 2003. Concentrations: Contrastive Grammar, Formal Syntax and Semantics, Syntax-Lexical Semantics Interface, Language Typology. CAPES postdoctoral research fellow at the University of Konstanz in 2013. Successfully completed supervisions of eight master's theses and four PhD dissertations. Ongoing supervision of two master's students and four doctoral students. Founder and coordinator of the CompLin Research Group on Natural Language and Computation (http://complin.blogspot.com.br/). Present research interests: Interface between Generative Linguistics and Computational Linguistics, Natural Language Processing, Finite State Morphology, Syntactic Parsing, Lexical-Functional Grammar (LFG), Grammar Development, and Corpus Linguistics.
Author of the corpus annotation tool Aelius (http://aelius.sourceforge.net/). Recently published a book on computational grammar development within LFG using the Xerox Linguistic Environment (XLE), a joint work with Christoph Schwarze (University of Konstanz):

Schwarze, Christoph; de Alencar, Leonel F. Lexikalisch-funktionale Grammatik. Eine Einführung am Beispiel des Französischen mit computerlinguistischer Implementierung (Lexical-Functional Grammar: A French-based Introduction with Computational Implementation). Tübingen: Stauffenburg, 2016. 281 pp. Stauffenburg Einführungen, 30. ISBN 978-3-95809-411-6.

References

AIKHENVALD, Alexandra Y.; DIXON, R. M. W. Introduction. In: AIKHENVALD, Alexandra Y.; DIXON, R. M. W. (ed.). Areal diffusion and genetic inheritance: Problems in comparative linguistics. Oxford: Oxford University Press, 2001. p. 1–26.

ALENCAR, Leonel Figueiredo de. Uma gramática computacional de um fragmento do nheengatu / A computational grammar for a fragment of Nheengatu. Revista de Estudos da Linguagem, v. 29, n. 3, p. 1717–1777, 2021. DOI: 10.17851/2237-2083.29.3.1717-1777.

ALENCAR, Leonel Figueiredo de. Yauti: A Tool for Morphosyntactic Analysis of Nheengatu within the Universal Dependencies Framework. In: ANAIS do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Belo Horizonte/MG: Sbc, 2023. p. 135–145. DOI: 10.5753/stil.2023.234131. Disponível em: https://sol.sbc.org.br/index.php/stil/article/view/25445.

ALENCAR, Leonel Figueiredo de. A Universal Dependencies Treebank for Nheengatu. In: GAMALLO, Pablo; CLARO, Daniela; TEIXEIRA, António; REAL, Livy; GARCIA, Marcos; OLIVEIRA, Hugo Gonçalo; AMARO, Raquel (ed.). Proceedings of the 16th International Conference on

Computational Processing of Portuguese - Vol. 2. Santiago de Compostela, Galicia/Spain: Association for Computational Linguistics, mar. 2024. p. 37–54. Disponível em: https://aclanthology.org/2024.propor-2.8.

AMEKA, Felix. Interjections: The Universal Yet Neglected Part of Speech. Journal of Pragmatics, v. 18, n. 2, p. 3, 1992.

AMORIM, Antonio Brandão de. Lendas em Nheêngatu e em Portuguez. Revista do Instituto Historico e Geographico Brasileiro, Imprensa Nacional, v. 154, n. 100, p. 9–475, 1928. Tomo 100, vol. 154 (2º de 1926).

AVILA, Marcel Twardowsky. Estudo e prática da tradução da obra infantil A terra dos meninos pelados, de Graciliano Ramos, do português para o Nheengatu. Mar. 2016. Diss. (Mestrado) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo. Disponível em: https://doi.org/10.11606/D.8.2016.tde-16052016-142700.

AVILA, Marcel Twardowsky. Proposta de dicionário nheengatu-português. 2021. Tese (Doutorado) – Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo. Disponível em: https://doi.org/10.11606/T.8.2021.tde-10012022-201925.

BIRD, Steven; GELBART, Katie; MCALISTER, Isaac (ed.). Fábulas de Terra Preta: Uma coletânea bilíngue. Manaus: sine nomine, 2013.

BRASIL, Missão Novas Tribos do (ed.). Novo Testamento na língua Nyengatu. 2nd. Barueri, SP: Sociedade Bíblica do Brasil, 2019. Primeira edição publicada em 1973.

CASASNOVAS, Afonso. Noções de língua geral ou nheengatú: gramática, lendas e vocabulário. 2. ed. Manaus: Editora da Universidade Federal do Amazonas; Faculdade Salesiana Dom Bosco, 2006.

COSTA, D. Frederico. Carta pastoral de D. Frederico Costa bispo do Amazonas a seus amados diocesanos. Fortaleza: Typ. Minerva, 1909.

CRUZ, Alina da. Fonologia e gramática do nheengatú: A língua falada pelos povos Baré, Warekena e Baniwa. Utrecht: Lot, 2011.

CUNHA, Celso; CINTRA, Lindley. Nova gramática do português contemporâneo. 2. ed. Rio de Janeiro: Lexicon, 2017.

D’ANGELIS, Wilmar da Rocha. A língua Nheengatu e suas ortografias: questões técnicas e de política linguística. LIAMES: Línguas Indígenas Americanas, v. 23, n. 00, p. 1–22, fev. 2023.

D’ANGELIS, Wilmar da Rocha; OLIVEIRA, Mateus Coimbra de; SCHWADE, Michéli Carolíni de Deus Lima. Acesso ao mundo digital ou acesso digital ao mundo? Revista Digital de Políticas Linguísticas, v. 15, p. 134–158, 2021.

DURAN, Magali Sanches. Manual de Anotação de POS Tags: Orientações para Anotação de Etiquetas Morfossintáticas em Língua Portuguesa, Seguindo as Diretrizes da Abordagem Universal Dependencies (UD). São Carlos, SP, set. 2021. (Relatórios Técnicos, 434).

EBERHARD, David M.; SIMONS, Gary F.; FENNIG, Charles D. (ed.). Ethnologue: Languages of the World. twenty-sixth. Dallas: SIL International, 2023. Disponível em: http://www.ethnologue.com.

EVANS, Nicholas. Word classes in the world’s languages. In: BOOIJ, Geert; LEHMANN, Christian; MUGDAN, Joachim; KESSELHEIM, Wolfgang; SKOPETEAS, Stavros (ed.). Morphology: An International Handbook on Inflection and Word-Formation. Berlin, New York: Walter de Gruyter, 2000. v. 1. p. 708–732.

FARACO, Carlos Alberto. Por que as línguas mudam? In: ÁVILA OTHERO, Gabriel de; NASCIMENTO FLORES, Valdir do (ed.). O que sabemos sobre a linguagem. São Paulo: Parábola, 2022.

FRANCIS, W. Nelson; KUČERA, Henry. Manual of Information to Accompany A Standard Corpus of Present-Day Edited American English, for Use with Digital Computers. 3. ed. Providence, RI: Brown University, 1979. Primeira edição publicada em 1964. Disponível em: http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM.

FREIRE, José Ribamar Bessa. Rio Babel: A história das línguas na Amazônia. 2. ed. Rio de Janeiro: EdUERJ, 2011.

GALVES, Charlotte; SANDALO, Filomena; SENA, Ticiana A. de; VERONESI, Luiz. Annotating a polysynthetic language: From Portuguese to Kadiwéu. Cadernos de Estudos Linguísticos, v. 59, n. 3, p. 631–648, dez. 2017.

GERARDI, Fabrício Ferraz; REICHERT, Stanislav; ARAGON, Carolina Coelho. TuLeD (Tupían lexical database): introducing a database of a South American language family. Language Resources and Evaluation, v. 55, n. 4, p. 997–1015, dez. 2021.

GÓES NETO, Antônio Fernandes. O Novo Testamento em nyengatu (1973): um capítulo na história das traduções bíblicas para línguas indígenas. Jun. 2015. Dissertação de Mestrado – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo. Disponível em: https://doi.org/10.11606/D.8.2015.tde-15102015-141005.

GREENBERG, Joseph H. Numeral. In: BOOIJ, Geert; LEHMANN, Christian; MUGDAN, Joachim; KESSELHEIM, Wolfgang; SKOPETEAS, Stavros (ed.). Morphology: An International Handbook on Inflection and Word-Formation. Berlin, New York: Walter de Gruyter, 2000. v. 1. p. 770–783.

HIRSCHMANN, Hagen. Korpuslinguistik: Eine Einführung. Stuttgart: J.B. Metzler, 2019.

IONIN, Tania; MATUSHANSKY, Ora. Cardinals: The Syntax and Semantics of Cardinal-Containing Expressions. Cambridge, Massachusetts: The MIT Press, 2018.

JURAFSKY, Daniel; MARTIN, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. 2. ed. London: Pearson, 2009.

LEHMANN, Christian. The nature of parts of speech. Sprachtypologie und Universalienforschung, v. 66, n. 2, p. 141–177, 2013.

LEHMANN, Christian. Theoretical foundation for word classes. [S. l.: s. n.], 2023. Disponível em: https://christianlehmann.eu/publ/lehmann_word_classes.pdf.

LIMA, Rocha. Gramática normativa da língua portuguesa. 49. ed. Rio de Janeiro: José Olympio, 2011.

LOPES, Lucelene; DURAN, Magali Sanches; GRAÇAS VOLPE NUNES, Maria das; PARDO, Thiago Alexandre Salgueiro. Corpora Building Process According to the Universal Dependencies Model: An Experiment for Portuguese. São Carlos, SP, mar. 2022.

LOPES, Lucelene; PARDO, Thiago. Towards Portparser - a highly accurate parsing system for Brazilian Portuguese following the Universal Dependencies framework. In: GAMALLO, Pablo et al. (ed.). Proceedings of the 16th International Conference on Computational Processing of Portuguese. Santiago de Compostela, Galicia/Spain: Association for Computational Lingustics, mar. 2024. p. 401–410. Disponível em: https://aclanthology.org/2024.propor-1.41.

MACAMBIRA, José Rebouças. Estrutura Morfo-sintática do Português. 9. ed. São Paulo: Pioneira, 1999. MAGALHÃES, José Vieira Couto de. O selvagem. Rio de Janeiro: Typographia da Reforma, 1876.

MARNEFFE, Marie-Catherine de et al. Syntax: General Principles. [S. l.: s. n.], 2024. https://universaldependencies.org. Acesso em: 18. jul. 2024.

MARNEFFE, Marie-Catherine de et al. UD Validation since release 2.5. [S. l.: s. n.], 2024. https://universaldependencies.org/validation-rules.html. Acesso em: 18. jul. 2024.

MARNEFFE, Marie-Catherine de et al. Universal POS tags. [S. l.: s. n.], 2024. https://universaldependencies.org/u/pos/all.html. Acesso em: 18. jul. 2024.

MARNEFFE, Marie-Catherine de; MANNING, Christopher D.; NIVRE, Joakim; ZEMAN, Daniel. Universal Dependencies. Computational Linguistics, MIT Press, Cambridge, MA, v. 47, n. 2, jun. 2021.

MARTÍN RODRÍGUEZ, Lorena et al. Tupían Language Ressources: Data, Tools, Analyses. In: MELERO, Maite; SAKTI, Sakriani; SORIA, Claudia (ed.). Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. Marseille, France: European Language Resources Association, jun. 2022. p. 48–58. Disponível em: https://aclanthology.org/2022.sigul-1.7.

MOORE, Denny. Historical Development of Nheengatu (Língua Geral Amazônica). In: MUFWENE, Salikoko S. (ed.). Iberian Imperialism and Language Evolution in Latin America. Chicago: University of Chicago Press, 2014. p. 108–142.

MOORE, Denny; FACUNDES, Sidney; PIRES, Nádia. Nheengatu (Língua Geral Amazônica), its History, and the Effects of Language Contact. In: PROCEEDINGS of the Meeting of the Society for the Study of the Indigenous languages of the Americas, July 2-4, 1993 and the Hokan-Penutian Workshop, July 3, 1993. Berkeley, CA: [University of California], 1994. p. 93–118. Disponível em: https://escholarship.org/uc/item/7tb981s1.

NAVARRO, Eduardo de Almeida. Curso de Língua Geral (nheengatu ou tupi moderno): A língua das origens da civilização amazônica. 2. ed. São Paulo: Centro Angel Rama da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, 2016.

NAVARRO, Eduardo de Almeida; ÁVILA, Marcel Twardowsky; TREVISAN, Rodrigo Godinho. O Nheengatu, entre a vida e a morte: A tradução literária como possível instrumento de sua revitalização lexical. Revista Letras Raras, v. 6, n. 2, p. 9–29, 2017.

NIVRE, Joakim et al. Universal Dependencies v1: A Multilingual Treebank Collection. In: PROCEEDINGS of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia: European Language Resources Association (ELRA), maio 2016. p. 1659–1666. Disponível em: https://aclanthology.org/L16-1262.

POPEL, Martin; ŽABOKRTSKÝ, Zdeněk; VOJTEK, Martin. Udapi: Universal API for Universal Dependencies. In: PROCEEDINGS of the NoDaLiDa 2017 Workshop on Universal Dependencies (UDW 2017). Gothenburg, Sweden: Association for Computational Linguistics, maio 2017. p. 96–101. Disponível em: https://aclanthology.org/W17-0412.

PTASZYNSKI, Michal; MUKAICHI, Kazuki; MOMOUCHI, Yoshio. NLP for Endangered Languages: Morphology Analysis, Translation Support and Shallow Parsing of Ainu Language. In: PROCEEDINGS of the 19th Annual Meeting of the Association for Natural Language Processing. Nagoya, Japan: [s. n.], mar. 2013. p. 418–421. Disponível em: https://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P2-5.pdf.

ROBINS, Robert Henry. The Development of the Word Class System of the European Grammatical Tradition. Foundations of Language, Springer, v. 2, n. 1, p. 3–19, 1966.

RODRIGUES, Aryon Dall’Igna. Línguas brasileiras: Para o conhecimento das línguas indígenas. São Paulo: Loyola, 1986.

RODRIGUES, Aryon Dall’Igna. Línguas indígenas: 500 anos de descobertas e perdas. DELTA: Documentação e Estudos em Linguística Teórica e Aplicada, v. 9, n. 1, p. 83–103, 1993. Disponível em: https://revistas.pucsp.br/index.php/delta/article/view/45596.

RODRIGUES, Aryon Dall’Igna. As línguas gerais sul-americanas. Papia, São Paulo, v. 4, n. 2, p. 6–18, 1996.

RODRIGUES, Ayron Dall’Igna; CABRAL, Ana Suelly Arruda Câmara. A contribution to the linguistic history of the Língua Geral Amazônica. ALFA: Revista de Linguística, v. 55, n. 2, dez. 2011.

RODRIGUES, João Barbosa. Poranduba amazonense ou kochiyma-uara porandub, 1872-1887. Rio de Janeiro: Typ. de G. Leuzinger & Filhos, 1890.

RUETER, Jack et al. Apurinã Universal Dependencies Treebank. In: MAGER, Manuel et al. (ed.). Proceedings of the First Workshop on Natural Language Processing for Indigenous Languages of the Americas. Online: Association for Computational Linguistics, jun. 2021. p. 28–33. Disponível em: https://aclanthology.org/2021.americasnlp-1.4.

SANDALO, Maria Filomena Spatti; GALVES, Charlotte Marie Chambelland. Anotando sintaticamente Uma língua originária do Brasil: O problema de Anchieta. Cadernos de Estudos Linguísticos, v. 65, n. 00, 2023.

SANTORINI, Beatrice. Part of Speech Tagging Guidelines for the Penn Treebank Project. 3. ed. [S. l.: s. n.], 1990. Disponível em: https://catalog.ldc.upenn.edu/docs/LDC99T42/tagguid1.pdf.

SANTOS, Luana Luiza; ARAGON, Carolina Coelho; GERARDI, Fabrício. Línguas minoritárias e anotações sintáticas de corpora: experiências de pesquisa na iniciação científica. Letras de hoje, v. 59, n. 1, p. 1–9, 2024.

SCHUSTER, Sebastian; MANNING, Christopher D. Enhanced English Universal Dependencies: An Improved Representation for Natural Language Understanding Tasks. In: PROCEEDINGS of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia: European Language Resources Association (ELRA), maio 2016. p. 2371–2378. Disponível em: https://aclanthology.org/L16-1376.

SEIXAS, Manoel Justiniano de. Vocabulario da lingua indigena geral para o uso do Seminario Episcopal do Pará. Pará: Typ. de Mattos e Compª., 1853.

SIMONS, Gary F.; THOMAS, Abbey L. L.; WHITE, Chad K. K. Assessing Digital Language Support on a Global Scale. In: CALZOLARI, Nicoletta et al. (ed.). Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics, out. 2022. p. 4299–4305. Disponível em: https://aclanthology.org/2022.coling-1.379.

STORTO, Luciana Raccanello. Línguas indígenas: tradição, universais e diversidade. Campinas, SP: Mercado de Letras, 2019.

STRADELLI, Ermano. Vocabularios da lingua geral portuguez-nheêngatú e nheêngatú-portuguez, precedidos de um esboço de Grammatica nheênga-umbuê-sáua mirî e seguidos de contos em lingua geral nheêngatú poranduua. Revista do Instituto Historico e Geographico Brasileiro, v. 158, n. 104, p. 9–768, 1929.

STRAKA, Milan; HAJIČ, Jan; STRAKOVÁ, Jana. UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing. In: PROCEEDINGS of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia: European Language Resources Association (ELRA), maio 2016. p. 4290–4297. Disponível em: https://aclanthology.org/L16-1680.

SYMPSON, Pedro Luiz. Grammatica da lingua brazilica geral, fallada pelos aborigines das provincias do Pará e Amazonas. Manaus: Typographia do Commercio do Amazonas, 1877.

TESNIÈRE, Lucien. Éléments de syntaxe structurale. Paris: Librairie C. Klincksieck, 1959.

TREVISAN, Rodrigo Godinho. Tradução comentada da obra Le Petit Prince, de Antoine de Saint-Exupéry, do francês ao nheengatu. Mar. 2017. Diss. (Mestrado) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo. DOI: 10.11606/D.8.2017.tde-07082017-124328. Disponível em: https://doi.org/10.11606/D.8.2017.tde-07082017-124328.

VASQUEZ, Alonso et al. Toward Universal Dependencies for Shipibo-Konibo. In: PROCEEDINGS of the Second Workshop on Universal Dependencies (UDW 2018). Brussels, Belgium: Association for Computational Linguistics, nov. 2018. p. 151–161. Disponível em: https://aclanthology.org/W18-6018.

WILKINS, David P. Interjections as Deictics. Journal of Pragmatics, v. 18, p. 119–158, 1992.

ZEMAN, Daniel et al. Universal Dependencies 2.14. [S. l.: s. n.], 2024. LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. Disponível em: http://hdl.handle.net/11234/1-5502.

Published

2024-08-20

How to Cite

ALENCAR, L. F. de. Aspects of the construction of a Universal Dependencies treebank for Nheengatu. Texto Livre, Belo Horizonte-MG, v. 17, p. e52653, 2024. DOI: 10.1590/1983-3652.2024.52653. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/52653. Acesso em: 28 oct. 2024.