Per aspera ad astra
Improving the Automatic Evaluation of a Universal Dependencies Treebank for a Low-Resource Language
DOI:
https://doi.org/10.17851/2237-2083.34.1.8-50Palabras clave:
Nheengatu, Universal Dependencies, treebank, morphosyntactic annotation, computational linguisticsResumen
Abstract: Until recently, advancements in digital humanities have favored majority languages. The construction of treebanks for 14 Brazilian Indigenous languages within the Universal Dependencies (UD) framework marks a significant step toward bridging the digital divide affecting these minority languages. However, aside from the Nheengatu treebank, these corpora are small and/or receive low quality ratings. This paper details our recent efforts to enhance the Nheengatu treebank. We examined UD’s automatic evaluation methodology to pinpoint the areas we should focus on. Among other improvements, we corrected nearly all 2,726 errors flagged by the Udapi framework, a core component of the UD rating system. As a result, the treebank’s rating advanced from 2.0 stars in UD v2.14 to 3.5 stars in v2.15 and 4.0 stars in the upcoming v2.16. It is now the largest and best evaluated among the 21 UD treebanks for Amerindian languages. A corollary contribution of the annotation revision was the identification of discrepancies between the UD documentation and the Udapi algorithm. Specifically, while the documentation permits (i) assigning the Degree feature to nouns and (ii) using the ExtPos feature to mark an unexpected POS tag on the head of an exocentric MWE, Udapi systematically treats both configurations as annotation errors.
Referencias
ALENCAR, L. F. de. Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo Dependências Universais. Texto Livre, Belo Horizonte, v. 17, p. e52653, 2024a. DOI: https://doi.org/10.1590/1983-3652.2024.52653.
ALENCAR, L. F. de. A Universal Dependencies treebank for Nheengatu. In: GAMALLO, P. et al. (Eds.). Proceedings of the 16th International Conference on Computational Processing of Portuguese. Santiago de Compostela, Galicia, Spain: Association for Computational Linguistics, 2024b. v. 2, p. 37–54. Available at: https://aclanthology.org/2024.propor-2.8.pdf. Accessed on: Apr. 2, 2025.
AMORIM, A. B. de. Lendas em Nheêngatu e em Portuguez. Revista do Instituto Historico e Geographico Brasileiro, Rio de Janeiro, v. 154, t. 100, p. 9–475, 1928.
ANDREWS, A. D. Relative clauses. In: SHOPEN, T. (ed.). Language typology and syntactic description. v. 2 — Complex constructions. Cambridge, UK: Cambridge University Press, 2007. p. 206–236.
AVILA, Marcel Twardowsky. Proposta de dicionário nheengatu-português. 2021. Tese (Doutorado em Estudos da Tradução) - Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo, 2021. doi:10.11606/T.8.2021.tde-10012022-201925. Acesso em: 2026-04-12.
BRANCO, A. et al. Universal grammatical dependencies for Portuguese with CINTIL data, LX processing and CLARIN support. In: CALZOLARI, N. et al. (Eds.). Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association, 2022. p. 5617–5626. Available at: https://aclanthology.org/2022.lrec-1.603/. Accessed on: Apr. 2, 2025.
BORGES, L. C. O nheengatú: uma língua amazônica. Papia, Brasília, v. 4, n. 2, p. 44–55, 1996. Available at: https://etnolinguistica.wdfiles.com/local--files/artigo:borges-1996/borges_1996_nheengatu.pdf. Accessed on: Apr. 2, 2025.
BYBEE, J. L.; PERKINS, R.; PAGLIUCA, W. The evolution of grammar: Tense, aspect, and modality in the languages of the world. Chicago: The University of Chicago Press, 1994.
CASASNOVAS, A. Noções de língua geral ou nheengatú: gramática, lendas e vocabulário. 2nd ed. Manaus: Editora da Universidade Federal do Amazonas; Faculdade Salesiana Dom Bosco, 2006.
CAVALIN, P. et al. Understanding native language identification for Brazilian indigenous languages. In: Proceedings of the Workshop on Natural Language Processing for Indigenous Languages of the Americas (AmericasNLP). Toronto, Canada: Association for Computational Linguistics, 2023. p. 12–18. Available at: https://aclanthology.org/2023.americasnlp-1.3. Accessed on: Apr. 2, 2025.
CONSTANT, M. et al. Multiword expression processing: A survey. Computational Linguistics, Cambridge, v. 43, n. 4, p. 837–892, dez. 2017. Available at: <https://aclanthology.org/J17-4005/>. Accessed on: Apr. 2, 2025.
CRUZ, A. da. Fonologia e gramática do nheengatú: a língua falada pelos povos Baré, Warekena e Baniwa. Utrecht: LOT, 2011.
CUNHA, C.; CINTRA, L. Nova gramática do português contemporâneo. 7. ed. Rio de Janeiro: Lexicon, 2017.
D’ANGELIS, W. da R.; OLIVEIRA, M. C. de; SCHWADE, M. C. de D. L. Acesso ao mundo digital ou acesso digital ao mundo? Revista Digital de Políticas Linguísticas, Córdoba, v. 15, p. 134–158, 2021.
DURAN, M. et al. The dawn of the Porttinari multigenre treebank: Introducing its journalistic portion. In: Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Porto Alegre: SBC, 2023. p. 115–124. Available at: <https://sol.sbc.org.br/index.php/stil/article/view/25443>. Accessed on: Apr. 2, 2025.
DURAN, M. S. Manual de anotação de POS Tags: orientações para anotação de etiquetas morfossintáticas em língua portuguesa, seguindo as diretrizes da abordagem Universal Dependencies (UD). São Carlos, SP: Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo, 2021. Available at: <https://sites.google.com/icmc.usp.br/poetisa/publications> Accessed on: Apr. 2, 2025.
EBERHARD, D. M.; SIMONS, G. F.; FENNIG, C. D. (Eds.). Ethnologue: Languages of the World. 26. ed. Dallas: SIL International, 2023. Available at: http://www.ethnologue.com. Accessed on: Jul. 30, 2023.
EBERHARD, D. M.; SIMONS, G. F.; FENNIG, C. D. (Eds.). Ethnologue: Languages of the World. 28. ed. Dallas: SIL International, 2025. Available at: http://www.ethnologue.com. Accessed on: Apr. 2, 2025.
FREIRE, J. R. B. Rio Babel: A história das línguas na Amazônia. 2nd ed. Rio de Janeiro: EdUERJ, 2011.
GALVES, C. et al. Annotating a polysynthetic language: From Portuguese to Kadiwéu. Cadernos de Estudos Linguísticos, Campinas, v. 59, n. 3, p. 631–648, 2017. DOI: https://doi.org/10.20396/cel.v59i3.8651003
GIVÓN, T. Syntax: A functional-typological introduction. Amsterdam: John Benjamins, 1990. v. 2.
HARTT, C. F. Notes on the Lingoa Geral or Modern Tupi of the Amazonas. Transactions of the American Philological Association, Baltimore, v. 3, p. 58–76, 1872. Available at: https://www.jstor.org/stable/310258. Accessed on: Apr. 2, 2025.
HARTT, C. F. Notas sobre a língua geral, ou tupí moderno do Amazonas. Anais da Biblioteca Nacional do Rio de Janeiro, Rio de Janeiro, vol. 51, p. 305–390, 1938.
HELBIG, G. Probleme der Valenz- und Kasustheorie. Tübingen: Max Niemeyer Verlag, 1992.
JURAFSKY, D.; MARTIN, J. H. Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. 2nd ed. London: Pearson, 2009.
LEVIN, B. English verb classes and alternations: A preliminary investigation. Chicago: University of Chicago Press, 1993.
LUCCHESI, M. et al. (Eds.). Mundu Sa Turusu Waá: Ubêuwa Mayé Míra Itá Uikú Arãma Purãga Iké Braziu Upé. Brasília: Supremo Tribunal Federal, Conselho Nacional de Justiça, 2023. Available at: https://bibliotecadigital.cnj.jus.br. Accessed on: Apr. 2, 2025.
MAGALHÃES, J. V. C. de. O selvagem. Rio de Janeiro: Typographia da Reforma, 1876.
MARNEFFE, M.-C. de et al. Universal Dependencies. Computational Linguistics, Cambridge, v. 47, n. 2, p. 255–308, 2021. Available at: https://aclanthology.org/2021.cl-2.11. Accessed on: Apr. 2, 2025.
MARNEFFE, M.-C. de et al. Universal Dependencies Guidelines. [S. n.]: 2024a. Available at: <https://universaldependencies.org/guidelines.html>. Accessed on: Apr. 2, 2025.
MARNEFFE, M.-C. de et al. UD Validation since release 2.5. [S. n.]: 2024b. Available at: https: //universaldependencies.org/validation-rules.html. Accessed on: Apr. 2, 2025.
MELGUEIRO, E. M.; CABRAL, A. S. A. C.; MARTINS, M. F. Orações relativas em nheengatú ou ingatú. Revista Brasileira de Linguística Antropológica, Brasília, v. 11, n. 2, p. 151–166, 2019. DOI: https://doi.org/10.26512/rbla.v11i02.28115
MOORE, D.; FACUNDES, S.; PIRES, N. Nheengatu (Língua Geral Amazônica), its history, and the effects of language contact. In: Proceedings of the Meeting of the Society for the Study of the Indigenous languages of the Americas, July 2-–4, 1993 and the Hokan-Penutian Workshop, July 3, 1993. Berkeley, CA: [University of California], 1994. p. 93–118. Available at: https://escholarship.org/uc/item/7tb981s1. Accessed on: Jul. 26, 2024.
MÜLLER-EBERSTEIN, M.; GOOT, R. van der; PLANK, B. How universal is genre in Universal Dependencies? In: DAKOTA, D.; EVANG, K.; KÜBLER, S. (Eds.). Proceedings of the 20th International Workshop on Treebanks and Linguistic Theories (TLT, SyntaxFest 2021). Sofia, Bulgaria: Association for Computational Linguistics, 2021. p. 69–85. Available at: https://aclanthology.org/2021.tlt-1.7/. Accessed on: Apr. 2, 2025.
NAVARRO, E. d. A. Curso de Língua Geral (nheengatu ou tupi moderno): a língua das origens da civilização amazônica. 2nd ed. São Paulo: Centro Angel Rama da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, 2016.
NAVARRO, E. d. A.; ÁVILA, M. T.; TREVISAN, R. G. O Nheengatu, entre a vida e a morte: a tradução literária como possível instrumento de sua revitalização lexical. Revista Letras Raras, Campina Grande, v. 6, n. 2, p. 9–29, 2017. DOI: https://dx.doi.org/10.35572/rlr.v6i2.768
NIVRE, J.; ZEMAN, D.; GINTER, F.; TYERS, F. M. Tutorial on Universal Dependencies: Infrastructure, resources and tools for UD. [ S. l.: s. n. ], 2017. Tutorial presented at the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2017). Available at: https://universaldependencies.org/eacl17tutorial/infrastructure.pdf. Accessed on: Apr. 3, 2025.
OLIVEIRA, G. M. de; CAMACHO, R. G. Estratégias de relativização e construções alternativas nas línguas indígenas do Brasil. São Paulo: Cultura Acadêmica, 2013. Available at: http://hdl.handle.net/11449/109292. Accessed on: Apr. 2, 2025.
PALMER, F. R. Mood and modality. 2nd ed. Cambridge, United Kingdom: Cambridge University Press, 2001.
PERINI, M. A. Describing verb valency: Practical and theoretical issues. Cham, Switzerland: Springer, 2015. DOI: https://doi.org/10.1007/978-3-319-20985-2
PERINI, M. A. Thematic relations: A study in the grammar-cognition interface. Cham, Switzerland: Springer, 2019. DOI: https://doi.org/10.1007/978-3-030-28538-8
PINHANEZ, C.; CAVALIN, P.; NOGIMA, J. Human evaluation of the usefulness of fine-tuned English translators for the Guarani Mbya and Nheengatu indigenous languages. In: GAMALLO, P. et al. (eds.). Proceedings of the 16th International Conference on Computational Processing of Portuguese. Santiago de Compostela, Galicia/Spain: Association for Computational Linguistics, 2024. v. 2, p. 32–36. Available at: https://aclanthology.org/2024.propor-2.7/. Accessed on: Apr. 2, 2025.
POPEL, M.; ŽABOKRTSKÝ, Z.; VOJTEK, M. Udapi: Universal API for Universal Dependencies. In: Proceedings of the NoDaLiDa 2017 Workshop on Universal Dependencies (UDW 2017). Gothenburg, Sweden: Association for Computational Linguistics, 2017. p. 96–101. Available at: <https://aclanthology.org/W17-0412>. Accessed on: Apr. 2, 2025.
RIO-TORTO, G. Formação de avaliativos. In: RIO-TORTO, G. et al. (Eds.). Gramática derivacional do Português. 2nd ed. Coimbra: Imprensa da Universidade de Coimbra, 2015. p. 357–389. Available at: http://dx.doi.org/10.14195/978-989-26-0864-8. Accessed on: Apr. 2, 2025.
RODRIGUES, A. D. Tarefas da lingüística no Brasil. Estudos Lingüísticos (Revista Brasileira de Lingüística Teórica e Aplicada), Rio de Janeiro, v. 1, n. 1, p. 4–15, 1966. Available at: http://www.etnolinguistica.org/biblio:rodrigues-1966-tarefas. Accessed on: Apr. 2, 2025.
RODRIGUES, A. D. Línguas brasileiras: para o conhecimento das línguas indígenas. São Paulo: Loyola, 1986.
RODRIGUES, A. D. Línguas indígenas: 500 anos de descobertas e perdas. DELTA: Documentação e Estudos em Linguística Teórica e Aplicada, São Paulo, v. 9, n. 1, p. 83–103, 1993. Available at: https://revistas.pucsp.br/index.php/delta/article/view/45596. Accessed on: Apr. 2, 2025.
RODRIGUES, A. D. As línguas gerais sul-americanas. Papia, São Paulo, v. 4, n. 2, p. 6–18, 1996. Available at: https://etnolinguistica.wdfiles.com/local--files/artigo%3Arodrigues-1996/rodrigues_1996_linguas_gerais.pdf. Accessed on: Apr. 2, 2025.
RODRIGUES, A. D.; CABRAL, A. S. A. C. A contribution to the linguistic history of the Língua Geral Amazônica. ALFA: Revista de Linguística, São José do Rio Preto, v. 55, n. 2, 12 2011. DOI: https://doi.org/10.1590/S1981-57942011000200012
RODRIGUES, J. B. Poranduba amazonense ou kochiyma-uara porandub: 1872–1887. Rio de Janeiro: Typ. de G. Leuzinger & Filhos, 1890.
RUETER, J. et al. Apurinã Universal Dependencies treebank. In: MAGER, M. et al. (eds.). Proceedings of the First Workshop on Natural Language Processing for Indigenous Languages of the Americas. Online: Association for Computational Linguistics, 2021. p. 28–33. Available at: https://aclanthology.org/2021.americasnlp-1.4. Accessed on: Apr. 2, 2025.
RUPPENHOFER, J. et al. FrameNet II: Extended theory and practice. [Berkeley: International Computer Science Institute]: 2016. Revised version. Available at: https://akb89.github.io/myValencer/framenet_book.pdf. Accessed on: Apr. 2, 2025.
SANDALO, M. F. S.; GALVES, C. M. C. Anotando sintaticamente uma língua originária do brasil: O problema de anchieta. Cadernos de Estudos Linguísticos, Campinas, v. 65, n. 00, p. e023007, 2023. DOI: https://doi.org/10.20396/cel.v65i00.8673592
SANTOS, L. L.; ARAGON, C. C.; GERARDI, F. Línguas minoritárias e anotações sintáticas de corpora: experiências de pesquisa na iniciação científica. Letras de hoje, Porto Alegre, v. 59, n. 1, p. 1–9, 2024. DOI: https://doi.org/10.15448/1984-7726.2024.1.44734
SEIXAS, M. J. d. Vocabulario da lingua indigena geral para o uso do Seminario Episcopal do Pará. Pará: Typ. de Mattos e Compª., 1853.
SEKI, L. A lingüística indígena no Brasil. DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada, São Paulo, v. 15, n. especial, p. 257–290, 1999.
SILVA, D. P. G. da; PARDO, T. A. S. Grammar induction for Brazilian indigenous languages. In: GAMALLO, P. et al. (Eds.). Proceedings of the 16th International Conference on Computational Processing of Portuguese. Santiago de Compostela, Galicia/Spain: Association for Computational Linguistics, 2024. v. 2, p. 64–72. Available at: https://aclanthology.org/2024.propor-2.10/. Accessed on: Apr. 2, 2025.
SIMONE, L. R. Uma breve introdução ao idioma eslavo oriental antigo. Slovo – Revista de Estudos em Eslavística, Rio de Janeiro, v. 1, n. 1, p. 16–17, 2018. Available at: https://revistas.ufrj.br/index.php/slovo/article/view/17473/11271. Accessed on: Apr. 2, 2025.
STORTO, L. R. Línguas indígenas: tradição, universais e diversidade. Campinas: Mercado de Letras, 2019.
STRADELLI, E. Vocabularios da lingua geral portuguez-nheêngatú e nheêngatú-portuguez, precedidos de um esboço de Grammatica nheênga-umbuê-sáua mirî e seguidos de contos em lingua geral nheêngatú poranduua. Revista do Instituto Historico e Geographico Brasileiro, Rio de Janeiro, v. 158, n. 104, p. 9–768, 1929.
SYMPSON, P. L. Grammatica da lingua brazilica geral, fallada pelos aborigines das provincias do Pará e Amazonas. Manaus: Typographia do Commercio do Amazonas, 1877.
YAMÃ, Y. et al. Dicionário e estudo de nheengatu tradicional. 2nd ed. São Paulo: Cintra, 2021.
ZEMAN, D. Cross-Language Harmonization of Linguistic Resources. Prague: Institute of Formal and Applied Linguistics (ÚFAL), 2023. Habilitation thesis. Available at: https://chres.is.cuni.cz/media/documents/2024/02/25/thesis-without-papers.pdf. Accessed on: Apr. 2, 2025.
ZWICKY, A. M. In a manner of speaking. Linguistic Inquiry, Cambridge, v. 2, n. 2, p. 223–233, 1971.
