Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo Dependências Universais

Leonel Figueiredo de Alencar

doi:10.1590/1983-3652.2024.52653

Autores/as

Leonel Figueiredo de Alencar Universidade Federal do Ceará, Centro de Humanidades, Fortaleza, CE, Brasil https://orcid.org/0000-0001-8148-6994

DOI:

https://doi.org/10.1590/1983-3652.2024.52653

Palabras clave:

Linguística computacional, Processamento de linguagem natural, Tupinologia, Corpus sintaticamente anotado

Resumen

O alheamento das tecnologias da linguagem natural constitui fator adicional de enfraquecimento de línguas minoritárias relativamente às línguas majoritárias com as quais convivem. Sobretudo os falantes mais jovens, elos da transmissão linguística, tendem a migrar para a língua favorecida com esses recursos. O nheengatu é uma língua indígena brasileira em perigo de extinção, com índice de suporte digital de apenas 0,07 na escala Digital Language Support (DLS), significativamente inferior à pontuação de 0,97 do português, para o qual tem perdido continuamente falantes. O treebank do nheengatu da coleção Dependências Universais visa a contribuir para redução dessa deficiência, alimentando o treinamento de um parser neural. O treebank estreou com 196 sentenças e 2.146 palavras na versão de 15/11/2023 dessa coleção. Este artigo trata da versão mais recente do treebank, que, composto de amostras de sentenças extraídas de vinte publicações de diferentes fases históricas do nheengatu, perfazendo 1.470 sentenças e 15.036 palavras, constitui o maior de língua ameríndia da versão de 15/05/2024 da coleção Dependências Universais. A utilização de um analisador automático acelerou o crescimento do corpus. Anotadores humanos, porém, revisaram cada anotação automática, assegurando um índice de validação de 100% do treebank e concorrendo para a classificação de duas estrelas, a mais alta conferida a treebanks de línguas ameríndias da coleção Dependências Universais. A expansão e revisão do corpus continuará, visando a abarcar todos os textos em domínio público e alcançar acurácia de parsing do estado da arte.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

Leonel Figueiredo de Alencar, Universidade Federal do Ceará, Centro de Humanidades, Fortaleza, CE, Brasil

Professor in the fields of generative grammar, computational linguistics, and German as a Foreign Language (DaF) at the Federal University of Ceará, Department of Foreign Languages and Literatures, and Linguistics Master's & PhD Program since 2004. Founder and coordinator of the Computing and Natural Language Research Group (CompLin). Associate researcher of the DACILAT project at UNICAMP (Process FAPESP22/09158-5), focused on the construction of corpora and automatic translation of cadiéu and nheengatu. Doctoral degree (Dr. phil.) in Linguistics from the University of Konstanz, Germany, in 2003. CAPES post-doctoral research fellow at the University of Konstanz in 2013. Collaborator researcher at the Computer Networks, Software and Systems Engineering Group (GREat), Computer Science Department of the Federal University of Ceará, from 2013 to 2015. Visiting professor at the School of Applied Mathematics at Fundação Getúlio Vargas (EMAp/FGV) in Rio de Janeiro from 2021 to 2022. Successfully completed supervision of ten master's theses and five PhD dissertations. Ongoing supervision of two master's students and three doctoral students. Present research interests: computational linguistics, natural language processing, knowledge-driven grammar engineering, treebanks, Universal Dependencies, Tupian (especially Nheengatu) linguistics .

Referencias

AIKHENVALD, Alexandra Y.; DIXON, R. M. W. Introduction. In: AIKHENVALD, Alexandra Y.; DIXON, R. M. W. (ed.). Areal diffusion and genetic inheritance: Problems in comparative linguistics. Oxford: Oxford University Press, 2001. p. 1–26.

ALENCAR, Leonel Figueiredo de. Uma gramática computacional de um fragmento do nheengatu / A computational grammar for a fragment of Nheengatu. Revista de Estudos da Linguagem, v. 29, n. 3, p. 1717–1777, 2021. DOI: 10.17851/2237-2083.29.3.1717-1777.

ALENCAR, Leonel Figueiredo de. Yauti: A Tool for Morphosyntactic Analysis of Nheengatu within the Universal Dependencies Framework. In: ANAIS do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Belo Horizonte/MG: Sbc, 2023. p. 135–145. DOI: 10.5753/stil.2023.234131. Disponível em: https://sol.sbc.org.br/index.php/stil/article/view/25445.

ALENCAR, Leonel Figueiredo de. A Universal Dependencies Treebank for Nheengatu. In: GAMALLO, Pablo; CLARO, Daniela; TEIXEIRA, António; REAL, Livy; GARCIA, Marcos; OLIVEIRA, Hugo Gonçalo; AMARO, Raquel (ed.). Proceedings of the 16th International Conference on

Computational Processing of Portuguese - Vol. 2. Santiago de Compostela, Galicia/Spain: Association for Computational Linguistics, mar. 2024. p. 37–54. Disponível em: https://aclanthology.org/2024.propor-2.8.

AMEKA, Felix. Interjections: The Universal Yet Neglected Part of Speech. Journal of Pragmatics, v. 18, n. 2, p. 3, 1992.

AMORIM, Antonio Brandão de. Lendas em Nheêngatu e em Portuguez. Revista do Instituto Historico e Geographico Brasileiro, Imprensa Nacional, v. 154, n. 100, p. 9–475, 1928. Tomo 100, vol. 154 (2º de 1926).

AVILA, Marcel Twardowsky. Estudo e prática da tradução da obra infantil A terra dos meninos pelados, de Graciliano Ramos, do português para o Nheengatu. Mar. 2016. Diss. (Mestrado) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo. Disponível em: https://doi.org/10.11606/D.8.2016.tde-16052016-142700.

AVILA, Marcel Twardowsky. Proposta de dicionário nheengatu-português. 2021. Tese (Doutorado) – Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo. Disponível em: https://doi.org/10.11606/T.8.2021.tde-10012022-201925.

BIRD, Steven; GELBART, Katie; MCALISTER, Isaac (ed.). Fábulas de Terra Preta: Uma coletânea bilíngue. Manaus: sine nomine, 2013.

BRASIL, Missão Novas Tribos do (ed.). Novo Testamento na língua Nyengatu. 2nd. Barueri, SP: Sociedade Bíblica do Brasil, 2019. Primeira edição publicada em 1973.

CASASNOVAS, Afonso. Noções de língua geral ou nheengatú: gramática, lendas e vocabulário. 2. ed. Manaus: Editora da Universidade Federal do Amazonas; Faculdade Salesiana Dom Bosco, 2006.

COSTA, D. Frederico. Carta pastoral de D. Frederico Costa bispo do Amazonas a seus amados diocesanos. Fortaleza: Typ. Minerva, 1909.

CRUZ, Alina da. Fonologia e gramática do nheengatú: A língua falada pelos povos Baré, Warekena e Baniwa. Utrecht: Lot, 2011.

CUNHA, Celso; CINTRA, Lindley. Nova gramática do português contemporâneo. 2. ed. Rio de Janeiro: Lexicon, 2017.

D’ANGELIS, Wilmar da Rocha. A língua Nheengatu e suas ortografias: questões técnicas e de política linguística. LIAMES: Línguas Indígenas Americanas, v. 23, n. 00, p. 1–22, fev. 2023.

D’ANGELIS, Wilmar da Rocha; OLIVEIRA, Mateus Coimbra de; SCHWADE, Michéli Carolíni de Deus Lima. Acesso ao mundo digital ou acesso digital ao mundo? Revista Digital de Políticas Linguísticas, v. 15, p. 134–158, 2021.

DURAN, Magali Sanches. Manual de Anotação de POS Tags: Orientações para Anotação de Etiquetas Morfossintáticas em Língua Portuguesa, Seguindo as Diretrizes da Abordagem Universal Dependencies (UD). São Carlos, SP, set. 2021. (Relatórios Técnicos, 434).

EBERHARD, David M.; SIMONS, Gary F.; FENNIG, Charles D. (ed.). Ethnologue: Languages of the World. twenty-sixth. Dallas: SIL International, 2023. Disponível em: http://www.ethnologue.com.

EVANS, Nicholas. Word classes in the world’s languages. In: BOOIJ, Geert; LEHMANN, Christian; MUGDAN, Joachim; KESSELHEIM, Wolfgang; SKOPETEAS, Stavros (ed.). Morphology: An International Handbook on Inflection and Word-Formation. Berlin, New York: Walter de Gruyter, 2000. v. 1. p. 708–732.

FARACO, Carlos Alberto. Por que as línguas mudam? In: ÁVILA OTHERO, Gabriel de; NASCIMENTO FLORES, Valdir do (ed.). O que sabemos sobre a linguagem. São Paulo: Parábola, 2022.

FRANCIS, W. Nelson; KUČERA, Henry. Manual of Information to Accompany A Standard Corpus of Present-Day Edited American English, for Use with Digital Computers. 3. ed. Providence, RI: Brown University, 1979. Primeira edição publicada em 1964. Disponível em: http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM.

FREIRE, José Ribamar Bessa. Rio Babel: A história das línguas na Amazônia. 2. ed. Rio de Janeiro: EdUERJ, 2011.

GALVES, Charlotte; SANDALO, Filomena; SENA, Ticiana A. de; VERONESI, Luiz. Annotating a polysynthetic language: From Portuguese to Kadiwéu. Cadernos de Estudos Linguísticos, v. 59, n. 3, p. 631–648, dez. 2017.

GERARDI, Fabrício Ferraz; REICHERT, Stanislav; ARAGON, Carolina Coelho. TuLeD (Tupían lexical database): introducing a database of a South American language family. Language Resources and Evaluation, v. 55, n. 4, p. 997–1015, dez. 2021.

GÓES NETO, Antônio Fernandes. O Novo Testamento em nyengatu (1973): um capítulo na história das traduções bíblicas para línguas indígenas. Jun. 2015. Dissertação de Mestrado – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo. Disponível em: https://doi.org/10.11606/D.8.2015.tde-15102015-141005.

GREENBERG, Joseph H. Numeral. In: BOOIJ, Geert; LEHMANN, Christian; MUGDAN, Joachim; KESSELHEIM, Wolfgang; SKOPETEAS, Stavros (ed.). Morphology: An International Handbook on Inflection and Word-Formation. Berlin, New York: Walter de Gruyter, 2000. v. 1. p. 770–783.

HIRSCHMANN, Hagen. Korpuslinguistik: Eine Einführung. Stuttgart: J.B. Metzler, 2019.

IONIN, Tania; MATUSHANSKY, Ora. Cardinals: The Syntax and Semantics of Cardinal-Containing Expressions. Cambridge, Massachusetts: The MIT Press, 2018.

JURAFSKY, Daniel; MARTIN, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. 2. ed. London: Pearson, 2009.

LEHMANN, Christian. The nature of parts of speech. Sprachtypologie und Universalienforschung, v. 66, n. 2, p. 141–177, 2013.

LEHMANN, Christian. Theoretical foundation for word classes. [S. l.: s. n.], 2023. Disponível em: https://christianlehmann.eu/publ/lehmann_word_classes.pdf.

LIMA, Rocha. Gramática normativa da língua portuguesa. 49. ed. Rio de Janeiro: José Olympio, 2011.

LOPES, Lucelene; DURAN, Magali Sanches; GRAÇAS VOLPE NUNES, Maria das; PARDO, Thiago Alexandre Salgueiro. Corpora Building Process According to the Universal Dependencies Model: An Experiment for Portuguese. São Carlos, SP, mar. 2022.

LOPES, Lucelene; PARDO, Thiago. Towards Portparser - a highly accurate parsing system for Brazilian Portuguese following the Universal Dependencies framework. In: GAMALLO, Pablo et al. (ed.). Proceedings of the 16th International Conference on Computational Processing of Portuguese. Santiago de Compostela, Galicia/Spain: Association for Computational Lingustics, mar. 2024. p. 401–410. Disponível em: https://aclanthology.org/2024.propor-1.41.

MACAMBIRA, José Rebouças. Estrutura Morfo-sintática do Português. 9. ed. São Paulo: Pioneira, 1999. MAGALHÃES, José Vieira Couto de. O selvagem. Rio de Janeiro: Typographia da Reforma, 1876.

MARNEFFE, Marie-Catherine de et al. Syntax: General Principles. [S. l.: s. n.], 2024. https://universaldependencies.org. Acesso em: 18. jul. 2024.

MARNEFFE, Marie-Catherine de et al. UD Validation since release 2.5. [S. l.: s. n.], 2024. https://universaldependencies.org/validation-rules.html. Acesso em: 18. jul. 2024.

MARNEFFE, Marie-Catherine de et al. Universal POS tags. [S. l.: s. n.], 2024. https://universaldependencies.org/u/pos/all.html. Acesso em: 18. jul. 2024.

MARNEFFE, Marie-Catherine de; MANNING, Christopher D.; NIVRE, Joakim; ZEMAN, Daniel. Universal Dependencies. Computational Linguistics, MIT Press, Cambridge, MA, v. 47, n. 2, jun. 2021.

MARTÍN RODRÍGUEZ, Lorena et al. Tupían Language Ressources: Data, Tools, Analyses. In: MELERO, Maite; SAKTI, Sakriani; SORIA, Claudia (ed.). Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. Marseille, France: European Language Resources Association, jun. 2022. p. 48–58. Disponível em: https://aclanthology.org/2022.sigul-1.7.

MOORE, Denny. Historical Development of Nheengatu (Língua Geral Amazônica). In: MUFWENE, Salikoko S. (ed.). Iberian Imperialism and Language Evolution in Latin America. Chicago: University of Chicago Press, 2014. p. 108–142.

MOORE, Denny; FACUNDES, Sidney; PIRES, Nádia. Nheengatu (Língua Geral Amazônica), its History, and the Effects of Language Contact. In: PROCEEDINGS of the Meeting of the Society for the Study of the Indigenous languages of the Americas, July 2-4, 1993 and the Hokan-Penutian Workshop, July 3, 1993. Berkeley, CA: [University of California], 1994. p. 93–118. Disponível em: https://escholarship.org/uc/item/7tb981s1.

NAVARRO, Eduardo de Almeida. Curso de Língua Geral (nheengatu ou tupi moderno): A língua das origens da civilização amazônica. 2. ed. São Paulo: Centro Angel Rama da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, 2016.

NAVARRO, Eduardo de Almeida; ÁVILA, Marcel Twardowsky; TREVISAN, Rodrigo Godinho. O Nheengatu, entre a vida e a morte: A tradução literária como possível instrumento de sua revitalização lexical. Revista Letras Raras, v. 6, n. 2, p. 9–29, 2017.

NIVRE, Joakim et al. Universal Dependencies v1: A Multilingual Treebank Collection. In: PROCEEDINGS of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia: European Language Resources Association (ELRA), maio 2016. p. 1659–1666. Disponível em: https://aclanthology.org/L16-1262.

POPEL, Martin; ŽABOKRTSKÝ, Zdeněk; VOJTEK, Martin. Udapi: Universal API for Universal Dependencies. In: PROCEEDINGS of the NoDaLiDa 2017 Workshop on Universal Dependencies (UDW 2017). Gothenburg, Sweden: Association for Computational Linguistics, maio 2017. p. 96–101. Disponível em: https://aclanthology.org/W17-0412.

PTASZYNSKI, Michal; MUKAICHI, Kazuki; MOMOUCHI, Yoshio. NLP for Endangered Languages: Morphology Analysis, Translation Support and Shallow Parsing of Ainu Language. In: PROCEEDINGS of the 19th Annual Meeting of the Association for Natural Language Processing. Nagoya, Japan: [s. n.], mar. 2013. p. 418–421. Disponível em: https://www.anlp.jp/proceedings/annual_meeting/2013/pdf_dir/P2-5.pdf.

ROBINS, Robert Henry. The Development of the Word Class System of the European Grammatical Tradition. Foundations of Language, Springer, v. 2, n. 1, p. 3–19, 1966.

RODRIGUES, Aryon Dall’Igna. Línguas brasileiras: Para o conhecimento das línguas indígenas. São Paulo: Loyola, 1986.

RODRIGUES, Aryon Dall’Igna. Línguas indígenas: 500 anos de descobertas e perdas. DELTA: Documentação e Estudos em Linguística Teórica e Aplicada, v. 9, n. 1, p. 83–103, 1993. Disponível em: https://revistas.pucsp.br/index.php/delta/article/view/45596.

RODRIGUES, Aryon Dall’Igna. As línguas gerais sul-americanas. Papia, São Paulo, v. 4, n. 2, p. 6–18, 1996.

RODRIGUES, Ayron Dall’Igna; CABRAL, Ana Suelly Arruda Câmara. A contribution to the linguistic history of the Língua Geral Amazônica. ALFA: Revista de Linguística, v. 55, n. 2, dez. 2011.

RODRIGUES, João Barbosa. Poranduba amazonense ou kochiyma-uara porandub, 1872-1887. Rio de Janeiro: Typ. de G. Leuzinger & Filhos, 1890.

RUETER, Jack et al. Apurinã Universal Dependencies Treebank. In: MAGER, Manuel et al. (ed.). Proceedings of the First Workshop on Natural Language Processing for Indigenous Languages of the Americas. Online: Association for Computational Linguistics, jun. 2021. p. 28–33. Disponível em: https://aclanthology.org/2021.americasnlp-1.4.

SANDALO, Maria Filomena Spatti; GALVES, Charlotte Marie Chambelland. Anotando sintaticamente Uma língua originária do Brasil: O problema de Anchieta. Cadernos de Estudos Linguísticos, v. 65, n. 00, 2023.

SANTORINI, Beatrice. Part of Speech Tagging Guidelines for the Penn Treebank Project. 3. ed. [S. l.: s. n.], 1990. Disponível em: https://catalog.ldc.upenn.edu/docs/LDC99T42/tagguid1.pdf.

SANTOS, Luana Luiza; ARAGON, Carolina Coelho; GERARDI, Fabrício. Línguas minoritárias e anotações sintáticas de corpora: experiências de pesquisa na iniciação científica. Letras de hoje, v. 59, n. 1, p. 1–9, 2024.

SCHUSTER, Sebastian; MANNING, Christopher D. Enhanced English Universal Dependencies: An Improved Representation for Natural Language Understanding Tasks. In: PROCEEDINGS of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia: European Language Resources Association (ELRA), maio 2016. p. 2371–2378. Disponível em: https://aclanthology.org/L16-1376.

SEIXAS, Manoel Justiniano de. Vocabulario da lingua indigena geral para o uso do Seminario Episcopal do Pará. Pará: Typ. de Mattos e Compª., 1853.

SIMONS, Gary F.; THOMAS, Abbey L. L.; WHITE, Chad K. K. Assessing Digital Language Support on a Global Scale. In: CALZOLARI, Nicoletta et al. (ed.). Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics, out. 2022. p. 4299–4305. Disponível em: https://aclanthology.org/2022.coling-1.379.

STORTO, Luciana Raccanello. Línguas indígenas: tradição, universais e diversidade. Campinas, SP: Mercado de Letras, 2019.

STRADELLI, Ermano. Vocabularios da lingua geral portuguez-nheêngatú e nheêngatú-portuguez, precedidos de um esboço de Grammatica nheênga-umbuê-sáua mirî e seguidos de contos em lingua geral nheêngatú poranduua. Revista do Instituto Historico e Geographico Brasileiro, v. 158, n. 104, p. 9–768, 1929.

STRAKA, Milan; HAJIČ, Jan; STRAKOVÁ, Jana. UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing. In: PROCEEDINGS of the Tenth International Conference on Language Resources and Evaluation (LREC’16). Portorož, Slovenia: European Language Resources Association (ELRA), maio 2016. p. 4290–4297. Disponível em: https://aclanthology.org/L16-1680.

SYMPSON, Pedro Luiz. Grammatica da lingua brazilica geral, fallada pelos aborigines das provincias do Pará e Amazonas. Manaus: Typographia do Commercio do Amazonas, 1877.

TESNIÈRE, Lucien. Éléments de syntaxe structurale. Paris: Librairie C. Klincksieck, 1959.

TREVISAN, Rodrigo Godinho. Tradução comentada da obra Le Petit Prince, de Antoine de Saint-Exupéry, do francês ao nheengatu. Mar. 2017. Diss. (Mestrado) – Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo. DOI: 10.11606/D.8.2017.tde-07082017-124328. Disponível em: https://doi.org/10.11606/D.8.2017.tde-07082017-124328.

VASQUEZ, Alonso et al. Toward Universal Dependencies for Shipibo-Konibo. In: PROCEEDINGS of the Second Workshop on Universal Dependencies (UDW 2018). Brussels, Belgium: Association for Computational Linguistics, nov. 2018. p. 151–161. Disponível em: https://aclanthology.org/W18-6018.

WILKINS, David P. Interjections as Deictics. Journal of Pragmatics, v. 18, p. 119–158, 1992.

ZEMAN, Daniel et al. Universal Dependencies 2.14. [S. l.: s. n.], 2024. LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. Disponível em: http://hdl.handle.net/11234/1-5502.