Aplicação estendida de analisador computacional na extração de sintagmas nominais em textos antigos

um estudo de caso

Autores/as

DOI:

https://doi.org/10.35699/1983-3652.2022.37557

Palabras clave:

Tecnologia, Linguística Computacional, Linguística Histórica, Sintaxe

Resumen

Este estudo teve como objetivo analisar a aplicação estendida do analisador sintático LX-Parser em um corpus composto do trecho inicial da obra Peregrinação (publicada em 1614), de Fernão Mendes Pinto (ca. 1510-1583). Fez-se extração manual e automática de SNs dos dez primeiros capítulos da obra. Testou-se a hipótese de que as especificidades de textos antigos limitam a precisão dos resultados gerados pelo analisador sintático considerado. A hipótese foi confirmada, uma vez que os resultados dessa aplicação estendida não se mostraram produtivos em função da alta frequência de problemas na análise produzida. Identificou-se que os principais problemas estão relacionados à questão da grafia, da variação e mudança linguística, da ambiguidade estrutural e das categorias linguísticas.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

César Nardelli Cambraia, Universidade Federal de Minas Gerais, Faculdade de Letras, Belo Horizonte, MG, Brasil

Possui graduação em Letras (Português-Alemão) pela Universidade Federal de Minas Gerais (1992), mestrado em Estudos Linguísticos pela Universidade Federal de Minas Gerais (1996), doutorado em Filologia e Língua Portuguesa pela Universidade de São Paulo (2000) e pós-doutorado em Lingüística Românica na Universitat de Barcelona (2010) e em Lexicologia e Terminologia na Universidade de Brasília (2020). Atualmente é Professor Titular de Filologia Românica na Faculdade de Letras da Universidade Federal de Minas Gerais e tem experiência na área de Lingüística, com ênfase em Lingüística Românica e Crítica Textual, atuando principalmente nos seguintes temas: estudo histórico e comparado de morfossintaxe de línguas românicas em uma perspectiva tipológico-funcional, lexicologia sócio-histórica e edição de textos românicos antigos.

Citas

ALENCAR, L. F. de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio, v. 7, n. 3, p. 199–220, 2009. Disponível em: http://revistas.unisinos.br/index.php/calidoscopio/article/view/4874. Acesso em: 10 mai. 2022.

ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, v. 19, n. 1, p. 7–85, 2011. DOI: 10.17851/2237-2083.19.1.7-85. Disponível em: http://periodicos.letras.ufmg.br/index.php/relin/article/view/2553. Acesso em: 10 mai. 2022.

ALMEIDA, S. de et al. Selva: a new syntactic parser for Portuguese. In: MAMEDE, N. J. et al. (Ed.). Computational Processing of the Portuguese Language. Faro, Portugal: PROPOR 2003, jun. 2003. p. 102–109.

BARON, A.; RAYSON, P. A tool for dealing with spelling variation in historical corpora. In: POSTGRADUATE Conference in corpus linguistics. Birmingham: Aston University, mai. 2008.

BIBLIOTECA, Virtual dos Autores Portugueses. Coordenação científica de Ivo Castro, Teresa Amado, Cristina Almeida Ribeiro e Paula Mourão. 1998 (2 cd-roms).

BICK, E. The parsing system “palavras”: automatic grammatical analysis of portuguese in a constraint grammar famework. 2000. Tese (Doutorado em Linguística) – Aarhus University, Aarhus.

CAMBRAIA, C. N. Contributo para uma gramática do português clássico: a linguagem da Peregrinação de Fernão Mendes Pinto. In: CONGRESSO NACIONAL DA ABRALIN. Florianópolis: UFSC, 2000. (2), p. 1355–1362.

CAMBRAIA, C. N. Mudança interrompida na história do português: nós outros e vós outros. In: CONGRESSO INTERNACIONAL DA ABRALIN. Fortaleza: UFC, mar. 2003. (2), p. 112–114.

CAMBRAIA, C. N. Introdução à crítica textual. São Paulo: Martins Fontes, 2005.

CAMBRAIA, C. N. Edições digitais como base para análises lingüísticas: revisão crítica de experiências. In: SEMINÁRIO DE ESTUDOS FILOLÓGICOS. Salvador: Quarteto, 2007. v. 1. (II), p. 13–24.

CHOMSKY, N. Remarks on nominalization. In: JACOBS, R.; ROSENBAUM, P. (Ed.). English transformational grammar. Washington: Georgetown University Press, 1970.

CONTIER, A.; PADOVANI, D.; JOSÉ NETO, J. Tecnologia adaptativa aplicada ao processamento da linguagem natural. In: MEMÓRIAS... São Paulo: EPUSP, 2010. p. 35–42.

CORREIA, J. D. P. A construção do colectivo na Peregrinação: percursos e significado. In: SEIXO, M. A.; ZURBACH, C. (Org.). O discurso literário da Peregrinação: aproximações. Lisboa: Cosmos, 1999. p. 169–212.

GIUSTI, R. et al. Automatic detection of spelling variation in historical corpus: an application to build a Brazilian Portuguese spelling variants dictionary. In: DAVIES, M. et al. (Ed.). Proceedings of the Corpus Linguistics Conference (CL2007). Birmingham: University of Birmingham, 2007.

HENDRICKX, I.; MARQUILHAS, R. From old texts to modern spellings: an experiment in automatic normalisation. Journal for Language Technology and Computational Linguistics, v. 26, n. 2, p. 65–76, 2011.

JACKENDOFF, R. X syntax: a study of phrase structure. Cambridge, Mass: MIT Press, 1977. (Linguistic inquiry monographs, 2).

MAIA, L. C. G. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte. Disponível em: https://repositorio.ufmg.br/handle/1843/ECID-7NXJKZ. Acesso em: 10 mai. 2022.

MARQUILHAS, R.; HENDRICKX, I. Manuscripts and machines: the automatic replacement of spelling variants in a Portuguese historical corpus. International Journal of Humanities and Arts Computing, v. 8, n. 1, p. 65–80, abr. 2014. DOI: 10.3366/ijhac.2014.0120. Disponível em: https://www.euppublishing.com/doi/10.3366/ijhac.2014.0120. Acesso em: 11 mai. 2022.

MARTINS, R. T.; HASEGWA, R.; NUNES, M. G. V. Curupira: a functional parser for Brazilian Portuguese. In: MAMEDE, N. J. et al. (Ed.). Proceedings of Computational Processing of the Portuguese Language, 6th International Workshop, PROPOR 2003. Berlin: Springer, jun. 2003. p. 179–183.

MENUZZI, S. de M.; OTHERO, G. de Á. Sintaxe X-barra: uma aplicação computacional. Working Papers em Linguística, p. 15–29, 2008. DOI: 10.5007/1984-8420.2008v9nespp15. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2008v9nespp15. Acesso em: 11 mai. 2022.

MIORELLI, S. T. ED-CER: extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciências da Computação) – Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.

OTHERO, G. de Á. Grammar play: um parser sintático em Prolog para a língua portuguesa. 2004. Dissertação (Mestrado em Linguística Aplicada) – Faculdade de Letras, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.

OTHERO, G. de Á. A gramática da frase em português: algumas reflexões para a formalização da estrutura frasal em português. Porto Alegre: EdiPUCRS, 2009.

OTHERO, G. de Á.; MENUZZI, S. de M. Linguística computacional: teoria e prática. São Paulo: Parábola, 2005.

PERINI, M. A. Gramática descritiva do português. São Paulo: Ed. Ática, 1995.

PINTO, F. M. Peregrinação de Fernão Mendez Pinto. Lisboa: Typographia Rollandiana, 1829.

PINTO, F. M. Peregrinação de Fernão Mendes Pinto e Itinerário de António Tenreiro, Tratado das Cousas da China, Conquista do Reino de Pegu. Porto: Lello & Irmão, 1984.

RAPOSO, E. P. Teoria da gramática: a faculdade da linguagem. Lisboa: Caminho, 1992.

SAVOY, J. Machine learning methods for stylometry: authorship attribution and author profiling. Cham: Springer International Publishing, 2020. DOI: 10.1007/978-3-030-53360-1. Disponível em: https://link.springer.com/10.1007/978-3-030-53360-1. Acesso em: 11 mai. 2022.

SILVA, J. et al. Out-of-the-box robust parsing of portuguese. In: PARDO, T. A. S. et al. (Ed.). Computational processing of the Portuguese language, 9th International Conference, PROPOR 2010, Porto Alegre, RS, Brazil. Berlin: Springer, 2010.

SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) – Universidade Federal de Pernambuco, Recife. Disponível em: https://repositorio.ufpe.br/handle/123456789/12950. Acesso em: 23 mai. 2022.

VIEIRA, R.; LIMA, V. L. S. de. Linguística computacional: princípios e aplicações. In: MARTINS, A. T.; BORGES, D. L. et al. (Org.). As tecnologias da informação e a questão social. Fortaleza: SBC, 2001. v. 3, p. 47–88.

Publicado

23-05-2022

Cómo citar

CAMBRAIA, C. N.; LEITE, R. C. S. Aplicação estendida de analisador computacional na extração de sintagmas nominais em textos antigos: um estudo de caso. Texto Livre, Belo Horizonte-MG, v. 15, p. e37557, 2022. DOI: 10.35699/1983-3652.2022.37557. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/37557. Acesso em: 17 jul. 2024.