Aplicação estendida de analisador computacional na extração de sintagmas nominais em textos antigos
um estudo de caso
DOI:
https://doi.org/10.35699/1983-3652.2022.37557Palavras-chave:
Tecnologia, Linguística Computacional, Linguística Histórica, SintaxeResumo
Este estudo teve como objetivo analisar a aplicação estendida do analisador sintático LX-Parser em um corpus composto do trecho inicial da obra Peregrinação (publicada em 1614), de Fernão Mendes Pinto (ca. 1510-1583). Fez-se extração manual e automática de SNs dos dez primeiros capítulos da obra. Testou-se a hipótese de que as especificidades de textos antigos limitam a precisão dos resultados gerados pelo analisador sintático considerado. A hipótese foi confirmada, uma vez que os resultados dessa aplicação estendida não se mostraram produtivos em função da alta frequência de problemas na análise produzida. Identificou-se que os principais problemas estão relacionados à questão da grafia, da variação e mudança linguística, da ambiguidade estrutural e das categorias linguísticas.
Referências
ALENCAR, L. F. de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio, v. 7, n. 3, p. 199–220, 2009. Disponível em: http://revistas.unisinos.br/index.php/calidoscopio/article/view/4874. Acesso em: 10 mai. 2022.
ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, v. 19, n. 1, p. 7–85, 2011. DOI: 10.17851/2237-2083.19.1.7-85. Disponível em: http://periodicos.letras.ufmg.br/index.php/relin/article/view/2553. Acesso em: 10 mai. 2022.
ALMEIDA, S. de et al. Selva: a new syntactic parser for Portuguese. In: MAMEDE, N. J. et al. (Ed.). Computational Processing of the Portuguese Language. Faro, Portugal: PROPOR 2003, jun. 2003. p. 102–109.
BARON, A.; RAYSON, P. A tool for dealing with spelling variation in historical corpora. In: POSTGRADUATE Conference in corpus linguistics. Birmingham: Aston University, mai. 2008.
BIBLIOTECA, Virtual dos Autores Portugueses. Coordenação científica de Ivo Castro, Teresa Amado, Cristina Almeida Ribeiro e Paula Mourão. 1998 (2 cd-roms).
BICK, E. The parsing system “palavras”: automatic grammatical analysis of portuguese in a constraint grammar famework. 2000. Tese (Doutorado em Linguística) – Aarhus University, Aarhus.
CAMBRAIA, C. N. Contributo para uma gramática do português clássico: a linguagem da Peregrinação de Fernão Mendes Pinto. In: CONGRESSO NACIONAL DA ABRALIN. Florianópolis: UFSC, 2000. (2), p. 1355–1362.
CAMBRAIA, C. N. Mudança interrompida na história do português: nós outros e vós outros. In: CONGRESSO INTERNACIONAL DA ABRALIN. Fortaleza: UFC, mar. 2003. (2), p. 112–114.
CAMBRAIA, C. N. Introdução à crítica textual. São Paulo: Martins Fontes, 2005.
CAMBRAIA, C. N. Edições digitais como base para análises lingüísticas: revisão crítica de experiências. In: SEMINÁRIO DE ESTUDOS FILOLÓGICOS. Salvador: Quarteto, 2007. v. 1. (II), p. 13–24.
CHOMSKY, N. Remarks on nominalization. In: JACOBS, R.; ROSENBAUM, P. (Ed.). English transformational grammar. Washington: Georgetown University Press, 1970.
CONTIER, A.; PADOVANI, D.; JOSÉ NETO, J. Tecnologia adaptativa aplicada ao processamento da linguagem natural. In: MEMÓRIAS... São Paulo: EPUSP, 2010. p. 35–42.
CORREIA, J. D. P. A construção do colectivo na Peregrinação: percursos e significado. In: SEIXO, M. A.; ZURBACH, C. (Org.). O discurso literário da Peregrinação: aproximações. Lisboa: Cosmos, 1999. p. 169–212.
GIUSTI, R. et al. Automatic detection of spelling variation in historical corpus: an application to build a Brazilian Portuguese spelling variants dictionary. In: DAVIES, M. et al. (Ed.). Proceedings of the Corpus Linguistics Conference (CL2007). Birmingham: University of Birmingham, 2007.
HENDRICKX, I.; MARQUILHAS, R. From old texts to modern spellings: an experiment in automatic normalisation. Journal for Language Technology and Computational Linguistics, v. 26, n. 2, p. 65–76, 2011.
JACKENDOFF, R. X syntax: a study of phrase structure. Cambridge, Mass: MIT Press, 1977. (Linguistic inquiry monographs, 2).
MAIA, L. C. G. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte. Disponível em: https://repositorio.ufmg.br/handle/1843/ECID-7NXJKZ. Acesso em: 10 mai. 2022.
MARQUILHAS, R.; HENDRICKX, I. Manuscripts and machines: the automatic replacement of spelling variants in a Portuguese historical corpus. International Journal of Humanities and Arts Computing, v. 8, n. 1, p. 65–80, abr. 2014. DOI: 10.3366/ijhac.2014.0120. Disponível em: https://www.euppublishing.com/doi/10.3366/ijhac.2014.0120. Acesso em: 11 mai. 2022.
MARTINS, R. T.; HASEGWA, R.; NUNES, M. G. V. Curupira: a functional parser for Brazilian Portuguese. In: MAMEDE, N. J. et al. (Ed.). Proceedings of Computational Processing of the Portuguese Language, 6th International Workshop, PROPOR 2003. Berlin: Springer, jun. 2003. p. 179–183.
MENUZZI, S. de M.; OTHERO, G. de Á. Sintaxe X-barra: uma aplicação computacional. Working Papers em Linguística, p. 15–29, 2008. DOI: 10.5007/1984-8420.2008v9nespp15. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2008v9nespp15. Acesso em: 11 mai. 2022.
MIORELLI, S. T. ED-CER: extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciências da Computação) – Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.
OTHERO, G. de Á. Grammar play: um parser sintático em Prolog para a língua portuguesa. 2004. Dissertação (Mestrado em Linguística Aplicada) – Faculdade de Letras, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.
OTHERO, G. de Á. A gramática da frase em português: algumas reflexões para a formalização da estrutura frasal em português. Porto Alegre: EdiPUCRS, 2009.
OTHERO, G. de Á.; MENUZZI, S. de M. Linguística computacional: teoria e prática. São Paulo: Parábola, 2005.
PERINI, M. A. Gramática descritiva do português. São Paulo: Ed. Ática, 1995.
PINTO, F. M. Peregrinação de Fernão Mendez Pinto. Lisboa: Typographia Rollandiana, 1829.
PINTO, F. M. Peregrinação de Fernão Mendes Pinto e Itinerário de António Tenreiro, Tratado das Cousas da China, Conquista do Reino de Pegu. Porto: Lello & Irmão, 1984.
RAPOSO, E. P. Teoria da gramática: a faculdade da linguagem. Lisboa: Caminho, 1992.
SAVOY, J. Machine learning methods for stylometry: authorship attribution and author profiling. Cham: Springer International Publishing, 2020. DOI: 10.1007/978-3-030-53360-1. Disponível em: https://link.springer.com/10.1007/978-3-030-53360-1. Acesso em: 11 mai. 2022.
SILVA, J. et al. Out-of-the-box robust parsing of portuguese. In: PARDO, T. A. S. et al. (Ed.). Computational processing of the Portuguese language, 9th International Conference, PROPOR 2010, Porto Alegre, RS, Brazil. Berlin: Springer, 2010.
SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) – Universidade Federal de Pernambuco, Recife. Disponível em: https://repositorio.ufpe.br/handle/123456789/12950. Acesso em: 23 mai. 2022.
VIEIRA, R.; LIMA, V. L. S. de. Linguística computacional: princípios e aplicações. In: MARTINS, A. T.; BORGES, D. L. et al. (Org.). As tecnologias da informação e a questão social. Fortaleza: SBC, 2001. v. 3, p. 47–88.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2022 César Nardelli Cambraia, Ramon Cunha Sampaio Leite
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Este é um artigo em acesso aberto que permite o uso irrestrito, a distribuição e reprodução em qualquer meio desde que o artigo original seja devidamente citado.