Aplicação estendida de analisador computacional na extração de sintagmas nominais em textos antigos
um estudo de caso
DOI:
https://doi.org/10.35699/1983-3652.2022.37557Palavras-chave:
Tecnologia, Linguística Computacional, Linguística Histórica, SintaxeResumo
Este estudo teve como objetivo analisar a aplicação estendida do analisador sintático LX-Parser em um corpus composto do trecho inicial da obra Peregrinação (publicada em 1614), de Fernão Mendes Pinto (ca. 1510-1583). Fez-se extração manual e automática de SNs dos dez primeiros capítulos da obra. Testou-se a hipótese de que as especificidades de textos antigos limitam a precisão dos resultados gerados pelo analisador sintático considerado. A hipótese foi confirmada, uma vez que os resultados dessa aplicação estendida não se mostraram produtivos em função da alta frequência de problemas na análise produzida. Identificou-se que os principais problemas estão relacionados à questão da grafia, da variação e mudança linguística, da ambiguidade estrutural e das categorias linguísticas.
Downloads
Referências
ALENCAR, L. F. de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio, v. 7, n. 3, p. 199–220, 2009. Disponível em: http://revistas.unisinos.br/index.php/calidoscopio/article/view/4874. Acesso em: 10 mai. 2022.
ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, v. 19, n. 1, p. 7–85, 2011. DOI: 10.17851/2237-2083.19.1.7-85. Disponível em: http://periodicos.letras.ufmg.br/index.php/relin/article/view/2553. Acesso em: 10 mai. 2022.
ALMEIDA, S. de et al. Selva: a new syntactic parser for Portuguese. In: MAMEDE, N. J. et al. (Ed.). Computational Processing of the Portuguese Language. Faro, Portugal: PROPOR 2003, jun. 2003. p. 102–109.
BARON, A.; RAYSON, P. A tool for dealing with spelling variation in historical corpora. In: POSTGRADUATE Conference in corpus linguistics. Birmingham: Aston University, mai. 2008.
BIBLIOTECA, Virtual dos Autores Portugueses. Coordenação científica de Ivo Castro, Teresa Amado, Cristina Almeida Ribeiro e Paula Mourão. 1998 (2 cd-roms).
BICK, E. The parsing system “palavras”: automatic grammatical analysis of portuguese in a constraint grammar famework. 2000. Tese (Doutorado em Linguística) – Aarhus University, Aarhus.
CAMBRAIA, C. N. Contributo para uma gramática do português clássico: a linguagem da Peregrinação de Fernão Mendes Pinto. In: CONGRESSO NACIONAL DA ABRALIN. Florianópolis: UFSC, 2000. (2), p. 1355–1362.
CAMBRAIA, C. N. Mudança interrompida na história do português: nós outros e vós outros. In: CONGRESSO INTERNACIONAL DA ABRALIN. Fortaleza: UFC, mar. 2003. (2), p. 112–114.
CAMBRAIA, C. N. Introdução à crítica textual. São Paulo: Martins Fontes, 2005.
CAMBRAIA, C. N. Edições digitais como base para análises lingüísticas: revisão crítica de experiências. In: SEMINÁRIO DE ESTUDOS FILOLÓGICOS. Salvador: Quarteto, 2007. v. 1. (II), p. 13–24.
CHOMSKY, N. Remarks on nominalization. In: JACOBS, R.; ROSENBAUM, P. (Ed.). English transformational grammar. Washington: Georgetown University Press, 1970.
CONTIER, A.; PADOVANI, D.; JOSÉ NETO, J. Tecnologia adaptativa aplicada ao processamento da linguagem natural. In: MEMÓRIAS... São Paulo: EPUSP, 2010. p. 35–42.
CORREIA, J. D. P. A construção do colectivo na Peregrinação: percursos e significado. In: SEIXO, M. A.; ZURBACH, C. (Org.). O discurso literário da Peregrinação: aproximações. Lisboa: Cosmos, 1999. p. 169–212.
GIUSTI, R. et al. Automatic detection of spelling variation in historical corpus: an application to build a Brazilian Portuguese spelling variants dictionary. In: DAVIES, M. et al. (Ed.). Proceedings of the Corpus Linguistics Conference (CL2007). Birmingham: University of Birmingham, 2007.
HENDRICKX, I.; MARQUILHAS, R. From old texts to modern spellings: an experiment in automatic normalisation. Journal for Language Technology and Computational Linguistics, v. 26, n. 2, p. 65–76, 2011.
JACKENDOFF, R. X syntax: a study of phrase structure. Cambridge, Mass: MIT Press, 1977. (Linguistic inquiry monographs, 2).
MAIA, L. C. G. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte. Disponível em: https://repositorio.ufmg.br/handle/1843/ECID-7NXJKZ. Acesso em: 10 mai. 2022.
MARQUILHAS, R.; HENDRICKX, I. Manuscripts and machines: the automatic replacement of spelling variants in a Portuguese historical corpus. International Journal of Humanities and Arts Computing, v. 8, n. 1, p. 65–80, abr. 2014. DOI: 10.3366/ijhac.2014.0120. Disponível em: https://www.euppublishing.com/doi/10.3366/ijhac.2014.0120. Acesso em: 11 mai. 2022.
MARTINS, R. T.; HASEGWA, R.; NUNES, M. G. V. Curupira: a functional parser for Brazilian Portuguese. In: MAMEDE, N. J. et al. (Ed.). Proceedings of Computational Processing of the Portuguese Language, 6th International Workshop, PROPOR 2003. Berlin: Springer, jun. 2003. p. 179–183.
MENUZZI, S. de M.; OTHERO, G. de Á. Sintaxe X-barra: uma aplicação computacional. Working Papers em Linguística, p. 15–29, 2008. DOI: 10.5007/1984-8420.2008v9nespp15. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2008v9nespp15. Acesso em: 11 mai. 2022.
MIORELLI, S. T. ED-CER: extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciências da Computação) – Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.
OTHERO, G. de Á. Grammar play: um parser sintático em Prolog para a língua portuguesa. 2004. Dissertação (Mestrado em Linguística Aplicada) – Faculdade de Letras, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.
OTHERO, G. de Á. A gramática da frase em português: algumas reflexões para a formalização da estrutura frasal em português. Porto Alegre: EdiPUCRS, 2009.
OTHERO, G. de Á.; MENUZZI, S. de M. Linguística computacional: teoria e prática. São Paulo: Parábola, 2005.
PERINI, M. A. Gramática descritiva do português. São Paulo: Ed. Ática, 1995.
PINTO, F. M. Peregrinação de Fernão Mendez Pinto. Lisboa: Typographia Rollandiana, 1829.
PINTO, F. M. Peregrinação de Fernão Mendes Pinto e Itinerário de António Tenreiro, Tratado das Cousas da China, Conquista do Reino de Pegu. Porto: Lello & Irmão, 1984.
RAPOSO, E. P. Teoria da gramática: a faculdade da linguagem. Lisboa: Caminho, 1992.
SAVOY, J. Machine learning methods for stylometry: authorship attribution and author profiling. Cham: Springer International Publishing, 2020. DOI: 10.1007/978-3-030-53360-1. Disponível em: https://link.springer.com/10.1007/978-3-030-53360-1. Acesso em: 11 mai. 2022.
SILVA, J. et al. Out-of-the-box robust parsing of portuguese. In: PARDO, T. A. S. et al. (Ed.). Computational processing of the Portuguese language, 9th International Conference, PROPOR 2010, Porto Alegre, RS, Brazil. Berlin: Springer, 2010.
SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) – Universidade Federal de Pernambuco, Recife. Disponível em: https://repositorio.ufpe.br/handle/123456789/12950. Acesso em: 23 mai. 2022.
VIEIRA, R.; LIMA, V. L. S. de. Linguística computacional: princípios e aplicações. In: MARTINS, A. T.; BORGES, D. L. et al. (Org.). As tecnologias da informação e a questão social. Fortaleza: SBC, 2001. v. 3, p. 47–88.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 César Nardelli Cambraia, Ramon Cunha Sampaio Leite
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Este é um artigo em acesso aberto que permite o uso irrestrito, a distribuição e reprodução em qualquer meio desde que o artigo original seja devidamente citado.