Extended application of a computational parser in the extraction of noun phrases in old texts
a case study
DOI:
https://doi.org/10.35699/1983-3652.2022.37557Keywords:
Technology, Computational Linguistics, Historical Linguistics, SyntaxAbstract
This study aimed to analyze the extended application of the LX-Parser, a syntatic parser, in a corpus composed of the initial passage from Peregrinação (published in 1614) written by Fernão Mendes Pinto (ca. 1510-1583). Manual and automatic extraction of noun phrases from the first ten chapters of the work were carried out. The hypothesis that the specificities of old texts limit the accuracy of the results generated by the considered parser was tested. The hypothesis was confirmed, since the results of this extended application did not prove to be productive due to the high frequency of problems in the produced analysis. It was identified that the main problems related to old texts are related to the issue of sentece extension, spelling and linguistic variation and change. In addition, there were also problems that are not specific to old texts, but still limited performance: the issues of structural ambiguity and linguistic categories.
Downloads
References
ALENCAR, L. F. de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio, v. 7, n. 3, p. 199–220, 2009. Disponível em: http://revistas.unisinos.br/index.php/calidoscopio/article/view/4874. Acesso em: 10 mai. 2022.
ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, v. 19, n. 1, p. 7–85, 2011. DOI: 10.17851/2237-2083.19.1.7-85. Disponível em: http://periodicos.letras.ufmg.br/index.php/relin/article/view/2553. Acesso em: 10 mai. 2022.
ALMEIDA, S. de et al. Selva: a new syntactic parser for Portuguese. In: MAMEDE, N. J. et al. (Ed.). Computational Processing of the Portuguese Language. Faro, Portugal: PROPOR 2003, jun. 2003. p. 102–109.
BARON, A.; RAYSON, P. A tool for dealing with spelling variation in historical corpora. In: POSTGRADUATE Conference in corpus linguistics. Birmingham: Aston University, mai. 2008.
BIBLIOTECA, Virtual dos Autores Portugueses. Coordenação científica de Ivo Castro, Teresa Amado, Cristina Almeida Ribeiro e Paula Mourão. 1998 (2 cd-roms).
BICK, E. The parsing system “palavras”: automatic grammatical analysis of portuguese in a constraint grammar famework. 2000. Tese (Doutorado em Linguística) – Aarhus University, Aarhus.
CAMBRAIA, C. N. Contributo para uma gramática do português clássico: a linguagem da Peregrinação de Fernão Mendes Pinto. In: CONGRESSO NACIONAL DA ABRALIN. Florianópolis: UFSC, 2000. (2), p. 1355–1362.
CAMBRAIA, C. N. Mudança interrompida na história do português: nós outros e vós outros. In: CONGRESSO INTERNACIONAL DA ABRALIN. Fortaleza: UFC, mar. 2003. (2), p. 112–114.
CAMBRAIA, C. N. Introdução à crítica textual. São Paulo: Martins Fontes, 2005.
CAMBRAIA, C. N. Edições digitais como base para análises lingüísticas: revisão crítica de experiências. In: SEMINÁRIO DE ESTUDOS FILOLÓGICOS. Salvador: Quarteto, 2007. v. 1. (II), p. 13–24.
CHOMSKY, N. Remarks on nominalization. In: JACOBS, R.; ROSENBAUM, P. (Ed.). English transformational grammar. Washington: Georgetown University Press, 1970.
CONTIER, A.; PADOVANI, D.; JOSÉ NETO, J. Tecnologia adaptativa aplicada ao processamento da linguagem natural. In: MEMÓRIAS... São Paulo: EPUSP, 2010. p. 35–42.
CORREIA, J. D. P. A construção do colectivo na Peregrinação: percursos e significado. In: SEIXO, M. A.; ZURBACH, C. (Org.). O discurso literário da Peregrinação: aproximações. Lisboa: Cosmos, 1999. p. 169–212.
GIUSTI, R. et al. Automatic detection of spelling variation in historical corpus: an application to build a Brazilian Portuguese spelling variants dictionary. In: DAVIES, M. et al. (Ed.). Proceedings of the Corpus Linguistics Conference (CL2007). Birmingham: University of Birmingham, 2007.
HENDRICKX, I.; MARQUILHAS, R. From old texts to modern spellings: an experiment in automatic normalisation. Journal for Language Technology and Computational Linguistics, v. 26, n. 2, p. 65–76, 2011.
JACKENDOFF, R. X syntax: a study of phrase structure. Cambridge, Mass: MIT Press, 1977. (Linguistic inquiry monographs, 2).
MAIA, L. C. G. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte. Disponível em: https://repositorio.ufmg.br/handle/1843/ECID-7NXJKZ. Acesso em: 10 mai. 2022.
MARQUILHAS, R.; HENDRICKX, I. Manuscripts and machines: the automatic replacement of spelling variants in a Portuguese historical corpus. International Journal of Humanities and Arts Computing, v. 8, n. 1, p. 65–80, abr. 2014. DOI: 10.3366/ijhac.2014.0120. Disponível em: https://www.euppublishing.com/doi/10.3366/ijhac.2014.0120. Acesso em: 11 mai. 2022.
MARTINS, R. T.; HASEGWA, R.; NUNES, M. G. V. Curupira: a functional parser for Brazilian Portuguese. In: MAMEDE, N. J. et al. (Ed.). Proceedings of Computational Processing of the Portuguese Language, 6th International Workshop, PROPOR 2003. Berlin: Springer, jun. 2003. p. 179–183.
MENUZZI, S. de M.; OTHERO, G. de Á. Sintaxe X-barra: uma aplicação computacional. Working Papers em Linguística, p. 15–29, 2008. DOI: 10.5007/1984-8420.2008v9nespp15. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2008v9nespp15. Acesso em: 11 mai. 2022.
MIORELLI, S. T. ED-CER: extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciências da Computação) – Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.
OTHERO, G. de Á. Grammar play: um parser sintático em Prolog para a língua portuguesa. 2004. Dissertação (Mestrado em Linguística Aplicada) – Faculdade de Letras, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.
OTHERO, G. de Á. A gramática da frase em português: algumas reflexões para a formalização da estrutura frasal em português. Porto Alegre: EdiPUCRS, 2009.
OTHERO, G. de Á.; MENUZZI, S. de M. Linguística computacional: teoria e prática. São Paulo: Parábola, 2005.
PERINI, M. A. Gramática descritiva do português. São Paulo: Ed. Ática, 1995.
PINTO, F. M. Peregrinação de Fernão Mendez Pinto. Lisboa: Typographia Rollandiana, 1829.
PINTO, F. M. Peregrinação de Fernão Mendes Pinto e Itinerário de António Tenreiro, Tratado das Cousas da China, Conquista do Reino de Pegu. Porto: Lello & Irmão, 1984.
RAPOSO, E. P. Teoria da gramática: a faculdade da linguagem. Lisboa: Caminho, 1992.
SAVOY, J. Machine learning methods for stylometry: authorship attribution and author profiling. Cham: Springer International Publishing, 2020. DOI: 10.1007/978-3-030-53360-1. Disponível em: https://link.springer.com/10.1007/978-3-030-53360-1. Acesso em: 11 mai. 2022.
SILVA, J. et al. Out-of-the-box robust parsing of portuguese. In: PARDO, T. A. S. et al. (Ed.). Computational processing of the Portuguese language, 9th International Conference, PROPOR 2010, Porto Alegre, RS, Brazil. Berlin: Springer, 2010.
SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) – Universidade Federal de Pernambuco, Recife. Disponível em: https://repositorio.ufpe.br/handle/123456789/12950. Acesso em: 23 mai. 2022.
VIEIRA, R.; LIMA, V. L. S. de. Linguística computacional: princípios e aplicações. In: MARTINS, A. T.; BORGES, D. L. et al. (Org.). As tecnologias da informação e a questão social. Fortaleza: SBC, 2001. v. 3, p. 47–88.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2022 César Nardelli Cambraia, Ramon Cunha Sampaio Leite
This work is licensed under a Creative Commons Attribution 4.0 International License.
This is an open access article that allows unrestricted use, distribution and reproduction in any medium as long as the original article is properly cited.