Extended application of a computational parser in the extraction of noun phrases in old texts

a case study

Authors

DOI:

https://doi.org/10.35699/1983-3652.2022.37557

Keywords:

Technology, Computational Linguistics, Historical Linguistics, Syntax

Abstract

This study aimed to analyze the extended application of the LX-Parser, a syntatic parser, in a corpus composed of the initial passage from Peregrinação (published in 1614) written by Fernão Mendes Pinto (ca. 1510-1583). Manual and automatic extraction of noun phrases from the first ten chapters of the work were carried out. The hypothesis that the specificities of old texts limit the accuracy of the results generated by the considered parser was tested. The hypothesis was confirmed, since the results of this extended application did not prove to be productive due to the high frequency of problems in the produced analysis. It was identified that the main problems related to old texts are related to the issue of sentece extension, spelling and linguistic variation and change. In addition, there were also problems that are not specific to old texts, but still limited performance: the issues of structural ambiguity and linguistic categories.

Downloads

Download data is not yet available.

Author Biography

César Nardelli Cambraia, Universidade Federal de Minas Gerais, Faculdade de Letras, Belo Horizonte, MG, Brasil

Possui graduação em Letras (Português-Alemão) pela Universidade Federal de Minas Gerais (1992), mestrado em Estudos Linguísticos pela Universidade Federal de Minas Gerais (1996), doutorado em Filologia e Língua Portuguesa pela Universidade de São Paulo (2000) e pós-doutorado em Lingüística Românica na Universitat de Barcelona (2010) e em Lexicologia e Terminologia na Universidade de Brasília (2020). Atualmente é Professor Titular de Filologia Românica na Faculdade de Letras da Universidade Federal de Minas Gerais e tem experiência na área de Lingüística, com ênfase em Lingüística Românica e Crítica Textual, atuando principalmente nos seguintes temas: estudo histórico e comparado de morfossintaxe de línguas românicas em uma perspectiva tipológico-funcional, lexicologia sócio-histórica e edição de textos românicos antigos.

References

ALENCAR, L. F. de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio, v. 7, n. 3, p. 199–220, 2009. Disponível em: http://revistas.unisinos.br/index.php/calidoscopio/article/view/4874. Acesso em: 10 mai. 2022.

ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, v. 19, n. 1, p. 7–85, 2011. DOI: 10.17851/2237-2083.19.1.7-85. Disponível em: http://periodicos.letras.ufmg.br/index.php/relin/article/view/2553. Acesso em: 10 mai. 2022.

ALMEIDA, S. de et al. Selva: a new syntactic parser for Portuguese. In: MAMEDE, N. J. et al. (Ed.). Computational Processing of the Portuguese Language. Faro, Portugal: PROPOR 2003, jun. 2003. p. 102–109.

BARON, A.; RAYSON, P. A tool for dealing with spelling variation in historical corpora. In: POSTGRADUATE Conference in corpus linguistics. Birmingham: Aston University, mai. 2008.

BIBLIOTECA, Virtual dos Autores Portugueses. Coordenação científica de Ivo Castro, Teresa Amado, Cristina Almeida Ribeiro e Paula Mourão. 1998 (2 cd-roms).

BICK, E. The parsing system “palavras”: automatic grammatical analysis of portuguese in a constraint grammar famework. 2000. Tese (Doutorado em Linguística) – Aarhus University, Aarhus.

CAMBRAIA, C. N. Contributo para uma gramática do português clássico: a linguagem da Peregrinação de Fernão Mendes Pinto. In: CONGRESSO NACIONAL DA ABRALIN. Florianópolis: UFSC, 2000. (2), p. 1355–1362.

CAMBRAIA, C. N. Mudança interrompida na história do português: nós outros e vós outros. In: CONGRESSO INTERNACIONAL DA ABRALIN. Fortaleza: UFC, mar. 2003. (2), p. 112–114.

CAMBRAIA, C. N. Introdução à crítica textual. São Paulo: Martins Fontes, 2005.

CAMBRAIA, C. N. Edições digitais como base para análises lingüísticas: revisão crítica de experiências. In: SEMINÁRIO DE ESTUDOS FILOLÓGICOS. Salvador: Quarteto, 2007. v. 1. (II), p. 13–24.

CHOMSKY, N. Remarks on nominalization. In: JACOBS, R.; ROSENBAUM, P. (Ed.). English transformational grammar. Washington: Georgetown University Press, 1970.

CONTIER, A.; PADOVANI, D.; JOSÉ NETO, J. Tecnologia adaptativa aplicada ao processamento da linguagem natural. In: MEMÓRIAS... São Paulo: EPUSP, 2010. p. 35–42.

CORREIA, J. D. P. A construção do colectivo na Peregrinação: percursos e significado. In: SEIXO, M. A.; ZURBACH, C. (Org.). O discurso literário da Peregrinação: aproximações. Lisboa: Cosmos, 1999. p. 169–212.

GIUSTI, R. et al. Automatic detection of spelling variation in historical corpus: an application to build a Brazilian Portuguese spelling variants dictionary. In: DAVIES, M. et al. (Ed.). Proceedings of the Corpus Linguistics Conference (CL2007). Birmingham: University of Birmingham, 2007.

HENDRICKX, I.; MARQUILHAS, R. From old texts to modern spellings: an experiment in automatic normalisation. Journal for Language Technology and Computational Linguistics, v. 26, n. 2, p. 65–76, 2011.

JACKENDOFF, R. X syntax: a study of phrase structure. Cambridge, Mass: MIT Press, 1977. (Linguistic inquiry monographs, 2).

MAIA, L. C. G. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte. Disponível em: https://repositorio.ufmg.br/handle/1843/ECID-7NXJKZ. Acesso em: 10 mai. 2022.

MARQUILHAS, R.; HENDRICKX, I. Manuscripts and machines: the automatic replacement of spelling variants in a Portuguese historical corpus. International Journal of Humanities and Arts Computing, v. 8, n. 1, p. 65–80, abr. 2014. DOI: 10.3366/ijhac.2014.0120. Disponível em: https://www.euppublishing.com/doi/10.3366/ijhac.2014.0120. Acesso em: 11 mai. 2022.

MARTINS, R. T.; HASEGWA, R.; NUNES, M. G. V. Curupira: a functional parser for Brazilian Portuguese. In: MAMEDE, N. J. et al. (Ed.). Proceedings of Computational Processing of the Portuguese Language, 6th International Workshop, PROPOR 2003. Berlin: Springer, jun. 2003. p. 179–183.

MENUZZI, S. de M.; OTHERO, G. de Á. Sintaxe X-barra: uma aplicação computacional. Working Papers em Linguística, p. 15–29, 2008. DOI: 10.5007/1984-8420.2008v9nespp15. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2008v9nespp15. Acesso em: 11 mai. 2022.

MIORELLI, S. T. ED-CER: extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciências da Computação) – Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.

OTHERO, G. de Á. Grammar play: um parser sintático em Prolog para a língua portuguesa. 2004. Dissertação (Mestrado em Linguística Aplicada) – Faculdade de Letras, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre.

OTHERO, G. de Á. A gramática da frase em português: algumas reflexões para a formalização da estrutura frasal em português. Porto Alegre: EdiPUCRS, 2009.

OTHERO, G. de Á.; MENUZZI, S. de M. Linguística computacional: teoria e prática. São Paulo: Parábola, 2005.

PERINI, M. A. Gramática descritiva do português. São Paulo: Ed. Ática, 1995.

PINTO, F. M. Peregrinação de Fernão Mendez Pinto. Lisboa: Typographia Rollandiana, 1829.

PINTO, F. M. Peregrinação de Fernão Mendes Pinto e Itinerário de António Tenreiro, Tratado das Cousas da China, Conquista do Reino de Pegu. Porto: Lello & Irmão, 1984.

RAPOSO, E. P. Teoria da gramática: a faculdade da linguagem. Lisboa: Caminho, 1992.

SAVOY, J. Machine learning methods for stylometry: authorship attribution and author profiling. Cham: Springer International Publishing, 2020. DOI: 10.1007/978-3-030-53360-1. Disponível em: https://link.springer.com/10.1007/978-3-030-53360-1. Acesso em: 11 mai. 2022.

SILVA, J. et al. Out-of-the-box robust parsing of portuguese. In: PARDO, T. A. S. et al. (Ed.). Computational processing of the Portuguese language, 9th International Conference, PROPOR 2010, Porto Alegre, RS, Brazil. Berlin: Springer, 2010.

SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) – Universidade Federal de Pernambuco, Recife. Disponível em: https://repositorio.ufpe.br/handle/123456789/12950. Acesso em: 23 mai. 2022.

VIEIRA, R.; LIMA, V. L. S. de. Linguística computacional: princípios e aplicações. In: MARTINS, A. T.; BORGES, D. L. et al. (Org.). As tecnologias da informação e a questão social. Fortaleza: SBC, 2001. v. 3, p. 47–88.

Published

2022-05-23

How to Cite

CAMBRAIA, C. N.; LEITE, R. C. S. Extended application of a computational parser in the extraction of noun phrases in old texts: a case study. Texto Livre, Belo Horizonte-MG, v. 15, p. e37557, 2022. DOI: 10.35699/1983-3652.2022.37557. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/37557. Acesso em: 21 nov. 2024.