Syntactic parser for Brazilian Portuguese

challenges and solutions

Authors

  • Willian Emerson Afonso Pacheco Faculdade de Tecnologia do Estado de São Paulo, Câmara de Ensino, Extensão e Pesquisa da FATEC Ipiranga, São Paulo, SP, Brasil https://orcid.org/0000-0003-0395-0303
  • Manoel Francisco Guaranha Faculdade de Tecnologia do Estado de São Paulo, Câmara de Ensino, Extensão e Pesquisa da FATEC Ipiranga, São Paulo, SP, Brasil / Universidade Santo Amaro, Programa de Mestrado em Ciências Humanas, São Paulo, SP, Brasil https://orcid.org/0000-0002-8676-601X

DOI:

https://doi.org/10.35699/1983-3652.2022.37569

Keywords:

Computational linguistics, Natural Language Processing, Generative Grammar, Syntactic parser, Brazilian Portuguese

Abstract

This article aims to present the Syntactic Parser for Brazilian Portuguese – Parsero –, developed from the Generative Grammar (CHOMSKY, 2015) improved by the X-Barra Theory (CHOMSKY, 2014). Therefore, the rules developed by Othero (2009) especially for Brazilian Portuguese were used and adapted by our project to meet the needs of our Parser. The research used as lexical collection, to populate a Structured Query Language (SQL) Database, the resource Dictionary of Simple Inflected Words for Brazilian Portuguese (DELAF_PB), which was made available available by the Unitex-PB Project, developed by Núcleo Interinstitucional de Linguística Computacional (NILC) and by Instituto de Ciências Matemáticas e de Computação (ICMC). This resource, in turn, was built based on the French formalism – Dictionnarie Electronique du LADL (DELA) (MUNIZ, 2004). As a result of our project, we have made available to researchers interested in the topic the SQL Database with 1,193,295 classified lexical units, the address with the open source of Parsero and a link to run the application. Throughout the development of the Natural Language Processor (NLP), we had to put into practice interdisciplinary studies from language sciences and computer sciences, a necessary practice for the development of intelligent programs that can interact with writers or Brazilian Portuguese speakers.

Downloads

Download data is not yet available.

References

CHOMSKY, N. Ciência da linguagem. São Paulo: Editora UNESP, 2014.

CHOMSKY, N. Estruturas sintáticas. São Paulo: Vozes, 2015.

COMMUNITY DBEAVER. Dbeaver: Free Universal Database Manager. 2021. Disponível em: https://dbeaver.io/download/.

ECMA INTERNACIONAL. ECMAScriptLanguage Specification. 2015. Disponível em: https://262.ecma-international.org/6.0/. Acesso em: 16 out. 2021.

ECMA-404 INTERNACIONAL. The JSON Data Interchange Syntax. 2017. Disponível em: https://www.ecma-international.org/publications-and-standards/standards/ecma-404/. Acesso em: 16 out. 2021.

LAKE, P.; CROWTHER, P. Concise guide to databases: a practical introduction. 1st edition. New York, NY: Springer London, 2013. (Undergraduate topics in computer science).

MUNIZ, M. C. M. A construção de recursos linguístico-computacionais para o português do Brasil: o projeto de Unitex-PB. 2004. Dissertação de Mestrado – Instituto de Ciências Matemáticas de São Carlos, USP. Disponível em: http://ladl.univ-mlv.fr/brasil/bibliografia/oto/DissMuniz2004.pdf.

MUNIZ, M. C. M. DELAF-PB: Dicionário de Palavras Simples Flexionadas para o Português Brasileiro. 2015. Disponível em: http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/dicionarios.html. Acesso em: 4 mai. 2022.

OTHERO, G. de A. A gramática da frase em português: algumas reflexões para a formalização da estrutura frasal em português. Porto Alegre: EDIPUCRS, 2009. Disponível em: https://bibliodigital.unijui.edu.br:8443/xmlui/handle/123456789/1490. Acesso em: 16 out. 2021.

PACHECO, W. E. A.; GUARANHA, M. F. Banco de dados para análise sintática em sentenças do português brasileiro. 2021. Disponível em: https://github.com/Kiriwill/FATEC-IPI-ParserDB. Acesso em: 16 out. 2021.

PACHECO, W. E. A.; GUARANHA, M. F. Parser-api. 2021. Disponível em: https://github.com/Kiriwill/parser-api. Acesso em: 4 mai. 2022.

PARSERO: parser sintático para o português brasileiro. 2021. Disponível em: https://parserov1.herokuapp.com/. Acesso em: 4 mai. 2022.

SOMMERVILLE, I. Engenharia de Software. 9. ed. São Paulo: Pearson Prentice Hall, 2011.

SOUZA E SILVA, C. P. de; KOCH, I. V. Linguística aplicada ao português: sintaxe. São Paulo: Cortez, 2011.

THAIN, D. Introduction to compilers and language design. 2. ed. [S.l.]: Independently Published, 2020.

THE GO AUTHORS. GoLang Versão 1.16.4. 2021. Disponível em: https://pkg.go.dev/runtime. Acesso em: 16 out. 2021.

THE GORILLA AUTHORS. Gorilla Web Toolkit. 2021. Disponível em: https://github.com/gorilla/mux. Acesso em: 16 out. 2021.

THE POSTGRESQL GLOBAL DEVELOPMENT GROUP. PostgreSQL Database Management System. 2021. Disponível em: https://www.postgresql.org/download/. Acesso em: 16 out. 2021.

Published

2022-05-14

How to Cite

PACHECO, W. E. A. .; GUARANHA, M. F. Syntactic parser for Brazilian Portuguese: challenges and solutions. Texto Livre, Belo Horizonte-MG, v. 15, p. e37569, 2022. DOI: 10.35699/1983-3652.2022.37569. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/37569. Acesso em: 21 nov. 2024.