Parser sintático para o português brasileiro
desafios e soluções
DOI:
https://doi.org/10.35699/1983-3652.2022.37569Palavras-chave:
Linguística computacional, Processamento de Linguagem Natural, Gramática gerativa, Parser sintático, Português brasileiroResumo
Este artigo tem como objetivo apresentar o Parser Sintático para o Português Brasileiro – Parsero, desenvolvido a partir da Gramática Gerativa (CHOMSKY, 2015), aperfeiçoada pela Teoria X-Barra (CHOMSKY, 2014). Para tanto, foram utilizadas as regras desenvolvidas especialmente para o Português Brasileiro por Othero (2009) e adaptadas pelo nosso projeto para atender às necessidades de nosso Parser. A pesquisa utilizou como coleção lexical, para povoar um Banco de Dados Structured Query Language (SQL), o recurso Dicionário de Palavras Simples Flexionadas para o Português Brasileiro (DELAF_PB), disponibilizado pelo Projeto Unitex-PB, desenvolvido pelo Núcleo Interinstitucional de Linguística Computacional (NILC) e pelo Instituto de Ciências Matemáticas e de Computação (ICMC). Esse recurso, por sua vez, foi construído com base no formalismo francês – Dictionnarie Electronique du LADL (DELA) (MUNIZ, 2004). Como resultado, disponibilizamos a Base de Dados SQL com 1.193.295 unidades léxicas classificadas, o endereço com o código aberto do Parsero e um link para execução do aplicativo. Para desenvolver o Processador de Linguagem Natural (PLN), colocamos em prática estudos interdisciplinares em ciências da linguagem e ciências da computação, práticas necessárias para o desenvolvimento de programas inteligentes que consigam interagir com escritores e falantes do Português Brasileiro.
Referências
CHOMSKY, N. Ciência da linguagem. São Paulo: Editora UNESP, 2014.
CHOMSKY, N. Estruturas sintáticas. São Paulo: Vozes, 2015.
COMMUNITY DBEAVER. Dbeaver: Free Universal Database Manager. 2021. Disponível em: https://dbeaver.io/download/.
ECMA INTERNACIONAL. ECMAScriptLanguage Specification. 2015. Disponível em: https://262.ecma-international.org/6.0/. Acesso em: 16 out. 2021.
ECMA-404 INTERNACIONAL. The JSON Data Interchange Syntax. 2017. Disponível em: https://www.ecma-international.org/publications-and-standards/standards/ecma-404/. Acesso em: 16 out. 2021.
LAKE, P.; CROWTHER, P. Concise guide to databases: a practical introduction. 1st edition. New York, NY: Springer London, 2013. (Undergraduate topics in computer science).
MUNIZ, M. C. M. A construção de recursos linguístico-computacionais para o português do Brasil: o projeto de Unitex-PB. 2004. Dissertação de Mestrado – Instituto de Ciências Matemáticas de São Carlos, USP. Disponível em: http://ladl.univ-mlv.fr/brasil/bibliografia/oto/DissMuniz2004.pdf.
MUNIZ, M. C. M. DELAF-PB: Dicionário de Palavras Simples Flexionadas para o Português Brasileiro. 2015. Disponível em: http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/dicionarios.html. Acesso em: 4 mai. 2022.
OTHERO, G. de A. A gramática da frase em português: algumas reflexões para a formalização da estrutura frasal em português. Porto Alegre: EDIPUCRS, 2009. Disponível em: https://bibliodigital.unijui.edu.br:8443/xmlui/handle/123456789/1490. Acesso em: 16 out. 2021.
PACHECO, W. E. A.; GUARANHA, M. F. Banco de dados para análise sintática em sentenças do português brasileiro. 2021. Disponível em: https://github.com/Kiriwill/FATEC-IPI-ParserDB. Acesso em: 16 out. 2021.
PACHECO, W. E. A.; GUARANHA, M. F. Parser-api. 2021. Disponível em: https://github.com/Kiriwill/parser-api. Acesso em: 4 mai. 2022.
PARSERO: parser sintático para o português brasileiro. 2021. Disponível em: https://parserov1.herokuapp.com/. Acesso em: 4 mai. 2022.
SOMMERVILLE, I. Engenharia de Software. 9. ed. São Paulo: Pearson Prentice Hall, 2011.
SOUZA E SILVA, C. P. de; KOCH, I. V. Linguística aplicada ao português: sintaxe. São Paulo: Cortez, 2011.
THAIN, D. Introduction to compilers and language design. 2. ed. [S.l.]: Independently Published, 2020.
THE GO AUTHORS. GoLang Versão 1.16.4. 2021. Disponível em: https://pkg.go.dev/runtime. Acesso em: 16 out. 2021.
THE GORILLA AUTHORS. Gorilla Web Toolkit. 2021. Disponível em: https://github.com/gorilla/mux. Acesso em: 16 out. 2021.
THE POSTGRESQL GLOBAL DEVELOPMENT GROUP. PostgreSQL Database Management System. 2021. Disponível em: https://www.postgresql.org/download/. Acesso em: 16 out. 2021.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2022 Willian Emerson Afonso Pacheco, Manoel Francisco Guaranha
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Este é um artigo em acesso aberto que permite o uso irrestrito, a distribuição e reprodução em qualquer meio desde que o artigo original seja devidamente citado.