Parser sintático para o português brasileiro

desafios e soluções

Autores

  • Willian Emerson Afonso Pacheco Faculdade de Tecnologia do Estado de São Paulo, Câmara de Ensino, Extensão e Pesquisa da FATEC Ipiranga, São Paulo, SP, Brasil https://orcid.org/0000-0003-0395-0303
  • Manoel Francisco Guaranha Faculdade de Tecnologia do Estado de São Paulo, Câmara de Ensino, Extensão e Pesquisa da FATEC Ipiranga, São Paulo, SP, Brasil / Universidade Santo Amaro, Programa de Mestrado em Ciências Humanas, São Paulo, SP, Brasil https://orcid.org/0000-0002-8676-601X

DOI:

https://doi.org/10.35699/1983-3652.2022.37569

Palavras-chave:

Linguística computacional, Processamento de Linguagem Natural, Gramática gerativa, Parser sintático, Português brasileiro

Resumo

Este artigo tem como objetivo apresentar o Parser Sintático para o Português Brasileiro – Parsero, desenvolvido a partir da Gramática Gerativa (CHOMSKY, 2015) (original publicado em 1957), aperfeiçoada pela Teoria X-Barra (CHOMSKY, 2014) (original publicado em 2012). Para tanto, foram utilizadas as regras desenvolvidas especialmente para o Português Brasileiro por Othero (2009) e adaptadas pelo nosso projeto para atender às necessidades de nosso Parser. A pesquisa utilizou como coleção lexical, para povoar um Banco de Dados Structured Query Language (SQL), o recurso Dicionário de Palavras Simples Flexionadas para o Português Brasileiro (DELAF_PB), disponibilizado pelo Projeto Unitex-PB, desenvolvido pelo Núcleo Interinstitucional de Linguística Computacional (NILC) e pelo Instituto de Ciências Matemáticas e de Computação (ICMC). Esse recurso, por sua vez, foi construído com base no formalismo francês – Dictionnarie Electronique du LADL (DELA) (MUNIZ, 2004). Como resultado, disponibilizamos a Base de Dados SQL com 1.193.295 unidades léxicas classificadas, o endereço com o código aberto do Parsero e um link para execução do aplicativo. Para desenvolver o Processador de Linguagem Natural (PLN), colocamos em prática estudos interdisciplinares em ciências da linguagem e ciências da computação, práticas necessárias para o desenvolvimento de programas inteligentes que consigam interagir com escritores e falantes do Português Brasileiro.

 

Downloads

Não há dados estatísticos.

Referências

CHOMSKY, N. Ciência da linguagem. São Paulo: Editora UNESP, 2014.

CHOMSKY, N. Estruturas sintáticas. São Paulo: Vozes, 2015.

COMMUNITY DBEAVER. Dbeaver: Free Universal Database Manager. 2021. Disponível em: https://dbeaver.io/download/.

ECMA INTERNACIONAL. ECMAScriptLanguage Specification. 2015. Disponível em: https://262.ecma-international.org/6.0/. Acesso em: 16 out. 2021.

ECMA-404 INTERNACIONAL. The JSON Data Interchange Syntax. 2017. Disponível em: https://www.ecma-international.org/publications-and-standards/standards/ecma-404/. Acesso em: 16 out. 2021.

LAKE, P.; CROWTHER, P. Concise guide to databases: a practical introduction. 1st edition. New York, NY: Springer London, 2013. (Undergraduate topics in computer science).

MUNIZ, M. C. M. A construção de recursos linguístico-computacionais para o português do Brasil: o projeto de Unitex-PB. 2004. Dissertação de Mestrado – Instituto de Ciências Matemáticas de São Carlos, USP. Disponível em: http://ladl.univ-mlv.fr/brasil/bibliografia/oto/DissMuniz2004.pdf.

MUNIZ, M. C. M. DELAF-PB: Dicionário de Palavras Simples Flexionadas para o Português Brasileiro. 2015. Disponível em: http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/dicionarios.html. Acesso em: 4 mai. 2022.

OTHERO, G. de A. A gramática da frase em português: algumas reflexões para a formalização da estrutura frasal em português. Porto Alegre: EDIPUCRS, 2009. Disponível em: https://bibliodigital.unijui.edu.br:8443/xmlui/handle/123456789/1490. Acesso em: 16 out. 2021.

PACHECO, W. E. A.; GUARANHA, M. F. Banco de dados para análise sintática em sentenças do português brasileiro. 2021. Disponível em: https://github.com/Kiriwill/FATEC-IPI-ParserDB. Acesso em: 16 out. 2021.

PACHECO, W. E. A.; GUARANHA, M. F. Parser-api. 2021. Disponível em: https://github.com/Kiriwill/parser-api. Acesso em: 4 mai. 2022.

PARSERO: parser sintático para o português brasileiro. 2021. Disponível em: https://parserov1.herokuapp.com/. Acesso em: 4 mai. 2022.

SOMMERVILLE, I. Engenharia de Software. 9. ed. São Paulo: Pearson Prentice Hall, 2011.

SOUZA E SILVA, C. P. de; KOCH, I. V. Linguística aplicada ao português: sintaxe. São Paulo: Cortez, 2011.

THAIN, D. Introduction to compilers and language design. 2. ed. [S.l.]: Independently Published, 2020.

THE GO AUTHORS. GoLang Versão 1.16.4. 2021. Disponível em: https://pkg.go.dev/runtime. Acesso em: 16 out. 2021.

THE GORILLA AUTHORS. Gorilla Web Toolkit. 2021. Disponível em: https://github.com/gorilla/mux. Acesso em: 16 out. 2021.

THE POSTGRESQL GLOBAL DEVELOPMENT GROUP. PostgreSQL Database Management System. 2021. Disponível em: https://www.postgresql.org/download/. Acesso em: 16 out. 2021.

Downloads

Publicado

2022-05-14

Como Citar

PACHECO, W. E. A. .; GUARANHA, M. F. Parser sintático para o português brasileiro: desafios e soluções. Texto Livre, Belo Horizonte-MG, v. 15, p. e37569, 2022. DOI: 10.35699/1983-3652.2022.37569. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/37569. Acesso em: 1 jul. 2022.