Desenvolvimento de ferramentas computacionais para o processamento de dados dialetais e lexicográficos
DOI:
https://doi.org/10.1590/1983-3652.2023.42302Palabras clave:
Dialetologia, Lexicografia, Ferramentas computacionais, Linguagens de programação, Banco de dadosResumen
Este trabalho situa-se na intersecção da Linguística de Corpus (O’KEEFFE; MCCARTHY, 2010); Linguística Computacional (KEDIA; RASU, 2020; SRINIVASA DESIKAN, 2018; MANNING, 2008; MANNING; SCHUTZE, 1999; CHOMSKY, 1965); Dialetologia (CARDOSO, 2010; RADTKE; THUN, 1996; CHAMBERS; TRUDGILL, 1994) e Lexicografia (TARP, 2008, 2011, 2015; FUERTES-OLIVEIRA; BERGENHOLTZ, 2015; LEROYER, 2011). Tem-se como objetivo apresentar o desenvolvimento de ferramentas computacionais capazes de processar dados de natureza dialetal e lexicográfica a partir de uma metodologia que dispensa a contratação de serviços de programação, convidando o pesquisador a estudar os recursos informáticos necessários para realizar a manipulação automática de informações em um banco de dados. Para tanto, o corpus utilizado foi o do Projeto Atlas Linguístico do Brasil (COMITÊ NACIONAL DO PROJETO ALIB, 2001), relativo aos municípios do interior, da rede de pontos do ALiB, na região Norte do país. A construção desses pequenos programas foi motivada, principalmente, por duas razões: i) fornecer tratamento lexicográfico e eletrônico aos dados dialetais do ALiB; ii) desenvolver as próprias ferramentas computacionais para atender aos objetivos da pesquisa de Doutorado em andamento à qual este artigo se vincula. Desse modo, um banco de dados em Extensible Markup Language (XML) foi construído para armazenar as informações dialetais em formato lexicográfico e, a partir da execução de linhas de código, foi possível recuperar dados específicos do corpus de maneira eletrônica, além de filtrar os resultados a partir das variantes ‘sexo’, ‘idade’ e ‘localidade’, presentes nos dados do corpus do ALiB.
Referencias
CARDOSO, Suzana Alice Marcelino. A dialetologia e os estudos da variação linguística. In: CARDOSO, Suzana Alice Marcelino (Ed.). Geolinguística - tradição e modernidade. São Paulo: Parábola Editorial, 2010. p. 15–30.
CARDOSO, Suzana Alice Marcelino et al. Atlas linguı́stico do Brasil: Cartas Linguísticas 1. Londrina: EDUEL, 2014. v. 2.
CHAMBERS, Jack; TRUDGILL, Peter. La dialectología. Madrid: Visor Libros, 1994.
CHOMSKY, Noam. Aspects of the theory of syntax. Cambridge: MA: MIT Press, 1965.
COMITÊ NACIONAL DO PROJETO ALIB. Atlas Lingüístico do Brasil: questionário 2001. Londrina: EDUEL, 2001.
CORREIA DE SOUSA, Cemary. Vocabulário dialetal da região norte do Brasil: um estudo das capitais com base nos dados do projeto ALIB. 2019. 134 f. Mestrado em Língua e Cultura – Universidade Federal da Bahia, Salvador.
COSTA, Daniela de Souza Silva. Vocabulário Dialetal do Centro-Oeste: interfaces entre a Lexicografia e a Dialetologia. 2018. 353 f. Doutorado em Estudos da Linguagem – Universidade Estadual de Londrina, Londrina.
FUERTES-OLIVEIRA, Pedro Antonio; BERGENHOLTZ, Henning. Introduction: The Construction of Internet Dictionaries. In: FUERTES-OLIVEIRA, Pedro Antonio; BERGENHOLTZ, Henning (Ed.). e-Lexicography: The Internet, Digital Initiative and Lexicography. London/New York: Continuum, 2011. p. 1–16.
FUERTES-OLIVEIRA, Pedro Antonio; BERGENHOLTZ, Henning. Los Diccionarios en Línea de Español “Universidad de Valladolid.” Estudios de Lexicografía. Revista Mensual del grupo de las dos vidas de las palabras, n. 4, p. 71–98, jun. 2015. Disponível em: https://issuu.com/ldvp/docs/elex_4-_def. Acesso em: 2 ago. 2022.
KEDIA, Aman; RASU, Mayank. Hands-on Python natural language processing: explore tools and techniques to analyze and process text with a view to building real-world NLP applications. Birmingham: Packt Publishing Ltd, 2020.
LEROYER, Patrick. Change of paradigm: from Linguistics to Information Science and from dictionaries to lexicographic information tools. In: FUERTES-OLIVEIRA, Pedro Antonio; BERGENHOLTZ, Henning (Ed.). e-Lexicography: The Internet, Digital Initiative and Lexicography. London/New York: Continuum, 2011. p. 121–140.
MACHADO FILHO, Américo Venâncio Lopes. Um ponto de interseção para a dialectologia e a lexicografia: a proposição de um dicionário dialetal brasileiro com base nos dados do ALiB. Estudos Linguı́sticos e Literários, v. 41, p. 49–70, 2010.
MANNING, Christopher D. Introduction to information retrieval. Cambridge: Cambridge University Press, 2008.
MANNING, Christopher D; SCHUTZE, Hinrich. Foundations of statistical natural language processing. Cambridge: MIT press, 1999.
MARAMALDO FERREIRA, Camila. Vocabulário Dialetal Maranhense: a contribuição do Maranhão para o Dicionário Dialetal Brasileiro 2019. 2019. 119 f. Mestrado em Letras – Universidade Federal do Maranhão, São Luís.
NEIVA, Isamar. Vocabulário Dialetal Baiano. 2017. 270 f. Doutorado em Língua e Cultura – Universidade Federal da Bahia, Salvador.
O’KEEFFE, Anne; MCCARTHY, Michael. What are corpora and how have they evolved? In: O’KEEFFE, Anne; MCCARTHY, Michael (Ed.). The Routledge handbook of corpus linguistics. London/New York: Routledge, 2010. p. 3–10.
RADTKE, Edgar; THUN, Harald. Nuevos caminos de la geolinguística románica. In: RADTKE, Edgar; THUN, Harald (Ed.). Neue Wege der Romanischen Geolinguistik. Kiel: Westensee-Verlag, 1996. p. 25–49.
SRINIVASA-DESIKAN, Bhargav. Natural Language Processing and Computational Linguistics: A practical guide to text analysis with Python, Gensim, spaCy, and Keras. Birmingham: Packt, 2018.
TARP, Sven. Lexicography in the borderland between knowledge and non-knowledge: General Lexicographical Theory with Particular Focus on Learner’s Lexicography. Tübingen: Niemeyer, 2008.
TARP, Sven. Lexicographical and other e-tools for consultation purposes: towards the individualization of needs satisfaction. In: FUERTES-OLIVEIRA, Pedro Antonio; BERGENHOLTZ, Henning (Ed.). e-Lexicography: The Internet, Digital Initiative and Lexicography. London/New York: Continuum, 2011. p. 54–70.
TARP, Sven. La teorı́a funcional en pocas palabras. Estudios de Lexicografı́a. Revista Mensual del grupo de las dos vidas de las palabras, v. 4, p. 31–42, 2015. Disponível em: https://issuu.com/ldvp/docs/elex_4-_def. Acesso em: 2 ago. 2022.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2023 Jorge Luiz Nunes dos Santos Junior
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Este es un artículo de acceso abierto que permite su uso, distribución y reproducción sin restricciones en cualquier medio siempre que se cite correctamente el artículo original.