Corpus ABG

Aline de Lima Benevides; Bruno Ferrari Guide

doi:10.17851/1983-3652.10.1.139-163

Authors

Aline de Lima Benevides Universidade de São Paulo
Bruno Ferrari Guide Universidade de São Paulo

DOI:

https://doi.org/10.17851/1983-3652.10.1.139-163

Keywords:

corpus linguístico, linguística computacional, português brasileiro.

Abstract

RESUMO:Este artigo apresenta a metodologia empregada na compilação de um corpus linguístico do Português Brasileiro, o qual foi denominado de Corpus ABG, e no desenvolvimento de algumas ferramentas computacionais. O objetivo deste trabalho é reunir uma grande quantidade de textos, escritos e orais, que possa representar o falar brasileiro a fim de ser fonte de extração de dados fonológicos quantificados para duas pesquisas, a saber, Guide (2016) e Benevides (2017). O corpus contabiliza 3.616.625 ocorrências de palavras e 92.602 tipos de palavras, sendo que 1.938.805 ocorrências são provenientes dos corpora de fala e 1.676.820 ocorrências dos corpora escritos. Ancorado na metodologia da Linguística de Corpus e por meio de ferramentas computacionais desenvolvidas em Linguagem Python, o presente artigo divulga e disponibiliza à comunidade científica o Corpus ABG, as ferramentas computacionais (acentuador, categorizador de estruturas fonológicas, silabificador) e algumas informações fonológicas (acentuais e silábicas) já extraídas do corpus. Além disso, faz um convite a novas explorações dos dados a todos os pesquisadores que tiverem interesse.

ABSTRACT:The present paper presents the task of compiling a linguistic corpus of Brazilian Portuguese, which was undertaken by the authors. It is called ABG Corpus, and this article is also about the computational tools developed for the task. Our main goal is to reunite a large amount of texts, both from spoken and written language to, in the best way possible, represent the Brazilian language in a way that we could use it as a database for our researches, Guide (2016) and Benevides (2017). The ABG corpus has 3.616.625 word tokens and 92.602 types of words, being that 1.938.805 of those tokens are from spoken language corpora and 1.676.820 tokens come from written corpora. Based on the corpus linguistics framework and through the use of computational tools developed using Python, this article shows and provides access to the ABG Corpus, the computational tools (stress marker, phonological structure identifier, syllabifier), as well as some phonological information (stress and syllable related), already present on the corpus. We end by inviting the community to further expand our findings and explore this new tool.

Downloads

Download data is not yet available.

Author Biographies

Aline de Lima Benevides, Universidade de São Paulo

Departamento de Linguística da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo
Bruno Ferrari Guide, Universidade de São Paulo

Departamento de Linguística da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo.

References

ARAÚJO, L. C. Statistical Analyses in Language Usage. 2013. 199 f. Tese (Doutorado em Engenharia Elétrica) - Escola de Engenharia, Universidade Federal de Minas Gerais, Belo Horizonte, 2013.

ASPA. Projeto ASPA: Avaliação Sonora do Português Atual. Disponível em: http://www.projetoaspa.org/buscador2. Acesso em: 19 dez. 2014.

BARBOSA, J. M. Introdução ao Estudo da Fonologia e Morfologia do Português. Coimbra: Livraria Almedina, 1994. 295 p.

BENEVIDES, A. L. de. O acento primário em pseudopalavras: uma abordagem experimental. 2017. 135 f. Dissertação (Mestrado) - Faculdade de Filosofia, Letras e Ciências Humanas, Departamento de Linguística. Universidade de São Paulo, São Paulo, 2017.

BIBER, D. Representativeness in Corpus Design. Literaty and Linguistic Computing, New York, v. 8, n. 4, p. 243-257, 1993.

BIRD, S.; KLEIN, E.; LOPER, E. Natural Language Processing with Python. O’Reilly Media, 2009.

BISOL, L. O acento e o pé métrico. Letras de Hoje, Porto Alegre, v. 29, n. 4, p. 25-36, dez. 1994. BISOL, L. A sílaba e seus constituintes. In: ABAURRE, M. B. M. (Org.). A construção fonológica da palavra. São Paulo: Contexto, 2013. v. III. p. 21-52.

BYBEE, J. Phonology and Language Use. Cambridge: Cambridge University Press, 2001. 238 p.

COLLISCHONN, G. A sílaba em português. In: BISOL, L. (Org.) Introdução a estudos de fonoloia do português brasileiro. Porto Alegre: EDIPUCRS, 2010. 5 ed. 286 p.

CRISTÓFARO-SILVA, T. Dicionário de Fonética e Fonologia. São Paulo: Contexto, 2011. 239 p.

FREELING. Etiquetas Eagles (v. 2.0). Disponível em: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html. Acesso em: 15 abr. 2015.

FROTA et al. FrePOP: Frequency Patterns of Phonological Objects in Portuguese: Research and Applications. Laboratório de Fonética (CLUL), Faculdade de Letras da Universidade de Lisboa. 2010. Disponível em: http://frepop.letras.ulisboa.pt/. Acesso em: 15 out. 2015.

GALVES, C.; FARIA, P. Tycho Brahe Parsed Corpus of Historical Portuguese. 2010. Disponível em: http://www.tycho.iel.unicamp.br/~tycho/corpus/en/index.html. Acesso em: 14 out. 2015.

GONÇALVES, S. C. L. Banco de dados Iboruna: amostras eletrônicas do português falado no interior paulista. Disponível em: http://www.iboruna.ibilce.unesp.br/. Acesso em: 08 out. 2014.

GUIDE, B. F. Abordagem computacional para a questão do acento no português brasileiro. 2016. 113 f. Dissertação (Mestrado) - Faculdade de Filosofia, Letras e Ciências Humanas, Departamento de Linguística, Universidade de São Paulo, São Paulo, 2016.

HERMANS, B.; WETZELS, W. L. Productive and unproductive stress patterns in Brazilian Portuguese. Letras & Letras, Uberlândia – MG, v. 28, n. 1, p. 77 – 11, jan./jun. 2012.

LINGUATECA. Linguateca. Disponível em: http://www.linguateca.pt/. Acesso em: 14 out. 2015.

MANNING, C. D.; SCHÜTZE, H. Foundations of Statistical Natural Language Processing. Londres: The MIT Press, 1999. 720 p.

MCENERY, T.; WILSON, A. Corpus Linguistics: an introduction. Edinburgh: Edinburgh University Press, 2001. 2 ed. 235 p.

MENDES, R. B. Projeto SP2010: Amostra da fala paulistana. 2010. Disponível em: http://projetosp2010.fflch.usp.br/. Acesso em: 30 mar. 2015.

MENDES, R. B.; OUSHIRO, L. O paulistano no mapa sociolinguístico brasileiro. Alfa, Araraquara, v. 56, n. 3, p. 973-1001, 2012.

OUSHIRO, L. Identidade na pluralidade: avaliação, produção e percepção linguística na cidade de São Paulo. 2015. 372 f. Tese (Doutorado em Letras) - Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo, São Paulo, 2015.

RASO, T.; MELLO, H. (Org.) C-ORAL-BRASIL: Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012. 332 p.

SARDINHA, T. B. Linguística de Corpus: Histórico e Problemática. DELTA, v. 16, n. 2, 2000a. p. 323-67.

SARDINHA, T. B. O que é um corpus representativo? Direct Papers 44. 2000b. Disponível em: http://www.direct.f2s.com/. Acesso em: 02 set. 2014.

SCHMID, H. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing, Manchester, UK. 1994. p. 1-9.

SCHMID, H. Improvements in part-of-specch tagging with a application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland, 1995, p. 1-9.

SCHMID, H. TreeTagger: a language independent part-of-speech tagger. 2015. Disponível em: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/. Acesso em: 15 abr. 2015.

VIARO, M. E.; GUIMARÃES-FILHO, Z. O. Análise quantitativa da freqüência dos fonemas e estruturas silábicas portuguesas. Estudos Linguísticos, São Paulo, XXXVI (1), p. 27-36, jan.-abr. 2007.