Anotação morfológica automática de corpus de língua falada: desafios ao Aelius
DOI:
https://doi.org/10.17851/1983-3652.7.2.44-60Palavras-chave:
Etiquetagem automática, Etiquetagem morfossintática, Linguística de CorpusResumo
RESUMO: Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.
PALAVRAS-CHAVE: Etiquetagem Automática. Etiquetagem Morfossintática. Linguística de Corpus.
ABSTRACT:In this paper, we present the results of our work with automatic morphological annotation of excerpts from a corpus of spoken language – belonging to the VARSUL project – using the free morphosyntatic tagger Aelius. We present 20 texts containing 154,530 words, annotated automatically and corrected manually. This paper presents the tagger Aelius and our work of manual review of the texts, as well as our suggestions for improvements of the tool, concerning aspects of oral texts. We verify the performance of morphosyntactic tagging a spoken language corpus, an unprecedented challenge for the tagger. Based on the errors of the tagger, we try to infer certain patterns of annotation to overcome limitations presented by the program, and we propose suggestions for implementations in order to allow Aelius to tag spoken language corpora in a more effective way, specially treating cases such as interjections, apheresis, onomatopeia and conversational markers.
KEYWORDS: Tagger. Morphosyntactic Tagging. Corpus Linguistics.
Downloads
Referências
ALENCAR, Leonel Figueiredo de. Produtividade morfológica e tecnologia do texto: aspectos da construção de um transdutor lexical do português capaz de analisar neologismos. Calidoscópio (UNISINOS), v. 7, 2009.
ALENCAR, Leonel Figueiredo de. Aelius: uma ferramenta para anotação automática de corpora usando NLTK. IX Encontro de Linguística de Corpus. Porto Alegre, PUCRS, 2010.
ALENCAR, Leonel Figueiredo de. Superando o estado da arte na etiquetagem morfossintática por meio de regras de pós-etiquetagem. In: Anais do X Encontro de Linguística de Corpus – Aspectos metodológicos dos estudos de corpora. Belo Horizonte: UFMG, 2012.
ALENCAR, Leonel Figueiredo de. Novos recursos do Aelius para o processamento computacional raso do português. In: LAPORTE, E.; SMARSARO, A.; VALE, O. (Orgs.). Dialogar é preciso: linguística para o processamento de línguas. Vitória: PPGEL/UFES, 2013.
ALENCAR, Leonel Figueiredo de; OTHERO, Gabriel de Ávila (Orgs.). Abordagens computacionais da teoria da gramática. Campinas: Mercado de Letras, 2011.
BERBER SARDINHA, Tony. O que é um corpus representativo? DIRECT Papers 44. São Paulo / Liverpool: LAEL & AELSU, 2000a.
BERBER SARDINHA, Tony. Linguística de corpus: histórico e problemática. D.E.L.T.A., v. 16, n. 2, 2000b.
BERBER SARDINHA, Tony. Linguística de Corpus. Barueri, SP: Manole, 2004a.
BERBER SARDINHA, Tony. Linguística de Corpus: Uma entrevista com Tony Berber. ReVEL, v. 2, n. 3, 2004b.
DEZOTTI, Lucas Consolin. As “partes da oração” de Donato aos modistas. ReVEL, v. 8, n. 14, 2010.
GARSIDE, Roger; LEECH, Geoffrey; McENERY, Anthony. Corpus annotation: linguistic information from computer text corpora. London / New York: Longman, 1997.
HOLTZ, Louis. Donat et la tradition de l’enseignement grammatical. Paris: Centre National de la Recherche Scientifique, 1981.
RASO, Tommaso; MELLO, Heliana (Orgs.). C-ORAL BRASIL I Corpus de referência de português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012.
URBANO, Hudinilson. Marcadores Conversacionais. In: Análise de textos orais. São Paulo: Humanitás, 2010.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Este é um artigo em acesso aberto que permite o uso irrestrito, a distribuição e reprodução em qualquer meio desde que o artigo original seja devidamente citado.