AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN

Cláudia Aparecida Fonseca; Rafael Santiago de Souza Netto; Marcus Vinícius Carvalho Guelpeli; Adriana Nascimento Bodolay

doi:10.17851/1983-3652.11.3.40-64

Autores

Cláudia Aparecida Fonseca Universidade Federal dos Vales do Jequitinhonha e mucuri-UFVJM
Rafael Santiago de Souza Netto Centro Universitário de Barra Mansa
Marcus Vinícius Carvalho Guelpeli Universidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJM
Adriana Nascimento Bodolay Universidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJM

DOI:

https://doi.org/10.17851/1983-3652.11.3.40-64

Palavras-chave:

Processamento de Linguagem Natural, gênero textual, anotador textual, anotação de corpus

Resumo

RESUMO: A diversidade dos recursos de linguagem, que possibilita a construção de aplicações em Processamento de Linguagem Natural, provoca a necessidade da criação de ferramentas que sejam igualmente flexíveis. Além disso, essas ferramentas devem ser tão amigáveis quanto úteis, a fim de reduzir o esforço para usuários iniciantes e, ao mesmo tempo, promover um eficiente desempenho para usuários avançados. O presente artigo apresenta o AnoTex, que é um anotador textual capaz de executar a filtragem de dados estruturados do gênero artigo científico, coletados dos arquivos disponíveis na base de dados da Biblioteca Eletrônica SciELO – Scientific Electronic Library On-line. Como produto do processo de extração, obteve-se uma base de dados com as informações filtradas e estruturadas no formato XML, que delimitam e identificam as marcações do gênero em análise, disponível para uso em várias ferramentas e aplicações. São apresentadas outras ferramentas de anotação de textos, atualmente existentes, e argumenta-se que o AnoTex é o primeiro a combinar um bom nível de facilidade de uso com recursos estruturados, constitutivos do gênero, de alta qualidade linguística. Os resultados demonstram como a categorização dos elementos constitutivos do gênero, por meio de sua representação em bancos de árvore, pode condensar as informações disponíveis de forma hierarquizada e dinâmica, construídas durante a compilação. Essas características podem indicar novas estratégias de uso para as marcações coletadas, de modo a atender às necessidades no melhoramento do acesso e da recuperação da informação proporcionados pelo uso das ferramentas de processamento de texto.

PALAVRAS-CHAVE: Processamento de Linguagem Natural; gênero textual; anotador textual; anotação de corpus.

ABSTRACT: The diversity of language resources, which enables the construction of applications in Natural Language Processing, causes the need to create tools that are equally flexible. In addition, these tools should be as user-friendly as useful, in order to reduce the effort for new users and at the same time promote efficient performance for expert users. This article presents the AnoTex, which is a textual annotator capable of performing the filtering of structured data of the textual genre scientific article, collected from the available archives in the database of SciELO – Scientific Electronic Library Online. As a product of the extraction process, we have obtained a database structured in the XML format that delimit and identify the markings of the genre under analysis, available for use in various tools and applications. Other textual annotation tools are currently available, and it is argued that AnoTex is the first to combine a good level of ease-of-use with structured, basic text-based features of high linguistic quality. The results demonstrate how the categorization of the constituent elements of the genre, through its representation in tree banks, can concentrate the information available in a hierarchical and dynamic way. These features may indicate new usage strategies for the collected tags to meet the needs for improvement in the access and retrieval of information through the use of word processing tools.

KEYWORDS: Natural Language Processing; textual genre; textual annotator; annotation of corpus.

Biografia do Autor

Cláudia Aparecida Fonseca, Universidade Federal dos Vales do Jequitinhonha e mucuri-UFVJM

Mestranda em Educação e Tecnologias Aplicadas em Instituições Educacionais pela Universidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJM. Programa de Pós-Graduação em Educação, Departamento de Letras e Sistema de Informação.
Rafael Santiago de Souza Netto, Centro Universitário de Barra Mansa

Pesquisador em Educação e Tecnologias Aplicadas em Instituições Educacionais pela Universidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJM. Programa de Pós-Graduação em Educação, Departamento Ciência da Computação.
Marcus Vinícius Carvalho Guelpeli, Universidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJM

Doutor em Computação na área de Inteligência Artificial. Atualmente é Professor Adjunto I do Curso de Sistemas de Informação da Universidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJM e do Mestrado Profissional em Educação (PPGED) da mesma Universidade.
Adriana Nascimento Bodolay, Universidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJM

Doutora em Estudos Linguísticos. Atualmente é professora do Curso de Letras da Universidade Federal dos Vales do Jequitinhonha e Mucuri, Campus Diamantina e do Mestrado Profissional em Educação (PPGED) da mesma Universidade.

Referências

ALENCAR, L. F. CORPTEXLIT – Corpus de Língua Portuguesa de Textos Literários do Século XIX. Fortaleza: [s.n.], 2010. Disponível em: http://complin.blogspot.com.br/2012/03/corpus-de-textos-historicos.html. Acesso em: 19 abr. 2018.

ALENCAR, L. F. Novos recursos do Aelius para o processamento computacional raso do português. Dialogar é preciso: linguística para o processamento de línguas. Vitória: PPGEL/UFES, 2013.

ALENCAR, L. F. About Aelius Brazilian Portuguese POS-Tagger. Brasil, 2013a. Disponível em: http://aelius.sourceforge.net/. Acesso em: 19 abr. 2018.

ALENCAR, L. F. Aelius User's Manual. UFC, 2013b. Disponível em: http://aelius.sourceforge.net/manual.html. Acesso em: 19 abr. 2018.

ALUÍSIO, S. M.; ALMEIDA, G. M. B. O que é e como se constrói um corpus? Lições aprendidas na compilação de vários corpora para pesquisa linguística. Calidoscópio, v. 4, n. 3, p. 156-178, 2006.

BAKHTIN, M. M. Estética da criação verbal. São Paulo: Livraria Martins Fontes, 1992.

BHARTI, S. K.; BABU, K. S. Automatic Keyword Extraction for Text Summarization: A Survey. arXiv preprint arXiv:1704.03242, 2017.

CAMBRIA, E.; WHITE, B. Jumping NLP curves: A review of natural language processing research. IEEE Computational intelligence magazine, v. 9, n. 2, p. 48-57, 2014.

CANALES, C. B. La red SciELO (Scientific Electronic Library Online): perspectiva tras 20 años de funcionamiento. Hospital a Domicilio, v. 1, n. 4, p. 211-220, 2017.

COHEN, J. D. Highlights: language-and domain-independent automatic indexing terms for abstracting. Journal of the American society for information science, v. 46, n. 3, p. 162- 174, 1995.

DA COSTA CARVALHO, C. I.; VASCONCELOS, D. M.; DE ALENCAR, L. F. Superando o estado da arte na etiquetagem morfossintática por meio de regras de pós-etiquetagem. Anais do X Encontro de Linguística de Corpus: Aspectos metodológicos dos estudos de corpora. Belo Horizonte: Editora da UFMG, p. 122-134, 2012.

DA SILVA, B. C. D. O estudo lingüístico-computacional da linguagem. Letras de Hoje, v. 41, n. 2, p. 103-138, 2006.

DIMA, E. et al. A Metadata Editor to Support the Description of Linguistic Resources. In: LREC, 2012. p. 1061-1066.

EDICTOR – Humanidades Digitais. Grupo de Pesquisas da Universidade de São Paulo. Brasil. Disponível em: https://humanidadesdigitais.org/edictor/. Acesso em: 19 abr. 2018.

FARIA, P.; GALVES, C. Criando “bancos de árvores”: o sistema de anotação e o processamento automático. Cadernos de Estudos Linguísticos, v. 58, n. 2, p. 299-315 2016.

FIALHO, P. et al. Inesc-id@ assin: Medição de similaridade semântica e reconhecimento de inferência textual. Linguamática, v. 8, n. 2, p. 33-42, 2016.

GAMBHIR, M.; GUPTA, V. Recent automatic text summarization techniques: a survey. Artificial Intelligence Review, v. 47, n. 1, p. 1-66, 2017.

GUIA de uso de elementos e atributos XML para documentos que seguem a implementação SciELO Publishing Schema. Versão 1.5.1 – setembro de 2016. Disponível em: http://docs.scielo.org/projects/scielo-publishing-schema/pt_BR/1.5-branch/. Acesso em: 01 ago. 2018.

HOVY, E.; NAVIGLI, R.; PONZETTO, S. P. Collaboratively built semi-structured content and Artificial Intelligence: The story so far. Artificial Intelligence, v. 194, p. 2-27, 2013.

KING, M. et al. Variability of the Facet Values in the VLO–a Case for Metadata Curation. In: Selected Papers from the CLARIN Annual Conference 2015, October 14–16, 2015, Wroclaw, Poland. Linköping University Electronic Press, 2016. p. 25-44.

LANDAUER, T. K.; FOLTZ, P. W.; LAHAM, D. An introduction to latent semantic analysis. Discourse processes, v. 25, n. 2-3, p. 259-284, 1998.

LOVINS, J. B. Development of a stemming algorithm. Mech. Translat. & Comp. Linguistics, v. 11, n. 1-2, p. 22-31, 1968.

LUHN, H. P. The automatic creation of literature abstracts. IBM Journal of research and development, v. 2, n. 2, p. 159-165, 1958.

LYSE, G. I.; MEURER, P.; DE SMEDT, K. COMEDI: A component metadata editor. In: Selected Papers from the CLARIN 2014 Conference, October 24-25, 2014, Soesterberg, The Netherlands. Linköping University Electronic Press, 2015. p. 82-98.

MANARIS, B. Natural language processing: A human-computer interaction perspective. Advances in Computers, v. 47, p. 1-66, 1998.

MARCUSCHI, L. A. Gêneros textuais: definição e funcionalidade. ln: DIONÍSIO, A. P; MACHADO, A. R; BEZERRA, M.A (org). Gêneros textuais e ensino. 4ª ed. Rio de Janeiro: Lucerna, 2005, p. 19-36.

MATENCIO, M. de L. M. Atividade de (Re) textualização em práticas acadêmicas: um estudo do resumo. Scripta, v. 6, n. 11, p. 109-122, 2002.

PACKER, A. L. SciELO: uma metodologia para publicação eletrônica. Ciência da informação, v. 27, n. 2, p. 109-121, 1998.

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. de. E-Dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010, p. 191-224.

PAIXÃO DE SOUSA, M. C. O Corpus Tycho Brahe: contribuições para as humanidades digitais no Brasil. Filologia e Linguística Portuguesa, v. 16, n. spe, p. 53-93, 2014.

REITER, E. A Structured Review of the Validity of BLEU. Computational Linguistics, n. Just Accepted, p. 1-12, 2018.

ROCHA, V. C.; GUELPELI, M. V. C. “PragmaSUM: automatic tex summarizer based on user profile”, International Journal of Current Research, Vol. 9, Issue, 07, p. 53935-53942, July, 2017.

SANTOS, C. D.; ZADROZNY, B. Learning character-level representations for part-ofspeech tagging. In: Proceedings of the 31st International Conference on Machine Learning (ICML-14), 2014. p. 1818-1826.

SANTOS, S. de J. B. dos. A importância da leitura no ensino superior. Revista de educação, v. 9, n. 9, p. 77-83, 2015.

SOUZA, L. F. C. de; FARIA, P. P. F. De; TEMPONI, C. N. Uma proposta de automatização das edições XML do e-Dictor. VIII SEMINÁRIO DE ESTUDOS FILOLÓGICOS–SEF, FILOLOGIA E HUMANIDADES DIGITAIS, 2016. Anais… 2016. Disponível em: https://sefuefs2015.wordpress.com/uma-proposta-de-automatizacao-das-edicoes-xml-do-e-dictor/. Acesso em: 01 ago. 2018.

VIEIRA, R.; LIMA, V. L. S. de. Lingüística computacional: princípios e aplicações. In: Anais do XXI Congresso da SBC. I Jornada de Atualização em Inteligência Artificial. sn, 2001. p. 47-86.

WEBSTER, J. J.; KIT, C. Tokenization as the initial phase in NLP. In: Proceedings of the 14th conference on Computational linguistics-Volume 4. Association for Computational Linguistics, 1992. p. 1106-1110.