Inferência de tópicos para identificação de subáreas temáticas de projetos culturais
Palavras-chave:
dados abertos governamentais. Inferência de tópicos. Mineração de dados. Projetos culturais.Resumo
Os dados abertos governamentais podem ser vistos como uma importante iniciativa de órgãos e instituições da sociedade civil, voltados à promoção da transparência e permitindo, além disso, sua reutilização como insumo no desenvolvimento de projetos de inovação. Entretanto, é comum que determinados conjuntos de dados demandem a aplicação de tratamentos específicos, para que os mesmos possam ser utilizados de forma mais eficaz, como é o caso da necessidade de classificação destes dados através de Mineração de Dados. Neste cenário, este trabalho apresenta uma proposta de inferência de tópicos automática utilizando o método Latent Dirichlet Allocation para a classificação de projetos culturais em áreas temáticas, por meio da identificação da similaridade entre seus dados. Os resultados apresentados demonstram a viabilidade da abordagem no contexto de dados abertos governamentais.
Downloads
Referências
AGGARWAL, C.; ZHAI, C. Mining Text Data. London: Springer Publishing Company, Incorporated, 2012.
ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de textos em português: sob o enfoque da inteligência computacional. 144p. Tese de Doutorado em Engenharia Elétrica. Pontifícia Universidade Católica do Rio de Janeiro, 2007.
BLEI, D. M., NG A.Y., JORDAN, M. I. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3:993-1022, 2003.
BLEI, D. M. Probabilistic topic models. Commun. ACM, 55(4):77–84, 2012.
CHOLIA, S.; SKINNER, D.; BOVERHOF, J. NEWT: A RESTful service for building High Performance Computing web applications. In: GATEWAY COMPUTING ENVIRONMENTS WORKSHOP (GCE), 1-11, 2010.
DIAS-DA-SILVA, B. C. e Moraes, H. R. A construção de thesaurus eletrônico para o português do Brasil. Alfa, v.47, n.2, p.101 - 115, 2003.
DAVIES, T. Open Data in Developing Countries – Emerging insights from Phase I. Web Foundation, 2014. Disponível em: http://www.opendataresearch.org/content/2014/704/open-data-developing-countries-emerging-insights-phase-i.html. Acesso em: 18 mar. 2021.
DIETRICH, D., GRAY, J., MCNAMARA, T., POIKOLA, A., TAIT J., POLLOCK, R., ZIJLSTRA, T. Open Data Handbook Documentation Release 1.0.0. London: Open Knowledge Foundation, 2012.
EBECKEN, N; LOPES, M; COSTA, M. Mineração de Textos, São Paulo: Manole, 2003.
FELDMAN, R., DAGAN, I., Knowledge discovery in textual databases (KDT). In: INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING (KDD-95), 1, 1995. Proceedings […], Montreal, Canada, August 20-21, AAAI Press, 112-117. Disponível em: https://www.aaai.org/Conferences/KDD/kdd95.php. Acesso em: 18 mar. 2021.
INDA, Infraestrutura Nacional de Dados Abertos. Instrução Normativa nº 4 de 12 de abril de 2012. Disponível em:http://dados.gov.br/pagina/instrucao-normativa-da-inda. Acesso em: 22 jan. 2018.
JOLLIFFE, I. T. Principal Component Analysis. 2. ed. New York: Springer, 2002.
Laudon, K.; Laudon, J. Management Information Systems: Managing the Digital Firm. New Jersey: Pearson, 2011.
LOPER, E.; BIRD, S. Nltk: The natural language toolkit. In: ACL-02 WORKSHOP ON EFFECTIVE TOOLS AND METHODOLOGIES FOR TEACHING NATURAL LANGUAGE PROCESSING AND COMPUTATIONAL LINGUISTICS – V.1, ETMTNLP ’02, pages 63–70, Stroudsburg, PA, USA, 2002. Proceedings […] Association for Computational Linguistics.
MORAIS, E. A. M., AMBROSIO, A.P.L. Mineração de Textos. Relatório Técnico INF_005/07. Instituto de Informática. Universidade Federal de Goiás, 2007.
OPEN DEFINITION. Open Definition 2.1. 2017. Disponível em: http://opendefinition.org/od/2.1/en/. Acesso em: 19 de jan. 2018.
OPEN KNOWLEDGE FOUNDATION. Open Data Handbook. 2010. Disponível em http://opendatahandbook.org/guide/en/. Acessado em 19 de janeiro de 2018.
RIBEIRO, C. J. S.; ALMEIDA, R. F. . Dados Abertos Governamentais (Open Government Data): Instrumento para Exercício de Cidadania pela Sociedade. In: ENANCIB - POLÍTICAS DE INFORMAÇÃO PARA A SOCIEDADE, 12, 2011. Anais[...] Brasília: Thesaurus, 2011, p. 2568-2580.
SALIC, 2016. Disponível em http://novosalic.cultura.gov.br.
SIEVERT, C., SHIRLEY, K. E. LDAvis: a method for visualizing and interpreting topics. In: WORKSHOP ON INTERACTIVE LANGUAGE LEARNING, VISUALIZATION, AND INTERFACES. Proceedings […], 2014. p. 63-70, 2014.
Termos, atributos e palavras são utilizadas como sinônimos neste artigo e representam unidades canônicas de um documento textual
Laboratório de Dados Abertos - UFG: https://www.gi.fic.ufg.br/lda/