Modelagem de tópicos: Resumir e organizar corpus de dados por meio de algoritmos de aprendizagem de máquina

Marcos de Souza; Renato Rocha Souza

PDF

Publicado: 2020-01-31

Palavras-chave:

Modelagem de tópicos, Aprendizagem de máquina, Alocação de Dirichlet Latente, Indexação semântica latente

Marcos de Souza

Universidade Federal de Minas Gerais

Renato Rocha Souza

Universidade Federal de Minas Gerais

Resumo

A pesquisa compara os resultados e desempenho dos modelos Latent Semantic Indexing (LSI) e Latent Dirichlet Allocation (LDA) de Machine Learning quando aplicado Modelagem de Tópicos em documentos dos canais formais da comunicação científica, constituído por 2006 artigos científicos e resumos expandidos do XIII ao XVII Encontro Nacional de Pesquisa em Ciência da Informação (ENANCIB). Constituem as etapas da pesquisa empírica a coleta dos dados para constituição, limpeza, manipulação, combinação, normalização, tratamento e transformação dos dados do corpus para conectar aos modelos de aprendizagem de máquina. Os modelos resumiram e organizaram o corpus de dados em tópicos que são constituídos por termos e pesos. O modelo LSI apresentou uma maior variedade entre os termos e pesos contidos em cada tópico, diferente do modelo LDA que apresentou uma maior similaridade nos resultados, facilitando, assim, para o especialista de domínio, criar a suposição para os nomes dos tópicos.

Edição

v. 9 n. 2 (2019): PPGGOG - Discentes

Seção

Artigos

Autores que publicam na Revista Múltiplos Olhares em Ciência da Informação mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista. Contratos adicionais poderão ser assumidos, separadamente, pelos autores, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (exemplo: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.

Como Citar

SOUZA , Marcos de; SOUZA , Renato Rocha. Modelagem de tópicos: Resumir e organizar corpus de dados por meio de algoritmos de aprendizagem de máquina. Múltiplos Olhares em Ciência da Informação, Belo Horizonte, v. 9, n. 2, 2020. Disponível em: https://periodicos.ufmg.br/index.php/moci/article/view/19138. Acesso em: 24 jul. 2026.

Modelagem de tópicos Resumir e organizar corpus de dados por meio de algoritmos de aprendizagem de máquina

Resumo

Edição

Seção

Como Citar

Artigos mais lidos pelo mesmo(s) autor(es)

Barra lateral de artigos

Conteúdo do artigo principal

Resumo

Detalhes do artigo

Edição

Seção

Como Citar

Artigos mais lidos pelo mesmo(s) autor(es)