Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português

Lúcia Helena de  Magalhães; Renato Rocha  Souza

PDF

Publicado: 2020-02-03

Palavras-chave:

Agrupamento de notícias, Processamento de linguagem natural, Aprendizado de Máquina, Análise de textos

Lúcia Helena de Magalhães

Universidade Federal de Minas Gerais

Renato Rocha Souza

Universidade Federal de Minas Gerais

Resumo

Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.

Edição

v. 9 n. 2 (2019): PPGGOG - Discentes

Seção

Artigos

Autores que publicam na Revista Múltiplos Olhares em Ciência da Informação mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista. Contratos adicionais poderão ser assumidos, separadamente, pelos autores, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (exemplo: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.

Como Citar

MAGALHÃES , Lúcia Helena de; SOUZA , Renato Rocha. Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português. Múltiplos Olhares em Ciência da Informação, Belo Horizonte, v. 9, n. 2, 2020. Disponível em: https://periodicos.ufmg.br/index.php/moci/article/view/19170. Acesso em: 25 jul. 2026.

Barra lateral de artigos

Conteúdo do artigo principal

Resumo

Detalhes do artigo

Edição

Seção

Como Citar

Artigos mais lidos pelo mesmo(s) autor(es)