Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português

Autores

  • Lúcia Helena de Magalhães Universidade Federal de Minas Gerais
  • Renato Rocha Souza Universidade Federal de Minas Gerais

Palavras-chave:

Agrupamento de notícias, Processamento de linguagem natural, Aprendizado de Máquina, Análise de textos

Resumo

Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.

Downloads

Os dados de download ainda não estão disponíveis.

Downloads

Publicado

2020-02-03

Como Citar

Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português. Múltiplos Olhares em Ciência da Informação, Belo Horizonte, v. 9, n. 2, 2020. Disponível em: https://periodicos.ufmg.br/index.php/moci/article/view/19170. Acesso em: 13 dez. 2025.