Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português

Lúcia Helena de  Magalhães; Renato Rocha  Souza

Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português

Autores/as

Lúcia Helena de Magalhães Universidade Federal de Minas Gerais
Renato Rocha Souza Universidade Federal de Minas Gerais

Palabras clave:

Agrupamento de notícias, Processamento de linguagem natural, Aprendizado de Máquina, Análise de textos

Resumen

Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.

Descargas

Los datos de descargas todavía no están disponibles.

Descargas

PDF (Português (Brasil))

Publicado

2020-02-03

Cómo citar

MAGALHÃES , L. H. de .; SOUZA , R. R. . Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português. Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658, Belo Horizonte, v. 9, n. 2, 2020. Disponível em: https://periodicos.ufmg.br/index.php/moci/article/view/19170. Acesso em: 24 nov. 2024.

Descargar cita

Número

Vol. 9 Núm. 2 (2019): PPGGOG - Discentes

Sección

Artigos

Licencia

Autores que publicam na Revista Múltiplos Olhares em Ciência da Informação mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista. Contratos adicionais poderão ser assumidos, separadamente, pelos autores, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (exemplo: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.

Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português

Autores/as

Palabras clave:

Resumen

Descargas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Artículos más leídos del mismo autor/a

Idioma

Enviar un artículo

Información

Desarrollado por

indexadores

CONTATO

Palabras clave

Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português

Autores/as

Palabras clave:

Resumen

Descargas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Artículos más leídos del mismo autor/a

Idioma

Enviar un artículo

Información

Desarrollado por

indexadores

REDE SOCIAL

CONTATO

Palabras clave