Agrupamento automático de notícias de jornais on-line usando técnicas de Machine Learning para clustering de textos no idioma português
Palavras-chave:
Agrupamento de notícias, Processamento de linguagem natural, Aprendizado de Máquina, Análise de textosResumo
Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.
Downloads
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Autores que publicam na Revista Múltiplos Olhares em Ciência da Informação mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista. Contratos adicionais poderão ser assumidos, separadamente, pelos autores, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (exemplo: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.