Avaliação das etapas de pré-processamento e de treinamento em algoritmos de classificação de textos no contexto da recuperação da informação

Autores/as

  • Lucas Marques Sathler Guimarães Pontifícia Universidade Católica de Minas Gerais - PUC Minas
  • Magali Rezende Gouvêa Meireles Pontifícia Universidade Católica de Minas Gerais - PUC Minas
  • Paulo Eduardo Maciel de Almeida Centro Federal de Educação Tecnológica de Minas Gerais - CEFET-MG

Palabras clave:

Classificação, Processamento de Linguagem Natural, Recuperação da Informação, Redes Neurais Artificiais, Treinamento

Resumen

A quantidade de dados não estruturados cresce com a popularização da Internet. Textos em linguagem natural representam um conjunto relevante e significativo para análise e produção de conhecimento. Este trabalho propõe uma análise quantitativa das etapas de pré-processamento e de treinamento de um classificador de textos, que utiliza os sentimentos expressos pelos usuários como atributo. Para realização dos experimentos, foram utilizadas Redes Neurais Artificiais, como algoritmo classificador, e textos provenientes dos sites Amazon, IMDB e Yelp. As bases permitem análise da expressão de sentimentos positivos e negativos dos usuários em avaliações de produtos e serviços em textos não estruturados. Foram realizados dois processos distintos de pré-processamento e diferentes treinamentos das Redes Neurais Artificiais para classificação do conjunto textual. Os resultados confirmam, quantitativamente, a importância das etapas de pré-processamento e de treinamento do classificador, evidenciando a importância do vocabulário selecionado para a representação do texto e para a classificação. As técnicas de classificação disponíveis alcançam resultados satisfatórios. No entanto, mesmo utilizando-se dois processos distintos de pré-processamento e identificando-se o melhor processo de treinamento, não foi possível eliminar, totalmente, as dificuldades de aprendizado e compreensão do modelo para as classificações de sentimentos que envolviam características subjetivas da expressão do sentimento humano.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Lucas Marques Sathler Guimarães, Pontifícia Universidade Católica de Minas Gerais - PUC Minas

Possui graduação em Sistemas de Informação pela PUC Minas (2017). Atualmente, é desenvolvedor de software na LGS/IBM, em Québec/CA. Seu trabalho concentra-se nos usos e aplicações da tecnologia em contextos sócio econômicos. Dentre as áreas de interesse de pesquisa, destaca-se o processamento de dados em linguagem natural.

Magali Rezende Gouvêa Meireles, Pontifícia Universidade Católica de Minas Gerais - PUC Minas

Possui Doutorado em Ciência da Informação pela UFMG (2012), Mestrado em Tecnologia pelo CEFET-MG (1998), Especialização em Controle de Processos e Instrumentação Eletrônica pela UDESC (1991) e Graduação em Engenharia Elétrica pela UFMG (1986). É professora Adjunta IV do Instituto de Ciências Exatas e Informática da PUC Minas, onde leciona nos cursos de Sistemas de Informação e de Engenharia de Computação. Atualmente, é professora colaboradora do Programa de Pós-Graduação em Informática e Editora da Revista Abakós. Dentre as áreas de interesse de pesquisa, destacam-se Processos de Categorização, Sistemas de Informação e Inteligência Computacional Aplicada. Realizou estágio pós-doutoral na Faculdade de Ciência e Engenharia, da Queensland University of Technology, em Brisbane, na Austrália, como bolsista da CAPES (2013-2014), onde mantém atividades como pesquisadora colaboradora.

Paulo Eduardo Maciel de Almeida, Centro Federal de Educação Tecnológica de Minas Gerais - CEFET-MG

É engenheiro eletricista formado pela UFMG (1992), com mestrado do PPGEE/UFMG (1996) e doutorado pela Poli/USP (2002). Realizou estágios de pesquisa no Colorado, EUA (na Colorado School of Mines), entre 2000 e 2001, e em Brisbane, Austrália (na Queensland University of Technology), entre 2013 e 2014, ambos como bolsista da CAPES. É professor associado do Departamento de Computação do CEFET-MG, em Belo Horizonte, onde leciona disciplinas nas áreas de inteligência computacional, otimização e controle de processos para o curso de graduação em engenharia de computação e para o Programa de Pós-Graduação em Modelagem Matemática e Computacional, do qual foi co-fundador em 2005. Já orientou mais de 30 trabalhos de mestrado e doutorado, publicou mais de 100 trabalhos científicos em congressos e mais de 30 artigos em periódicos indexados. Seus interesses de pesquisa atuais são as aplicações de inteligência computacional na energia, na mobilidade e na recuperação da informação, no contexto da Internet das Coisas e da Indústria 4.0.

Publicado

2019-04-15

Cómo citar

Guimarães, L. M. S., Meireles, M. R. G., & Almeida, P. E. M. de. (2019). Avaliação das etapas de pré-processamento e de treinamento em algoritmos de classificação de textos no contexto da recuperação da informação. Perspectivas Em Ciência Da Informação, 24(1), 169–190. Recuperado a partir de https://periodicos.ufmg.br/index.php/pci/article/view/22609

Número

Sección

Artículos