Avaliação das etapas de pré-processamento e de treinamento em algoritmos de classificação de textos no contexto da recuperação da informação

Autores

  • Lucas Marques Sathler Guimarães Pontifícia Universidade Católica de Minas Gerais - PUC Minas
  • Magali Rezende Gouvêa Meireles Pontifícia Universidade Católica de Minas Gerais - PUC Minas
  • Paulo Eduardo Maciel de Almeida Centro Federal de Educação Tecnológica de Minas Gerais - CEFET-MG

Palavras-chave:

Classificação, Processamento de Linguagem Natural, Recuperação da Informação, Redes Neurais Artificiais, Treinamento

Resumo

A quantidade de dados não estruturados cresce com a popularização da Internet. Textos em linguagem natural representam um conjunto relevante e significativo para análise e produção de conhecimento. Este trabalho propõe uma análise quantitativa das etapas de pré-processamento e de treinamento de um classificador de textos, que utiliza os sentimentos expressos pelos usuários como atributo. Para realização dos experimentos, foram utilizadas Redes Neurais Artificiais, como algoritmo classificador, e textos provenientes dos sites Amazon, IMDB e Yelp. As bases permitem análise da expressão de sentimentos positivos e negativos dos usuários em avaliações de produtos e serviços em textos não estruturados. Foram realizados dois processos distintos de pré-processamento e diferentes treinamentos das Redes Neurais Artificiais para classificação do conjunto textual. Os resultados confirmam, quantitativamente, a importância das etapas de pré-processamento e de treinamento do classificador, evidenciando a importância do vocabulário selecionado para a representação do texto e para a classificação. As técnicas de classificação disponíveis alcançam resultados satisfatórios. No entanto, mesmo utilizando-se dois processos distintos de pré-processamento e identificando-se o melhor processo de treinamento, não foi possível eliminar, totalmente, as dificuldades de aprendizado e compreensão do modelo para as classificações de sentimentos que envolviam características subjetivas da expressão do sentimento humano.

Downloads

Não há dados estatísticos.

Biografia do Autor

Lucas Marques Sathler Guimarães, Pontifícia Universidade Católica de Minas Gerais - PUC Minas

Possui graduação em Sistemas de Informação pela PUC Minas (2017). Atualmente, é desenvolvedor de software na LGS/IBM, em Québec/CA. Seu trabalho concentra-se nos usos e aplicações da tecnologia em contextos sócio econômicos. Dentre as áreas de interesse de pesquisa, destaca-se o processamento de dados em linguagem natural.

Magali Rezende Gouvêa Meireles, Pontifícia Universidade Católica de Minas Gerais - PUC Minas

Possui Doutorado em Ciência da Informação pela UFMG (2012), Mestrado em Tecnologia pelo CEFET-MG (1998), Especialização em Controle de Processos e Instrumentação Eletrônica pela UDESC (1991) e Graduação em Engenharia Elétrica pela UFMG (1986). É professora Adjunta IV do Instituto de Ciências Exatas e Informática da PUC Minas, onde leciona nos cursos de Sistemas de Informação e de Engenharia de Computação. Atualmente, é professora colaboradora do Programa de Pós-Graduação em Informática e Editora da Revista Abakós. Dentre as áreas de interesse de pesquisa, destacam-se Processos de Categorização, Sistemas de Informação e Inteligência Computacional Aplicada. Realizou estágio pós-doutoral na Faculdade de Ciência e Engenharia, da Queensland University of Technology, em Brisbane, na Austrália, como bolsista da CAPES (2013-2014), onde mantém atividades como pesquisadora colaboradora.

Paulo Eduardo Maciel de Almeida, Centro Federal de Educação Tecnológica de Minas Gerais - CEFET-MG

É engenheiro eletricista formado pela UFMG (1992), com mestrado do PPGEE/UFMG (1996) e doutorado pela Poli/USP (2002). Realizou estágios de pesquisa no Colorado, EUA (na Colorado School of Mines), entre 2000 e 2001, e em Brisbane, Austrália (na Queensland University of Technology), entre 2013 e 2014, ambos como bolsista da CAPES. É professor associado do Departamento de Computação do CEFET-MG, em Belo Horizonte, onde leciona disciplinas nas áreas de inteligência computacional, otimização e controle de processos para o curso de graduação em engenharia de computação e para o Programa de Pós-Graduação em Modelagem Matemática e Computacional, do qual foi co-fundador em 2005. Já orientou mais de 30 trabalhos de mestrado e doutorado, publicou mais de 100 trabalhos científicos em congressos e mais de 30 artigos em periódicos indexados. Seus interesses de pesquisa atuais são as aplicações de inteligência computacional na energia, na mobilidade e na recuperação da informação, no contexto da Internet das Coisas e da Indústria 4.0.

Downloads

Publicado

2019-04-15

Como Citar

Guimarães, L. M. S., Meireles, M. R. G., & Almeida, P. E. M. de. (2019). Avaliação das etapas de pré-processamento e de treinamento em algoritmos de classificação de textos no contexto da recuperação da informação. Perspectivas Em Ciência Da Informação, 24(1), 169–190. Recuperado de https://periodicos.ufmg.br/index.php/pci/article/view/22609

Edição

Seção

Artigos