O uso da mineração de textos no suporte a correções de questões discursivas em uma instituição de educação superior
DOI:
https://doi.org/10.17851/1983-3652.11.3.213-227Palabras clave:
aprendizado de máquina, mineração de texto, sistemas de ensino inteligentes.Resumen
RESUMO: A presente pesquisa tem como objetivo principal o desenvolvimento de um modelo computacional com uso de técnicas de Mineração de Textos para a tarefa de correção de questões dissertativas em ambientes online, possibilitando, por sua vez, a diminuição da subjetividade na avaliação das questões discursivas dos discentes. O conjunto de dados utilizados para os experimentos baseia-se em 15 questões discursivas de computação pertencentes ao ciclo básico de cursos da área das Engenharias. A metodologia proposta é apoiada em três grandes fases: 1) Aplicação de técnicas de pré-processamento de textos e representação dos documentos segundo a abordagem “Saco de palavras”, com esquema de ponderação term-frequency; 2) Realização do processamento dos textos por meio da comparação dos termos contidos nas respostas com os do gabarito por intermédio de medidas baseadas em termos e edição; 3) Confrontação dos resultados numéricos obtidos com as notas da correção do avaliador, ao investigar a hipótese de que as médias das notas reais e estimadas são iguais por meio do Teste T, assim como análise do erro médio absoluto percentual (MAPE) entre tais subconjuntos. Os resultados obtidos indicaram uma alta aderência à hipótese de que as médias dos dados reais vs estimados são iguais, principalmente para as medidas baseadas em tokens. A acurácia foi da ordem de 84,2% para Coseno no modelo bigram. Assim, o principal resultado deste trabalho é a concepção de um modelo de MT para o apoio ao processo avaliativo de questões discursivas em ambiente EaD.
PALAVRAS-CHAVE: aprendizado de máquina; mineração de texto; sistemas de ensino inteligentes.
ABSTRACT: The present research has as main objective the computational development with the use of techniques of Texts Mining for the task of correcting the dissertative questions online, making it possible to provide the diminution of the subjectivity in the evaluation of the discursive questions of the students. The set of data used for the experiments is based on 15 discursive computational questions belonging to the basic course cycle of the Engineering area. The proposed methodology is supported by three major phases: 1) Application of pre-processing techniques and representation of documents according to the “Bag of words” approach, with term-frequency weighting scheme; 2) Carrying out the processing of texts by comparing the terms contained in the answers with those of the template by means of measures based on terms and editing; 3) Confrontation of the numerical results obtained with the evaluator's correction notes, investigating the hypothesis that the means of the real and estimated scores are equal by means of the T-Test, as well as analysis of the percentage absolute mean error (MAPE, in Portuguese) between such subsets. The results obtained indicated a high adherence to the hypothesis that the averages of the actual vs. estimated data are the same, especially for the tokens-based measurements. The accuracy was of the order of 84.2% for Cosine in the bigram model. Thus, the main result of this work is the design of a TM model to support the evaluation process of discursive issues in the distance learning environment.
KEYWORDS: machine learning; text mining; smart education systems.
Descargas
Citas
AGGARWAL, C. C.; ZHAI, C. Mining Text Data. 1. ed. New York, NY, USA: SpringerVerlag New York, 2012.
ANDERSON, J. ICT transforming education: a regional guide. Bangkok: 2010.
ANDERSON, T. Theories for learning with emerging technologies. In: VELETSIANOS, G. (Ed.). Emergence and innovation in digital learning: foundations and applications. Athabasca University: Edmonton, 2016. p. 35-50.
BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de informação: conceitos e tecnologia das máquinas de busca. 2a. ed. Porto Alegre: Bookman Editora, 2013.
BAKER, R. S. J. D. Data mining for education, International Encyclopedia of Education, v. 7, p. 112-118, 2010.
D’ANTOLA, A. A Prática Docente Na Universidade. 1. ed. [s.l.] Epu, 1992.
DAMERAU, F. J. A technique for computer detection and correction of spelling errors. Communications of the ACM, v. 7, n. 3, p. 171–176, 1964.
DE PAIVA, V.; RADEMAKER, A.; DE MELO, G. OpenWordNet-PT: An Open Brazilian Wordnet for Reasoning. Proceedings of COLING 2012: Demonstration Papers. Anais… Mumbai, India: The COLING 2012 Organizing Committee, 2012. Disponível em: http://www.aclweb.org/anthology/C12-3044. Acesso em: 27 nov. 2018.
FODEH, S.; PUNCH, B.; TAN, P.-N. On ontology-driven document clustering using core semantic features. Knowledge and Information Systems, v. 28, n. 2, p. 395-421, 2011.
FREITAS, H. M. R. et al. Pesquisa em Sistemas de Informação no Brasil: 27 Anos sob uma Ótica Internacional. Revista de Gestão e Projetos-GeP, São Paulo, v. 9, n. 1, p. 58- 86, 2018.
GOMES, L. F. EAD no Brasil: perspectivas e desafios. Avaliação: Revista da Avaliação da Educação Superior, Campinas, v. 18, n. 1, p. 13-22, 2013.
HAN, J.; KAMBER, M.; PEI, J. Data Mining: concepts and techniques. 3rd. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011.
HUSSAIN, F. E-Learning 3.0= E-Learning 2.0+ Web 3.0?. IADIS International Conference on Cognition and Exploratory Learning in Digital Age (CELDA 2012), n. Celda, p. 11-18, 2012.
INEP – Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Ministério da Educação. Censo da Educação Superior 2016. 17 p. Disponível em: http://portal.inep.gov.br/web/guest/microdados. Acesso em: 27 nov. 2018.
JARO, M. A. Advances in record-linkage methodology as applied to matching the 1985 census of Tampa, Florida. Journal of the American Statistical Association, v. 84, n. 406, p. 414-420, 1989.
KIM, S.; KIM, H. A new metric of absolute percentage error for intermittent demand forecasts. International Journal of Forecasting, v. 32, n. 3, p. 669-679, 2016.
KNAFLIC, C. N. Storytelling with data: a data visualization guide for business professionals. New Jersey: Wiley, 2015.
KURILOVAS, E.; KUBILINSKIENE, S.; DAGIENE, V. Web 3.0--Based personalisation of learning objects in virtual learning environments. Computers in Human Behavior, v. 30, p. 654-662, 2014.
LEVENSHTEIN, V. I. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady, v. 10, n. 8, p. 707-710, 1966.
LUCKESI, C. C. Avaliação da aprendizagem escolar: estudos, proposições. 3. ed. São Paulo: Cortez, 1996.
MANNING, C. D.; SCHÜTZE, H. Foundations of Natural Language Processing. 1. ed. Cambridge, MA, USA: MIT Press, 1999.
PERKINS, J. Python 3 Text Processing With NLTK 3 Cookbook. Birmingham: Packt Publishing, 2014.
PORTER, M. F. An algorithm for suffix stripping. Program: electronic library and information systems, v. 14, n. 3, p. 130-137, 1980.
PRABHA, S. L.; SHANAVAS, A. R. M. Educational Data Mining Applications. Operations Research and Applications: An International Journal, v. 1, n. 1, p. 23-29, 2014.
ROMERO, C.; VENTURA, S. Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, v. 33, n. 1, p. 135-146, 2007.
ROMERO, C.; VENTURA, S. Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, v. 3, n. 1, p. 12-27, 2013.
SHAPIRO, S. S.; WILK, M. B. An Analysis of Variance Test for Normality (Complete Samples). Biometrika, v. 52, n. 3/4, p. 591, 1965.
SHESHASAAYEE, A.; NAZREEN BEE, M. E-learning: Mode to improve the quality of educational system. Smart Innovation, Systems and Technologies. Anais… V. 78, 2018.
SNEDECOR, G. W.; COCHRAN, W. G. Statistical Methods. [s.l.] Affiliated East-West Press, 1989.
SOARES-LEITE, W. S.; NASCIMENTO-RIBEIRO, C. A. A inclusão das TICs na educação brasileira : problemas e desafios. Revista Internacional de Investigación en educación, v. 5, n. 10, p. 173-187, 2012.
SRIVASTAVA, A.; SAHAMI, M. Text Mining, classification, clustering, and applications. 1. ed. [s.l.] CRC Press, 2009.
TEMPLE, C. A. et al. All children read: teaching for literacy in today’s diverse classrooms. [s.l.] Pearson, 2018.
WEISS, S.; INDURKHYA, N.; ZHANG, T. Fundamentals of predictive text mining. 2. ed. New York, NY, USA: Springer, 2010.
YANG, Y.; PEDERSEN, J. O. A comparative study on feature selection in text categorization. Proceedings of the Fourteenth International Conference on Machine Learning (ICML’97), p. 412-420, 1997.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2018 Texto Livre: Linguagem e Tecnologia
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Este es un artículo de acceso abierto que permite su uso, distribución y reproducción sin restricciones en cualquier medio siempre que se cite correctamente el artículo original.