Evaluation of writing quality in argumentative essays
comparison between Large Language Models (LLM) and human reviews based on a rubric
DOI:
https://doi.org/10.1590/1983-3652.2026.63123Keywords:
Writing assessment, Generative Artificial Intelligence, Essay, Writing qualityAbstract
Automated handwriting assessment has established itself as a promising alternative to streamline and improve feedback in learning due to the development of Generative Artificial Intelligence (GAI) with Large Language Models (LLMs) such as OpenAI's ChatGPT. Thus, the formative feedback provided by AI has the potential to influence self-regulation and continuous improvement in student academic performance. In this context, the objective of this study is to determine the degree of inter-rater reliability in the evaluation of argumentative essays performed by language models (GPTo3-mini-high and GPT-4), comparing it with the evaluation of a human expert using the RUBRIAR analytical rubric. A quantitative approach was used to determine the degree of agreement between the evaluations made by the expert and those made by the customized ChatGPT models on 46 argumentative essays written by first-year university students. The findings reveal that the evaluation performed by the LLMs is similar to that of the human expert, especially in the dimension of gender adjustment in the subdimension of communicative purpose. However, there is low accuracy in cohesion and coherence relationships, as well as in conformity with language norms. It is concluded that it is essential to incorporate a pedagogical approach that promotes an intentional, reflective, and ethical use of AI tools, particularly during the early years of higher education, when students are building the foundations of their academic competencies.
Downloads
References
CARLESS, David y WINSTONE, Naomi. Teacher feedback literacy and its interplay with student feedback literacy. Teaching in Higher Education, volumen 28, número 2, páginas 150-163, 2020. DOI: 10.1080/13562517.2020.1783632.
CASTELLÓ, Montserrat; CORCELLES, Mariona; IÑESTA, Ana; VEGA, Norma y BAÑALES, Gerardo. La voz del autor en la escritura académica: Una propuesta para su análisis. Revista Signos, volumen 44, número 76, páginas 105-117, 2011. Disponible en: https://dx.doi.org/10.4067/S0718-09342011000200001. Acceso en: 1 nov. 2025.
CORDOVEZ-FERNÁNDEZ, Maximiliano. Escritura especializada en el ámbito jurídico: un análisis de las macromovidas de demandas escritas con y sin ChatGPT3.5. IDS, Revista de Jóvenes Humanistas, volumen 1, páginas 95-126, 2024. Disponible en: https://doi.org/10.15581/030.1.003. Acceso en: 5 nov. 2025.
GARCÍA-FERNÁNDEZ, María; JODAR-JURADO, Rocío y SÁNCHEZ-MORILLAS, Carmen. The teaching of Spanish as a foreign language and artificial intelligence: the beliefs of the student teachers at the University of Jaén. Texto Livre, volumen 18, e56537, 2025. Disponible en: https://doi.org/10.1590/1983-3652.2025.56537. Acceso en: 5 nov. 2025.
GIAVARINA, Davide. Understanding Bland Altman analysis. Biochemia Medica, volumen 25, número 2, páginas 141-151, 2015. Disponible en: https://doi.org/10.11613/BM.2015.015. Acceso en: 5 nov. 2025.
HAYES, John. Modeling and remodeling writing. Written Communication, volumen 29, número 3, páginas 369-388, 2012. DOI: 10.1177/0741088312451260.
KINTSCH, Walter. The role of knowledge in discourse comprehension: a construction-integration model. Psychological Review, volumen 95, número 2, páginas 163-182, 1988. DOI: 10.1037/0033-295X.95.2.163.
KLOSS, Steffanie y BURDILES, Gina. Diseño y aplicación de un instrumento para evaluar ensayos académicos argumentativos. Ogigia. Revista Electrónica de Estudios Hispánicos, número 36, páginas 257-288, 2024. Disponible en: https://doi.org/10.24197/ogigia.36.2024.257-28. Acceso en: 5 nov. 2025.
KLOSS, Steffanie; BURDILES, Gina y OLGUÍN, Natalia. La ciencia de argumentar: guía práctica para la redacción de ensayos argumentativos. [S. l.: s. n.], 2025. Recurso digital. Disponible en: https://doi.org/10.53382/isbn.978-956-423-491-5. Acceso en: 1 nov. 2025.
KLOSS, Steffanie y QUINTANILLA, Angie. Protocolos de pensamiento en voz alta: una técnica para acceder a la comprensión de la retroalimentación. Formación Universitaria, volumen 16, número 6, páginas 1-12, 2023. DOI: 10.4067/S0718-50062023000600001.
KLOSS, Steffanie; TAPIA-LADINO, Mónica y SAGREDO ORTIZ, Sindy. Estrategias de autorrevisión en escritura argumentativa: un estudio con alumnos de pedagogía. RLA. Revista de Lingüística Teórica y Aplicada, volumen 63, número 1, páginas 103-129, 2025. Disponible en: https://doi.org/10.29393/RLA63-4EASM30004. Acceso en: 12 nov. 2025.
KOO, Terry y LI, Mae. A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, volumen 15, número 2, páginas 155-163, 2016. Disponible en: https://doi.org/10.1016/j.jcm.2016.02.012. Acceso en: 1 nov. 2025.
MATEO-GIRONA, María Teresa; KLOSS, Steffanie y LILLO-FUENTES, Fernando. Empowering GPT as a processual writer: Didactext-guided prompting improves knowledge access, iterative revision, and overall textual quality. Frontiers in Education, volumen 10, página 1706236, 2025. Disponible en: https://doi.org/10.3389/feduc.2025.1706236. Acceso en: 25 nov. 2025.
OSSA, Carlos y WILLATT, Carlos. Retroalimentación efectiva basada en inteligencia artificial generativa: criterios de evaluación para la escritura de casos pedagógicos. [S. l.: s. n.], 2023. Recurso digital. Disponible en: http://doi.org/10.32457/12728/102782023120. Acceso en: 1 nov. 2025.
POOLE, Frederick y COSS, Matt. Can ChatGPT reliably and accurately apply a rubric to L2 writing assessments? The devil is in the prompt(s). Journal of Technology and Chinese Language Teaching, volumen 15, número 1, páginas 19-41, 2024.
PRADO, Paloma y PÉREZ, María. Los desafíos de la retroalimentación en la escritura: estudio de caso en la enseñanza del español en secundaria en México. Diálogos sobre Educación, volumen 12, número 23, páginas 1-28, 2021. Disponible en: https://doi.org/10.32870/dse.v0i23.782. Acceso en: 12 nov. 2025.
RAZALI, Nornadiah Mohd y WAH, Bee. Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests. Journal of Statistical Modeling and Analytics, volumen 2, número 1, páginas 21-33, 2011.
SHROUT, Patrick y FLEISS, Joseph. Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, volumen 86, número 2, páginas 420-428, 1979. DOI: 10.1037/0033-2909.86.2.420.
SOLOGUREN, Enrique y MORGADO, Paula. Prácticas de retroalimentación para la producción del género de formación “Informe de Proyecto” en Ingeniería y Ciencias: explorando el aula universitaria. Perspectiva Educacional, volumen 62, número 2, páginas 114-139, 2023. DOI: 10.4151/07189729-Vol.62-Iss.2-Art.1425. Disponible en: https://www.perspectivaeducacional.cl/index.php/peducacional/article/view/1425. Acceso en: 27 nov. 2025.
TARDY, Christine; SOMMER-FARÍAS, Bruna y GEVERS, Jeroen. Teaching and researching genre knowledge: toward an enhanced theoretical framework. Written Communication, volumen 37, número 3, páginas 287-321, 2020. Disponible en: https://doi.org/10.1177/074108832091655. Acceso en: 12 nov. 2025.
TENG, Mark Feng. “ChatGPT is the companion, not enemies”: EFL learners’ perceptions and experiences in using ChatGPT for feedback in writing. Computers and Education: Artificial Intelligence, volumen 7, página 100270, 2024. Disponible en: https://doi.org/10.1016/j.caeai.2024.100270. Acceso en: 15 nov. 2025.
TENG, Mark Feng. Metacognitive awareness and EFL learners’ perceptions and experiences in utilising ChatGPT for writing feedback. European Journal of Education, volumen 60, número 1, e12811, 2025. Disponible en: https://doi.org/10.1111/ejed.12811. Acceso en: 15 nov. 2025.
TENG, Mark Feng y MA, Maggie. Assessing metacognition-based student feedback literacy for academic writing. Assessing Writing, volumen 59, página 100811, 2024. Disponible en: https://doi.org/10.1016/j.asw.2024.100811. Acceso en: 15 nov. 2025.
UNESCO. Guía para el uso de IA generativa en educación e investigación. Paris: UNESCO, 2024.
VENEGAS, René y CERDA, Constanza. Herramienta computacional de apoyo a la escritura del informe técnico para estudiantes de ingeniería civil. En: SOCIEDAD CHILENA DE EDUCACIÓN CIENTÍFICA (SOCHEDI). CONGRESO Internacional SOCHEDI 2022. Valparaíso, Chile: Pontificia Universidad Católica de Valparaíso, 2022.
ZUNINO, Carolina y MURACA, Matías. El ensayo académico. En: NATALE, L. (editor). Carrera: escritura y lectura de textos académicos y profesionales. Argentina: Universidad Nacional de General Sarmiento, 2012. páginas 61-78.
Downloads
Published
Data Availability Statement
Los datos de investigación están disponibles en el texto del documento.
Issue
Section
License
Copyright (c) 2026 Steffanie Kloss, Maximiliano Cordovez-Fernández, Cristóbal Bustamante

This work is licensed under a Creative Commons Attribution 4.0 International License.
This is an open access article that allows unrestricted use, distribution and reproduction in any medium as long as the original article is properly cited.








