Evaluation of writing quality in argumentative essays

comparison between Large Language Models (LLM) and human reviews based on a rubric

Authors

DOI:

https://doi.org/10.1590/1983-3652.2026.63123

Keywords:

Writing assessment, Generative Artificial Intelligence, Essay, Writing quality

Abstract

Automated handwriting assessment has established itself as a promising alternative to streamline and improve feedback in learning due to the development of Generative Artificial Intelligence (GAI) with Large Language Models (LLMs) such as OpenAI's ChatGPT. Thus, the formative feedback provided by AI has the potential to influence self-regulation and continuous improvement in student academic performance. In this context, the objective of this study is to determine the degree of inter-rater reliability in the evaluation of argumentative essays performed by language models (GPTo3-mini-high and GPT-4), comparing it with the evaluation of a human expert using the RUBRIAR analytical rubric. A quantitative approach was used to determine the degree of agreement between the evaluations made by the expert and those made by the customized ChatGPT models on 46 argumentative essays written by first-year university students. The findings reveal that the evaluation performed by the LLMs is similar to that of the human expert, especially in the dimension of gender adjustment in the subdimension of communicative purpose. However, there is low accuracy in cohesion and coherence relationships, as well as in conformity with language norms. It is concluded that it is essential to incorporate a pedagogical approach that promotes an intentional, reflective, and ethical use of AI tools, particularly during the early years of higher education, when students are building the foundations of their academic competencies.

Downloads

Download data is not yet available.

Author Biographies

  • Steffanie Kloss, Universidad Andrés Bello, Facultad de Educación y Humanidades, Santiago, Chile

    Licenciada en Educación y Profesora de Español, Magíster en Lingüística Aplicada y Doctora en Lingüística por la Universidad de Concepción. En 2020 realizó una posición postdoctoral en la Universidad Católica de la Santísima Concepción. Su actividad de investigación se centra en la lingüística educacional, la escritura académica y la retroalimentación escrita. Se desempeña como académica investigadora en la Universidad Andrés Bello, Santiago. Ha participado en proyectos competitivos Fondecyt y Fondef en los que se han desarrollado pruebas estandarizadas de lectura para el sistema escolar y la implementación de una plataforma para mejorar la calidad de la escritura académica. Actualmente es investigadora responsable del proyecto Fondecyt de Iniciación (ANID) Nº 11250947 “Incidencia de dos métodos de enseñanza de escritura académica en la calidad textual del ensayo argumentativo: un estudio con estudiantes de Pedagogía en Educación Básica” y del Proyecto Fondo de Vinculación internacional “Red de escritura científica con enfoque crítico para fortalecer la elaboración de trabajos académicos en estudiantes de lenguas de pre y postgrado” (FOVI-Anid F240223).

  • Maximiliano Cordovez-Fernández, Pontificia Universidad Católica de Valparaíso, Escuela de Pedagogía, Valparaíso, Chile

    Profesor de Castellano, estudiante de Magíster en Lingüística Aplicada en la Pontificia Universidad Católica de Valparaíso.

  • Cristóbal Bustamante, Pontificia Universidad Católica de Valparaíso, Facultad de Educación, Valparaíso, Chile

    Profesor de Historia, Geografía y Ciencias Sociales por la Universidad de Concepción. Magíster en Educación por la misma casa de estudios. Actualmente, cursa un Doctorado en Educación en la Escuela de Pedagogía de la Pontificia Universidad Católica de Valparaíso

References

CARLESS, David y WINSTONE, Naomi. Teacher feedback literacy and its interplay with student feedback literacy. Teaching in Higher Education, volumen 28, número 2, páginas 150-163, 2020. DOI: 10.1080/13562517.2020.1783632.

CASTELLÓ, Montserrat; CORCELLES, Mariona; IÑESTA, Ana; VEGA, Norma y BAÑALES, Gerardo. La voz del autor en la escritura académica: Una propuesta para su análisis. Revista Signos, volumen 44, número 76, páginas 105-117, 2011. Disponible en: https://dx.doi.org/10.4067/S0718-09342011000200001. Acceso en: 1 nov. 2025.

CORDOVEZ-FERNÁNDEZ, Maximiliano. Escritura especializada en el ámbito jurídico: un análisis de las macromovidas de demandas escritas con y sin ChatGPT3.5. IDS, Revista de Jóvenes Humanistas, volumen 1, páginas 95-126, 2024. Disponible en: https://doi.org/10.15581/030.1.003. Acceso en: 5 nov. 2025.

GARCÍA-FERNÁNDEZ, María; JODAR-JURADO, Rocío y SÁNCHEZ-MORILLAS, Carmen. The teaching of Spanish as a foreign language and artificial intelligence: the beliefs of the student teachers at the University of Jaén. Texto Livre, volumen 18, e56537, 2025. Disponible en: https://doi.org/10.1590/1983-3652.2025.56537. Acceso en: 5 nov. 2025.

GIAVARINA, Davide. Understanding Bland Altman analysis. Biochemia Medica, volumen 25, número 2, páginas 141-151, 2015. Disponible en: https://doi.org/10.11613/BM.2015.015. Acceso en: 5 nov. 2025.

HAYES, John. Modeling and remodeling writing. Written Communication, volumen 29, número 3, páginas 369-388, 2012. DOI: 10.1177/0741088312451260.

KINTSCH, Walter. The role of knowledge in discourse comprehension: a construction-integration model. Psychological Review, volumen 95, número 2, páginas 163-182, 1988. DOI: 10.1037/0033-295X.95.2.163.

KLOSS, Steffanie y BURDILES, Gina. Diseño y aplicación de un instrumento para evaluar ensayos académicos argumentativos. Ogigia. Revista Electrónica de Estudios Hispánicos, número 36, páginas 257-288, 2024. Disponible en: https://doi.org/10.24197/ogigia.36.2024.257-28. Acceso en: 5 nov. 2025.

KLOSS, Steffanie; BURDILES, Gina y OLGUÍN, Natalia. La ciencia de argumentar: guía práctica para la redacción de ensayos argumentativos. [S. l.: s. n.], 2025. Recurso digital. Disponible en: https://doi.org/10.53382/isbn.978-956-423-491-5. Acceso en: 1 nov. 2025.

KLOSS, Steffanie y QUINTANILLA, Angie. Protocolos de pensamiento en voz alta: una técnica para acceder a la comprensión de la retroalimentación. Formación Universitaria, volumen 16, número 6, páginas 1-12, 2023. DOI: 10.4067/S0718-50062023000600001.

KLOSS, Steffanie; TAPIA-LADINO, Mónica y SAGREDO ORTIZ, Sindy. Estrategias de autorrevisión en escritura argumentativa: un estudio con alumnos de pedagogía. RLA. Revista de Lingüística Teórica y Aplicada, volumen 63, número 1, páginas 103-129, 2025. Disponible en: https://doi.org/10.29393/RLA63-4EASM30004. Acceso en: 12 nov. 2025.

KOO, Terry y LI, Mae. A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, volumen 15, número 2, páginas 155-163, 2016. Disponible en: https://doi.org/10.1016/j.jcm.2016.02.012. Acceso en: 1 nov. 2025.

MATEO-GIRONA, María Teresa; KLOSS, Steffanie y LILLO-FUENTES, Fernando. Empowering GPT as a processual writer: Didactext-guided prompting improves knowledge access, iterative revision, and overall textual quality. Frontiers in Education, volumen 10, página 1706236, 2025. Disponible en: https://doi.org/10.3389/feduc.2025.1706236. Acceso en: 25 nov. 2025.

OSSA, Carlos y WILLATT, Carlos. Retroalimentación efectiva basada en inteligencia artificial generativa: criterios de evaluación para la escritura de casos pedagógicos. [S. l.: s. n.], 2023. Recurso digital. Disponible en: http://doi.org/10.32457/12728/102782023120. Acceso en: 1 nov. 2025.

POOLE, Frederick y COSS, Matt. Can ChatGPT reliably and accurately apply a rubric to L2 writing assessments? The devil is in the prompt(s). Journal of Technology and Chinese Language Teaching, volumen 15, número 1, páginas 19-41, 2024.

PRADO, Paloma y PÉREZ, María. Los desafíos de la retroalimentación en la escritura: estudio de caso en la enseñanza del español en secundaria en México. Diálogos sobre Educación, volumen 12, número 23, páginas 1-28, 2021. Disponible en: https://doi.org/10.32870/dse.v0i23.782. Acceso en: 12 nov. 2025.

RAZALI, Nornadiah Mohd y WAH, Bee. Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests. Journal of Statistical Modeling and Analytics, volumen 2, número 1, páginas 21-33, 2011.

SHROUT, Patrick y FLEISS, Joseph. Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, volumen 86, número 2, páginas 420-428, 1979. DOI: 10.1037/0033-2909.86.2.420.

SOLOGUREN, Enrique y MORGADO, Paula. Prácticas de retroalimentación para la producción del género de formación “Informe de Proyecto” en Ingeniería y Ciencias: explorando el aula universitaria. Perspectiva Educacional, volumen 62, número 2, páginas 114-139, 2023. DOI: 10.4151/07189729-Vol.62-Iss.2-Art.1425. Disponible en: https://www.perspectivaeducacional.cl/index.php/peducacional/article/view/1425. Acceso en: 27 nov. 2025.

TARDY, Christine; SOMMER-FARÍAS, Bruna y GEVERS, Jeroen. Teaching and researching genre knowledge: toward an enhanced theoretical framework. Written Communication, volumen 37, número 3, páginas 287-321, 2020. Disponible en: https://doi.org/10.1177/074108832091655. Acceso en: 12 nov. 2025.

TENG, Mark Feng. “ChatGPT is the companion, not enemies”: EFL learners’ perceptions and experiences in using ChatGPT for feedback in writing. Computers and Education: Artificial Intelligence, volumen 7, página 100270, 2024. Disponible en: https://doi.org/10.1016/j.caeai.2024.100270. Acceso en: 15 nov. 2025.

TENG, Mark Feng. Metacognitive awareness and EFL learners’ perceptions and experiences in utilising ChatGPT for writing feedback. European Journal of Education, volumen 60, número 1, e12811, 2025. Disponible en: https://doi.org/10.1111/ejed.12811. Acceso en: 15 nov. 2025.

TENG, Mark Feng y MA, Maggie. Assessing metacognition-based student feedback literacy for academic writing. Assessing Writing, volumen 59, página 100811, 2024. Disponible en: https://doi.org/10.1016/j.asw.2024.100811. Acceso en: 15 nov. 2025.

UNESCO. Guía para el uso de IA generativa en educación e investigación. Paris: UNESCO, 2024.

VENEGAS, René y CERDA, Constanza. Herramienta computacional de apoyo a la escritura del informe técnico para estudiantes de ingeniería civil. En: SOCIEDAD CHILENA DE EDUCACIÓN CIENTÍFICA (SOCHEDI). CONGRESO Internacional SOCHEDI 2022. Valparaíso, Chile: Pontificia Universidad Católica de Valparaíso, 2022.

ZUNINO, Carolina y MURACA, Matías. El ensayo académico. En: NATALE, L. (editor). Carrera: escritura y lectura de textos académicos y profesionales. Argentina: Universidad Nacional de General Sarmiento, 2012. páginas 61-78.

Downloads

Published

2026-05-30

Data Availability Statement

Los datos de investigación están disponibles en el texto del documento.

Issue

Section

Dossier 2026: Artificial intelligence and its interfaces with social life, linguistic education, multimodality and discourse

How to Cite

KLOSS, Steffanie; CORDOVEZ-FERNÁNDEZ, Maximiliano; BUSTAMANTE, Cristóbal. Evaluation of writing quality in argumentative essays: comparison between Large Language Models (LLM) and human reviews based on a rubric. Texto Livre, Belo Horizonte-MG, v. 19, p. e63123, 2026. DOI: 10.1590/1983-3652.2026.63123. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/63123. Acesso em: 31 may. 2026.