Evaluación de la calidad de escritura en ensayos argumentativos: comparación entre Grandes Modelos de Lenguaje (LLM) y revisiones humanas basadas en una rúbrica

Steffanie Kloss; Maximiliano Cordovez-Fernández; Cristóbal Bustamante

doi:10.1590/1983-3652.2026.63123

Autores/as

Steffanie Kloss Universidad Andrés Bello, Facultad de Educación y Humanidades, Santiago, Chile https://orcid.org/0000-0001-7018-5395
Maximiliano Cordovez-Fernández Pontificia Universidad Católica de Valparaíso, Instituto de Literatura y Ciencias del Lenguaje, Valparaíso, Chile https://orcid.org/0009-0002-3365-1451
Cristóbal Bustamante Pontificia Universidad Católica de Valparaíso, Escuela de Pedagogía, Valparaíso, Chile https://orcid.org/0009-0003-1563-7901

DOI:

https://doi.org/10.1590/1983-3652.2026.63123

Palabras clave:

Evaluación de la escritura, Inteligencia Artificial Generativa, Ensayo , Calidad de la escritura

Resumen

La evaluación automática de la escritura se ha consolidado como una alternativa prometedora para agilizar y mejorar la retroalimentación en el aprendizaje a causa del desarrollo de la Inteligencia Artificial Generativa (IAG) con los Grandes Modelos de Lenguaje (LLM) como ChatGPT de OpenAI. De este modo, la retroalimentación formativa que proporcionan las IAs tienen el potencial de influir en la autorregulación y la mejora continua del desempeño académico del estudiantado. De acuerdo con este contexto, el objetivo de este trabajo es determinar el grado de fiabilidad interjueces en la evaluación de ensayos argumentativos realizada por modelos de lenguaje (GPTo3-mini-high y GPT-4), comparándola con la evaluación de un experto humano mediante la rúbrica analítica RUBRIAR. Se utilizó un enfoque cuantitativo para determinar el grado de concordancia entre las evaluaciones realizadas por el experto y las realizadas por los modelos ChatGPT personalizados en 46 ensayos argumentativos escritos por estudiantes universitarios de primer año. Los hallazgos revelan que la evaluación efectuada por los LLM es similar a la del humano experto, especialmente en la dimensión de ajuste al género en la subdimensión de propósito comunicativo. Sin embargo, hay una baja precisión en las relaciones de cohesión y coherencia, así como con el ajuste a las normas de la lengua. Se concluye que es fundamental incorporar un enfoque pedagógico que promueva un uso intencionado, reflexivo y ético de herramientas de IA, particularmente durante los primeros años de la educación superior, cuando los estudiantes están construyendo las bases de sus competencias académicas.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

Steffanie Kloss, Universidad Andrés Bello, Facultad de Educación y Humanidades, Santiago, Chile

Licenciada en Educación y Profesora de Español, Magíster en Lingüística Aplicada y Doctora en Lingüística por la Universidad de Concepción. En 2020 realizó una posición postdoctoral en la Universidad Católica de la Santísima Concepción. Su actividad de investigación se centra en la lingüística educacional, la escritura académica y la retroalimentación escrita. Se desempeña como académica investigadora en la Universidad Andrés Bello, Santiago. Ha participado en proyectos competitivos Fondecyt y Fondef en los que se han desarrollado pruebas estandarizadas de lectura para el sistema escolar y la implementación de una plataforma para mejorar la calidad de la escritura académica. Actualmente es investigadora responsable del proyecto Fondecyt de Iniciación (ANID) Nº 11250947 “Incidencia de dos métodos de enseñanza de escritura académica en la calidad textual del ensayo argumentativo: un estudio con estudiantes de Pedagogía en Educación Básica” y del Proyecto Fondo de Vinculación internacional “Red de escritura científica con enfoque crítico para fortalecer la elaboración de trabajos académicos en estudiantes de lenguas de pre y postgrado” (FOVI-Anid F240223).
Maximiliano Cordovez-Fernández, Pontificia Universidad Católica de Valparaíso, Instituto de Literatura y Ciencias del Lenguaje, Valparaíso, Chile

Profesor de Castellano, estudiante de Magíster en Lingüística Aplicada en la Pontificia Universidad Católica de Valparaíso.
Cristóbal Bustamante, Pontificia Universidad Católica de Valparaíso, Escuela de Pedagogía, Valparaíso, Chile

Profesor de Historia, Geografía y Ciencias Sociales por la Universidad de Concepción. Magíster en Educación por la misma casa de estudios. Actualmente, cursa un Doctorado en Educación en la Escuela de Pedagogía de la Pontificia Universidad Católica de Valparaíso

Referencias

CARLESS, David y WINSTONE, Naomi. Teacher feedback literacy and its interplay with student feedback literacy. Teaching in Higher Education, volumen 28, número 2, páginas 150-163, 2020. DOI: 10.1080/13562517.2020.1783632.

CASTELLÓ, Montserrat; CORCELLES, Mariona; IÑESTA, Ana; VEGA, Norma y BAÑALES, Gerardo. La voz del autor en la escritura académica: Una propuesta para su análisis. Revista Signos, volumen 44, número 76, páginas 105-117, 2011. Disponible en: https://dx.doi.org/10.4067/S0718-09342011000200001. Acceso en: 1 nov. 2025.

CORDOVEZ-FERNÁNDEZ, Maximiliano. Escritura especializada en el ámbito jurídico: un análisis de las macromovidas de demandas escritas con y sin ChatGPT3.5. IDS, Revista de Jóvenes Humanistas, volumen 1, páginas 95-126, 2024. Disponible en: https://doi.org/10.15581/030.1.003. Acceso en: 5 nov. 2025.

GARCÍA-FERNÁNDEZ, María; JODAR-JURADO, Rocío y SÁNCHEZ-MORILLAS, Carmen. The teaching of Spanish as a foreign language and artificial intelligence: the beliefs of the student teachers at the University of Jaén. Texto Livre, volumen 18, e56537, 2025. Disponible en: https://doi.org/10.1590/1983-3652.2025.56537. Acceso en: 5 nov. 2025.

GIAVARINA, Davide. Understanding Bland Altman analysis. Biochemia Medica, volumen 25, número 2, páginas 141-151, 2015. Disponible en: https://doi.org/10.11613/BM.2015.015. Acceso en: 5 nov. 2025.

HAYES, John. Modeling and remodeling writing. Written Communication, volumen 29, número 3, páginas 369-388, 2012. DOI: 10.1177/0741088312451260.

KINTSCH, Walter. The role of knowledge in discourse comprehension: a construction-integration model. Psychological Review, volumen 95, número 2, páginas 163-182, 1988. DOI: 10.1037/0033-295X.95.2.163.

KLOSS, Steffanie y BURDILES, Gina. Diseño y aplicación de un instrumento para evaluar ensayos académicos argumentativos. Ogigia. Revista Electrónica de Estudios Hispánicos, número 36, páginas 257-288, 2024. Disponible en: https://doi.org/10.24197/ogigia.36.2024.257-28. Acceso en: 5 nov. 2025.

KLOSS, Steffanie; BURDILES, Gina y OLGUÍN, Natalia. La ciencia de argumentar: guía práctica para la redacción de ensayos argumentativos. [S. l.: s. n.], 2025. Recurso digital. Disponible en: https://doi.org/10.53382/isbn.978-956-423-491-5. Acceso en: 1 nov. 2025.

KLOSS, Steffanie y QUINTANILLA, Angie. Protocolos de pensamiento en voz alta: una técnica para acceder a la comprensión de la retroalimentación. Formación Universitaria, volumen 16, número 6, páginas 1-12, 2023. DOI: 10.4067/S0718-50062023000600001.

KLOSS, Steffanie; TAPIA-LADINO, Mónica y SAGREDO ORTIZ, Sindy. Estrategias de autorrevisión en escritura argumentativa: un estudio con alumnos de pedagogía. RLA. Revista de Lingüística Teórica y Aplicada, volumen 63, número 1, páginas 103-129, 2025. Disponible en: https://doi.org/10.29393/RLA63-4EASM30004. Acceso en: 12 nov. 2025.

KOO, Terry y LI, Mae. A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine, volumen 15, número 2, páginas 155-163, 2016. Disponible en: https://doi.org/10.1016/j.jcm.2016.02.012. Acceso en: 1 nov. 2025.

MATEO-GIRONA, María Teresa; KLOSS, Steffanie y LILLO-FUENTES, Fernando. Empowering GPT as a processual writer: Didactext-guided prompting improves knowledge access, iterative revision, and overall textual quality. Frontiers in Education, volumen 10, página 1706236, 2025. Disponible en: https://doi.org/10.3389/feduc.2025.1706236. Acceso en: 25 nov. 2025.

OSSA, Carlos y WILLATT, Carlos. Retroalimentación efectiva basada en inteligencia artificial generativa: criterios de evaluación para la escritura de casos pedagógicos. [S. l.: s. n.], 2023. Recurso digital. Disponible en: http://doi.org/10.32457/12728/102782023120. Acceso en: 1 nov. 2025.

POOLE, Frederick y COSS, Matt. Can ChatGPT reliably and accurately apply a rubric to L2 writing assessments? The devil is in the prompt(s). Journal of Technology and Chinese Language Teaching, volumen 15, número 1, páginas 19-41, 2024.

PRADO, Paloma y PÉREZ, María. Los desafíos de la retroalimentación en la escritura: estudio de caso en la enseñanza del español en secundaria en México. Diálogos sobre Educación, volumen 12, número 23, páginas 1-28, 2021. Disponible en: https://doi.org/10.32870/dse.v0i23.782. Acceso en: 12 nov. 2025.

RAZALI, Nornadiah Mohd y WAH, Bee. Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests. Journal of Statistical Modeling and Analytics, volumen 2, número 1, páginas 21-33, 2011.

SHROUT, Patrick y FLEISS, Joseph. Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, volumen 86, número 2, páginas 420-428, 1979. DOI: 10.1037/0033-2909.86.2.420.

SOLOGUREN, Enrique y MORGADO, Paula. Prácticas de retroalimentación para la producción del género de formación “Informe de Proyecto” en Ingeniería y Ciencias: explorando el aula universitaria. Perspectiva Educacional, volumen 62, número 2, páginas 114-139, 2023. DOI: 10.4151/07189729-Vol.62-Iss.2-Art.1425. Disponible en: https://www.perspectivaeducacional.cl/index.php/peducacional/article/view/1425. Acceso en: 27 nov. 2025.

TARDY, Christine; SOMMER-FARÍAS, Bruna y GEVERS, Jeroen. Teaching and researching genre knowledge: toward an enhanced theoretical framework. Written Communication, volumen 37, número 3, páginas 287-321, 2020. Disponible en: https://doi.org/10.1177/074108832091655. Acceso en: 12 nov. 2025.

TENG, Mark Feng. “ChatGPT is the companion, not enemies”: EFL learners’ perceptions and experiences in using ChatGPT for feedback in writing. Computers and Education: Artificial Intelligence, volumen 7, página 100270, 2024. Disponible en: https://doi.org/10.1016/j.caeai.2024.100270. Acceso en: 15 nov. 2025.

TENG, Mark Feng. Metacognitive awareness and EFL learners’ perceptions and experiences in utilising ChatGPT for writing feedback. European Journal of Education, volumen 60, número 1, e12811, 2025. Disponible en: https://doi.org/10.1111/ejed.12811. Acceso en: 15 nov. 2025.

TENG, Mark Feng y MA, Maggie. Assessing metacognition-based student feedback literacy for academic writing. Assessing Writing, volumen 59, página 100811, 2024. Disponible en: https://doi.org/10.1016/j.asw.2024.100811. Acceso en: 15 nov. 2025.

UNESCO. Guía para el uso de IA generativa en educación e investigación. Paris: UNESCO, 2024.

VENEGAS, René y CERDA, Constanza. Herramienta computacional de apoyo a la escritura del informe técnico para estudiantes de ingeniería civil. En: SOCIEDAD CHILENA DE EDUCACIÓN CIENTÍFICA (SOCHEDI). CONGRESO Internacional SOCHEDI 2022. Valparaíso, Chile: Pontificia Universidad Católica de Valparaíso, 2022.

ZUNINO, Carolina y MURACA, Matías. El ensayo académico. En: NATALE, L. (editor). Carrera: escritura y lectura de textos académicos y profesionales. Argentina: Universidad Nacional de General Sarmiento, 2012. páginas 61-78.