Coherence in the Parediction of Dicendi Verbs in Abstracts

A Comparison Between Human Capabilities and Current Language Models

Authors

DOI:

https://doi.org/10.17851/2237-2083.33.4.47-71

Keywords:

coherence, school abstract, word prediction, dicendi verbs, large language model

Abstract

The relationship between technology and human language is a topic of growing debate, especially with the emergence of large-scale language models (LLMs) and their textual production capacity. This research is justified by the importance of verifying the proximity between the linguistic productions of LLMs and humans, based on the assumption that human language is shaped by epilinguistic knowledge. To this end, we conducted a comparative study in which we asked students and LLMs to suggest verbs (dicendi) to coherently fill gaps in a summary of a source text. The choice of a school summary was motivated by the need for a deep understanding of the original text and textual coherence, which represents a challenge for both humans and LLMs. The methodology included the comparison of the students’ and 5 LLMs suggestions via chat, seeking to assess coherence with the source text. The results show that LLMs and humans presented good suggestions in the gaps. However, the results contradict the initial hypothesis that humans would present greater lexical diversity. On the other hand, the results also indicate that LLMs perform better in terms of local and global coherence. These facts suggest that LLMs can be a support tool for studies related to the intersection between language and technology, including for teaching.

Author Biographies

  • Osmar de Oliveira Braz Junior, Universidade do Estado de Santa Catarina (UDESC) | Florianópolis | SC | BR

    Osmar de Oliveira Braz Junior holds a degree in Computer Science from the University of Southern Santa Catarina (1997) and a master's degree in Production Engineering from the Federal University of Santa Catarina (2000). He is currently an assistant professor at the State University of Santa Catarina (UDESC) and an hourly professor at the University of Southern Santa Catarina (UNISUL). He has experience in the area of ​​Computer Science, with an emphasis on Software Engineering, working mainly in the following areas: information systems, distance education, software engineering and database.

  • Roberlei Alves Bertucci, Universidade Tecnológica Federal do Paraná (UTFPR) | Curitiba | PR | BR | Universidade Federal de Santa Catarina (UFSC) | Curitiba | PR | BR | Fundação Araucária | Curitiba | PR | BR

    Roberlei Alves Bertucci holds a degree in Portuguese-English Literature from PUCPR (2004); a master's degree in Literature (Linguistic Studies) from UFPR (2007) and a PhD in Linguistics from USP (2011). He completed part of his doctorate at Université Paris 8 (2009-2010). He conducted postdoctoral research at Bar-Ilan University in Israel (2012). He is currently a professor at the Federal Technological University of Paraná (UTFPR). He is interested in different grammatical (formal) processes of meaning production in natural languages, such as: syntax, semantics and pragmatics of natural languages, especially Brazilian Portuguese; linguistic description and analysis in the verbal and nominal domains, especially through technological tools; and the application of linguistic foundations and discoveries to digital technological tools.

  • Renato Fileto, Universidade Federal de Santa Catarina (UFSC) | Curitiba | PR | Brasil

    Renato Fileto holds a Bachelor degree in Computer Science from the Federal University of Uberlândia (1992), a Master degree (1994) and a Doctorate degree (2003) in Computer Science from Campinas State University, Brazil, with an internship at Georgia Institute of Technology, USA (2002), and a Post-Doctorate from the University of São Paulo (2012). His research carrier has been intertwined with activities in the industry. Since 2006, he is a permanent professor at the Department of Informatics and Statistics (INE) of Santa Catarina Federal University (UFSC), in Florianópolis-SC, Brazil. His research area is data science, with the focus in intelligent systems for data analytics.

References

ABONIZIO, H. et al. Sabiá-3 Technical Report. arXiv preprint arXiv:2410.12049, 2024. Disponível em: <https://arxiv.org/pdf/2410.12049>. Acesso em: 02 dez. 2024.

ABREU, K. O teste de Cloze como instrumento de medida da proficiência em leitura: fatores linguísticos e não linguísticos. Revista de Estudos da Linguagem, Belo Horizonte, v. 25, n. 3, p. 1767-1799, 2017. DOI: 10.17851/2237-2083.25.3.1767-1799.

ANTHROPIC. Introducing Claude 3.5 Sonnet. [s.l.], 2024. Disponível em: https://www.anthropic.com/news/claude-3-5-sonnet. Acesso em: 25 nov. 2024.

BICUDO, C.; HILA, C. O bom resumo em situação de vestibular. Claraboia, Jacarezinho, v. 2, n. 2, p. 102–114, 2015. Disponível em: <https://core.ac.uk/download/pdf/229002452.pdf>. Acesso em:

02 dez. 2024.

BIRAL, J. Operações recorrentes na produção de resumos. 2003. Dissertação (Mestrado em Letras) – Universidade Federal do Paraná, Curitiba, 2003. Disponível em: <https://acervodigital.ufpr.br/handle/1884/24499>. Acesso em: 02 dez. 2024.

BRAGAGNOLLO, R. M. A produção textual do gênero resumo escolar. In: ANTONIO, J. D.; NAVARRO, P. (orgs.). Gêneros textuais em contexto de vestibular. Maringá: Eduem, 2017. p. 235-251.

BRAZ JR, O. O.; FILETO, R. Investigando coerência em postagens de um fórum de dúvidas em ambiente virtual de aprendizagem com o BERT. In: Simpósio Brasileiro Informática na Educação. Online. Anais do XXXII Simpósio Brasileiro Informática na Educação: SBC, 2021. P. 749–759. DOI: 10.5753/sbie.2021.217397.

BRAZ JR, O. O.; SANCHUKI, A.; BERTUCCI, R.; FILETO, R. Verbos Dicendi como Indicadores de Coerência em Resumos: uma análise humana e automatizada. Linguamática, Lisboa, v. 17, n. 1, p. 3-16, 2025. DOI: 10.21814/lm.17.1.461.

BUSNELLO, R. H. D. et al. Passos e listas na investigação do priming ortográfico. Psicologia: Reflexão e Crítica, Porto Alegre, v. 24, n. 2, p. 352–354, 2011. DOI: 10.1590/S0102-79722011000200017.

CAMPOS, C. M.; RIBEIRO, J. Gêneros. In: COSTA, I. B; FOLTRAN, M. J. (orgs.). A tessitura da escrita. São Paulo: Contexto, 2013. p.23-44. ISBN: 978-85-7244-782-9.

CHEN, B. et al. Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review. arXiv preprint arXiv:2310.14735, 2023. Disponível em: <https://arxiv.org/pdf/2310.14735>. Acesso em: 02 dez. 2024.

CLARK, H. H; GERRIG, R. J. Quotations as demonstrations. Language, Washington, v. 66, n. 4, p. 764–805, 1990. DOI: 10.2307/414729.

COSTA, I.; SILVA, L. P. Coerência. In: COSTA, I. B; FOLTRAN, M. J. (orgs.). A tessitura da escrita. São Paulo: Contexto, 2013. p. 64-81. ISBN: 978-85-7244-782-9.

CULIOLI, A.; NORMAND, C. Onze rencontres sur le langage et les langues. Paris: Ophrys, 2005. p. 211-213. DOI: 10.4000/linx.479.

CUNHA, N.; LIMA, T.; SANTOS, A.; OLIVEIRA, K. Teste de Cloze: evidência de validade por processo de resposta. Psicologia Escolar e Educacional, São Paulo, v. 24, p. 1-10, 2020. DOI: 10.1590/2175-35392020191537.

DE BEAUGRANDE, R.; DRESSLER, W. U. Introduction to Text Linguistics. London: Longman, 1981. v. 1. DOI: 10.4324/9781315835839.

FERNANDES, C. A autoria em textos produzidos por inteligência artificial e por alunos em uma perspectiva discursiva. Revista da ABRALIN, v. 23, n. 2, p. 214–235, 2024. DOI: 10.25189/rabralin.v23i2.2183.

GEMINI TEAM et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023. Disponível em: <https://arxiv.org/pdf/2312.11805>. Acesso em: 02 dez. 2024.

GOMES, D. P. Coerência Textual: Analisando uma Produção de texto na Educação Básica. Humanidades & Inovação, Palmas, v. 7, n. 1, p. 131–142, 2020. Disponível em: <https://revista.unitins.br/index.php/humanidadeseinovacao/article/download/1932/1337>. Acesso em: 02 dez. 2024.

GU, J. et al. A systematic survey of prompt engineering on vision-language foundation models. arXiv preprint arXiv:2307.12980, 2023. Disponível em: <https://arxiv.org/pdf/2307.12980>. Acesso em: 02 dez. 2024.

KASNECI, E. et al. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, v. 103, p. 102274, 2023. DOI: 10.1016/j.lindif.2023.102274.

KOCH, I. G. V.; TRAVAGLIA, L. C. A coerência textual. 18. ed. São Paulo: Editora Contexto, 2021.

LIU, P. et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, New York, v. 55, n. 9, p. 1–35, 2023. DOI: 10.1145/3560815.

MACHADO, A. R.; LOUSADA, E.; ABREU-TARDELLI, L. S. O Resumo Escolar: Uma Proposta de Ensino de Gênero. Signum: Estudos da Linguagem, v. 8, n. 1, p. 89–101, jul. 2005. DOI: 10.5433/2237-4876.2005v8n1p89.

MARTINS, M. A diversidade lexical na escrita de textos escolares. Fórum Linguístico, Florianópolis, Universidade Federal de Santa Catarina, v. 13, n. 1, p. 1068–1082, 2016. Disponível em: <https://dialnet.unirioja.es/descarga/articulo/6125260.pdf>.

MARVIN, G. et al. Prompt Engineering in Large Language Models. In: International conference on data intelligence and cognitive informatics. Singapore: Springer, 2024, p. 387–402, DOI: 10.1007/978-981-99-7962-2_30.

MEIRA, R. et al. A Analítica da Escrita para Identificação de Indicadores de Qualidade Textual. Revista Novas Tecnologias na Educação, v. 21, n. 2, p. 342–351, 2023. Disponível em: <https://seer.ufrgs.br/renote/article/download/137756/90942>. Acesso em: 02 dez. 2024.

NUNES, P. Escrever não é útil. Revista da ABRALIN, v. 23, n. 2, p. 192–213, 2024. DOI: 10.25189/rabralin.v23i2.2190.

PAES, A.; FREITAS, C. ChatGPT, MariTalk e outros agentes de conversação. Processamento de linguagem natural: conceitos, técnicas e aplicações em português. São Carlos: BPLN, 2023. Disponível em: <https://repositorio.usp.br/directbitstream/2d278e81-8e44-41ee-9788-26db07aa38cd/3165894.pdf>. Acesso em: 02 dez. 2024.

PAIOLA, P. H. Sumarização abstrativa de textos em português utilizando aprendizado de máquina. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual Paulista. São Paulo, 2022. Disponível em: <https://repositorio.unesp.br/server/api/core/bitstreams/43581702-4ec0-4cba-8048-4bb418950b5a/content>. Acesso em: 02 dez. 2024.

RADFORD, A. et al. Improving language understanding by generative pre-training. [S.l.]: OpenAI, 2018. Disponível em: <https://hayate-lab.com/wp-content/uploads/2023/05/43372bfa750340059ad87ac8e538c53b.pdf >. Acesso em: 02 dez. 2024.

RASSI, A. P.; LOPES, P. A. Capítulo 19 Correção automática de redação. In: CASELI, H.; NUNES, M. (orgs.). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em Português. BPLN, 2023. Disponível em: <https://brasileiraspln.com/livro-pln/1a-edicao/parte8/cap19/cap19.pdf>. Acesso em: 02 dez. 2024.

SMILKOV, D. et al. Embedding projector: Interactive visualization and interpretation of embeddings. CoRR, abs/1611.05469, 2016. Disponível em: <http://arxiv.org/abs/1611.05469>. Acesso em: 02 dez. 2024.

SOTO, M.; AUGUSTO, M. R. A.; ABEND, M. C. Processamento de orações relativas de objeto direto com pronomes resumptivos: o caso do Português Brasileiro e o efeito de lacuna preenchida. Veredas-Revista de Estudos Linguísticos, Juiz de Fora, v. 27, n. 1, 2023. Disponível em: https://periodicos.ufjf.br/index.php/veredas/article/view/40741/26857. Acesso em: 02 dez. 2024.

SOUZA, C. M. Proposta de uma abordagem para sumarização extrativa de textos científicos longos. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Minas Gerais, Belo Horizonte, 2022. Disponível em: <https://repositorio.ufmg.br/bitstream/1843/51324/1/Cinthia%20Mikaela%20de%20Souza_final%20%281%29.pdf>. Acesso em: 02 dez. 2024.

SOUZA, F.; NOGUEIRA, R.; LOTUFO, R. BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: Brazilian Conference on Intelligent Systems. Rio Grande, Brazil, 2020. P. 403–417. DOI: 10.1007/978-3-030-61377-8_28.

SOUZA, R. Modelo de estrutura retórica para leitura e escrita de resumo escolar no ensino médio técnico. pt, en. DELTA: Documentação de Estudos em Linguística Teórica e Aplicada, v. 33, p. 911–943, set. 2017. DOI: 10.1590/0102-445046525302137346.

TAYLOR, W. L. Recent developments in the use of “Cloze Procedure”. Journalism Quarterly, v. 33, n. 1, p. 42-48, 1956. DOI: 10.1177/107769905603300106.

TOUVRON, H.; LAVRIL, T. et al. LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. Disponível em: <https://arxiv.org/pdf/2302.13971>. Acesso em:

02 dez. 2024.

TOUVRON, H.; MARTIN, L. et al. LLaMA 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023. Disponível em: <https://arxiv.org/pdf/2307.09288>. Acesso em:

02 dez. 2024.

WANG, Y.; GUO, M. A short analysis of discourse coherence. Journal of Language Teaching and Research, Citeseer, v. 5, n. 2, p. 460-465, 2014. DOI: 10.4304/jltr.5.2.460-465.

Published

2025-12-05

How to Cite

Coherence in the Parediction of Dicendi Verbs in Abstracts: A Comparison Between Human Capabilities and Current Language Models. Revista de Estudos da Linguagem, [S. l.], v. 33, n. 4, p. 47–71, 2025. DOI: 10.17851/2237-2083.33.4.47-71. Disponível em: https://periodicos.ufmg.br/index.php/relin/article/view/56235. Acesso em: 15 jan. 2026.