Coherence in the Parediction of Dicendi Verbs in Abstracts
A Comparison Between Human Capabilities and Current Language Models
DOI:
https://doi.org/10.17851/2237-2083.33.4.47-71Keywords:
coherence, school abstract, word prediction, dicendi verbs, large language modelAbstract
The relationship between technology and human language is a topic of growing debate, especially with the emergence of large-scale language models (LLMs) and their textual production capacity. This research is justified by the importance of verifying the proximity between the linguistic productions of LLMs and humans, based on the assumption that human language is shaped by epilinguistic knowledge. To this end, we conducted a comparative study in which we asked students and LLMs to suggest verbs (dicendi) to coherently fill gaps in a summary of a source text. The choice of a school summary was motivated by the need for a deep understanding of the original text and textual coherence, which represents a challenge for both humans and LLMs. The methodology included the comparison of the students’ and 5 LLMs suggestions via chat, seeking to assess coherence with the source text. The results show that LLMs and humans presented good suggestions in the gaps. However, the results contradict the initial hypothesis that humans would present greater lexical diversity. On the other hand, the results also indicate that LLMs perform better in terms of local and global coherence. These facts suggest that LLMs can be a support tool for studies related to the intersection between language and technology, including for teaching.
References
ABONIZIO, H. et al. Sabiá-3 Technical Report. arXiv preprint arXiv:2410.12049, 2024. Disponível em: <https://arxiv.org/pdf/2410.12049>. Acesso em: 02 dez. 2024.
ABREU, K. O teste de Cloze como instrumento de medida da proficiência em leitura: fatores linguísticos e não linguísticos. Revista de Estudos da Linguagem, Belo Horizonte, v. 25, n. 3, p. 1767-1799, 2017. DOI: 10.17851/2237-2083.25.3.1767-1799.
ANTHROPIC. Introducing Claude 3.5 Sonnet. [s.l.], 2024. Disponível em: https://www.anthropic.com/news/claude-3-5-sonnet. Acesso em: 25 nov. 2024.
BICUDO, C.; HILA, C. O bom resumo em situação de vestibular. Claraboia, Jacarezinho, v. 2, n. 2, p. 102–114, 2015. Disponível em: <https://core.ac.uk/download/pdf/229002452.pdf>. Acesso em:
02 dez. 2024.
BIRAL, J. Operações recorrentes na produção de resumos. 2003. Dissertação (Mestrado em Letras) – Universidade Federal do Paraná, Curitiba, 2003. Disponível em: <https://acervodigital.ufpr.br/handle/1884/24499>. Acesso em: 02 dez. 2024.
BRAGAGNOLLO, R. M. A produção textual do gênero resumo escolar. In: ANTONIO, J. D.; NAVARRO, P. (orgs.). Gêneros textuais em contexto de vestibular. Maringá: Eduem, 2017. p. 235-251.
BRAZ JR, O. O.; FILETO, R. Investigando coerência em postagens de um fórum de dúvidas em ambiente virtual de aprendizagem com o BERT. In: Simpósio Brasileiro Informática na Educação. Online. Anais do XXXII Simpósio Brasileiro Informática na Educação: SBC, 2021. P. 749–759. DOI: 10.5753/sbie.2021.217397.
BRAZ JR, O. O.; SANCHUKI, A.; BERTUCCI, R.; FILETO, R. Verbos Dicendi como Indicadores de Coerência em Resumos: uma análise humana e automatizada. Linguamática, Lisboa, v. 17, n. 1, p. 3-16, 2025. DOI: 10.21814/lm.17.1.461.
BUSNELLO, R. H. D. et al. Passos e listas na investigação do priming ortográfico. Psicologia: Reflexão e Crítica, Porto Alegre, v. 24, n. 2, p. 352–354, 2011. DOI: 10.1590/S0102-79722011000200017.
CAMPOS, C. M.; RIBEIRO, J. Gêneros. In: COSTA, I. B; FOLTRAN, M. J. (orgs.). A tessitura da escrita. São Paulo: Contexto, 2013. p.23-44. ISBN: 978-85-7244-782-9.
CHEN, B. et al. Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review. arXiv preprint arXiv:2310.14735, 2023. Disponível em: <https://arxiv.org/pdf/2310.14735>. Acesso em: 02 dez. 2024.
CLARK, H. H; GERRIG, R. J. Quotations as demonstrations. Language, Washington, v. 66, n. 4, p. 764–805, 1990. DOI: 10.2307/414729.
COSTA, I.; SILVA, L. P. Coerência. In: COSTA, I. B; FOLTRAN, M. J. (orgs.). A tessitura da escrita. São Paulo: Contexto, 2013. p. 64-81. ISBN: 978-85-7244-782-9.
CULIOLI, A.; NORMAND, C. Onze rencontres sur le langage et les langues. Paris: Ophrys, 2005. p. 211-213. DOI: 10.4000/linx.479.
CUNHA, N.; LIMA, T.; SANTOS, A.; OLIVEIRA, K. Teste de Cloze: evidência de validade por processo de resposta. Psicologia Escolar e Educacional, São Paulo, v. 24, p. 1-10, 2020. DOI: 10.1590/2175-35392020191537.
DE BEAUGRANDE, R.; DRESSLER, W. U. Introduction to Text Linguistics. London: Longman, 1981. v. 1. DOI: 10.4324/9781315835839.
FERNANDES, C. A autoria em textos produzidos por inteligência artificial e por alunos em uma perspectiva discursiva. Revista da ABRALIN, v. 23, n. 2, p. 214–235, 2024. DOI: 10.25189/rabralin.v23i2.2183.
GEMINI TEAM et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023. Disponível em: <https://arxiv.org/pdf/2312.11805>. Acesso em: 02 dez. 2024.
GOMES, D. P. Coerência Textual: Analisando uma Produção de texto na Educação Básica. Humanidades & Inovação, Palmas, v. 7, n. 1, p. 131–142, 2020. Disponível em: <https://revista.unitins.br/index.php/humanidadeseinovacao/article/download/1932/1337>. Acesso em: 02 dez. 2024.
GU, J. et al. A systematic survey of prompt engineering on vision-language foundation models. arXiv preprint arXiv:2307.12980, 2023. Disponível em: <https://arxiv.org/pdf/2307.12980>. Acesso em: 02 dez. 2024.
KASNECI, E. et al. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, v. 103, p. 102274, 2023. DOI: 10.1016/j.lindif.2023.102274.
KOCH, I. G. V.; TRAVAGLIA, L. C. A coerência textual. 18. ed. São Paulo: Editora Contexto, 2021.
LIU, P. et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, New York, v. 55, n. 9, p. 1–35, 2023. DOI: 10.1145/3560815.
MACHADO, A. R.; LOUSADA, E.; ABREU-TARDELLI, L. S. O Resumo Escolar: Uma Proposta de Ensino de Gênero. Signum: Estudos da Linguagem, v. 8, n. 1, p. 89–101, jul. 2005. DOI: 10.5433/2237-4876.2005v8n1p89.
MARTINS, M. A diversidade lexical na escrita de textos escolares. Fórum Linguístico, Florianópolis, Universidade Federal de Santa Catarina, v. 13, n. 1, p. 1068–1082, 2016. Disponível em: <https://dialnet.unirioja.es/descarga/articulo/6125260.pdf>.
MARVIN, G. et al. Prompt Engineering in Large Language Models. In: International conference on data intelligence and cognitive informatics. Singapore: Springer, 2024, p. 387–402, DOI: 10.1007/978-981-99-7962-2_30.
MEIRA, R. et al. A Analítica da Escrita para Identificação de Indicadores de Qualidade Textual. Revista Novas Tecnologias na Educação, v. 21, n. 2, p. 342–351, 2023. Disponível em: <https://seer.ufrgs.br/renote/article/download/137756/90942>. Acesso em: 02 dez. 2024.
NUNES, P. Escrever não é útil. Revista da ABRALIN, v. 23, n. 2, p. 192–213, 2024. DOI: 10.25189/rabralin.v23i2.2190.
PAES, A.; FREITAS, C. ChatGPT, MariTalk e outros agentes de conversação. Processamento de linguagem natural: conceitos, técnicas e aplicações em português. São Carlos: BPLN, 2023. Disponível em: <https://repositorio.usp.br/directbitstream/2d278e81-8e44-41ee-9788-26db07aa38cd/3165894.pdf>. Acesso em: 02 dez. 2024.
PAIOLA, P. H. Sumarização abstrativa de textos em português utilizando aprendizado de máquina. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual Paulista. São Paulo, 2022. Disponível em: <https://repositorio.unesp.br/server/api/core/bitstreams/43581702-4ec0-4cba-8048-4bb418950b5a/content>. Acesso em: 02 dez. 2024.
RADFORD, A. et al. Improving language understanding by generative pre-training. [S.l.]: OpenAI, 2018. Disponível em: <https://hayate-lab.com/wp-content/uploads/2023/05/43372bfa750340059ad87ac8e538c53b.pdf >. Acesso em: 02 dez. 2024.
RASSI, A. P.; LOPES, P. A. Capítulo 19 Correção automática de redação. In: CASELI, H.; NUNES, M. (orgs.). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em Português. BPLN, 2023. Disponível em: <https://brasileiraspln.com/livro-pln/1a-edicao/parte8/cap19/cap19.pdf>. Acesso em: 02 dez. 2024.
SMILKOV, D. et al. Embedding projector: Interactive visualization and interpretation of embeddings. CoRR, abs/1611.05469, 2016. Disponível em: <http://arxiv.org/abs/1611.05469>. Acesso em: 02 dez. 2024.
SOTO, M.; AUGUSTO, M. R. A.; ABEND, M. C. Processamento de orações relativas de objeto direto com pronomes resumptivos: o caso do Português Brasileiro e o efeito de lacuna preenchida. Veredas-Revista de Estudos Linguísticos, Juiz de Fora, v. 27, n. 1, 2023. Disponível em: https://periodicos.ufjf.br/index.php/veredas/article/view/40741/26857. Acesso em: 02 dez. 2024.
SOUZA, C. M. Proposta de uma abordagem para sumarização extrativa de textos científicos longos. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Minas Gerais, Belo Horizonte, 2022. Disponível em: <https://repositorio.ufmg.br/bitstream/1843/51324/1/Cinthia%20Mikaela%20de%20Souza_final%20%281%29.pdf>. Acesso em: 02 dez. 2024.
SOUZA, F.; NOGUEIRA, R.; LOTUFO, R. BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: Brazilian Conference on Intelligent Systems. Rio Grande, Brazil, 2020. P. 403–417. DOI: 10.1007/978-3-030-61377-8_28.
SOUZA, R. Modelo de estrutura retórica para leitura e escrita de resumo escolar no ensino médio técnico. pt, en. DELTA: Documentação de Estudos em Linguística Teórica e Aplicada, v. 33, p. 911–943, set. 2017. DOI: 10.1590/0102-445046525302137346.
TAYLOR, W. L. Recent developments in the use of “Cloze Procedure”. Journalism Quarterly, v. 33, n. 1, p. 42-48, 1956. DOI: 10.1177/107769905603300106.
TOUVRON, H.; LAVRIL, T. et al. LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. Disponível em: <https://arxiv.org/pdf/2302.13971>. Acesso em:
02 dez. 2024.
TOUVRON, H.; MARTIN, L. et al. LLaMA 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023. Disponível em: <https://arxiv.org/pdf/2307.09288>. Acesso em:
02 dez. 2024.
WANG, Y.; GUO, M. A short analysis of discourse coherence. Journal of Language Teaching and Research, Citeseer, v. 5, n. 2, p. 460-465, 2014. DOI: 10.4304/jltr.5.2.460-465.
