A coerência na predição de verbos dicendi em resumos
comparação entre capacidades humanas e de atuais modelos de linguagem
DOI:
https://doi.org/10.17851/2237-2083.33.4.47-71Palavras-chave:
coerência, resumo escolar, predição de palavras, verbos dicendi, modelo de linguagem de grande escalaResumo
A relação entre a tecnologia e a linguagem humana é tema de debate crescente, especialmente com o surgimento de modelos de linguagem de grande escala (LLMs) e sua capacidade de produção textual. Essa pesquisa justifica-se pela importância de verificar a proximidade entre as produções linguísticas dos LLMs e as humanas, partindo do pressuposto de que a linguagem humana é moldada pelo conhecimento epilinguístico. Para isso, conduziu-se um estudo comparativo em que se pediu a estudantes e a LLMs que sugerissem verbos (dicendi) para completar coerentemente lacunas em um resumo de um texto-base. A escolha de um resumo escolar foi motivada pela necessidade de profunda compreensão do texto original e coerência textual, o que representa um desafio tanto para humanos quanto para LLMs. A metodologia incluiu a comparação das sugestões dos alunos e 5 LLMs via chat, buscando avaliar a coerência com o texto-fonte. Os resultados mostram que tanto LLMs quanto humanos apresentaram boas sugestões nas lacunas. No entanto, os resultados contrariam a hipótese inicial de que os humanos apresentariam uma maior diversidade lexical. Por outro lado, os resultados indicam também que LLMs têm um desempenho melhor quanto às coerências local e global. Estes fatos sugerem que os LLMs podem ser uma ferramenta de apoio para os estudos relacionados à intersecção entre linguagem e tecnologia, inclusive para o ensino.
Referências
ABONIZIO, H. et al. Sabiá-3 Technical Report. arXiv preprint arXiv:2410.12049, 2024. Disponível em: <https://arxiv.org/pdf/2410.12049>. Acesso em: 02 dez. 2024.
ABREU, K. O teste de Cloze como instrumento de medida da proficiência em leitura: fatores linguísticos e não linguísticos. Revista de Estudos da Linguagem, Belo Horizonte, v. 25, n. 3, p. 1767-1799, 2017. DOI: 10.17851/2237-2083.25.3.1767-1799.
ANTHROPIC. Introducing Claude 3.5 Sonnet. [s.l.], 2024. Disponível em: https://www.anthropic.com/news/claude-3-5-sonnet. Acesso em: 25 nov. 2024.
BICUDO, C.; HILA, C. O bom resumo em situação de vestibular. Claraboia, Jacarezinho, v. 2, n. 2, p. 102–114, 2015. Disponível em: <https://core.ac.uk/download/pdf/229002452.pdf>. Acesso em:
02 dez. 2024.
BIRAL, J. Operações recorrentes na produção de resumos. 2003. Dissertação (Mestrado em Letras) – Universidade Federal do Paraná, Curitiba, 2003. Disponível em: <https://acervodigital.ufpr.br/handle/1884/24499>. Acesso em: 02 dez. 2024.
BRAGAGNOLLO, R. M. A produção textual do gênero resumo escolar. In: ANTONIO, J. D.; NAVARRO, P. (orgs.). Gêneros textuais em contexto de vestibular. Maringá: Eduem, 2017. p. 235-251.
BRAZ JR, O. O.; FILETO, R. Investigando coerência em postagens de um fórum de dúvidas em ambiente virtual de aprendizagem com o BERT. In: Simpósio Brasileiro Informática na Educação. Online. Anais do XXXII Simpósio Brasileiro Informática na Educação: SBC, 2021. P. 749–759. DOI: 10.5753/sbie.2021.217397.
BRAZ JR, O. O.; SANCHUKI, A.; BERTUCCI, R.; FILETO, R. Verbos Dicendi como Indicadores de Coerência em Resumos: uma análise humana e automatizada. Linguamática, Lisboa, v. 17, n. 1, p. 3-16, 2025. DOI: 10.21814/lm.17.1.461.
BUSNELLO, R. H. D. et al. Passos e listas na investigação do priming ortográfico. Psicologia: Reflexão e Crítica, Porto Alegre, v. 24, n. 2, p. 352–354, 2011. DOI: 10.1590/S0102-79722011000200017.
CAMPOS, C. M.; RIBEIRO, J. Gêneros. In: COSTA, I. B; FOLTRAN, M. J. (orgs.). A tessitura da escrita. São Paulo: Contexto, 2013. p.23-44. ISBN: 978-85-7244-782-9.
CHEN, B. et al. Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review. arXiv preprint arXiv:2310.14735, 2023. Disponível em: <https://arxiv.org/pdf/2310.14735>. Acesso em: 02 dez. 2024.
CLARK, H. H; GERRIG, R. J. Quotations as demonstrations. Language, Washington, v. 66, n. 4, p. 764–805, 1990. DOI: 10.2307/414729.
COSTA, I.; SILVA, L. P. Coerência. In: COSTA, I. B; FOLTRAN, M. J. (orgs.). A tessitura da escrita. São Paulo: Contexto, 2013. p. 64-81. ISBN: 978-85-7244-782-9.
CULIOLI, A.; NORMAND, C. Onze rencontres sur le langage et les langues. Paris: Ophrys, 2005. p. 211-213. DOI: 10.4000/linx.479.
CUNHA, N.; LIMA, T.; SANTOS, A.; OLIVEIRA, K. Teste de Cloze: evidência de validade por processo de resposta. Psicologia Escolar e Educacional, São Paulo, v. 24, p. 1-10, 2020. DOI: 10.1590/2175-35392020191537.
DE BEAUGRANDE, R.; DRESSLER, W. U. Introduction to Text Linguistics. London: Longman, 1981. v. 1. DOI: 10.4324/9781315835839.
FERNANDES, C. A autoria em textos produzidos por inteligência artificial e por alunos em uma perspectiva discursiva. Revista da ABRALIN, v. 23, n. 2, p. 214–235, 2024. DOI: 10.25189/rabralin.v23i2.2183.
GEMINI TEAM et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023. Disponível em: <https://arxiv.org/pdf/2312.11805>. Acesso em: 02 dez. 2024.
GOMES, D. P. Coerência Textual: Analisando uma Produção de texto na Educação Básica. Humanidades & Inovação, Palmas, v. 7, n. 1, p. 131–142, 2020. Disponível em: <https://revista.unitins.br/index.php/humanidadeseinovacao/article/download/1932/1337>. Acesso em: 02 dez. 2024.
GU, J. et al. A systematic survey of prompt engineering on vision-language foundation models. arXiv preprint arXiv:2307.12980, 2023. Disponível em: <https://arxiv.org/pdf/2307.12980>. Acesso em: 02 dez. 2024.
KASNECI, E. et al. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, v. 103, p. 102274, 2023. DOI: 10.1016/j.lindif.2023.102274.
KOCH, I. G. V.; TRAVAGLIA, L. C. A coerência textual. 18. ed. São Paulo: Editora Contexto, 2021.
LIU, P. et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, New York, v. 55, n. 9, p. 1–35, 2023. DOI: 10.1145/3560815.
MACHADO, A. R.; LOUSADA, E.; ABREU-TARDELLI, L. S. O Resumo Escolar: Uma Proposta de Ensino de Gênero. Signum: Estudos da Linguagem, v. 8, n. 1, p. 89–101, jul. 2005. DOI: 10.5433/2237-4876.2005v8n1p89.
MARTINS, M. A diversidade lexical na escrita de textos escolares. Fórum Linguístico, Florianópolis, Universidade Federal de Santa Catarina, v. 13, n. 1, p. 1068–1082, 2016. Disponível em: <https://dialnet.unirioja.es/descarga/articulo/6125260.pdf>.
MARVIN, G. et al. Prompt Engineering in Large Language Models. In: International conference on data intelligence and cognitive informatics. Singapore: Springer, 2024, p. 387–402, DOI: 10.1007/978-981-99-7962-2_30.
MEIRA, R. et al. A Analítica da Escrita para Identificação de Indicadores de Qualidade Textual. Revista Novas Tecnologias na Educação, v. 21, n. 2, p. 342–351, 2023. Disponível em: <https://seer.ufrgs.br/renote/article/download/137756/90942>. Acesso em: 02 dez. 2024.
NUNES, P. Escrever não é útil. Revista da ABRALIN, v. 23, n. 2, p. 192–213, 2024. DOI: 10.25189/rabralin.v23i2.2190.
PAES, A.; FREITAS, C. ChatGPT, MariTalk e outros agentes de conversação. Processamento de linguagem natural: conceitos, técnicas e aplicações em português. São Carlos: BPLN, 2023. Disponível em: <https://repositorio.usp.br/directbitstream/2d278e81-8e44-41ee-9788-26db07aa38cd/3165894.pdf>. Acesso em: 02 dez. 2024.
PAIOLA, P. H. Sumarização abstrativa de textos em português utilizando aprendizado de máquina. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual Paulista. São Paulo, 2022. Disponível em: <https://repositorio.unesp.br/server/api/core/bitstreams/43581702-4ec0-4cba-8048-4bb418950b5a/content>. Acesso em: 02 dez. 2024.
RADFORD, A. et al. Improving language understanding by generative pre-training. [S.l.]: OpenAI, 2018. Disponível em: <https://hayate-lab.com/wp-content/uploads/2023/05/43372bfa750340059ad87ac8e538c53b.pdf >. Acesso em: 02 dez. 2024.
RASSI, A. P.; LOPES, P. A. Capítulo 19 Correção automática de redação. In: CASELI, H.; NUNES, M. (orgs.). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em Português. BPLN, 2023. Disponível em: <https://brasileiraspln.com/livro-pln/1a-edicao/parte8/cap19/cap19.pdf>. Acesso em: 02 dez. 2024.
SMILKOV, D. et al. Embedding projector: Interactive visualization and interpretation of embeddings. CoRR, abs/1611.05469, 2016. Disponível em: <http://arxiv.org/abs/1611.05469>. Acesso em: 02 dez. 2024.
SOTO, M.; AUGUSTO, M. R. A.; ABEND, M. C. Processamento de orações relativas de objeto direto com pronomes resumptivos: o caso do Português Brasileiro e o efeito de lacuna preenchida. Veredas-Revista de Estudos Linguísticos, Juiz de Fora, v. 27, n. 1, 2023. Disponível em: https://periodicos.ufjf.br/index.php/veredas/article/view/40741/26857. Acesso em: 02 dez. 2024.
SOUZA, C. M. Proposta de uma abordagem para sumarização extrativa de textos científicos longos. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Minas Gerais, Belo Horizonte, 2022. Disponível em: <https://repositorio.ufmg.br/bitstream/1843/51324/1/Cinthia%20Mikaela%20de%20Souza_final%20%281%29.pdf>. Acesso em: 02 dez. 2024.
SOUZA, F.; NOGUEIRA, R.; LOTUFO, R. BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: Brazilian Conference on Intelligent Systems. Rio Grande, Brazil, 2020. P. 403–417. DOI: 10.1007/978-3-030-61377-8_28.
SOUZA, R. Modelo de estrutura retórica para leitura e escrita de resumo escolar no ensino médio técnico. pt, en. DELTA: Documentação de Estudos em Linguística Teórica e Aplicada, v. 33, p. 911–943, set. 2017. DOI: 10.1590/0102-445046525302137346.
TAYLOR, W. L. Recent developments in the use of “Cloze Procedure”. Journalism Quarterly, v. 33, n. 1, p. 42-48, 1956. DOI: 10.1177/107769905603300106.
TOUVRON, H.; LAVRIL, T. et al. LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. Disponível em: <https://arxiv.org/pdf/2302.13971>. Acesso em:
02 dez. 2024.
TOUVRON, H.; MARTIN, L. et al. LLaMA 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023. Disponível em: <https://arxiv.org/pdf/2307.09288>. Acesso em:
02 dez. 2024.
WANG, Y.; GUO, M. A short analysis of discourse coherence. Journal of Language Teaching and Research, Citeseer, v. 5, n. 2, p. 460-465, 2014. DOI: 10.4304/jltr.5.2.460-465.
