A coerência na predição de verbos dicendi em resumos: comparação entre capacidades humanas e de atuais modelos de linguagem

Osmar de Oliveira  Braz Junior; Roberlei Alves Bertucci; Renato Fileto

doi:10.17851/2237-2083.33.4.47-71

Autores

Osmar de Oliveira Braz Junior Universidade do Estado de Santa Catarina (UDESC) | Florianópolis | SC | BR https://orcid.org/0000-0003-0321-4787
Roberlei Alves Bertucci Universidade Tecnológica Federal do Paraná (UTFPR) | Curitiba | PR | BR | Universidade Federal de Santa Catarina (UFSC) | Curitiba | PR | BR | Fundação Araucária | Curitiba | PR | BR https://orcid.org/0000-0003-4014-5610
Renato Fileto Universidade Federal de Santa Catarina (UFSC) | Curitiba | PR | Brasil https://orcid.org/0000-0002-7941-6281

DOI:

https://doi.org/10.17851/2237-2083.33.4.47-71

Palavras-chave:

coerência, resumo escolar, predição de palavras, verbos dicendi, modelo de linguagem de grande escala

Resumo

A relação entre a tecnologia e a linguagem humana é tema de debate crescente, especialmente com o surgimento de modelos de linguagem de grande escala (LLMs) e sua capacidade de produção textual. Essa pesquisa justifica-se pela importância de verificar a proximidade entre as produções linguísticas dos LLMs e as humanas, partindo do pressuposto de que a linguagem humana é moldada pelo conhecimento epilinguístico. Para isso, conduziu-se um estudo comparativo em que se pediu a estudantes e a LLMs que sugerissem verbos (dicendi) para completar coerentemente lacunas em um resumo de um texto-base. A escolha de um resumo escolar foi motivada pela necessidade de profunda compreensão do texto original e coerência textual, o que representa um desafio tanto para humanos quanto para LLMs. A metodologia incluiu a comparação das sugestões dos alunos e 5 LLMs via chat, buscando avaliar a coerência com o texto-fonte. Os resultados mostram que tanto LLMs quanto humanos apresentaram boas sugestões nas lacunas. No entanto, os resultados contrariam a hipótese inicial de que os humanos apresentariam uma maior diversidade lexical. Por outro lado, os resultados indicam também que LLMs têm um desempenho melhor quanto às coerências local e global. Estes fatos sugerem que os LLMs podem ser uma ferramenta de apoio para os estudos relacionados à intersecção entre linguagem e tecnologia, inclusive para o ensino.

Biografia do Autor

Osmar de Oliveira Braz Junior, Universidade do Estado de Santa Catarina (UDESC) | Florianópolis | SC | BR

Osmar de Oliveira Braz é bacharel em Ciências da Computação pela Universidade do Sul de Santa Catarina (1997) e mestre em Engenharia de Produção pela Universidade Federal de Santa Catarina (2000). Professor assistente da Universidade do Estado de Santa Catarina(UDESC) e professor horista da Universidade do Sul de Santa Catarina(UNISUL). Tem experiência na área de Ciência da Computação, com ênfase em Engenharia de Software, atuando principalmente nos seguintes temas: sistema de informação, educação a distância, engenharia de software e banco de dados.
Roberlei Alves Bertucci, Universidade Tecnológica Federal do Paraná (UTFPR) | Curitiba | PR | BR | Universidade Federal de Santa Catarina (UFSC) | Curitiba | PR | BR | Fundação Araucária | Curitiba | PR | BR

Roberlei Alves Bertucci é graduado em Literatura Português-Inglês pela PUCPR (2004); mestre em Literatura (Estudos Linguísticos) pela UFPR (2007) e doutor em Linguística pela USP (2011). Concluiu parte do doutorado na Université Paris 8 (2009-2010). Realizou pesquisa de pós-doutorado na Bar-Ilan University em Israel (2012). Atualmente é professor da Universidade Tecnológica Federal do Paraná (UTFPR). Interessa-se por diferentes processos gramaticais (formais) de produção de significado em línguas naturais, tais como: sintaxe, semântica e pragmática de línguas naturais, especialmente o português brasileiro; descrição e análise linguística nos domínios verbal e nominal, especialmente por meio de ferramentas tecnológicas; e aplicação de fundamentos e descobertas linguísticas a ferramentas tecnológicas digitais.
Renato Fileto, Universidade Federal de Santa Catarina (UFSC) | Curitiba | PR | Brasil

Renato Fileto é bacharel em Ciência da Computação pela Universidade Federal de Uberlândia (1992), mestre (1994) e doutor (2003) em Ciência da Computação pela Universidade Estadual de Campinas, Brasil, com estágio no Georgia Institute of Technology, EUA (2002), e pós-doutorado pela Universidade de São Paulo (2012). Sua carreira de pesquisa está interligada com atividades na indústria. Desde 2006, é professor permanente do Departamento de Informática e Estatística (INE) da Universidade Federal de Santa Catarina (UFSC), em Florianópolis-SC, Brasil. Sua área de pesquisa é ciência de dados, com foco em sistemas inteligentes para análise de dados.

Referências

ABONIZIO, H. et al. Sabiá-3 Technical Report. arXiv preprint arXiv:2410.12049, 2024. Disponível em: <https://arxiv.org/pdf/2410.12049>. Acesso em: 02 dez. 2024.

ABREU, K. O teste de Cloze como instrumento de medida da proficiência em leitura: fatores linguísticos e não linguísticos. Revista de Estudos da Linguagem, Belo Horizonte, v. 25, n. 3, p. 1767-1799, 2017. DOI: 10.17851/2237-2083.25.3.1767-1799.

ANTHROPIC. Introducing Claude 3.5 Sonnet. [s.l.], 2024. Disponível em: https://www.anthropic.com/news/claude-3-5-sonnet. Acesso em: 25 nov. 2024.

BICUDO, C.; HILA, C. O bom resumo em situação de vestibular. Claraboia, Jacarezinho, v. 2, n. 2, p. 102–114, 2015. Disponível em: <https://core.ac.uk/download/pdf/229002452.pdf>. Acesso em:

02 dez. 2024.

BIRAL, J. Operações recorrentes na produção de resumos. 2003. Dissertação (Mestrado em Letras) – Universidade Federal do Paraná, Curitiba, 2003. Disponível em: <https://acervodigital.ufpr.br/handle/1884/24499>. Acesso em: 02 dez. 2024.

BRAGAGNOLLO, R. M. A produção textual do gênero resumo escolar. In: ANTONIO, J. D.; NAVARRO, P. (orgs.). Gêneros textuais em contexto de vestibular. Maringá: Eduem, 2017. p. 235-251.

BRAZ JR, O. O.; FILETO, R. Investigando coerência em postagens de um fórum de dúvidas em ambiente virtual de aprendizagem com o BERT. In: Simpósio Brasileiro Informática na Educação. Online. Anais do XXXII Simpósio Brasileiro Informática na Educação: SBC, 2021. P. 749–759. DOI: 10.5753/sbie.2021.217397.

BRAZ JR, O. O.; SANCHUKI, A.; BERTUCCI, R.; FILETO, R. Verbos Dicendi como Indicadores de Coerência em Resumos: uma análise humana e automatizada. Linguamática, Lisboa, v. 17, n. 1, p. 3-16, 2025. DOI: 10.21814/lm.17.1.461.

BUSNELLO, R. H. D. et al. Passos e listas na investigação do priming ortográfico. Psicologia: Reflexão e Crítica, Porto Alegre, v. 24, n. 2, p. 352–354, 2011. DOI: 10.1590/S0102-79722011000200017.

CAMPOS, C. M.; RIBEIRO, J. Gêneros. In: COSTA, I. B; FOLTRAN, M. J. (orgs.). A tessitura da escrita. São Paulo: Contexto, 2013. p.23-44. ISBN: 978-85-7244-782-9.

CHEN, B. et al. Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review. arXiv preprint arXiv:2310.14735, 2023. Disponível em: <https://arxiv.org/pdf/2310.14735>. Acesso em: 02 dez. 2024.

CLARK, H. H; GERRIG, R. J. Quotations as demonstrations. Language, Washington, v. 66, n. 4, p. 764–805, 1990. DOI: 10.2307/414729.

COSTA, I.; SILVA, L. P. Coerência. In: COSTA, I. B; FOLTRAN, M. J. (orgs.). A tessitura da escrita. São Paulo: Contexto, 2013. p. 64-81. ISBN: 978-85-7244-782-9.

CULIOLI, A.; NORMAND, C. Onze rencontres sur le langage et les langues. Paris: Ophrys, 2005. p. 211-213. DOI: 10.4000/linx.479.

CUNHA, N.; LIMA, T.; SANTOS, A.; OLIVEIRA, K. Teste de Cloze: evidência de validade por processo de resposta. Psicologia Escolar e Educacional, São Paulo, v. 24, p. 1-10, 2020. DOI: 10.1590/2175-35392020191537.

DE BEAUGRANDE, R.; DRESSLER, W. U. Introduction to Text Linguistics. London: Longman, 1981. v. 1. DOI: 10.4324/9781315835839.

FERNANDES, C. A autoria em textos produzidos por inteligência artificial e por alunos em uma perspectiva discursiva. Revista da ABRALIN, v. 23, n. 2, p. 214–235, 2024. DOI: 10.25189/rabralin.v23i2.2183.

GEMINI TEAM et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023. Disponível em: <https://arxiv.org/pdf/2312.11805>. Acesso em: 02 dez. 2024.

GOMES, D. P. Coerência Textual: Analisando uma Produção de texto na Educação Básica. Humanidades & Inovação, Palmas, v. 7, n. 1, p. 131–142, 2020. Disponível em: <https://revista.unitins.br/index.php/humanidadeseinovacao/article/download/1932/1337>. Acesso em: 02 dez. 2024.

GU, J. et al. A systematic survey of prompt engineering on vision-language foundation models. arXiv preprint arXiv:2307.12980, 2023. Disponível em: <https://arxiv.org/pdf/2307.12980>. Acesso em: 02 dez. 2024.

KASNECI, E. et al. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, v. 103, p. 102274, 2023. DOI: 10.1016/j.lindif.2023.102274.

KOCH, I. G. V.; TRAVAGLIA, L. C. A coerência textual. 18. ed. São Paulo: Editora Contexto, 2021.

LIU, P. et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, New York, v. 55, n. 9, p. 1–35, 2023. DOI: 10.1145/3560815.

MACHADO, A. R.; LOUSADA, E.; ABREU-TARDELLI, L. S. O Resumo Escolar: Uma Proposta de Ensino de Gênero. Signum: Estudos da Linguagem, v. 8, n. 1, p. 89–101, jul. 2005. DOI: 10.5433/2237-4876.2005v8n1p89.

MARTINS, M. A diversidade lexical na escrita de textos escolares. Fórum Linguístico, Florianópolis, Universidade Federal de Santa Catarina, v. 13, n. 1, p. 1068–1082, 2016. Disponível em: <https://dialnet.unirioja.es/descarga/articulo/6125260.pdf>.

MARVIN, G. et al. Prompt Engineering in Large Language Models. In: International conference on data intelligence and cognitive informatics. Singapore: Springer, 2024, p. 387–402, DOI: 10.1007/978-981-99-7962-2_30.

MEIRA, R. et al. A Analítica da Escrita para Identificação de Indicadores de Qualidade Textual. Revista Novas Tecnologias na Educação, v. 21, n. 2, p. 342–351, 2023. Disponível em: <https://seer.ufrgs.br/renote/article/download/137756/90942>. Acesso em: 02 dez. 2024.

NUNES, P. Escrever não é útil. Revista da ABRALIN, v. 23, n. 2, p. 192–213, 2024. DOI: 10.25189/rabralin.v23i2.2190.

PAES, A.; FREITAS, C. ChatGPT, MariTalk e outros agentes de conversação. Processamento de linguagem natural: conceitos, técnicas e aplicações em português. São Carlos: BPLN, 2023. Disponível em: <https://repositorio.usp.br/directbitstream/2d278e81-8e44-41ee-9788-26db07aa38cd/3165894.pdf>. Acesso em: 02 dez. 2024.

PAIOLA, P. H. Sumarização abstrativa de textos em português utilizando aprendizado de máquina. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Estadual Paulista. São Paulo, 2022. Disponível em: <https://repositorio.unesp.br/server/api/core/bitstreams/43581702-4ec0-4cba-8048-4bb418950b5a/content>. Acesso em: 02 dez. 2024.

RADFORD, A. et al. Improving language understanding by generative pre-training. [S.l.]: OpenAI, 2018. Disponível em: <https://hayate-lab.com/wp-content/uploads/2023/05/43372bfa750340059ad87ac8e538c53b.pdf >. Acesso em: 02 dez. 2024.

RASSI, A. P.; LOPES, P. A. Capítulo 19 Correção automática de redação. In: CASELI, H.; NUNES, M. (orgs.). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em Português. BPLN, 2023. Disponível em: <https://brasileiraspln.com/livro-pln/1a-edicao/parte8/cap19/cap19.pdf>. Acesso em: 02 dez. 2024.

SMILKOV, D. et al. Embedding projector: Interactive visualization and interpretation of embeddings. CoRR, abs/1611.05469, 2016. Disponível em: <http://arxiv.org/abs/1611.05469>. Acesso em: 02 dez. 2024.

SOTO, M.; AUGUSTO, M. R. A.; ABEND, M. C. Processamento de orações relativas de objeto direto com pronomes resumptivos: o caso do Português Brasileiro e o efeito de lacuna preenchida. Veredas-Revista de Estudos Linguísticos, Juiz de Fora, v. 27, n. 1, 2023. Disponível em: https://periodicos.ufjf.br/index.php/veredas/article/view/40741/26857. Acesso em: 02 dez. 2024.

SOUZA, C. M. Proposta de uma abordagem para sumarização extrativa de textos científicos longos. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Minas Gerais, Belo Horizonte, 2022. Disponível em: <https://repositorio.ufmg.br/bitstream/1843/51324/1/Cinthia%20Mikaela%20de%20Souza_final%20%281%29.pdf>. Acesso em: 02 dez. 2024.

SOUZA, F.; NOGUEIRA, R.; LOTUFO, R. BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: Brazilian Conference on Intelligent Systems. Rio Grande, Brazil, 2020. P. 403–417. DOI: 10.1007/978-3-030-61377-8_28.

SOUZA, R. Modelo de estrutura retórica para leitura e escrita de resumo escolar no ensino médio técnico. pt, en. DELTA: Documentação de Estudos em Linguística Teórica e Aplicada, v. 33, p. 911–943, set. 2017. DOI: 10.1590/0102-445046525302137346.

TAYLOR, W. L. Recent developments in the use of “Cloze Procedure”. Journalism Quarterly, v. 33, n. 1, p. 42-48, 1956. DOI: 10.1177/107769905603300106.

TOUVRON, H.; LAVRIL, T. et al. LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. Disponível em: <https://arxiv.org/pdf/2302.13971>. Acesso em:

02 dez. 2024.

TOUVRON, H.; MARTIN, L. et al. LLaMA 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023. Disponível em: <https://arxiv.org/pdf/2307.09288>. Acesso em:

02 dez. 2024.

WANG, Y.; GUO, M. A short analysis of discourse coherence. Journal of Language Teaching and Research, Citeseer, v. 5, n. 2, p. 460-465, 2014. DOI: 10.4304/jltr.5.2.460-465.

A coerência na predição de verbos dicendi em resumos

comparação entre capacidades humanas e de atuais modelos de linguagem

Autores

DOI:

Palavras-chave:

Resumo

Biografia do Autor

Referências

Downloads

Publicado

Edição

Seção

Como Citar

Artigos mais lidos pelo mesmo(s) autor(es)

Artigos mais recentes

Informações

Idioma