Desafios de grandes modelos de linguagem generativa na reprodução de complexidade textual
um estudo com editoriais jornalísticos
DOI:
https://doi.org/10.1590/1983-3652.2025.58530Palavras-chave:
Modelos de linguagem generativa, Complexidade textual, Gêneros discursivos, Inteligência artificial e linguagem, Análise comparativa humano-IAResumo
Este artigo avalia a performance do modelo de linguagem generativa Sabiá-3 na tarefa de reproduzir aspectos de complexidade textual do gênero discursivo editorial, usando como ponto de referência editoriais produzidos por humanos. Para essa tarefa, utilizamos métricas da ferramenta computacional NILC-Metrix. Nossos resultados revelaram diferenças em quatro das cinco métricas analisadas. Os textos humanos demonstraram maior complexidade nas medidas “proporção de types em relação à quantidade de tokens” e “entropia cruzada”. Argumentamos que esse resultado pode estar vinculado, por exemplo, à capacidade humana de selecionar palavras ou realizar combinações lexicais sem a limitação de parâmetros probabilísticos. Já os textos gerados pelo modelo Sabiá-3 apresentaram maior complexidade nas métricas “sílabas por palavra” e “orações subordinadas”, possivelmente devido ao fato, entre outros aspectos, de que ferramentas do tipo não sofrem restrições de processamento cognitivo. A única métrica sem diferença estatística significativa foi “conjunções difíceis”. Atribuímos esse resultado à natureza fechada dessa classe gramatical, que limitaria variações. O estudo reforça a importância de se considerar múltiplas dimensões da complexidade textual ao avaliar a produção de grandes modelos de linguagem generativa, especialmente quando se trata de gêneros que exigem domínio linguístico refinado, tais como o editorial.
Downloads
Referências
ABONIZIO, Hugo; ALMEIDA, Thales Sales; LAITZ, Thiago; MALAQUIAS JUNIOR, Roseval; BONÁS, Giovana Kerche; NOGUEIRA, Rodrigo; PIRES, Ramon. Sabiá-3 technical report. [S. l.: s. n.], 2025. arXiv: 2410.12049. Disponível em: https://arxiv.org/abs/2410.12049.
ALMEIDA, Erica; CALLOU, Dinah. Sobre o uso variável do subjuntivo em português: um estudo de tendência. In: BRITO, Ana Maria; SILVA, Maria de Fátima Henriques da; VELOSO, João; FIÉIS, Alexandra (ed.). XXV Encontro Nacional da Associação Portuguesa de Linguística: Textos seleccionados. Porto: APL, 2010. p. 143–152.
BAKHTIN, Mikhail. Estética da criação verbal. São Paulo: Martins Fontes, 1997.
BIBER, Douglas; CONRAD, Susan. Register, genre, and style. Cambridge: Cambridge University Press, 2009. FRANCESCHELLI, Giorgio; MUSOLESI, Mirco. On the creativity of large language models. AI & SOCIETY, p. 1–11, 2024.
FRANTZ, Roger; STARR, Laura; BAILEY, Alison. Syntactic complexity as an aspect of text complexity. Educational Researcher, v. 44, n. 7, p. 387–393, 2015.
GIBSON, Edward. The dependency locality theory: a distance-based theory of linguistic complexity. In: MARANTZ, Alec; MIYASHITA, Yasushi; O’NEIL, Wayne (ed.). Image, Language, Brain: Papers from the First Mind Articulation Project Symposium. Cambridge, MA: The MIT Press, 2000. p. 95–126.
GULORDAVA, Kristina; BOJANOWSKI, Piotr; GRAVE, Edouard; LINZEN, Tal; BARONI, Marco. Colorless green recurrent networks dram hierarchically. [S. l.: s. n.], 2018. arXiv: 1803.11138. Disponível em: https://arxiv.org/abs/1803.11138.
HOLTZMAN, Ari; BUYS, Jan; DU, Li; FORBES, Maxwell; CHOI, Yejin. The curious case of neural text degeneration. [S. l.: s. n.], 2020. arXiv: 1904.09751. Disponível em: https://arxiv.org/abs/1904.09751.
LEAL, Sidney Evaldo; DURAN, Magali Sanches; SCARTON, Carolina Evaristo; HARTMANN, Nathan Siegle; ALUÍSIO, Sandra Maria. NILC-Metrix: assessing the complexity of written and spoken language in Brazilian Portuguese. Language Resources and Evaluation, v. 58, n. 1, p. 73–110, 2024.
LEVELT, Willem. Speaking: from intention to articulation. Cambridge, MA: The MIT Press, 1989.
MCNAMARA, Danielle; LOUWERSE, Max; GRAESSER, Arthur. Coh-Metrix: automated cohesion and coherence scores to predict text readability and facilitate comprehension. [S. l.: s. n.], 2002. Technical report, Institute for Intelligent Systems, University of Memphis, TN.
NAIK, Dishita; NAIK, Ishita; NAIK, Nitin. Applications of AI chatbots based on generative AI, large language models and large multimodal models. In: NAIK, Nitin; JENKINS, Paul; PRAJAPAT, Shaligram;
GRACE, Paul (ed.). Contributions Presented at The International Conference on Computing, Communication, Cybersecurity and AI, July 3–4, 2024, London, UK. Cham: Springer Nature Switzerland, 2024. p. 668–690.
PIANTADOSI, Steven T. Zipf’s word frequency law in natural language: a critical review and future directions. Psychonomic Bulletin & Review, v. 21, p. 1112–1130, 2014.
RADFORD, Alec; WU, Jeffrey; CHILD, Rewon; LUAN, David; AMODEI, Dario; SUTSKEVER, Ilya. Language models are unsupervised multitask learners. OpenAI blog, v. 1, n. 8, p. 1–9, 2019.
REISENBICHLER, Martin; REUTTERER, Thomas; SCHWEIDEL, David A.; DAN, Daniel. Frontiers: supporting content marketing with natural language generation. Marketing Science, v. 41, n. 3, p. 441–452, 2022.
TEAM, R Core. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2021. Disponível em: https://www.R-project.org/.
TOUVRON, Hugo; LAVRIL, Thibaut; IZACARD, Gautier; MARTINET, Xavier; LACHAUX, Marie-Anne; LACROIX, Timothée; ROZIÈRE, Baptiste; GOYAL, Naman; HAMBRO, Eric; AZHAR, Faisal; RODRIGUEZ, Aurelien; JOULIN, Armand; GRAVE, Edouard; LAMPLE, Guillaume. LLaMA: open and efficient foundation language models. [S. l.: s. n.], 2023. arXiv: 2302.13971. Disponível em: https://arxiv.org/abs/2302.13971.
VASWANI, Ashish; SHAZEER, Noam; PARMAR, Niki; USZKOREIT, Jakob; JONES, Llion; GOMEZ, Aidan; KAISER, Lukasz; POLOSUKHIN, Illia. Attention is all you need. In: LUXBURG, Ulrike von; GUYON, Isabelle; BENGIO, Samy; WALLACH, Hanna; FERGUS, Rob; VISHWANATHAN, S.; GARNETT, Roman (ed.). Advances in Neural Information Processing Systems 30. Red Hook: Curran Associates, Inc., 2018. p. 5999–6009.
VIEIRA, Rosaura Maria Marques. O editorial de jornal. In: DELL’ISOLA, Regina Lúcia Péret (ed.). Nos domínios dos gêneros textuais. Belo Horizonte: FALE/UFMG, 2009. v. 2. p. 15–20.
WELLECK, Sean; KULIKOV, Ilia; ROLLER, Stephen; DINAN, Emily; CHO, Kyunghyun; WESTON, Jason. Neural text generation with unlikelihood training. [S. l.: s. n.], 2019. arXiv: 1908.04319. Disponível em: https://arxiv.org/abs/1908.04319.
Downloads
Publicado
Declaração de Disponibilidade de Dados
Os dados de pesquisa só estão disponíveis mediante solicitação.
Edição
Seção
Licença
Copyright (c) 2025 André Luis Antonelli

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Este é um artigo em acesso aberto que permite o uso irrestrito, a distribuição e reprodução em qualquer meio desde que o artigo original seja devidamente citado.








