Dados sintéticos para treinamento de Inteligência Artificial:: intersecções com a Organização e Representação da Informação e do Conhecimento

Ananda Fernanda de Jesus; Wesley Algarve; José Eduardo Santarem Segundo

PDF

Published: 2026-07-22

Ananda Fernanda de Jesus

Universidade Estadual Paulista, Marília, SP, Brasil.

https://orcid.org/0000-0001-7873-6040

Wesley Algarve

Universidade Estadual Paulista, Marília, SP, Brasil.

https://orcid.org/0000-0003-3528-8510

José Eduardo Santarem Segundo

Universidade Estadual Paulista, Marília, SP, Brasil / Universidade de São Paulo, Ribeirão Preto, SP, Brasil.

https://orcid.org/0000-0003-3360-7872

Abstract

Enquanto os dados reais são coletados de diferentes contextos do mundo real — como a observação de fenômenos diversos ou a interação de pessoas com sistemas e máquinas — os dados sintéticos são gerados por meio da aplicação de diferentes técnicas, com o objetivo de ampliar, equilibrar ou diversificar um determinado conjunto de dados. O uso de dados sintéticos não é recente: há muito tempo é empregado em análises estatísticas e, com frequência, no campo da Inteligência Artificial. No entanto, o atual contexto tecnológico, marcado pela proliferação de Grandes Modelos de Linguagem e pela popularização das Inteligências Artificiais Generativas, tem evidenciado a necessidade de volumes massivos de dados para o treinamento e a evolução contínua desses modelos, o que tem ampliado significativamente a adoção de dados sintéticos no treinamento de diferentes tipos de Inteligência Artificial. Reconhecendo a importância dos dados sintéticos nesse cenário, a presente pesquisa busca apresentar e discutir conceitos relacionados a esse tipo de dado, bem como identificar suas possíveis interfaces com as áreas de Organização e Representação da Informação e do Conhecimento. Para isso, parte-se da identificação e discussão dos conceitos pertinentes, por meio de um estudo de terminologia pontual e de uma análise exploratória baseada em um protocolo de pesquisa. Como resultado, espera-se traçar relações entre o contexto dos dados sintéticos e a representação da informação e a organização do conhecimento, identificando tanto os desafios que esses dados impõem à representação quanto as potenciais contribuições que a representação e a organização podem oferecer a esse universo.

Issue

Vol. 6 No. 1 (2026): Dossiê Temático: Tratamento, Organização, Representação do Conhecimento

Section

Research Articles

This work is licensed under a Creative Commons Attribution 4.0 International License.

From: https://creativecommons.org/licenses/by/4.0/

You are free to:

Share — copy and redistribute the material in any medium or format
Adapt — remix, transform, and build upon the material
for any purpose, even commercially.

This license is acceptable for Free Cultural Works.

The licensor cannot revoke these freedoms as long as you follow the license terms.

Under the following terms:

Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use.

No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits.

Notices:

You do not have to comply with the license for elements of the material in the public domain or where your use is permitted by an applicable exception or limitation.
No warranties are given. The license may not give you all of the permissions necessary for your intended use. For example, other rights such as publicity, privacy, or moral rights may limit how you use the material.

Author Biographies

Ananda Fernanda de Jesus, Universidade Estadual Paulista, Marília, SP, Brasil.

Doutora em Ciência da Informação pela Universidade Estadual Paulista (UNESP). Mestre em Ciência da Informação pela Universidade Federal de São Carlos (UFSCar). Bolsa estágio de pesquisa no exterior (BEPE) na Universidad de La República (UDELAR). Bacharel em Biblioteconomia e Ciência da Informação pela UFSCar.

Wesley Algarve, Universidade Estadual Paulista, Marília, SP, Brasil.

Doutorando e Mestre em Ciência da Informação pela Universidade Estadual Paulista (UNESP). Bacharel em Biblioteconomia e Ciência da Informação pela Universidade Federal de São Carlos (UFSCar).

José Eduardo Santarem Segundo, Universidade Estadual Paulista, Marília, SP, Brasil / Universidade de São Paulo, Ribeirão Preto, SP, Brasil.

Livre Docente em Informação e Tecnologia pela Universidade de São Paulo (USP), 2020. Pós-Doutorado pela Faculdade de Engenharia da Computação da Western University/Canadá, 2018. Doutor e Mestre em Ciência da Informação pela Universidade Estadual Paulista (UNESP); Professor Doutor no Departamento de Educação, Informação e Comunicação, da USP; Docente do Programa de Pós-Graduação em Ciência da Informação da UNESP/Marília na linha de Informação e Tecnologia.

How to Cite

Dados sintéticos para treinamento de Inteligência Artificial:: intersecções com a Organização e Representação da Informação e do Conhecimento. (2026). Advances in Knowledge Representation, 6(1), 130-156. https://periodicos.ufmg.br/index.php/advances-kr/article/view/64683

Article Sidebar

Main Article Content