Dados sintéticos para treinamento de Inteligência Artificial: intersecções com a Organização e Representação da Informação e do Conhecimento

Main Article Content

Ananda Fernanda de Jesus
Wesley Algarve
José Eduardo Santarem Segundo

Abstract

Enquanto os dados reais são coletados de diferentes contextos do mundo real — como a observação de fenômenos diversos ou a interação de pessoas com sistemas e máquinas — os dados sintéticos são gerados por meio da aplicação de diferentes técnicas, com o objetivo de ampliar, equilibrar ou diversificar um determinado conjunto de dados. O uso de dados sintéticos não é recente: há muito tempo é empregado em análises estatísticas e, com frequência, no campo da Inteligência Artificial. No entanto, o atual contexto tecnológico, marcado pela proliferação de Grandes Modelos de Linguagem e pela popularização das Inteligências Artificiais Generativas, tem evidenciado a necessidade de volumes massivos de dados para o treinamento e a evolução contínua desses modelos, o que tem ampliado significativamente a adoção de dados sintéticos no treinamento de diferentes tipos de Inteligência Artificial. Reconhecendo a importância dos dados sintéticos nesse cenário, a presente pesquisa busca apresentar e discutir conceitos relacionados a esse tipo de dado, bem como identificar suas possíveis interfaces com as áreas de Organização e Representação da Informação e do Conhecimento. Para isso, parte-se da identificação e discussão dos conceitos pertinentes, por meio de um estudo de terminologia pontual e de uma análise exploratória baseada em um protocolo de pesquisa. Como resultado, espera-se traçar relações entre o contexto dos dados sintéticos e a representação da informação e a organização do conhecimento, identificando tanto os desafios que esses dados impõem à representação quanto as potenciais contribuições que a representação e a organização podem oferecer a esse universo.

Article Details

Section

Research Articles

Author Biographies

Ananda Fernanda de Jesus, Universidade Estadual Paulista, Marília, SP, Brasil.

Doutora em Ciência da Informação pela Universidade Estadual Paulista (UNESP). Mestre em Ciência da Informação pela Universidade Federal de São Carlos (UFSCar). Bolsa estágio de pesquisa no exterior (BEPE) na Universidad de La República (UDELAR). Bacharel em Biblioteconomia e Ciência da Informação pela UFSCar.

Wesley Algarve, Universidade Estadual Paulista, Marília, SP, Brasil.

Doutorando e Mestre em Ciência da Informação pela Universidade Estadual Paulista (UNESP). Bacharel em Biblioteconomia e Ciência da Informação pela Universidade Federal de São Carlos (UFSCar). 

José Eduardo Santarem Segundo, Universidade Estadual Paulista, Marília, SP, Brasil / Universidade de São Paulo, Ribeirão Preto, SP, Brasil.

Livre Docente em Informação e Tecnologia pela Universidade de São Paulo (USP), 2020. Pós-Doutorado pela Faculdade de Engenharia da Computação da Western University/Canadá, 2018. Doutor e Mestre em Ciência da Informação pela Universidade Estadual Paulista (UNESP); Professor Doutor no Departamento de Educação, Informação e Comunicação, da USP; Docente do Programa de Pós-Graduação em Ciência da Informação da UNESP/Marília na linha de Informação e Tecnologia.

How to Cite

Dados sintéticos para treinamento de Inteligência Artificial:: intersecções com a Organização e Representação da Informação e do Conhecimento. (2026). Advances in Knowledge Representation, 6(1), 130-156. https://periodicos.ufmg.br/index.php/advances-kr/article/view/64683