Framework genérico para geração automática de assuntos e indexação em repositório digital

Autores

Palavras-chave:

Geração Automática de Assuntos, Indexação, Coleções, Repositório Digital, Busca Facetada

Resumo

Este estudo tem por objetivo apresentar um framework genérico para geração automática de assuntos, utilizando técnicas de aprendizagem de máquina na ferramenta Annif. Posteriormente, executar a indexação de dados e metadados em repositório digital, propiciando a recuperação de registros através de busca facetada. Para alcance desse objetivo, aplicou-se o framework na área da Ciência da Informação, construindo um corpus de conhecimento, baseado em metadados de 438 artigos da Base Brasileira de Ciência da Informação (BRAPCI). Utilizou-se o Tesauro Brasileiro em Ciência da Informação (TBCI) como vocabulário controlado. Empregou-se a aplicação “coletor” desenvolvida em phyton para baixar metadados e arquivos completos de Dissertações e Teses de coleções existentes no Repositório Institucional da Universidade de Brasília (RiUnB). Após o processo de treinamento do modelo com Annif, foram executadas geração automática de assuntos e indexados em repositório digital Tainacan. Nesse repositório, foram criadas taxonomias baseadas no vocabulário controlado elaborado. Ao final, foi possível parametrizar buscas facetadas com possibilidade de o usuário inserir etiquetagem e ao mesmo tempo realizar navegação web, selecionando os termos da taxonomia facetada. Conclui-se que o framework genérico proposto pode ser aplicado em qualquer área de conhecimento, auxiliando na geração automática de assuntos, indexação em repositório digital e parametrização de taxonomias facetadas para recuperação da informação.

Downloads

Não há dados estatísticos.

Biografia do Autor

Jean Carlos Borges, Universidade de Brasília (UNB)

Doutorando na UNB em Ciência da Informação, Mestre em Gestão do Conhecimento e da Tecnologia da Informação pela Universidade Católica de Brasília - UCB/2010; Pós-Graduado em Gestão Estratégica pela Universidade Cândido Mendes - UCAM/2014, Pós-Graduado em Gerência de Projetos com Ênfase em Sistemas de Informação - FAST/2005; Bacharel em Sistemas de Informação - FACEB/2004. Trabalha na área de TI há 22 anos com experiências na área de Infraestrutura de TI, Desenvolvimento/Programação de Sistemas, Telecomunicações, Auditoria de TI, Capacitação e Gestão de Projetos. Experiência em Governança de TI e alinhamento estratégico entre TI e Negócio, possuindo certificações em ITIL e COBIT, além de experiência como Docente em Centro Universitário, ministrando 11 disciplinas na área de Tecnologia. Atualmente trabalha como Coordenador de Tecnologia da Informação e Comunicação na Agência Espacial Brasileira - AEB.

Dr. Dalton Lopes Martins, Universidade de Brasília (UNB)

Professor no curso de Biblioteconomia e atualmente coordenador (2022-2024) do Programa de Pós-graduação em Ciência da Informação PGGCinf da Faculdade de Ciência da Informação (FCI) na Universidade de Brasília (UnB). É também professor permanente no Programa de Pós-Graduação em Estudos da Condição Humana PPGECH da Universidade Federal de São Carlos. Possui graduação em Engenharia Elétrica pela Universidade Estadual de Campinas (2002) e mestrado em Engenharia da Computação pela Universidade Estadual de Campinas (2004). Doutor em Ciências da Informação pela ECA-USP (2009-2012), trabalhando com o tema de mapeamento, análise estrutural e dinâmica de Redes Sociais em ambientes digitais distribuídos. Pesquisa sobre os temas objetos e repositórios digitais, acervos digitais e estratégias de interoperabilidade de sistemas de informação, dados abertos ligados, ciência de dados e aprendizagem de máquina com ênfase na análise de objetos digitais. Coordena o projeto de pesquisa Tainacan - software livre para a construção social de repositórios digitais - parceria com o Instituto Brasileiro de Museus (IBRAM), o governo do estado do Espírito Santo, a Fundação Nacional das Artes (FUNARTE) e o Instituto Brasileiro do Patrimônio Histórico e Artístico Nacional (IPHAN).

Referências

BRITO, J. C. B; MARTINS, D. L. Geração automática e semiautomática de metadados: uma revisão sistemática de literatura. In: XXI Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Rio de Janeiro, 25-29 de outubro de 2021. Disponível em https://brapci.inf.br/index.php/res/download/216427, Acesso em 20 jan. 2023.

BRITO, J. C. B; MARTINS, D. L. Geração automática de metadados: estudo de caso utilizando a técnica de indexação automática estatística com a ferramenta ANNIF. In: XXII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Porto Alegre, UFRGS, 7-11 de novembro de 2022. Disponível em https://enancib.ancib.org/index.php/enancib/xxiienancib/paper/viewFile/777/719, Acesso em 20 jan. 2023.

CAFÉ, L. C.; MUÑOZ, I. K. Avaliação de usabilidade no repositório institucional da Universidade de Brasília. Informação & Tecnologia, v. 3, n. 2, p. 39-61, 2016.

Disponível em: http://hdl.handle.net/20.500.11959/brapci/40954. Acesso em: 20 jan. 2023.

CRYSTAL, A; LAND, P. Metadata and Search: Global Corporate Circle DCMI 2003 Workshop. 2003. Disponível em http://www.dublincore.org/groups/corporate/Seattle/

Acesso em 20 jan. 2023.

GREENBERG, J. Metadata Extraction an Harvesting: a comparison of two automatic metadata generation applications. Journal of Internet Cataloging, vol. 6, (4), 2003.

IBICT E FUNARTE. Repositório temático com foco na produção científica a respeito das artes no Brasil. Relatório referente à meta 2 do TED 001/2020 (Ibict e Funarte) – Implementação do repositório digital da ferramenta de coleta, busca e recuperação da informação da produção científica, julho, 2022.

LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. Brasília: Briquet de Lemos Livros. 452p., 2004.

LAPPALAINEN, M; HULKKONEN, J; INKINEN, J; KALLIO, A; LEHTINEN, M; KOSKELA, M; SJÖBERG, M; SUOMINEN, O; YETUKURI, L. Automaattisen sisällönkuvailun ohjelmiston rakentaminen – case Annif. Signum, vol. 53, nº 4, 14–20, 2021.

MARTINS, D. L; SILVA, M. F; SANTAREM SEGUNDO, J. E; SIQUEIRA, J. Repositório Digital com o software livre Tainacan: revisão da ferramenta e exemplo de implantação na área cultural com a revista filme cultura. In: XVIII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação, Marília/SP, 23-27 de outubro de 2017.

MARATEA A; PETROSINO A; MANZO, M. Automatic Generation of SCORM Compliant Metadata for Portable Document Format Files. International Conference on Computer Systems and Technologies – CompSysTech, 2012.

OLIVEIRA, R. R; CARVALHO, C. L de. Implementação de Interoperabilidade entre Repositórios Digitais por meio do Protocolo OAI-PMH. Technical Report, RT-INF_003-09, Relatório Técnico, março, 2009.

PAVÃO, C. G; COSTA, J. S. B; FERREIRA, M. K; HOROWITZ, Z. Metadados e repositórios institucionais: uma relação indissociável para a qualidade da recuperação e visibilidade da informação. PontodeAcesso, Salvador, v.9, n.2, p.103-116, dez. 2015.

PINHEIRO, L. V. R; FERREZ, H. D. Tesauro Brasileiro de Ciência da Informação. Rio de Janeiro; Brasília: Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), 2014.

POLFREMAN, M; BROUGHTON, V; WILSON, A. Metadata Generation for Resource Discovery. JISC, 2008. Disponível em

http://www.jisc.ac.uk/whatwedo/programmes/resourcediscovery/autometgen.aspx

REINSEL, D; GANTZ, J; RYDNING, J. Data Age 2025: The Digitization of the world:

from edge to core. International Data Corp – IDC, Seagate, November 2018, Data refreshed May 2020. Disponível em: https://seagate.com/files/www-content/ourstory/trends/files/dataage-idc-report-final.pdf. Acesso em: 20 jan. 2023.

SILVA, L. C da; SANTAREM SEGUNDO, J. E. Componentes de representação da informação em ambientes de informação digital: estudo do sistema de organização do software Tainacan. In: XVIII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Florianópolis/SC, 21-25 de outubro de 2019.

SUOMINEN, O. Annif: Feeding your subject indexing robot with bibliographic metadata. Liber’s 47th Annual Conference in Lille, France, Data Enhancements in the Service of Research Libraries, session 10, 2018.

SUOMINEN, O. Annif: DIY Automated Subject Indexing Using Multiple Algorithms. Liber Quarterly, vol. 29, 2019.

SUOMINEN, O. Annif, l’indexation automatique à la Bibliothèque nationale de Finlande. Ar(abes)ques, Bibliothèques de recherche en Europe, n°94 Juillet, août, septembre, 2019.

SUOMINEN, O; INKINEN, J; LEHTINEN, M. Annif and Finto AI: Developing and Implementing Automated Subject Indexing. JLIS.it, vol. 13, nº 1, january, 2022.

Downloads

Publicado

2023-11-24

Como Citar

Borges Brito, J. C., & Martins, D. L. (2023). Framework genérico para geração automática de assuntos e indexação em repositório digital. Perspectivas Em Ciência Da Informação, 28(Fluxo Contínuo), e46629. Recuperado de https://periodicos.ufmg.br/index.php/pci/article/view/46629