Framework genérico para geração automática de assuntos e indexação em repositório digital

Autores/as

Palabras clave:

Geração Automática de Assuntos, Indexação, Coleções, Repositório Digital, Busca Facetada

Resumen

Este estudo tem por objetivo apresentar um framework genérico para geração automática de assuntos, utilizando técnicas de aprendizagem de máquina na ferramenta Annif. Posteriormente, executar a indexação de dados e metadados em repositório digital, propiciando a recuperação de registros através de busca facetada. Para alcance desse objetivo, aplicou-se o framework na área da Ciência da Informação, construindo um corpus de conhecimento, baseado em metadados de 438 artigos da Base Brasileira de Ciência da Informação (BRAPCI). Utilizou-se o Tesauro Brasileiro em Ciência da Informação (TBCI) como vocabulário controlado. Empregou-se a aplicação “coletor” desenvolvida em phyton para baixar metadados e arquivos completos de Dissertações e Teses de coleções existentes no Repositório Institucional da Universidade de Brasília (RiUnB). Após o processo de treinamento do modelo com Annif, foram executadas geração automática de assuntos e indexados em repositório digital Tainacan. Nesse repositório, foram criadas taxonomias baseadas no vocabulário controlado elaborado. Ao final, foi possível parametrizar buscas facetadas com possibilidade de o usuário inserir etiquetagem e ao mesmo tempo realizar navegação web, selecionando os termos da taxonomia facetada. Conclui-se que o framework genérico proposto pode ser aplicado em qualquer área de conhecimento, auxiliando na geração automática de assuntos, indexação em repositório digital e parametrização de taxonomias facetadas para recuperação da informação.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Jean Carlos Borges Brito, Universidade de Brasília (UNB)

Estudiante de doctorado de la UNB en Ciencias de la Información, Maestría en Gestión del Conocimiento y Tecnologías de la Información de la Universidad Católica de Brasilia - UCB/2010; Posgrado en Gestión Estratégica de la Universidad Cândido Mendes - UCAM/2014, Posgrado en Gestión de Proyectos con Énfasis en Sistemas de Información - FAST/2005; Licenciatura en Sistemas de Información - FACEB/2004. Lleva 22 años trabajando en el área de TI con experiencia en el área de Infraestructura de TI, Desarrollo/Programación de Sistemas, Telecomunicaciones, Auditoría de TI, Capacitación y Gestión de Proyectos. Experiencia en Gobierno de TI y alineamiento estratégico entre TI y Negocio, con certificaciones en ITIL y COBIT, además de experiencia como Docente en Centro Universitario, impartiendo 11 materias en el área de Tecnología. Actualmente trabaja como Coordinador de Tecnologías de la Información y la Comunicación en la Agencia Espacial Brasileña - AEB.

Dalton Lopes Martins, Universidade de Brasília (UNB)

Professor no curso de Biblioteconomia e atualmente coordenador (2022-2024) do Programa de Pós-graduação em Ciência da Informação PGGCinf da Faculdade de Ciência da Informação (FCI) na Universidade de Brasília (UnB). É também professor permanente no Programa de Pós-Graduação em Estudos da Condição Humana PPGECH da Universidade Federal de São Carlos. Possui graduação em Engenharia Elétrica pela Universidade Estadual de Campinas (2002) e mestrado em Engenharia da Computação pela Universidade Estadual de Campinas (2004). Doutor em Ciências da Informação pela ECA-USP (2009-2012), trabalhando com o tema de mapeamento, análise estrutural e dinâmica de Redes Sociais em ambientes digitais distribuídos. Pesquisa sobre os temas objetos e repositórios digitais, acervos digitais e estratégias de interoperabilidade de sistemas de informação, dados abertos ligados, ciência de dados e aprendizagem de máquina com ênfase na análise de objetos digitais. Coordena o projeto de pesquisa Tainacan - software livre para a construção social de repositórios digitais - parceria com o Instituto Brasileiro de Museus (IBRAM), o governo do estado do Espírito Santo, a Fundação Nacional das Artes (FUNARTE) e o Instituto Brasileiro do Patrimônio Histórico e Artístico Nacional (IPHAN).

Citas

BRITO, J. C. B; MARTINS, D. L. Geração automática e semiautomática de metadados: uma revisão sistemática de literatura. In: XXI Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Rio de Janeiro, 25-29 de outubro de 2021. Disponível em https://brapci.inf.br/index.php/res/download/216427, Acesso em 20 jan. 2023.

BRITO, J. C. B; MARTINS, D. L. Geração automática de metadados: estudo de caso utilizando a técnica de indexação automática estatística com a ferramenta ANNIF. In: XXII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Porto Alegre, UFRGS, 7-11 de novembro de 2022. Disponível em https://enancib.ancib.org/index.php/enancib/xxiienancib/paper/viewFile/777/719, Acesso em 20 jan. 2023.

CAFÉ, L. C.; MUÑOZ, I. K. Avaliação de usabilidade no repositório institucional da Universidade de Brasília. Informação & Tecnologia, v. 3, n. 2, p. 39-61, 2016.

Disponível em: http://hdl.handle.net/20.500.11959/brapci/40954. Acesso em: 20 jan. 2023.

CRYSTAL, A; LAND, P. Metadata and Search: Global Corporate Circle DCMI 2003 Workshop. 2003. Disponível em http://www.dublincore.org/groups/corporate/Seattle/

Acesso em 20 jan. 2023.

GREENBERG, J. Metadata Extraction an Harvesting: a comparison of two automatic metadata generation applications. Journal of Internet Cataloging, vol. 6, (4), 2003.

IBICT E FUNARTE. Repositório temático com foco na produção científica a respeito das artes no Brasil. Relatório referente à meta 2 do TED 001/2020 (Ibict e Funarte) – Implementação do repositório digital da ferramenta de coleta, busca e recuperação da informação da produção científica, julho, 2022.

LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. Brasília: Briquet de Lemos Livros. 452p., 2004.

LAPPALAINEN, M; HULKKONEN, J; INKINEN, J; KALLIO, A; LEHTINEN, M; KOSKELA, M; SJÖBERG, M; SUOMINEN, O; YETUKURI, L. Automaattisen sisällönkuvailun ohjelmiston rakentaminen – case Annif. Signum, vol. 53, nº 4, 14–20, 2021.

MARTINS, D. L; SILVA, M. F; SANTAREM SEGUNDO, J. E; SIQUEIRA, J. Repositório Digital com o software livre Tainacan: revisão da ferramenta e exemplo de implantação na área cultural com a revista filme cultura. In: XVIII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação, Marília/SP, 23-27 de outubro de 2017.

MARATEA A; PETROSINO A; MANZO, M. Automatic Generation of SCORM Compliant Metadata for Portable Document Format Files. International Conference on Computer Systems and Technologies – CompSysTech, 2012.

OLIVEIRA, R. R; CARVALHO, C. L de. Implementação de Interoperabilidade entre Repositórios Digitais por meio do Protocolo OAI-PMH. Technical Report, RT-INF_003-09, Relatório Técnico, março, 2009.

PAVÃO, C. G; COSTA, J. S. B; FERREIRA, M. K; HOROWITZ, Z. Metadados e repositórios institucionais: uma relação indissociável para a qualidade da recuperação e visibilidade da informação. PontodeAcesso, Salvador, v.9, n.2, p.103-116, dez. 2015.

PINHEIRO, L. V. R; FERREZ, H. D. Tesauro Brasileiro de Ciência da Informação. Rio de Janeiro; Brasília: Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), 2014.

POLFREMAN, M; BROUGHTON, V; WILSON, A. Metadata Generation for Resource Discovery. JISC, 2008. Disponível em

http://www.jisc.ac.uk/whatwedo/programmes/resourcediscovery/autometgen.aspx

REINSEL, D; GANTZ, J; RYDNING, J. Data Age 2025: The Digitization of the world:

from edge to core. International Data Corp – IDC, Seagate, November 2018, Data refreshed May 2020. Disponível em: https://seagate.com/files/www-content/ourstory/trends/files/dataage-idc-report-final.pdf. Acesso em: 20 jan. 2023.

SILVA, L. C da; SANTAREM SEGUNDO, J. E. Componentes de representação da informação em ambientes de informação digital: estudo do sistema de organização do software Tainacan. In: XVIII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Florianópolis/SC, 21-25 de outubro de 2019.

SUOMINEN, O. Annif: Feeding your subject indexing robot with bibliographic metadata. Liber’s 47th Annual Conference in Lille, France, Data Enhancements in the Service of Research Libraries, session 10, 2018.

SUOMINEN, O. Annif: DIY Automated Subject Indexing Using Multiple Algorithms. Liber Quarterly, vol. 29, 2019.

SUOMINEN, O. Annif, l’indexation automatique à la Bibliothèque nationale de Finlande. Ar(abes)ques, Bibliothèques de recherche en Europe, n°94 Juillet, août, septembre, 2019.

SUOMINEN, O; INKINEN, J; LEHTINEN, M. Annif and Finto AI: Developing and Implementing Automated Subject Indexing. JLIS.it, vol. 13, nº 1, january, 2022.

Publicado

2023-11-24

Cómo citar

Borges Brito, J. C., & Martins, D. L. (2023). Framework genérico para geração automática de assuntos e indexação em repositório digital. Perspectivas Em Ciência Da Informação, 28(Fluxo Contínuo), e46629. Recuperado a partir de https://periodicos.ufmg.br/index.php/pci/article/view/46629