Framework genérico para geração automática de assuntos e indexação em repositório digital
Palavras-chave:
Geração Automática de Assuntos, Indexação, Coleções, Repositório Digital, Busca FacetadaResumo
Este estudo tem por objetivo apresentar um framework genérico para geração automática de assuntos, utilizando técnicas de aprendizagem de máquina na ferramenta Annif. Posteriormente, executar a indexação de dados e metadados em repositório digital, propiciando a recuperação de registros através de busca facetada. Para alcance desse objetivo, aplicou-se o framework na área da Ciência da Informação, construindo um corpus de conhecimento, baseado em metadados de 438 artigos da Base Brasileira de Ciência da Informação (BRAPCI). Utilizou-se o Tesauro Brasileiro em Ciência da Informação (TBCI) como vocabulário controlado. Empregou-se a aplicação “coletor” desenvolvida em phyton para baixar metadados e arquivos completos de Dissertações e Teses de coleções existentes no Repositório Institucional da Universidade de Brasília (RiUnB). Após o processo de treinamento do modelo com Annif, foram executadas geração automática de assuntos e indexados em repositório digital Tainacan. Nesse repositório, foram criadas taxonomias baseadas no vocabulário controlado elaborado. Ao final, foi possível parametrizar buscas facetadas com possibilidade de o usuário inserir etiquetagem e ao mesmo tempo realizar navegação web, selecionando os termos da taxonomia facetada. Conclui-se que o framework genérico proposto pode ser aplicado em qualquer área de conhecimento, auxiliando na geração automática de assuntos, indexação em repositório digital e parametrização de taxonomias facetadas para recuperação da informação.
Downloads
Referências
BRITO, J. C. B; MARTINS, D. L. Geração automática e semiautomática de metadados: uma revisão sistemática de literatura. In: XXI Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Rio de Janeiro, 25-29 de outubro de 2021. Disponível em https://brapci.inf.br/index.php/res/download/216427, Acesso em 20 jan. 2023.
BRITO, J. C. B; MARTINS, D. L. Geração automática de metadados: estudo de caso utilizando a técnica de indexação automática estatística com a ferramenta ANNIF. In: XXII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Porto Alegre, UFRGS, 7-11 de novembro de 2022. Disponível em https://enancib.ancib.org/index.php/enancib/xxiienancib/paper/viewFile/777/719, Acesso em 20 jan. 2023.
CAFÉ, L. C.; MUÑOZ, I. K. Avaliação de usabilidade no repositório institucional da Universidade de Brasília. Informação & Tecnologia, v. 3, n. 2, p. 39-61, 2016.
Disponível em: http://hdl.handle.net/20.500.11959/brapci/40954. Acesso em: 20 jan. 2023.
CRYSTAL, A; LAND, P. Metadata and Search: Global Corporate Circle DCMI 2003 Workshop. 2003. Disponível em http://www.dublincore.org/groups/corporate/Seattle/
Acesso em 20 jan. 2023.
GREENBERG, J. Metadata Extraction an Harvesting: a comparison of two automatic metadata generation applications. Journal of Internet Cataloging, vol. 6, (4), 2003.
IBICT E FUNARTE. Repositório temático com foco na produção científica a respeito das artes no Brasil. Relatório referente à meta 2 do TED 001/2020 (Ibict e Funarte) – Implementação do repositório digital da ferramenta de coleta, busca e recuperação da informação da produção científica, julho, 2022.
LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. Brasília: Briquet de Lemos Livros. 452p., 2004.
LAPPALAINEN, M; HULKKONEN, J; INKINEN, J; KALLIO, A; LEHTINEN, M; KOSKELA, M; SJÖBERG, M; SUOMINEN, O; YETUKURI, L. Automaattisen sisällönkuvailun ohjelmiston rakentaminen – case Annif. Signum, vol. 53, nº 4, 14–20, 2021.
MARTINS, D. L; SILVA, M. F; SANTAREM SEGUNDO, J. E; SIQUEIRA, J. Repositório Digital com o software livre Tainacan: revisão da ferramenta e exemplo de implantação na área cultural com a revista filme cultura. In: XVIII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação, Marília/SP, 23-27 de outubro de 2017.
MARATEA A; PETROSINO A; MANZO, M. Automatic Generation of SCORM Compliant Metadata for Portable Document Format Files. International Conference on Computer Systems and Technologies – CompSysTech, 2012.
OLIVEIRA, R. R; CARVALHO, C. L de. Implementação de Interoperabilidade entre Repositórios Digitais por meio do Protocolo OAI-PMH. Technical Report, RT-INF_003-09, Relatório Técnico, março, 2009.
PAVÃO, C. G; COSTA, J. S. B; FERREIRA, M. K; HOROWITZ, Z. Metadados e repositórios institucionais: uma relação indissociável para a qualidade da recuperação e visibilidade da informação. PontodeAcesso, Salvador, v.9, n.2, p.103-116, dez. 2015.
PINHEIRO, L. V. R; FERREZ, H. D. Tesauro Brasileiro de Ciência da Informação. Rio de Janeiro; Brasília: Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), 2014.
POLFREMAN, M; BROUGHTON, V; WILSON, A. Metadata Generation for Resource Discovery. JISC, 2008. Disponível em
http://www.jisc.ac.uk/whatwedo/programmes/resourcediscovery/autometgen.aspx
REINSEL, D; GANTZ, J; RYDNING, J. Data Age 2025: The Digitization of the world:
from edge to core. International Data Corp – IDC, Seagate, November 2018, Data refreshed May 2020. Disponível em: https://seagate.com/files/www-content/ourstory/trends/files/dataage-idc-report-final.pdf. Acesso em: 20 jan. 2023.
SILVA, L. C da; SANTAREM SEGUNDO, J. E. Componentes de representação da informação em ambientes de informação digital: estudo do sistema de organização do software Tainacan. In: XVIII Encontro Nacional de Pesquisa e Pós-Graduação em Ciência da Informação. Florianópolis/SC, 21-25 de outubro de 2019.
SUOMINEN, O. Annif: Feeding your subject indexing robot with bibliographic metadata. Liber’s 47th Annual Conference in Lille, France, Data Enhancements in the Service of Research Libraries, session 10, 2018.
SUOMINEN, O. Annif: DIY Automated Subject Indexing Using Multiple Algorithms. Liber Quarterly, vol. 29, 2019.
SUOMINEN, O. Annif, l’indexation automatique à la Bibliothèque nationale de Finlande. Ar(abes)ques, Bibliothèques de recherche en Europe, n°94 Juillet, août, septembre, 2019.
SUOMINEN, O; INKINEN, J; LEHTINEN, M. Annif and Finto AI: Developing and Implementing Automated Subject Indexing. JLIS.it, vol. 13, nº 1, january, 2022.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2023 Jean Carlos Borges, Dr. Dalton Lopes Martins
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.