The temporal flow of relevant terms

an analysis in UFMG theses from 2007 to 2018 in human sciences

Authors

  • Luiz Antonio lopes Mesquita Universidade Federal de Minas Gerais https://orcid.org/0000-0002-0484-0117
  • Célia da Consolação Dias Universidade Federal de Minas Gerais
  • Renato Rocha Souza Fundação Getúlio Vargas / Universidade Federal de Minas Gerais

DOI:

https://doi.org/10.35699/2237-6658.2021.37241

Keywords:

Temporal Information Retrieval, Automatic Indexing, Noun Phrase

Abstract

This research's general objective was to analyze if there is a temporal variation characteristic of the distribution of values of relevant terms over the time of the production of texts that can contribute as a criterion for the automatic indexing process. The doctoral theses of the graduate programs (PPGs) in Human Sciences at UFMG were analyzed, considering seven different PPGs, each of which is a corpus, with 929 theses defended in a period of twelve years, from 2007 to 2018. The terms considered were all the noun phrases contained in the texts of the theses. Each noun phrase received a value associated with its relevance as a descriptor according to the term frequency criteria in the thesis itself (TF - Term Frequency) and with the inverse of the frequency of occurrence of the term in the total of theses of each PPG (IDF - Inverse Document Frequency). The theses were divided into 12 groups in each PPG to calculate the average defense date of the theses and the average consolidated score of the relevant terms in the theses. As a result, each PPG's characteristic behavior was identified through a scatter plot of the average level of relevance score over time. For each graph of each of the 7 PPGs, a trend line was added, considering its respective R², and its specific analysis was made. All temporal distribution behaviors were characterized in polynomial equations and applied as a criterion for automatic indexing.

Downloads

Download data is not yet available.

References

BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Modern Information Retrieval: The concepts and technology behind search. 2nd ed. Harlow: Pearson Education Limited, 2011.

BORGES, Graciane Bruzinga; LIMA, Gercina Ângela. DESENVOLVIMENTO DE SOFTWARES DE INDEXAÇÃO AUTOMÁTICA: BREVE AVALIAÇÃO DOS PRINCIPAIS CRITÉRIOS. 2015. XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação [...]. [S. l.: s. n.], 2015.

BORKO, Harold. Indexing concepts and methods. New York (etc.)London: New York etc.London : Academic Press, 1978, 1978.

BORKO, Harold. Toward a theory of indexing. Information Processing and Management, vol. 13, no. 6, p. 355–365, 1977. https://doi.org/10.1016/0306-4573(77)90055-3.

BUSH, Vannevar. As we may think. The atlantic monthly, vol. 176, no. 1, p. 101–108, 1945. .

CINTRA, Anna Maria Marques. Elementos de lingüística para estudos de indexação. Ciência da informação, vol. 12, no. 1, 1983.

CORRÊA, Renato Fernandes; DE MIRANDA, Darliane Goes; DE ALMEIDA LIMA, Camila Oliveira; DA SILVA, Tiago José. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ: novas práticas em informação e conhecimento, vol. 1, no. 1, p. 11–22, 2011.

DUCHON, Andrew P; MCCORMACK, Robert; SALTER, William J; ALLOPENNA, Paul David; WEIL, Shawn; COLONNA-ROMANO, John; KRAMER, David. Method and system to predict the likelihood of topics. [S. l.]: Google Patents, 20 Oct. 2015.

KURAMOTO, Hélio. Proposition d’un système de recherche d’information assistée par ordinateur: avec application à la langue portugaise. 1999.

KURAMOTO, Hélio. Uma abordagem alternativa para o tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da Informação, vol. 25, no. 2, p. 182–192, 1996. Available at: http://ridi.ibict.br/handle/123456789/221.

LANCASTER, F W. Indexação e resumos: teoria e prática. Tradução de Antônio Agenor Briquet de Lemos. rev. atual. 2004.

LUHN, Hans Peter. A statistical approach to mechanized encoding and searching of literary information. IBM Journal of research and development, vol. 1, no. 4, p. 309–317, 1957.

LYONS, John. Linguagem e linguística: uma introdução. Rio de Janeiro: LTC - Livros Técnicos e Científicos, 1987.

MAIA, Luiz Claudio Gomes. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008. 158 f. Universidade Federal de Minas Gerais, 2008. Available at: http://hdl.handle.net/1843/ECID-7NXJKZ.

MATHEWS, Litty K; KANMANI, S Deepa. A survey on temporal information retrieval systems. International Journal of Computer Applications, vol. 58, no. 4, 2012.

MESQUITA, Luiz Antônio Lopes; SOUZA, Renato Rocha; PORTO, Renata Maria Abrantes Baracho. Caracterização de testes de oito áreas de conhecimento: uma análise para o desempenho de indexação automática através de sintagmas nominais. 2013. XIV ENANCIB [...]. Florianópolis: [s. n.], 2013. p. 20. Available at: http://repositorios.questoesemrede.uff.br/repositorios/handle/123456789/2295.

MESQUITA, Luiz Antônio Lopes; SOUZA, Renato Rocha Souza; PORTO, Renata Maria Abrantes Baracho. Noun Phrases in Automatic Indexing: a Structural Analysis of the Distribution of Relevant Terms in Doctoral Theses. 2014. 13th International ISKO Conference - Knowledge Organization in te 21s Century: Between Historical Patterns and Future Prospects. [...]. Cracow: [s. n.], 2014. p. 327–334.

MOOERS, Calvin N. Zatocoding applied to mechanical organization of knowledge. American documentation, vol. 2, no. 1, p. 20–32, 1951. https://doi.org/10.1002/ASI.5090020107.

MOULAHI, Bilel; TAMINE, Lynda; YAHIA, Sadok Ben. When time meets information retrieval: Past proposals, current plans and future trends. Journal of Information Science, vol. 42, no. 6, p. 725–747, 2016.

NAVES, MADALENA M LOPES; DIAS, E W. Análise de assunto: teoria e prática. [S. l.]: Thesaurus Editora, 2007. vol. 3.

ORTEGA, Cristina Dotta. Relações históricas entre biblioteconomia, documentação e ciência da informação. DataGramaZero, Rio de Janeiro, vol. 5, no. 5, p. A03-1001, 2009.

PERINI, Mário A; FRAIHA, Sigrid; FULGÊNCIO, Lúcia; NETO, Regina Bessa. O SN em português: A hipótese mórfica. Belo Horizonte: Revista de Estudos de Linguagem-UFMG, vol. JUlho/Deze, p. 43–56, 1996.

SARACEVIC, Tefko. Ciência da informação: origem, evolução e relações. Perspectivas em ciência da informação, vol. 1, no. 1, p. 41–62, 1996.

SOUZA, Renato Rocha. Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais. 2005. 215 f. UFMG, 2005.

SPARCK JONES, Karen. A STATISTICAL INTERPRETATION OF TERM SPECIFICITY AND ITS APPLICATION IN RETRIEVAL. Journal of Documentation, vol. 28, no. 1, p. 11–21, 1972. https://doi.org/10.1108/eb026526.

Published

2021-12-04

How to Cite

MESQUITA, L. A. lopes; DIAS, C. da C.; SOUZA, R. R. The temporal flow of relevant terms: an analysis in UFMG theses from 2007 to 2018 in human sciences. Múltiplos Olhares em Ciência da Informação , Belo Horizonte, n. Especial, 2021. DOI: 10.35699/2237-6658.2021.37241. Disponível em: https://periodicos.ufmg.br/index.php/moci/article/view/37241. Acesso em: 12 may. 2024.

Most read articles by the same author(s)

1 2 > >>