Systems for automatic indexing by assignment: a comparative analysis
DOI:
https://doi.org/10.5007/1518-2924.2020.e70740Keywords:
Automatic Indexing, Automatic Indexing by Assignment, Automatic Indexing Systems, Natural Language Processing, Information retrievalAbstract
Objective: This work presents a comparative analysis between two multilingual automatic indexing systems that perform term assignment: SISA and MAUI. The SISA (Semi-automatic Indexing System) made in Spain and initially proposed for the area of Librarianship and Documentation, it is a specialist system that automatically indexes following a thesaurus and predetermined rules of indexation which are based on the frequency and position of the terms. The MAUI (Multi-purpose Automatic Topic Indexing) is a system of New Zealand origin that presents the specificity of use of a thesaurus and algorithm of machine learning to generate model through the results of the intellectual indexing, being the terms represented by statistical features.
Methods: The research is exploratory and bibliographical, where the method used to construct this work was the comparative study based on content analysis of the scientific publications containing experience reports of application of that software. The stages of the research consisted of describing and comparing the characteristics of each system, raising information about how the documents are processed, how the systems performs the extraction and selection of the descriptors terms, and the application context.
Results: The results show the approaches, main operations, the resources used by each system during the automatic indexing process, as well as the application context and quality of results.
Conclusions: It hopes to contribute to the studies on the topic of automatic indexing in the deepening discussion about descriptive and comparative categories related to methods and techniques implemented in the systems.
Downloads
References
BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de informação: conceitos e tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013.
BANDIM, M. A. S.; CORREA, R. F. Indexação automática por atribuição de artigos científicos em português da área de Ciência da Informação. Transinformação, v. 31, p. 1-12, 2019.
BANDIM, M. A. S; CORRÊA, R. F. A consistência na indexação automática por atribuição de artigos científicos na área de Ciência da Informação. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 23, n. 53, p. 64-77, set. 2018.
BORKO, H.; BERNIER, C. Indexing concepts and methods. New York: Academic Press, 1978.
CAJUEIRO, R. L. P. Manual para elaboração de trabalhos acadêmicos: guia prático do estudante. 3. ed. Petrópolis: Vozes, 2015. 110 p.
CERVO, A. L.; BERVIAN, P. A.; SILVA, R. Metodologia científica. 6. ed. São Paulo: Pearson Prentice Hall, 2007. 162 p.
CINTRA, A. M. M. Elementos de lingüística para estudos de indexação. Ciência da Informação, v. 12, n. 1, 1983.
FUJITA, M. S. L. A identificação de conceitos no processo de análise de assunto para indexação. Revista Digital de Biblioteconomia e Ciência da Informação. Campinas, v. 1, n. 1, p. 60-90, jul/dez. 2003.
FUJITA, M. S. L. A leitura documentária do indexador: aspectos cognitivos e linguísticos influentes na formação do leitor profissional. 2003. 21 f. Tese (Livre-Docência em Análise Documentária e Linguagens Documentárias Alfabéticas) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2003.
FUJITA, M. S. L.; GIL-LEIVA, I. As linguagens de indexação em bibliotecas nacionais, arquivos nacionais e sistemas de informação na América Latina. Rio de Janeiro: Universidade Federal do Rio de Janeiro, 2010.
GIL LEIVA, I. La automatización de la indización de documentos. Gijón: Trea, 1999.
GIL LEIVA, I. Manual de indización: teoría y práctica. Gijón: Trea, 2009.
GIL LEIVA, I. SISA – Automatic indexing system for scientific articles: Experiments with location heuristics rules versus TF-IDF Rules. Knowledge Organization, v.44, n. 3, p. 139-162, 2017.
HJØRLAND, B. Automatic Indexing. In: Lifeboat for Knowledge Organization, 2008.
KIM, S. N.; MEDELYAN, O.; KAN, M.Y.; BALDWIN, T. Automatic Keyphrase extraction from Scientific Articles. In: Language Resources and Evaluation (2013) v. 47, n. 3, p. 723-742, Springer. December 2012.
LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. Brasília: Briquet de Lemos Livros, 2004. 452p.
LIMA, V. N. M. A.; BOCCATO, V. R. C. O desempenho terminológico dos descritores em ciência da informação do vocabulário controlado do sibi/usp nos processos de indexação manual, automática e semi-automática. Perspectivas em Ciência da Informação, v. 14, n. 1, p. 131-151, 2009.
MEDELYAN, O. Human-competitive automatic topic indexing. PhD Thesis. University of Waikato, New Zealand, 2009. Disponível em: https://hdl.handle.net/10289/3513 . Acesso em: 26/06/2019.
MEDELYAN, O.; FRANK, E.; WITTEN, I.H. Human-competitive tagging using automatic keyphrase extraction. In: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009.
MOREIRO GONZÁLEZ. J. A. El contenido de los documentos textuales: su análiis y representacíon mediante el lenguaje natural. Gijón (Astúrias): Trea, 2004. 291 p.
NARUKAWA, C. M. Estudo de Vocabulário Controlado na Indexação Automática: Aplicação no Processo de Indexação do Sistema de Indización Semiautomatica (SISA). 2011. 222 f. Dissertação (Mestrado) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2011.
NARUKAWA, C. M.; GIL LEIVA, I.; FUJITA, M. S. L. Indexação Automatizada de Artigos de Periódicos Científicos: análise da aplicação do software SISA com uso da terminologia DeCS na área de Odontologia. Informação e Sociedade: Estudos, João Pessoa, v.19, n.2, p. 99-118, 2009.
ROBREDO, J. Documentação de hoje e de amanhã: uma abordagem revisitada e contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas, documentárias, arquivísticas e museológicas. 4. ed. rev. e ampl. Brasília DF: Edição de autor, 2005.
ROBREDO, J. Indexação automática de textos: uma abordagem otimizada e simples. Ciência da Informação, v. 20, n. 2, 1991.
SILVA, M.R.; FUJITA, M.S.L. A prática de indexação: análise da evolução de tendências teóricas e metodológicas. Campinas: Transinformação. V. 16(2), p. 133-161, maio/ago. 2004.
Published
How to Cite
Issue
Section
License
Copyright (c) 2020 Sâmela Rouse de Brito Silva, Renato Fernandes Correa
This work is licensed under a Creative Commons Attribution 4.0 International License.
The author must guarantee that:
- there is full consensus among all the coauthors in approving the final version of the document and its submission for publication.
- the work is original, and when the work and/or words from other people were used, they were properly acknowledged.
Plagiarism in all of its forms constitutes an unethical publication behavior and is unacceptable. Encontros Bibli has the right to use software or any other method of plagiarism detection.
All manuscripts submitted to Encontros Bibli go through plagiarism and self-plagiarism identification. Plagiarism identified during the evaluation process will result in the filing of the submission. In case plagiarism is identified in a manuscript published in the journal, the Editor-in-Chief will conduct a preliminary investigation and, if necessary, will make a retraction.
This journal, following the recommendations of the Open Source movement, provides full open access to its content. By doing this, the authors keep all of their rights allowing Encontros Bibli to publish and make its articles available to the whole community.
Encontros Bibli content is licensed under a Creative Commons Attribution 4.0 International License.
Any user has the right to:
- Share - copy, download, print or redistribute the material in any medium or format.
- Adapt - remix, transform and build upon the material for any purpose, even commercially.
According to the following terms:
- Attribution - You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use.
- No additional restrictions - You may not apply legal terms or technological measures that legally restrict others from doing anything that the license permits.