Noun phase selection in automatic indexing

Authors

DOI:

https://doi.org/10.5007/1518-2924.2019.e57927

Keywords:

Automatic indexing, Noun phrases, Noun phrase selection, Portuguese language, Information retrieval

Abstract

Objective: this study aims to synthetize and classify the noun phrases selection criteria present in methods for automatic indexing by noun phrases of texts written in Portuguese.

Methods: The research methodology has an exploratory nature and bibliographic character, and has the content analysis as procedural method. The bases of the noun phrases selection methodologies are criteria as absolute frequency of occurrence, normalized frequency of occurrence, inverse document frequency, non-occurrence in list of stopwords, and the grammatical structure and level of noun phrases.

Conclusions: As for the criteria scope, predominates in quantity those based on the noun phrases characteristics (grammatical structure, level, lexical content), in adoption predominates those based on the document content and the corpus content.

Results: The main contribution of this work is the panoramic overview of the noun phrases selection criteria for texts written in the Portuguese idiom.

Downloads

Download data is not yet available.

Author Biographies

Gustavo Diniz do Nascimento, Universidade Federal de Campina Grande, Biblioteca Central, Campina Grande, PB.

Mestre em Ciência da Informação. Bibliotecário da Universidade Federal de Campina Grande.

Renato Fernandes Correa, Universidade Federal de Pernambuco, Departamento de Ciência da Informação, Recife, PE.

Doutor em Ciência da Computação. Docente do Programa de Pós-Graduação em Ciência da Informação da UFPE.

References

ARAUJO, Eliany Alvarenga; OLIVEIRA, Marlene de. A produção de conhecimentos e a origem das bibliotecas. In.: OLIVEIRA, Marlene de. (Organizadora). Ciência da Informação e Biblioteconomia: novos conteúdos e espaços de atuação. 2. ed. Belo Horizonte: UFMG, 2011.

BARDIN, Laurence. Análise de conteúdo. São Paulo: Edições 70, 2011, 229 p.

BORGES, Graciane Silva Bruzinga; MACULAN, Benildes Coura Moreira dos; LIMA, Gercina Ângela Borém de. Indexação Automática e Semântica: estudo da análise do conteúdo de teses e dissertações. Informação & Sociedade: Estudos, João Pessoa-PB, v. 18, n.2, p. 181-193, mai./ago. 2008.

BORGES, Graciane Silva Bruzinga; LIMA, Gercina Ângela Borém de. O. Desenvolvimento de softwares de indexação automática: breve avaliação dos principais critérios. Informação & Tecnologia, v. 2, n. 2, 2015.

BRITO, Marcilio de. Sistemas de Informação em linguagem natural: em busca de uma indexação automática. Ciência da Informação, Brasília, v.21, n.3, p. 223-232, set./dez. 1992.

CORRÊA, Renato Fernandes et. al. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ, Curitiba, v. 1, n. 1, p. 11-22, jan./jun. 2011. DOI: http://dx.doi.org/10.5380/atoz.v1i1.41280.

CORRÊA, Renato Fernandes; BAZÍLIO, Luiz Henrique Teixeira. Análise da extração de descritores como sintagmas nominais através do software OGMA. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 22, n. 50, p. 44-58, set. 2017. DOI: https://doi.org/10.5007/1518-2924.2017v22n50p44.

CORRÊA, Renato Fernandes; LAPA, Remi Correia. Panorama de Estudos sobre indexação automática no âmbito da Ciência da Informação no Brasil (1973-2012). Ciência da Informação. Brasília, DF, v. 42, n. 2, p. 255-273, maio/ago. 2013.

KURAMOTO, Hélio. Uma abordagem alternativa para o tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da Informação, v. 25, n. 2, p. 1- 18, 1995.

KURAMOTO, Hélio. Sintagmas nominais: uma nova proposta para a recuperação de informação. DataGramaZero – revista de ciência da informação. Rio de Janeiro, v. 3, n. 1, fev. 2002.Nãopaginado.

LE GUERN, Michel. Unanalyseurmorpho-syntaxique pour I'indexationautomatique. Le Français:Moderne, juin, 1991.

LOPES, Lucelene. Extração automática de conceitos a partir de textos em língua portuguesa. 2012, 156 f. Tese (Doutorado em Ciência da Computação). Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.

MAIA, Luiz Cláudio Gomes. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008, 158 f. Tese (Doutorado em Ciência da Informação). – Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, 2008.

MAIA, Luiz Cláudio Gomes; SOUZA, Renato Rocha. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da Informação, v. 15, n.1, p. 154-172, 2010.

MARTINS, Agnaldo Lopes. O uso do sintagma nominal na recuperação de documentos [manuscrito]: proposta de um mecanismo automático para classificação temática de textos digitais. 2014, 192 f. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, 2014.

MESQUITA, Luiz Antônio Lopes; SOUZA, Renato Rocha; PORTO, Renata Maria Abrantes Baracho. Características de Teses de oito áreas de conhecimento: uma análise para o desempenho de indexação automática através de sintagmas nominais. In.: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 14., 2013, Santa Catarina. Anais... Florianópolis, SC, 2013.

PERINI, Mário A. Gramática do português brasileiro. São Paulo: Parábola editorial, 2010. 336 p.

SOUZA, Renato Rocha. Uma proposta de metodologia para a escolha automática de descritores utilizando sintagmas nominais. 2005. 197 f. Tese (Doutorado) – Curso de Doutorado em Ciência da Informação, Escola de Ciência da Informação, Universidade Federal de Minas Gerais – UFMG, Belo Horizonte, 2005.

SOUZA, Renato Rocha. Uma proposta de metodologia para indexação automática utilizando sintagmas nominais. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação. Florianópolis, v. 11, n. esp., p. 42-59, 1º sem. 2006. DOI: https://doi.org/10.5007/1518-2924.2006v11nesp1p42.

SOUZA, Renato Rocha; ALVARENGA NETO, Rivadávia Correa Drummond de; MENDES, Kellen Christina Ignácia. Mapeamento semântico através da análise de ocorrência de descritores sobre gestão do conhecimento. Transinformação, Campinas, v. 19, n.1, p. 19-30, jan./abr., 2007.DOI: http://dx.doi.org/10.1590/S0103-37862007000100002.

SOUZA, Renato Rocha; RAGHAVAN, Koti S. A methodology for noun phrase-based automatic indexing. Knowledge Organization, v. 33, n. 1, p. 45-56, 2006.

SOUZA, Renato Rocha; RAGHAVAN, Koti S. Extraction of keywords from texts: an exploratory study using noun phrases. Informação & Tecnologia (ITEC). Marília/ João Pessoa. v. 1, n. 1. p. 5-16, jan./jun., 2014.

SILVA, Tiago José da; CORRÊA, Renato Fernandes. Ferramentas para indexação automática: uma análise comparativa entre o OGMA, Parser PALAVRAS, LX-Parser e a extração manual de sintagmas nominais. In.: XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação, 2015, João Pessoa. Anais do XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação. João Pessoa: PPGCI/UFPB, 2015. p. 1-20.

VIEIRA, Simone Bastos. Indexação automática e manual: revisão de literatura. Ciência da Informação Brasília, v.17, n. 1, p. 43-57, jan./jun. 1988.

Published

2019-05-06

How to Cite

NASCIMENTO, Gustavo Diniz do; CORREA, Renato Fernandes. Noun phase selection in automatic indexing. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, [S. l.], v. 24, n. 55, p. 1–19, 2019. DOI: 10.5007/1518-2924.2019.e57927. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2019.e57927. Acesso em: 8 nov. 2024.

Issue

Section

Articles