Seleção de sintagmas nominais na indexação automática

Gustavo Diniz do Nascimento, Renato Fernandes Correa

Resumo


O uso dos sintagmas nominais como instrumentos de organização da informação vem se mostrando uma alternativa promissora às palavras isoladas na construção dos sistemas de recuperação de informação. Nesse contexto, a indexação automática por sintagmas nominais minimiza alguns problemas encontrados na indexação baseada em palavras isoladas, como, por exemplo, a sinonímia e a polissemia. No entanto, é notório que nem todos os sintagmas nominais que se encontram em um documento são representativos do conteúdo desse documento, o que demonstra a necessidade de se selecionar os sintagmas nominais mais relevantes. Assim, o objetivo deste estudo consiste em sintetizar e classificar critérios de seleção de sintagmas nominais utilizados em metodologias de indexação automática por sintagmas nominais para textos escritos em língua portuguesa. A metodologia da pesquisa tem natureza exploratória, de cunho bibliográfico, e tem como método procedimental a análise de conteúdo. As metodologias de seleção de sintagmas nominais baseiam-se em critérios como: frequência absoluta de ocorrência, frequência normalizada de ocorrência, frequência inversa nos documentos, não ocorrência em lista de sintagmas nominais pouco significativos, na estrutura gramatical e no nível dos sintagmas nominais. Quanto ao escopo dos critérios, predominam em número os baseados em características do sintagma nominal (estrutura gramatical, nível, conteúdo lexical) e quanto a adoção predominam os baseados no conteúdo do documento e no conteúdo do corpus. A principal contribuição deste estudo consiste do panorama dos critérios de seleção de sintagmas nominais relevantes para textos em português.


Palavras-chave


Indexação automática; Sintagmas nominais; Seleção de sintagmas nominais; Língua portuguesa; Recuperação da informação

Texto completo:

Artigo PDF/A

Referências


ARAUJO, Eliany Alvarenga; OLIVEIRA, Marlene de. A produção de conhecimentos e a origem das bibliotecas. In.: OLIVEIRA, Marlene de. (Organizadora). Ciência da Informação e Biblioteconomia: novos conteúdos e espaços de atuação. 2. ed. Belo Horizonte: UFMG, 2011.

BARDIN, Laurence. Análise de conteúdo. São Paulo: Edições 70, 2011, 229 p.

BORGES, Graciane Silva Bruzinga; MACULAN, Benildes Coura Moreira dos; LIMA, Gercina Ângela Borém de. Indexação Automática e Semântica: estudo da análise do conteúdo de teses e dissertações. Informação & Sociedade: Estudos, João Pessoa-PB, v. 18, n.2, p. 181-193, mai./ago. 2008.

BORGES, Graciane Silva Bruzinga; LIMA, Gercina Ângela Borém de. O. Desenvolvimento de softwares de indexação automática: breve avaliação dos principais critérios. Informação & Tecnologia, v. 2, n. 2, 2015.

BRITO, Marcilio de. Sistemas de Informação em linguagem natural: em busca de uma indexação automática. Ciência da Informação, Brasília, v.21, n.3, p. 223-232, set./dez. 1992.

CORRÊA, Renato Fernandes et. al. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ, Curitiba, v. 1, n. 1, p. 11-22, jan./jun. 2011. DOI: http://dx.doi.org/10.5380/atoz.v1i1.41280.

CORRÊA, Renato Fernandes; BAZÍLIO, Luiz Henrique Teixeira. Análise da extração de descritores como sintagmas nominais através do software OGMA. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 22, n. 50, p. 44-58, set. 2017. DOI: https://doi.org/10.5007/1518-2924.2017v22n50p44.

CORRÊA, Renato Fernandes; LAPA, Remi Correia. Panorama de Estudos sobre indexação automática no âmbito da Ciência da Informação no Brasil (1973-2012). Ciência da Informação. Brasília, DF, v. 42, n. 2, p. 255-273, maio/ago. 2013.

KURAMOTO, Hélio. Uma abordagem alternativa para o tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da Informação, v. 25, n. 2, p. 1- 18, 1995.

KURAMOTO, Hélio. Sintagmas nominais: uma nova proposta para a recuperação de informação. DataGramaZero – revista de ciência da informação. Rio de Janeiro, v. 3, n. 1, fev. 2002.Nãopaginado.

LE GUERN, Michel. Unanalyseurmorpho-syntaxique pour I'indexationautomatique. Le Français:Moderne, juin, 1991.

LOPES, Lucelene. Extração automática de conceitos a partir de textos em língua portuguesa. 2012, 156 f. Tese (Doutorado em Ciência da Computação). Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.

MAIA, Luiz Cláudio Gomes. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008, 158 f. Tese (Doutorado em Ciência da Informação). – Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, 2008.

MAIA, Luiz Cláudio Gomes; SOUZA, Renato Rocha. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da Informação, v. 15, n.1, p. 154-172, 2010.

MARTINS, Agnaldo Lopes. O uso do sintagma nominal na recuperação de documentos [manuscrito]: proposta de um mecanismo automático para classificação temática de textos digitais. 2014, 192 f. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, 2014.

MESQUITA, Luiz Antônio Lopes; SOUZA, Renato Rocha; PORTO, Renata Maria Abrantes Baracho. Características de Teses de oito áreas de conhecimento: uma análise para o desempenho de indexação automática através de sintagmas nominais. In.: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 14., 2013, Santa Catarina. Anais... Florianópolis, SC, 2013.

PERINI, Mário A. Gramática do português brasileiro. São Paulo: Parábola editorial, 2010. 336 p.

SOUZA, Renato Rocha. Uma proposta de metodologia para a escolha automática de descritores utilizando sintagmas nominais. 2005. 197 f. Tese (Doutorado) – Curso de Doutorado em Ciência da Informação, Escola de Ciência da Informação, Universidade Federal de Minas Gerais – UFMG, Belo Horizonte, 2005.

SOUZA, Renato Rocha. Uma proposta de metodologia para indexação automática utilizando sintagmas nominais. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação. Florianópolis, v. 11, n. esp., p. 42-59, 1º sem. 2006. DOI: https://doi.org/10.5007/1518-2924.2006v11nesp1p42.

SOUZA, Renato Rocha; ALVARENGA NETO, Rivadávia Correa Drummond de; MENDES, Kellen Christina Ignácia. Mapeamento semântico através da análise de ocorrência de descritores sobre gestão do conhecimento. Transinformação, Campinas, v. 19, n.1, p. 19-30, jan./abr., 2007.DOI: http://dx.doi.org/10.1590/S0103-37862007000100002.

SOUZA, Renato Rocha; RAGHAVAN, Koti S. A methodology for noun phrase-based automatic indexing. Knowledge Organization, v. 33, n. 1, p. 45-56, 2006.

SOUZA, Renato Rocha; RAGHAVAN, Koti S. Extraction of keywords from texts: an exploratory study using noun phrases. Informação & Tecnologia (ITEC). Marília/ João Pessoa. v. 1, n. 1. p. 5-16, jan./jun., 2014.

SILVA, Tiago José da; CORRÊA, Renato Fernandes. Ferramentas para indexação automática: uma análise comparativa entre o OGMA, Parser PALAVRAS, LX-Parser e a extração manual de sintagmas nominais. In.: XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação, 2015, João Pessoa. Anais do XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação. João Pessoa: PPGCI/UFPB, 2015. p. 1-20.

VIEIRA, Simone Bastos. Indexação automática e manual: revisão de literatura. Ciência da Informação Brasília, v.17, n. 1, p. 43-57, jan./jun. 1988.




DOI: https://doi.org/10.5007/1518-2924.2019.e57927



Direitos autorais 2019 Gustavo Diniz do Nascimento, Renato Fernandes Corrêa

Licença Creative Commons
Esta obra está licenciada sob uma licença Creative Commons Atribuição 4.0 Internacional.

Enc. Bibli: R. Eletr. Bibliotecon. Ci. Inf., Florianópolis, Santa Catarina, Brasil. ISSN 1518-2924.

Conteúdos do periódico licenciados sob uma Licença Creative Commons 4.0 By  (mais informação)