Seleção de sintagmas nominais na indexação automática

Gustavo Diniz do Nascimento; Renato Fernandes Correa

doi:10.5007/1518-2924.2019.e57927

Seleção de sintagmas nominais na indexação automática

Autores

Gustavo Diniz do Nascimento Universidade Federal de Campina Grande, Biblioteca Central, Campina Grande, PB. http://orcid.org/0000-0002-5130-4149
Renato Fernandes Correa Universidade Federal de Pernambuco, Departamento de Ciência da Informação, Recife, PE. http://orcid.org/0000-0002-9880-8678

DOI:

https://doi.org/10.5007/1518-2924.2019.e57927

Palavras-chave:

Indexação automática, Sintagmas nominais, Seleção de sintagmas nominais, Língua portuguesa, Recuperação da informação

Resumo

O uso dos sintagmas nominais como instrumentos de organização da informação vem se mostrando uma alternativa promissora às palavras isoladas na construção dos sistemas de recuperação de informação. Nesse contexto, a indexação automática por sintagmas nominais minimiza alguns problemas encontrados na indexação baseada em palavras isoladas, como, por exemplo, a sinonímia e a polissemia. No entanto, é notório que nem todos os sintagmas nominais que se encontram em um documento são representativos do conteúdo desse documento, o que demonstra a necessidade de se selecionar os sintagmas nominais mais relevantes. Assim, o objetivo deste estudo consiste em sintetizar e classificar critérios de seleção de sintagmas nominais utilizados em metodologias de indexação automática por sintagmas nominais para textos escritos em língua portuguesa. A metodologia da pesquisa tem natureza exploratória, de cunho bibliográfico, e tem como método procedimental a análise de conteúdo. As metodologias de seleção de sintagmas nominais baseiam-se em critérios como: frequência absoluta de ocorrência, frequência normalizada de ocorrência, frequência inversa nos documentos, não ocorrência em lista de sintagmas nominais pouco significativos, na estrutura gramatical e no nível dos sintagmas nominais. Quanto ao escopo dos critérios, predominam em número os baseados em características do sintagma nominal (estrutura gramatical, nível, conteúdo lexical) e quanto a adoção predominam os baseados no conteúdo do documento e no conteúdo do corpus. A principal contribuição deste estudo consiste do panorama dos critérios de seleção de sintagmas nominais relevantes para textos em português.

Downloads

Não há dados estatísticos.

Biografia do Autor

Gustavo Diniz do Nascimento, Universidade Federal de Campina Grande, Biblioteca Central, Campina Grande, PB.

Mestre em Ciência da Informação. Bibliotecário da Universidade Federal de Campina Grande.

Renato Fernandes Correa, Universidade Federal de Pernambuco, Departamento de Ciência da Informação, Recife, PE.

Doutor em Ciência da Computação. Docente do Programa de Pós-Graduação em Ciência da Informação da UFPE.

Referências

ARAUJO, Eliany Alvarenga; OLIVEIRA, Marlene de. A produção de conhecimentos e a origem das bibliotecas. In.: OLIVEIRA, Marlene de. (Organizadora). Ciência da Informação e Biblioteconomia: novos conteúdos e espaços de atuação. 2. ed. Belo Horizonte: UFMG, 2011.

BARDIN, Laurence. Análise de conteúdo. São Paulo: Edições 70, 2011, 229 p.

BORGES, Graciane Silva Bruzinga; MACULAN, Benildes Coura Moreira dos; LIMA, Gercina Ângela Borém de. Indexação Automática e Semântica: estudo da análise do conteúdo de teses e dissertações. Informação & Sociedade: Estudos, João Pessoa-PB, v. 18, n.2, p. 181-193, mai./ago. 2008.

BORGES, Graciane Silva Bruzinga; LIMA, Gercina Ângela Borém de. O. Desenvolvimento de softwares de indexação automática: breve avaliação dos principais critérios. Informação & Tecnologia, v. 2, n. 2, 2015.

BRITO, Marcilio de. Sistemas de Informação em linguagem natural: em busca de uma indexação automática. Ciência da Informação, Brasília, v.21, n.3, p. 223-232, set./dez. 1992.

CORRÊA, Renato Fernandes et. al. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ, Curitiba, v. 1, n. 1, p. 11-22, jan./jun. 2011. DOI: http://dx.doi.org/10.5380/atoz.v1i1.41280.

CORRÊA, Renato Fernandes; BAZÍLIO, Luiz Henrique Teixeira. Análise da extração de descritores como sintagmas nominais através do software OGMA. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 22, n. 50, p. 44-58, set. 2017. DOI: https://doi.org/10.5007/1518-2924.2017v22n50p44.

CORRÊA, Renato Fernandes; LAPA, Remi Correia. Panorama de Estudos sobre indexação automática no âmbito da Ciência da Informação no Brasil (1973-2012). Ciência da Informação. Brasília, DF, v. 42, n. 2, p. 255-273, maio/ago. 2013.

KURAMOTO, Hélio. Uma abordagem alternativa para o tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da Informação, v. 25, n. 2, p. 1- 18, 1995.

KURAMOTO, Hélio. Sintagmas nominais: uma nova proposta para a recuperação de informação. DataGramaZero – revista de ciência da informação. Rio de Janeiro, v. 3, n. 1, fev. 2002.Nãopaginado.

LE GUERN, Michel. Unanalyseurmorpho-syntaxique pour I'indexationautomatique. Le Français:Moderne, juin, 1991.

LOPES, Lucelene. Extração automática de conceitos a partir de textos em língua portuguesa. 2012, 156 f. Tese (Doutorado em Ciência da Computação). Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.

MAIA, Luiz Cláudio Gomes. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008, 158 f. Tese (Doutorado em Ciência da Informação). – Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, 2008.

MAIA, Luiz Cláudio Gomes; SOUZA, Renato Rocha. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da Informação, v. 15, n.1, p. 154-172, 2010.

MARTINS, Agnaldo Lopes. O uso do sintagma nominal na recuperação de documentos [manuscrito]: proposta de um mecanismo automático para classificação temática de textos digitais. 2014, 192 f. Tese (Doutorado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, 2014.

MESQUITA, Luiz Antônio Lopes; SOUZA, Renato Rocha; PORTO, Renata Maria Abrantes Baracho. Características de Teses de oito áreas de conhecimento: uma análise para o desempenho de indexação automática através de sintagmas nominais. In.: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 14., 2013, Santa Catarina. Anais... Florianópolis, SC, 2013.

PERINI, Mário A. Gramática do português brasileiro. São Paulo: Parábola editorial, 2010. 336 p.

SOUZA, Renato Rocha. Uma proposta de metodologia para a escolha automática de descritores utilizando sintagmas nominais. 2005. 197 f. Tese (Doutorado) – Curso de Doutorado em Ciência da Informação, Escola de Ciência da Informação, Universidade Federal de Minas Gerais – UFMG, Belo Horizonte, 2005.

SOUZA, Renato Rocha. Uma proposta de metodologia para indexação automática utilizando sintagmas nominais. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação. Florianópolis, v. 11, n. esp., p. 42-59, 1º sem. 2006. DOI: https://doi.org/10.5007/1518-2924.2006v11nesp1p42.

SOUZA, Renato Rocha; ALVARENGA NETO, Rivadávia Correa Drummond de; MENDES, Kellen Christina Ignácia. Mapeamento semântico através da análise de ocorrência de descritores sobre gestão do conhecimento. Transinformação, Campinas, v. 19, n.1, p. 19-30, jan./abr., 2007.DOI: http://dx.doi.org/10.1590/S0103-37862007000100002.

SOUZA, Renato Rocha; RAGHAVAN, Koti S. A methodology for noun phrase-based automatic indexing. Knowledge Organization, v. 33, n. 1, p. 45-56, 2006.

SOUZA, Renato Rocha; RAGHAVAN, Koti S. Extraction of keywords from texts: an exploratory study using noun phrases. Informação & Tecnologia (ITEC). Marília/ João Pessoa. v. 1, n. 1. p. 5-16, jan./jun., 2014.

SILVA, Tiago José da; CORRÊA, Renato Fernandes. Ferramentas para indexação automática: uma análise comparativa entre o OGMA, Parser PALAVRAS, LX-Parser e a extração manual de sintagmas nominais. In.: XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação, 2015, João Pessoa. Anais do XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação. João Pessoa: PPGCI/UFPB, 2015. p. 1-20.

VIEIRA, Simone Bastos. Indexação automática e manual: revisão de literatura. Ciência da Informação Brasília, v.17, n. 1, p. 43-57, jan./jun. 1988.

Downloads

Publicado

2019-05-06

Como Citar

NASCIMENTO, Gustavo Diniz do; CORREA, Renato Fernandes. Seleção de sintagmas nominais na indexação automática. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, [S. l.], v. 24, n. 55, p. 1–19, 2019. DOI: 10.5007/1518-2924.2019.e57927. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2019.e57927. Acesso em: 27 jul. 2024.

Baixar Citação

Edição

v. 24 n. 55 (2019)

Seção

Artigos

Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.

O autor deve garantir:

que haja um consenso completo de todos os coautores em aprovar a versão final do documento e sua submissão para publicação.
que seu trabalho é original, e se o trabalho e/ou palavras de outras pessoas foram utilizados, estas foram devidamente reconhecidas.

Plágio em todas as suas formas constituem um comportamento antiético de publicação e é inaceitável. Encontros Bibli reserva-se o direito de usar software ou quaisquer outros métodos de detecção de plágio.

Todas as submissões recebidas para avaliação na revista Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação passam por identificação de plágio e autoplágio. Plágios identificados em manuscritos durante o processo de avaliação acarretarão no arquivamento da submissão. No caso de identificação de plágio em um manuscrito publicado na revista, o Editor Chefe conduzirá uma investigação preliminar e, caso necessário, fará a retratação.

Esta revista, seguindo as recomendações do movimento de Acesso Aberto, proporciona seu conteúdo em Full Open Access. Assim os autores conservam todos seus direitos permitindo que a Encontros Bibli possa publicar seus artigos e disponibilizar pra toda a comunidade.

Os conteúdos de Encontros Bibli estão licenciados sob uma Licença Creative Commons 4.0 by.

Qualquer usuário tem direito de:

Compartilhar — copiar, baixar, imprimir ou redistribuir o material em qualquer suporte ou formato
Adaptar — remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial.

De acordo com os seguintes termos:

Atribuição — Você deve dar o crédito apropriado, prover um link para a licença e indicar se mudanças foram feitas. Você deve fazê-lo em qualquer circunstância razoável, mas de maneira alguma que sugira ao licenciante a apoiar você ou o seu uso.
Sem restrições adicionais — Você não pode aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.