Análise da extração de descritores como sintagmas nominais através do software OGMA

Autores

  • Renato Fernandes Corrêa Universidade Federal de Pernambuco http://orcid.org/0000-0002-9880-8678
  • Luiz Henrique Teixeira Bazílio Universidade Federal de Pernambuco.

DOI:

https://doi.org/10.5007/1518-2924.2017v22n50p44

Resumo

Analisa a indexação automática por sintagmas nominais de documentos compostos por título e resumo de 30 teses e dissertações escritas em português de três áreas do conhecimento diferentes. O método de pesquisa é categorizado como exploratório, com base em revisão de literatura e experimento computacional. O experimento consistiu na análise da saída do software OGMA quando aplicado ao corpus de documentos e a mensuração do nível de revocação das palavras-chaves. Durante a análise, foram observadas quais palavras-chave indicadas pelos autores estavam nos documentos e a partir daí observou-se quais palavras-chave presentes nos documentos foram extraídas ou não como sintagmas nominais pelo software. Foi traçado um perfil descritivo das sequências ou padrões de etiquetas gramaticais de cada grupo de palavras-chaves presentes extraídas e não extraídas como sintagmas nominais. Conclui-se que da totalidade de palavras-chaves informadas pelos autores 68% se encontravam no título ou resumo da tese ou dissertação, destas 66% foram extraídas como sintagmas nominais, correspondendo ao nível de revocação de palavras-chaves presentes alcançado pelo software OGMA. As palavras-chaves presentes e não extraídas na grande maioria apresentavam substantivos ou adjetivos etiquetados com classe gramatical errada pelo software, e por isso não foram extraídas. As palavras-chaves presentes e extraídas eram na maioria substantivos isolados (30%), substantivos seguidos de adjetivo (28%) e substantivo seguido de preposição e substantivo (19%). O nível de revocação das palavras-chaves presentes pode ser aumentado significantemente com ajustes no etiquetador gramatical do OGMA.

Biografia do Autor

Renato Fernandes Corrêa, Universidade Federal de Pernambuco

Doutor em Ciência da Computação, docente do Programa de Pós-Graduação em Ciência da Informação e do Departamento de Ciência da Informação da Universidade Federal de Pernambuco.

Luiz Henrique Teixeira Bazílio, Universidade Federal de Pernambuco.

Graduando em Gestão da Informação pela Universidade Federal de Pernambuco.

Referências

CORRÊA, Renato Fernandes; LAPA, Remi Correa; Panorama de estudos sobre indexação automática no âmbito da ciência da informação no Brasil (1973-2012). Ciência da Informação, Brasília, DF, v. 42 n. 2, p.255-273, maio/ago., 2013.

CORRÊA, Renato Fernandes; MIRANDA, Darliane Goes de; LIMA, Camila Oliveira de Almeida; SILVA, Tiago José da. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ: Novas Práticas em Informação e Conhecimento, Curitiba, v. 1, n. 1, p. 11-22, 2011.

KURAMOTO, Hélio. Sintagmas nominais: uma nova proposta para a recuperação de informação. DataGramaZero, Rio de Janeiro, v. 3, n. 1, fev. 2002.

MAIA, Luiz Cláudio Gomes. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) – Universidade Federal de Minas Gerais – UFMG. Belo Horizonte, 2008.

MAIA, Luiz Cláudio Gomes; SOUZA, Renato Rocha. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da Informação, v. 15, n. 1, jan./abr., 2010.

ROBREDO, Jaime. Otimização dos processos de indexação dos documentos e de recuperação da informação mediante o uso de instrumentos de controle terminológico. Ciência da Informação. Inf., Brasília, v. 11, n. 1, 1982.

SILVA, Tiago José da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014, 144 f. Dissertação (Mestrado) – Mestrado em Ciência da Informação, Universidade Federal de Pernambuco, Recife-PE, 2014.

SILVA, T. J. da; CORREA, R. F. Ferramentas Para Indexação Automática: uma análise comparativa entre o OGMA, Parser PALAVRAS, LX-Parser e a extração manual de sintagmas nominais. In.: XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação, 2015, João Pessoa. Anais do XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação. João Pessoa: PPGCI/UFPB, 2015. p. 1-20.

SOUZA, Renato Rocha; RAGHAVAN, K. S. A extração de palavras-chave a partir de textos: um estudo exploratório utilizando sintagmas. Informação & Tecnologia (ITEC): Marília / João Pessoa, 1 (1):5-16, jan/jun, 2014.

SOUZA, R. R. Uma proposta de metodologia para indexação automática utilizando sintagmas nominais. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação, v. 11, n. esp., p. 42-59, 2006.

Downloads

Publicado

2017-09-06

Como Citar

CORRÊA, . F.; BAZÍLIO, . H. T. Análise da extração de descritores como sintagmas nominais através do software OGMA. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, [S. l.], v. 22, n. 50, p. 44–58, 2017. DOI: 10.5007/1518-2924.2017v22n50p44. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44. Acesso em: 4 dez. 2022.