Análise da extração de descritores como sintagmas nominais através do software OGMA

Renato Fernandes Corrêa; Luiz Henrique Teixeira Bazílio

doi:10.5007/1518-2924.2017v22n50p44

Análisis de la extracción de descriptores como sintagmas nominales a través del software OGMA

Autores/as

Renato Fernandes Corrêa Universidade Federal de Pernambuco http://orcid.org/0000-0002-9880-8678
Luiz Henrique Teixeira Bazílio Universidade Federal de Pernambuco.

DOI:

https://doi.org/10.5007/1518-2924.2017v22n50p44

Palabras clave:

Indexação automática, Sintagmas Nominais, Palavras-chaves, Teses e dissertações, software OGMA

Resumen

Se analiza la indexación automática por sintagmas nominales de documentos, compuestos por título y resumen de 30 tesis y disertaciones, escritos en portugués y de tres áreas del conocimiento diferentes. El método de investigación se categoriza como exploratorio, basado en la revisión de literatura y el experimento computacional. El experimento consistió en el análisis de la salida del software OGMA cuando se aplica al corpus de documentos y la medición del nivel de revocación de las palabras clave. Durante el análisis, se observaron qué palabras clave indicadas por los autores estaban en los documentos y luego se observó qué palabras clave presentes en los documentos fueron extraídas o no como sintagmas nominales por el software. Se trazó un perfil descriptivo de las secuencias o patrones de etiquetas gramaticales de cada grupo de palabras clave presentes - las extraídas y no extraídas como sintagmas nominales. Se concluye que de la totalidad de palabras claves informadas por los autores 68% se encontraban en el título o resumen de la tesis o disertación, de las 66% fueron extraídas como sintagmas nominales, correspondiendo al nivel de revocación de palabras claves presentes alcanzado por el software OGMA. Las palabras clave presentes y no extraídas en la gran mayoría presentaban sustantivos o adjetivos etiquetados con clase gramatical errada por el software, y por eso no fueron extraídos. Las palabras claves presentes y extraídas eran en la mayoría sustantivos aislados (30%), sustantivos seguidos de adjetivo (28%) y sustantivo seguido de preposición y sustantivo (19%). El OGMA alcanzó un buen nivel de revocación de las palabras clave presentes, y este nivel aún puede aumentarse hasta un 34% con ajustes en el etiquetador gramatical del software.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Renato Fernandes Corrêa, Universidade Federal de Pernambuco

Doutor em Ciência da Computação, docente do Programa de Pós-Graduação em Ciência da Informação e do Departamento de Ciência da Informação da Universidade Federal de Pernambuco.

Luiz Henrique Teixeira Bazílio, Universidade Federal de Pernambuco.

Graduando em Gestão da Informação pela Universidade Federal de Pernambuco.

Citas

CORRÊA, Renato Fernandes; LAPA, Remi Correa; Panorama de estudos sobre indexação automática no âmbito da ciência da informação no Brasil (1973-2012). Ciência da Informação, Brasília, DF, v. 42 n. 2, p.255-273, maio/ago., 2013.

CORRÊA, Renato Fernandes; MIRANDA, Darliane Goes de; LIMA, Camila Oliveira de Almeida; SILVA, Tiago José da. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ: Novas Práticas em Informação e Conhecimento, Curitiba, v. 1, n. 1, p. 11-22, 2011.

KURAMOTO, Hélio. Sintagmas nominais: uma nova proposta para a recuperação de informação. DataGramaZero, Rio de Janeiro, v. 3, n. 1, fev. 2002.

MAIA, Luiz Cláudio Gomes. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) – Universidade Federal de Minas Gerais – UFMG. Belo Horizonte, 2008.

MAIA, Luiz Cláudio Gomes; SOUZA, Renato Rocha. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da Informação, v. 15, n. 1, jan./abr., 2010.

ROBREDO, Jaime. Otimização dos processos de indexação dos documentos e de recuperação da informação mediante o uso de instrumentos de controle terminológico. Ciência da Informação. Inf., Brasília, v. 11, n. 1, 1982.

SILVA, Tiago José da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014, 144 f. Dissertação (Mestrado) – Mestrado em Ciência da Informação, Universidade Federal de Pernambuco, Recife-PE, 2014.

SILVA, T. J. da; CORREA, R. F. Ferramentas Para Indexação Automática: uma análise comparativa entre o OGMA, Parser PALAVRAS, LX-Parser e a extração manual de sintagmas nominais. In.: XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação, 2015, João Pessoa. Anais do XVI Encontro Nacional de Pesquisa em Pós-Graduação em Ciência da Informação. João Pessoa: PPGCI/UFPB, 2015. p. 1-20.

SOUZA, Renato Rocha; RAGHAVAN, K. S. A extração de palavras-chave a partir de textos: um estudo exploratório utilizando sintagmas. Informação & Tecnologia (ITEC): Marília / João Pessoa, 1 (1):5-16, jan/jun, 2014.

SOUZA, R. R. Uma proposta de metodologia para indexação automática utilizando sintagmas nominais. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação, v. 11, n. esp., p. 42-59, 2006.

Descargas

Publicado

2017-09-06

Cómo citar

CORRÊA, Renato Fernandes; BAZÍLIO, Luiz Henrique Teixeira. Análisis de la extracción de descriptores como sintagmas nominales a través del software OGMA. Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información., [S. l.], v. 22, n. 50, p. 44–58, 2017. DOI: 10.5007/1518-2924.2017v22n50p44. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44. Acesso em: 17 jul. 2024.

Descargar cita

Número

Vol. 22 Núm. 50 (2017): Data de publicação: 01/09/2017

Sección

Artículos

Licencia

Derechos de autor 2017 Renato Fernandes Côrrea; Luiz Henrique Teixeira Bazílio

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.

El autor debe garantizar:

que existe un consenso total de todos los coautores para aprobar la versión final del documento y su presentación para su publicación.
que su trabajo es original, y si se han utilizado el trabajo y / o las palabras de otras personas, estos se han reconocido correctamente.
El plagio en todas sus formas constituye un comportamiento editorial poco ético y es inaceptable. Encontros Bibli se reserva el derecho de utilizar software o cualquier otro método para detectar plagio.

Todas las presentaciones recibidas para su evaluación en la revista Encontros Bibli: revista electrónica de biblioteconomía y ciencias de la información pasan por la identificación del plagio y el auto-plagio. El plagio identificado en los manuscritos durante el proceso de evaluación dará como resultado la presentación de la presentación. En el caso de identificación de plagio en un manuscrito publicado en la revista, el Editor en Jefe llevará a cabo una investigación preliminar y, si es necesario, la retractará.

Esta revista, siguiendo las recomendaciones del movimiento de Acceso Abierto, proporciona su contenido en Acceso Abierto Completo. Por lo tanto, los autores conservan todos sus derechos, permitiendo a Encontros Bibli publicar sus artículos y ponerlos a disposición de toda la comunidad.

Los contenidos de Encontros Bibli están licenciados bajo Licencia Creative Commons 4.0.

Cualquier usuario tiene derecho a:

Compartir: copiar, descargar, imprimir o redistribuir material en cualquier medio o formato
Adaptar: mezclar, transformar y crear a partir del material para cualquier propósito, incluso comercial.

De acuerdo con los siguientes términos:

Atribución: debe otorgar el crédito apropiado, proporcionar un enlace a la licencia e indicar si se han realizado cambios. Debe hacerlo bajo cualquier circunstancia razonable, pero de ninguna manera sugeriría que el licenciante lo respalde a usted o su uso.
Sin restricciones adicionales: no puede aplicar términos legales o medidas tecnológicas que restrinjan legalmente a otros de hacer cualquier cosa que permita la licencia.