Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas

Edson Marchetti da Silva; Renato Rocha Souza

doi:10.5007/1518-2924.2014v19n40p1

Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas

Autores/as

Edson Marchetti da Silva Centro Federal de Educação Tecnológica de Minas Gerais
Renato Rocha Souza FGV/RJ

DOI:

https://doi.org/10.5007/1518-2924.2014v19n40p1

Palabras clave:

Extração de expressões multipalavras, Medidas de associação estatísticas, Heudet

Resumen

Ë senso comum que o texto escrito é uma importante forma de registrar as informações e que atualmente grande parte desse conteúdo informacional está disponível em meio digital. Entretanto, de maneira geral, os computadores lidam com o texto como sendo uma cadeia de caracteres que não têm nenhum significado. A área de Processamento de Linguagem Natural (PLN) vem se empenhando em extrair significados do texto. Nesse sentido este trabalho apresenta uma revisão desse tema e propõe um método automatizado que utiliza uma heurística determinística denominada Heudet que visa extrair bigramas do texto. A meta é extrair o significado do texto através de um conjunto de expressões multipalavras identificadas. Os resultados obtidos foram melhores se comparados com aqueles que utilizam-se das técnicas de medidas de associação estatística obtidas pelo software Ngram Statistics Package (NSP).

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Edson Marchetti da Silva, Centro Federal de Educação Tecnológica de Minas Gerais

Dr. Ciência da Informação

MsC Administração

Especialista em Engenharia de Software

Bacharel em Ciência da Computação

Prof. DE Cefet-MG

Citas

CALZOLARI, Nicoletta et al. Towards best practice for multiword expressions in computational lexicons. Em Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC 2002), pp. 1934–1940, Las Palmas, Canary Islands, 2002.

CHEN, Jisong, YEH, Chung-Hsing, CHAU, Rowena. A multi-word term extraction system. PRICAI 2006, LNAI 4099, pp. 1160 – 1165, 2006. Springer-Verlag Berlin Heidelberg, 2006.

CINTRA, Anna Maria Marques. Elementos de linguística para estudos de indexação. Ciências de Informação, v.12, n. 1, p. 5-22, 1983.

CIPRO NETO, Pasquale; INFANTE, Ulisses. Gramática da língua portuguesa. São Paulo. Ed. Scipione, 2009. 584p.

DIAS, Gael; LOPES, José Gabriel Pereira; GUILLORÉ, Sylvie. Mutual expectation: a measure for multiword lexical unit extraction. In Proceedings of Vextal, 1999.

FARACO, Carlos Emílio; MOURA, Francisco Marto, Gramática, 7. ed. São Paulo: Ática, 1990. 487p.

EVERT, Stefan; KRENN, Brigitte. Using small random samples for the manual evaluation of statistical association measures. Computer Speech and Language, 19(4):450–466, 2005.

KURAMOTO, Hélio. Uma abordagem alternativa para o tratamento e a recuperação da informação textual: os sintagmas nominais. Ciência da Informação, Brasília v. 25, n. 2, mai/ago, p. 182-196, 1995.

LADEIRA, Ana. Paula. Processamento de linguagem natural: caracterização da produção científica dos pesquisadores brasileiros. 2010. 262f. Tese (Doutorado em Ciência da Informação), Escola de Ciência da Informação da UFMG, Belo Horizonte, 2010.

MAIA, Luiz Cláudio Gomes; SOUZA, Renato Rocha. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência Informação, Belo Horizonte, v. 15, p. 154-172 , 2010.

PEARCE, Darren. A comparative evaluation of collocation extraction techniques. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002), Las Palmas, Canary Islands, Spain, May, 2002. European Language Resources Association.

PECINA, Pavel. Lexical association measures and collocation extraction. Language Resources and Evaluation (LREC 2010) 44(1-2): 137-158, 2010.

PEDERSEN, Ted et al. The Ngram Statistics Package. Disponível em: http://www.d.umn.edu/~tpederse/nsp.html. Acesso em: ago. 2011.

PORTELA, Ricardo; MAMEDE Nuno; BAPTISTA, Jorge. Mutiword Identificação. In Terceiro Simpósio de Informáctica (INFORUM 2011), Oct. 2011, pp.

RAMISCH, Carlos. Multiword terminology extraction for domain specific documents. Dissertação – Mathématiques Appliqueées, École Nationale Supérieure d’Informatiques, Grenoble, 2009.

RANCHHOD, Elisabete Marques. O lugar das expressões ‘fixas’ na gramática do Português. in Castro, I. and I. Duarte (eds.), Razão e Emoção, vol. II, Lisbon: INCM, pp. 239-254, 2003.

RAYSON, Paul; PIAO, Scott; SHAROFF, Serge; EVERT, Stefan. MOIRÓN, Begoña Villada. Multiword expressions: hard going or plain sailing? Springer Science Business Media B. V, 2009.

ROUSSINOV, Dmitri. Towards Combined Aspect Verification Model. (no prelo).

SAG, I. A. et al. Multiword expressions: a pain in the neck for nlp. Em Proceedings of the Third International Conference on Computational Linguistics and Intelligent Text Processing CICLing-2002), volume 2276 of (Lecture Notes in Computer Science), pp. 1–15, London, UK. Springer-Verlag, 2002.

SARMENTO, Luís. Simpósio Doutoral Linguateca 2006. Disponível em: http://www.linguateca.pt/documentos/SimposioDoutoral2005.html: out. 2011.

SILVA, Joaquim Ferreira; LOPES, Gabriel Pereira. A local maxima method and fair dispersion normalization for extracting multi-word units from corpora. Sixth meeting on Mathematics of Language, pp. 369-381, 1999.

SOUZA, Renato Rocha. Uma proposta de metodologia para a escolha automática de descritores utilizando sintagmas nominais. 2005. 215f. Tese (Doutorado em Ciência da Informação), Escola de Ciências da Informação, UFMG, Belo Horizonte, 2005.

VILLAVICENCIO, Aline et al. Identificação de expressões multipalavra em domínios específicos. Linguamática, v. 2, n. 1, p. 15-33, abril, 2010.

WANG, Lijuan; LIU, Rong. A Rapid Method to Extract Multiword Expressions with Statistic Measures and Linguistic Rules. WISM 2011, Part II, LNCS 6988, pp. 234–241, 2011.

YAGONOVA, E. V.; PIVOVAROVA, L.M. The Nature of Collocations in the Russian Language. The Experience of Automatic Extraction and Classification of the Material of News Texts. Automatic Documentation and Mathematical Linguistics, 2010, Vol. 44, No. 3, pp. 164–175. Allerton Press, Inc., 2010.

ZHANG, Wen; et al. Improving effectiveness of mutual information for substantival multiword expression extraction. Expert Systems with Applications, Elsevier, v. 36, 2009.

Descargas

PDF-A (Português (Brasil))

Publicado

2014-08-02

Cómo citar

SILVA, Edson Marchetti da; SOUZA, Renato Rocha. Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas. Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información., [S. l.], v. 19, n. 40, p. 1–32, 2014. DOI: 10.5007/1518-2924.2014v19n40p1. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2014v19n40p1. Acesso em: 19 may. 2024.

Descargar cita

Número

Vol. 19 Núm. 40 (2014)

Sección

Artículos

Licencia

Derechos de autor 2014 Edson Marchetti da Silva, Renato Rocha Souza

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.

El autor debe garantizar:

que existe un consenso total de todos los coautores para aprobar la versión final del documento y su presentación para su publicación.
que su trabajo es original, y si se han utilizado el trabajo y / o las palabras de otras personas, estos se han reconocido correctamente.
El plagio en todas sus formas constituye un comportamiento editorial poco ético y es inaceptable. Encontros Bibli se reserva el derecho de utilizar software o cualquier otro método para detectar plagio.

Todas las presentaciones recibidas para su evaluación en la revista Encontros Bibli: revista electrónica de biblioteconomía y ciencias de la información pasan por la identificación del plagio y el auto-plagio. El plagio identificado en los manuscritos durante el proceso de evaluación dará como resultado la presentación de la presentación. En el caso de identificación de plagio en un manuscrito publicado en la revista, el Editor en Jefe llevará a cabo una investigación preliminar y, si es necesario, la retractará.

Esta revista, siguiendo las recomendaciones del movimiento de Acceso Abierto, proporciona su contenido en Acceso Abierto Completo. Por lo tanto, los autores conservan todos sus derechos, permitiendo a Encontros Bibli publicar sus artículos y ponerlos a disposición de toda la comunidad.

Los contenidos de Encontros Bibli están licenciados bajo Licencia Creative Commons 4.0.

Cualquier usuario tiene derecho a:

Compartir: copiar, descargar, imprimir o redistribuir material en cualquier medio o formato
Adaptar: mezclar, transformar y crear a partir del material para cualquier propósito, incluso comercial.

De acuerdo con los siguientes términos:

Atribución: debe otorgar el crédito apropiado, proporcionar un enlace a la licencia e indicar si se han realizado cambios. Debe hacerlo bajo cualquier circunstancia razonable, pero de ninguna manera sugeriría que el licenciante lo respalde a usted o su uso.
Sin restricciones adicionales: no puede aplicar términos legales o medidas tecnológicas que restrinjan legalmente a otros de hacer cualquier cosa que permita la licencia.