Identificação computacional de padrões interníveis em textos da Literatura Brasileira

Angelo Loula; Luciano Alves Machado Júnior

doi:10.5007/1807-9288.2025.e106921

Autores

Angelo Loula Universidade Estadual de Feira de Santana (UEFS) https://orcid.org/0000-0001-7802-1731
Luciano Alves Machado Júnior Instituto Federal da Bahia (IFBA)

DOI:

https://doi.org/10.5007/1807-9288.2025.e106921

Palavras-chave:

Humanidades digitais, Análise computacional de textos, Padrões textuais

Resumo

Em textos literários, como a poesia e a prosa, há a presença intensa de dispositivos poéticos e recursos linguísticos recorrentes em diferentes níveis linguísticos. A identificação desses recursos linguísticos com o auxílio de ferramentas computacionais pode apontar, por meio de análises quantificáveis, padrões de relacionamento entre esses níveis. O objetivo deste trabalho é propor um método computacional que permita a identificação e correlação de padrões textuais entre níveis linguísticos em textos da literatura brasileira. Para isso, foi realizada a extração de características textuais em diferentes níveis linguísticos a partir da quantificação de ocorrências através de frequências absolutas e relativas, tanto para o texto completo quanto para trechos do texto, seguida da análise de correlação dessas características quantificadas para identificar padrões interníveis entre elas. Os resultados obtidos com o intuito de demonstrar esse método computacional foram extraídos da obra literária brasileira Os Sertões de Euclides da Cunha. Esses resultados contribuem para a compreensão das diversas facetas do método, destacando sua capacidade de identificar e correlacionar padrões em múltiplos níveis linguísticos, ao mesmo tempo em que demonstram a alguns dos resultados possíveis, permitindo uma análise quantitativa dos padrões presentes. Esta pesquisa tem o potencial de abrir caminhos para estudos em análise textual, introduzindo uma abordagem quantitativa em um campo predominantemente qualitativo.

Biografia do Autor

Angelo Loula, Universidade Estadual de Feira de Santana (UEFS)

Doutor em Engenharia Elétrica pela Unicamp (2011) e mestre em Engenharia Elétrica pela Unicamp (2004), com pesquisas em Inteligência Artificial. Graduação em Engenharia Elétrica pela Universidade Federal da Bahia (2000), graduação em Processamento de Dados pela Faculdade Ruy Barbosa (1997). Atualmente é professor da Universidade Estadual de Feira de Santana, atuando na graduação em Engenharia de Computação (UEFS) e no mestrado em Ciência da Computação (UEFS). Tem experiência na área de Engenharia e Ciência da Computação, com ênfase em Inteligência Artificial, atuando em pesquisa principalmente nos seguintes temas: ciência de dados, mineração de dados e textos, aprendizado de máquina, humanidades digitais, cognição artificial, sistemas cognitivos incluindo representação e comunicação e aplicações interdisciplinares da computação. Tem atuação em educação empreendedora, geração de startups, inovação tecnológica e transferência de tecnologia, seja no Núcleo de Inovação Tecnológica da UEFS, em disciplinas, em projetos de extensão, em cursos de extensão e em eventos de capacitação e divulgação. É um entusiasta e incentivador do empreendedorismo e inovação na região de Feira de Santana. Participa do programa Feira Empreende, programa inter-institucional de desenvolvimento do ambiente de negócios e de novos negócios na região de Feira de Santana. Integrante da Rede de Educação Empreendedora de Feira de Santana e da comunidade de startups Santana Valley.

Luciano Alves Machado Júnior, Instituto Federal da Bahia (IFBA)

Mestre em Ciência da Computação pela Universidade Estadual de Feira de Santana (UEFS). Especialista em Projetos de Aplicativos Móveis Multiplataforma pela Faculdade Descomplica. Especialista em Big Data pela Faculdade Descomplica. Graduado em Tecnologia em Análise e Desenvolvimento de Sistemas pelo Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA- Campus Irecê). Técnico em Informática pelo Instituto Federal de Educação, Ciência e Tecnologia da Bahia (IFBA- Campus Irecê). Professor EBTT em Ciência da Computação no IFBA Campus Irecê. Tem interesse nas áreas de Inteligência Artificial, Interação Humano-Computador, Desenvolvimento de Software, Desenvolvimento de Jogos Digitais, Computação Gráfica em desenvolvimento de jogos e animações.

Referências

ABAURRE, M. B. M.; PONTARA, M. Gramática: Texto: análise e construção de sentido. 2. ed. São Paulo: Moderna, 2011.

BLEI, David M.; NG, Andrew Y.; JORDAN, Michael I. Latent dirichlet allocation. Journal of machine Learning research, [S.I.] v. 3, n. Jan, p. 993-1022, 2003.

BUSA, Roberto A. Foreword: Perspectives on the digital humanities. In: SCHREIBMAN, Susan; SIEMENS, Raymond George; UNSWORTH, John (Orgs.). A companion to digital humanities. Malden, MA: Blackwell, 2004. p. xvi–xxi.

CARVALHO, R.; LOULA, A. C.; QUEIROZ, J. Identificação computacional de estruturas métricas de versificação na prosa de Euclides da Cunha. Revista de Estudos da Linguagem, Belo Horizonte, v. 28, n. 1, p. 41, jan. 2020.

CORSO, G.; FOSSA, C. R.; OLIVEIRA, G. B. de. Uma aplicação da teoria de redes à estilometria: comparando Machado de Assis e Tribuna do Norte. Revista Brasileira de Ensino de Física, v. 27, p. 389-393, 2005.

DE ROC BORONAT, C.; WANNER, L.. On the relevance of syntactic and discourse features for author profiling and identification. In: Conference of the European Chapter of the Association for Computational Linguistics, 15., p.681–687, 2017.

DELL’ORLETTA, F.; MONTEMAGNI, S.; VENTURI, G. Linguistic profiling of texts across textual genres and readability levels. an exploratory study on italian fictional prose. In: Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013, p. 189–197.

EDER, M.; PIASECKI, M.; WALKOWIAK, T. An open stylometric system based on multilevel text analysis. Cognitive Studies| Études cognitives, Warsaw, n. 17, 2017.

FERREIRA, J. J.; OLIVEIRA, H. G; RODRIGUES, R. J. Improving NLTK for Processing Portuguese. Symposium on Languages, Applications and Technologies, p. 9, 1 jan. 2019.

GALINA, R.; FLORES, D.; KOMATI, K.. Comparação de Atributos Estilométricos para Identificação de Autoria de Escrita: Um Estudo de Caso de Guimarães Rosa versus Clarice Lispector. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 16. , 2019, Salvador. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 353-364. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2019.9297.

GOODRICH, R. A. On Poetic Function: Jakobson's Revised 'Prague' Thesis. Literature & Aesthetics, v. 7, 1997.

JACOBS, A. M. Sentiment analysis for words and fiction characters from the perspective of computational (neuro-) poetics. Frontiers in Robotics and AI, [S.I.], v. 6, art. 53, 2019.

JAKOBSON, R.; POMORSKA, K. Diálogos. Tradução: Elisa A. Kossovitch. São Paulo: Cultrix, 1985.

JOCKERS, Matthew L. Macroanalysis: Digital methods and literary history. University of Illinois Press, 2013.

LAGUTINA, K.; LAGUTINA, N.; BOYCHUK, E.; PARAMONOV, I. The influence of different stylometric features on the classification of prose by centuries. In: Conference of Open Innovations Association (FRUCT), 27., 2020, p. 108–115. IEEE.

LARSON, R.; FARBER, B. Estatística Aplicada. Tradução: José Fernando Pereira Gonçalves. São Paulo: Pearson Education do Brasil, 2015.

LIMA, L.; LOULA, A. C.; QUEIROZ, J. Computational identification of phonological parallelisms in Brazilian literary prose. Second Workshop on Digital Humanities and Natural Language Processing (2nd DHandNLP 2022), p. 47–52, 2022.

MIN, S.; PARK, J. Modeling narrative structure and dynamics with networks, sentiment analysis, and topic modeling. PloS one, [S.I.], v.14, n. 12, p. e0226025, 2019.

MOHAMMAD, Saif M.; TURNEY, Peter D. Crowdsourcing a word–emotion association lexicon. Computational intelligence, v. 29, n. 3, p. 436-465, 2013.

MORETTI, Franco. Graphs, maps, trees: abstract models for a literary history. Verso, 2005.

PANG, Bo; LEE, Lillian. Opinion Mining and Sentiment Analysis. Information Retrieval, [S.I.] v. 2, n. 1-2, p. 1-135, 2008.

PENNEBAKER, James W.; BOOTH, Roger J.; FRANCIS, Martha E. Linguistic Inquiry and Word Count: LIWC2001. Mahway: Lawrence Erlbaum Associates, 2001.

ROMMEL, T. Literary studies. In: SCHREIBMAN, Susan; SIEMENS, Raymond; UNSWORTH, John (Orgs.) A Companion to Digital Humanities. Oxford: Blackwell, 2004, p.89.

SANTOS, D. Caminhos percorridos no mapa da portuguesificação: A Linguateca em perspectiva. Linguamática, v. 1, n. 1, p. 25-58, 6 abr. 2009.

SANTOS, D.; PIRES, E.; FREITAS, C.; FUÃO, R. S.; LOPES, J. M. Periodização automática: Estudos linguistíco-estatísticos de literatura lusófona. Linguamática, v. 12, n. 1, p. 81-95, 29 Jun. 2020.

SILVA, Mário J. et al. Automatic Expansion of a Social Judgment Lexicon for Sentiment Analysis.Technical Report. TR 10-08. University of Lisbon, Faculty of Sciences. 2010.

SOUZA, Marlo; VIEIRA, Renata. Sentiment analysis on twitter data for portuguese language. In: International Conference on Computational Processing of the Portuguese Language. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. p. 241-247.

UNDERWOOD, Ted. Distant horizons: digital evidence and literary change. Chicago: University of Chicago Press, 2019.

WAUMANS, M. C.; NICOD`EME, T.; BERSINI, H. Topology analysis of social networks extracted from literature. PloS one, [S.I.], v. 10, n. 6, p. e0126470, 2015.