IA generativa na extração de metadados arquivísticos: um estudo baseado na norma ISAD(G)

Tatiana Canelhas Pignataro; Manoel Pedro de Souza Neto; José Carlos Abbud Grácio; Telma Campanha de Carvalho Madio; José Eduardo Santarem Segundo

doi:10.5007/1518-2924.2025.e103505

Autores

Tatiana Canelhas Pignataro Universidade Estadual Paulista (Unesp) https://orcid.org/0000-0001-8400-6140
Manoel Pedro de Souza Neto Universidade Estadual Paulista (Unesp) https://orcid.org/0009-0005-6302-7686
José Carlos Abbud Grácio Universidade Estadual Paulista (Unesp) https://orcid.org/0000-0001-7620-1309
Telma Campanha de Carvalho Madio Universidade Estadual Paulista (Unesp) https://orcid.org/0000-0002-7031-2371
José Eduardo Santarem Segundo Universidade de São Paulo https://orcid.org/0000-0003-3360-7872

DOI:

https://doi.org/10.5007/1518-2924.2025.e103505

Palavras-chave:

Descrição Arquivística, Automação, ISAD(G), Inteligência artificial, Machine Learning, ChatGPT

Resumo

Objetivo: Realizar um diagnóstico buscando analisar o uso de inteligência artificial, especificamente do ChatGPT, na descrição de documentos arquivísticos segundo a Norma Geral Internacional de Descrição Arquivística.

Método: A pesquisa é de natureza exploratória e aplicada, útil em estudos inovadores onde o objetivo é explorar possibilidades, identificar padrões e formular hipóteses futuras para estudos mais detalhados.

Resultados: Os principais resultados mostraram que o ChatGPT atingiu uma taxa média de acerto de 92,04% no preenchimento quantitativo de metadados, com variabilidade mínima entre os testes. No entanto, inconsistências foram observadas em metadados considerados constantes, como Procedência e Condições de Acesso, que não mantiveram a precisão e consistência esperada. Metadados como Dimensão e Suporte, e Âmbito e Conteúdo, apresentaram maior dificuldade de padronização, sugerindo a necessidade de melhorias e ajustes no modelo.

Conclusões: Os resultados sugerem que, embora o ChatGPT tenha demonstrado eficiência na maioria dos campos analisados, os desafios permanecem em metadados com pouca padronização. Os resultados indicam que o ChatGPT é capaz de manter um alto grau de completude dos metadados, mas enfrenta desafios em relação à precisão e consistência, especialmente em campos mais complexos. Ajustes no treinamento do modelo, juntamente com a supervisão humana contínua, podem melhorar a qualidade das descrições geradas. Apesar das limitações, a IA se mostra uma ferramenta promissora, capaz de impulsionar avanços significativos no campo da Arquivologia digital

Downloads

Não há dados estatísticos.

Biografia do Autor

Tatiana Canelhas Pignataro, Universidade Estadual Paulista (Unesp)

É sócia-fundadora da META Documentos Digitais, empresa especializada em preservação digital. Mestranda no Programa de Pós-Graduação em Ciência da Informação (PPGCI/UNESP), Graduada em Arquivologia e Ciência da Computação pela Universidade de Brasília. Atuou na implementação dos sistemas da Resolução nº 51, de 25 de agosto de 2023, do CONARQ (RDC-Arq), no Senado Federal e no Superior Tribunal Militar, pela UnB. No IBICT, participou por cinco anos de pesquisas em preservação digital, contribuindo para o desenvolvimento do Modelo Hipátia em projetos com TJDFT, TRT4, TJMG e Arquivo Nacional.

Manoel Pedro de Souza Neto, Universidade Estadual Paulista (Unesp)

Graduado em Biblioteconomia (2005) e Arquivologia (2013), ambos pela Universidade Federal do Amazonas (UFAM). Especialização em Arquivologia pelo Centro Universitário do Norte (UNINORTE), em 2006. Mestre em Patrimônio Cultural pela Universidade de Santa Maria (UFSM), em 2016. Funcionário Público do Tribunal de Justiça do Amazonas (TJAM) desde 2006. Fui Gerente Geral de Arquivo deste tribunal (2009-2015), retornando à função em (2018). Atua, como secretário da Comissão Permanente de Avaliação de Documentos (CPAD/TJAM), com a gestão de documentos de arquivo. Membro do Comitê Gestor de LGPD do mesmo Tribunal. Indicado pelo Ministro Gilmar Mendes, do Supremo Tribunal Federal e do Conselho Nacional de Justiça, para compor o Comitê de Gestão Documental e Memória do Poder Judiciário (PRONAME), em 2009-2013.

José Carlos Abbud Grácio, Universidade Estadual Paulista (Unesp)

Graduação em Bacharelado em Ciência da Computação pela Universidade Estadual de Campinas-UNICAMP (1987), mestrado (2002) e doutorado (2011) em Ciência da Informação pela Universidade Estadual Paulista Júlio de Mesquita Filho-UNESP/Marília. Exerceu o cargo de Diretor de Informática da UNESP/Marília, no período de 1995 a 2009. Membro do Comitê Superior de Tecnologia da Informação da UNESP de 2009 a 2016. Presidente da Comissão Permanente de Preservação Digital da Unesp desde 2018. Docente colaborador do Programa de Pós-graduação em Ciência da Informação da Unesp/Marília. Pesquisa na área de Ciência da Informação, com ênfase em Preservação Digital, Políticas e Planos de Preservação Digital, Sistemas de Gestão Arquivística de Documentos e Metadados. Membro do grupo de pesquisa Dríade.

Telma Campanha de Carvalho Madio, Universidade Estadual Paulista (Unesp)

Graduação em História pela Pontifícia Universidade Católica de São Paulo, especialização em Arquivo pelo IEB/USP, mestrado em História pela Pontifícia Universidade Católica de São Paulo e doutorado em Ciências da Comunicação pela Universidade de São Paulo. Livre docência em Documento fotográfico pela Faculdade de Filosofia e Ciências da Universidade Estadual Paulista Júlio de Mesquita Filho/UNESP. Atualmente é professora associada da UNESP, no Departamento de Ciência da Informação da Faculdade de Filosofia e Ciências - Campus Marília, ministrando disciplinas na graduação e na pós-graduação. Coordenadora do Laboratório de Conservação, desde 2006. Membro titular dos Conselhos de curso e Departamental, da Comissão de Avaliação Documental e Acesso/CADA e da Comissão de Preservação Digital da UNESP.

José Eduardo Santarem Segundo, Universidade de São Paulo

Livre Docente em Informação e Tecnologia pela Universidade de São Paulo (USP), 2020. Pós-Doutorado pela Faculdade de Engenharia da Computação da Western University/Canadá, 2018. Doutor e Mestre em Ciência da Informação pela Universidade Estadual Paulista Júlio de Mesquita Filho-UNESP-Marília/SP; Professor Departamento de Educação, Informação e Comunicação, da Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto, da Universidade de São Paulo (USP); Docente do Programa de Pós-Graduação em Ciência da Informação da UNESP/Marília. Bolsista de Produtividade em Pesquisa PQ-2 do CNPq. Membro da Diretoria Executiva da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (ANCIB). Atua na linha de pesquisa - Ambientes Digitais e Tecnologias Aplicadas a Informação e Comunicação, com ênfase em Web Semântica, Linked Data, Big Data, Aprendizado de Maquina (Machine Learning), Dados Abertos e Acervos Digitais. Lider do NEWSDA - Núcleo de Estudos em Web Semântica e Dados Abertos.

Referências

ARRUDA, H. M.; BAVARESCO, R. S.; KUNST, R.; BUGS, E. F.; PESENTI, G. C.; BARBOSA, J. L. V. Data Science Methods and Tools for Industry 4.0: A Systematic Literature Review and Taxonomy. Sensors, 2023, v. 23, n. 11, p. 5010. DOI: https://doi.org/10.3390/s23115010. Disponível em: https://www.mdpi.com/1424-8220/23/11/5010. Acesso em: 05 jun. 2025. DOI: https://doi.org/10.3390/s23115010

BRUCE, T. R.; HILLMANN, D. I. The continuum of metadata quality: Defining, expressing, exploiting. In: Metadata in Practice. ALA Editions, 2004. p. 238-256.

CHAKA, C. Generative AI Chatbots - ChatGPT versus YouChat versus Chatsonic: Use Cases of Selected Areas of Application. 2023. DOI: https://doi.org/10.26803/ijlter.22.6.1

CONSELHO INTERNACIONAL DE ARQUIVOS (CIA). ISAD(G): Norma geral internacional de descrição arquivística. 2. ed. Rio de Janeiro. 2000. Disponível em: https://www.gov.br/conarq/pt-br/centrais-de-conteudo/publicacoes/isad_g_2001.pdf. Acesso em: 14 jun. 2024.

CONSELHO NACIONAL DE ARQUIVOS (CONARQ). ISAAR (CPF): Norma Internacional sobre Registros de Autoridade Arquivística para Entidades Coletivas, Pessoas e Famílias. tradução de Vitor Manoel Marques da Fonseca. 2. ed., Rio de Janeiro: Arquivo Nacional, 2004. Disponível em: https://www.gov.br/conarq/pt-br/centrais-de-conteudo/publicacoes/isaar_cpf.pdf. Acesso em: 14 jun. 2024.

FRONTONI, E. Appearance-Based Archival Science. In: DURANTI, L.; ROGERS, C. (Ed.). Artificial Intelligence and Documentary Heritage. SCEaR Newsletter 2024 - Special Issue 2024. Paris: UNESCO, 2024. p. 49-53. Disponível em: https://unesdoc.unesco.org/ark:/48223/pf0000389844. Acesso em: 05 jun. 2025.

JAIN, N.; TAYAL, A. PANDAS AI: A Step Towards GEN AI. International Journal of Scientific Research in Engineering and Management (IJSREM), v. 7, n. 7, p. 1-9, 2023. DOI: https://doi.org/10.55041/IJSREM24506

LEMIEUX, V. Balancing Act: Navigating the Nexus of AI, Privacy, and Accessibility in Archives. In: DURANTI, L.; ROGERS, C. (Ed.). Artificial Intelligence and Documentary Heritage. SCEaR Newsletter 2024 - Special Issue 2024. Paris: UNESCO, 2024. p. 39-42. Disponível em: https://unesdoc.unesco.org/ark:/48223/pf0000389844. Acesso em: 05 jun. 2025.

LIKERT, R. A technique for the measurement of attitudes. Archives of Psychology, v. 22, n. 140, p. 1-55, 1932.

PACHECO, A.; SILVA, C. G. da; FREITAS, M. C. V de. A metadata model for authenticity in digital archival descriptions. Archival Science, v. 23, p. 629–673, 2023. DOI: https://doi.org/10.1007/s10502-023-09422-w. Disponível em: https://link.springer.com/article/10.1007/s10502-023-09422-w. Acesso em: 05 jun. 2025. DOI: https://doi.org/10.1007/s10502-023-09422-w

ROCKEMBACH, M. AI Literacy: A Must for Records Management and Archival Professionals. In: DURANTI, L.; ROGERS, C. (Ed.). Artificial Intelligence and Documentary Heritage. SCEaR Newsletter 2024 - Special Issue 2024. Paris: UNESCO, 2024. p. 90-95. Disponível em: https://unesdoc.unesco.org/ark:/48223/pf0000389844. Acesso em: 05 jun. 2025.

SANTOS, V. B. Preservação de documentos arquivísticos digitais. Ciência da Informação, [s. l.], v. 41, n. 1, 2012. DOI: https://doi.org/10.18225/ci.inf.v41i1.1357. Disponível em: https://revista.ibict.br/ciinf/article/view/1357. Acesso em: 05 jun. 2025.

SANTAREM SEGUNDO, J. E. Disciplina “Data Science e Inteligência Artificial: um olhar pela Ciência da Informação”. [Slides da aula 02]. PPGCI/UNESP, 1º sem. 2024.

STANČIĆ, H.; TRBUŠIĆ, Z. Annotation of Digitised Archival Materials Supported by AI. In: DURANTI, L.; ROGERS, C. (Ed.). Artificial Intelligence and Documentary Heritage. SCEaR Newsletter 2024 - Special Issue 2024. Paris: UNESCO, 2024.p. 73-78. Disponível em: https://unesdoc.unesco.org/ark:/48223/pf0000389844. Acesso em: 05 jun. 2025.

ZHA, D.; BHAT, Z. P.; LAI, K.; YANG, F.; JIANG, Z.; ZHONG, S.; HU, X. Data-centric Artificial Intelligence: a survey. arXiv:2303.10158v3 [cs.LG]. 2023.