IA generativa na extração de metadados arquivísticos: um estudo baseado na norma ISAD(G)

Autores/as

DOI:

https://doi.org/10.5007/1518-2924.2025.e103505

Palabras clave:

Descrição Arquivística, Automação, ISAD(G), Inteligência artificial, Machine Learning, ChatGPT

Resumen

Objetivo: Realizar um diagnóstico buscando analisar o uso de inteligência artificial, especificamente do ChatGPT, na descrição de documentos arquivísticos segundo a Norma Geral Internacional de Descrição Arquivística.

Método: A pesquisa é de natureza exploratória e aplicada, útil em estudos inovadores onde o objetivo é explorar possibilidades, identificar padrões e formular hipóteses futuras para estudos mais detalhados.

Resultados: Os principais resultados mostraram que o ChatGPT atingiu uma taxa média de acerto de 92,04% no preenchimento quantitativo de metadados, com variabilidade mínima entre os testes. No entanto, inconsistências foram observadas em metadados considerados constantes, como Procedência e Condições de Acesso, que não mantiveram a precisão e consistência esperada. Metadados como Dimensão e Suporte, e Âmbito e Conteúdo, apresentaram maior dificuldade de padronização, sugerindo a necessidade de melhorias e ajustes no modelo.

Conclusões: Os resultados sugerem que, embora o ChatGPT tenha demonstrado eficiência na maioria dos campos analisados, os desafios permanecem em metadados com pouca padronização. Os resultados indicam que o ChatGPT é capaz de manter um alto grau de completude dos metadados, mas enfrenta desafios em relação à precisão e consistência, especialmente em campos mais complexos. Ajustes no treinamento do modelo, juntamente com a supervisão humana contínua, podem melhorar a qualidade das descrições geradas. Apesar das limitações, a IA se mostra uma ferramenta promissora, capaz de impulsionar avanços significativos no campo da Arquivologia digital

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Tatiana Canelhas Pignataro, Universidad Estatal Paulista

Cofundadora de META Documentos Digitales, una empresa especializada en preservación digital. Es estudiante de maestría en el Programa de Posgrado en Ciencia de la Información (PPGCI/UNESP) y tiene una licenciatura en Archivología y Ciencias de la Computación por la Universidad de Brasília. Contribuyó a la implementación de los sistemas de la Resolución nº 51, del 25 de agosto de 2023, del CONARQ (RDC-Arq), en el Senado Federal y en el Tribunal Superior Militar, en colaboración con la UnB. En el IBICT, participó durante cinco años en investigaciones sobre preservación digital y contribuyó al desarrollo del Modelo Hipátia en proyectos con el TJDFT, TRT4, TJMG y el Archivo Nacional.

Manoel Pedro de Souza Neto, Universidad Estatal Paulista

Licenciado en Biblioteconomía (2005) y Archiveología (2013), ambas por la Universidad Federal de Amazonas (UFAM). Especialización en Archivología por el Centro Universitário do Norte (UNINORTE), en 2006. Maestría en Patrimonio Cultural por la Universidad de Santa María (UFSM), en 2016. Servidor público del Tribunal de Justicia de Amazonas (TJAM) desde 2006. Gerente General de Archivo de este juzgado (2009-2015), regresando al cargo en (2018). Trabaja como secretario del Comité Permanente de Evaluación de Documentos (CPAD/TJAM), donde gestiona los documentos de archivo. Miembro del Comité Directivo LGPD del mismo Tribunal. Designado por el Ministro Gilmar Mendes, del Supremo Tribunal Federal y del Consejo Nacional de Justicia, para integrar el Comité de Gestión Documental y Memoria del Poder Judicial (PRONAME), en 2009-2013.

José Carlos Abbud Grácio, Universidad Estatal Paulista

Licenciatura en Informática por la Universidad Estadual de Campinas-UNICAMP (1987), maestría (2002) y doctorado (2011) en Ciencias de la Información por la Universidad Estadual Paulista Júlio de Mesquita Filho-UNESP/Marília. Director de Tecnologías de la Información de la UNESP/Marília, de 1995 a 2009. Miembro del Comité Superior de Tecnologías de la Información de la UNESP de 2009 a 2016. Presidente de la Comisión Permanente para la Preservación Digital de la UNESP desde 2018. Profesor colaborador del Programa de Postgrado en Ciencias de la Información de la Unesp/Marília. Investigación en el área de Ciencias de la Información, con énfasis en Preservación Digital, Políticas y Planes de Preservación Digital, Sistemas de Gestión de Archivo Documental y Metadatos. Miembro del grupo de investigación Dryad.

Telma Campanha de Carvalho Madio, Universidad Estatal Paulista

Licenciatura en Historia por la Pontificia Universidad Católica de São Paulo, especialización en Archivo por el IEB/USP, maestría en Historia por la Pontificia Universidad Católica de São Paulo y doctorado en Ciencias de la Comunicación por la Universidad de São Paulo. Título de libre docencia en Documento fotográfico por la Facultad de Filosofía y Ciencias de la Universidad Estadual Paulista Júlio de Mesquita Filho/UNESP. Actualmente es profesora asociada de la UNESP, en el Departamento de Ciencia de la Información de la Facultad de Filosofía y Ciencias - Campus Marília, impartiendo asignaturas en la licenciatura y en el posgrado. Coordinadora del Laboratorio de Conservación desde 2006. Miembro titular de los Consejos de Curso y Departamental, de la Comisión de Evaluación Documental y Acceso/CADA y de la Comisión de Preservación Digital de la UNESP.

José Eduardo Santarem Segundo, Universidad de São Paulo

Profesor Titular de Información y Tecnología de la Universidad de São Paulo (USP), 2020. Postdoctorado en la Facultad de Ingeniería Informática de Western University/Canadá, 2018. Doctor y Magíster en Ciencias de la Información de la Universidade Estadual Paulista Júlio de Mesquita Filho - UNESP-Marília/SP; Profesor del Departamento de Educación, Información y Comunicación de la Facultad de Filosofía, Ciencias y Letras de Ribeirão Preto, Universidad de São Paulo (USP); Profesor del Programa de Postgrado en Ciencias de la Información de la UNESP/Marília. Beca Productividad en Investigación de Información y Tecnología PQ-2 del CNPq. Miembro del Comité Ejecutivo de la Asociación Nacional de Investigación y Postgrado en Ciencias de la Información (ANCIB). Se desempeña en la línea de investigación - Entornos y Tecnologías Digitales Aplicadas a la Información y la Comunicación -, con énfasis en Semántica. Web, Linked Data, Big Data, Machine Learning, Open Data y Colecciones Digitales. Líder de NEWSDA - Centro de Estudios de Web Semántica y Datos Abiertos.

Citas

ARRUDA, H. M.; BAVARESCO, R. S.; KUNST, R.; BUGS, E. F.; PESENTI, G. C.; BARBOSA, J. L. V. Data Science Methods and Tools for Industry 4.0: A Systematic Literature Review and Taxonomy. Sensors, 2023, v. 23, n. 11, p. 5010. DOI: https://doi.org/10.3390/s23115010. Disponível em: https://www.mdpi.com/1424-8220/23/11/5010. Acesso em: 05 jun. 2025. DOI: https://doi.org/10.3390/s23115010

BRUCE, T. R.; HILLMANN, D. I. The continuum of metadata quality: Defining, expressing, exploiting. In: Metadata in Practice. ALA Editions, 2004. p. 238-256.

CHAKA, C. Generative AI Chatbots - ChatGPT versus YouChat versus Chatsonic: Use Cases of Selected Areas of Application. 2023. DOI: https://doi.org/10.26803/ijlter.22.6.1

CONSELHO INTERNACIONAL DE ARQUIVOS (CIA). ISAD(G): Norma geral internacional de descrição arquivística. 2. ed. Rio de Janeiro. 2000. Disponível em: https://www.gov.br/conarq/pt-br/centrais-de-conteudo/publicacoes/isad_g_2001.pdf. Acesso em: 14 jun. 2024.

CONSELHO NACIONAL DE ARQUIVOS (CONARQ). ISAAR (CPF): Norma Internacional sobre Registros de Autoridade Arquivística para Entidades Coletivas, Pessoas e Famílias. tradução de Vitor Manoel Marques da Fonseca. 2. ed., Rio de Janeiro: Arquivo Nacional, 2004. Disponível em: https://www.gov.br/conarq/pt-br/centrais-de-conteudo/publicacoes/isaar_cpf.pdf. Acesso em: 14 jun. 2024.

FRONTONI, E. Appearance-Based Archival Science. In: DURANTI, L.; ROGERS, C. (Ed.). Artificial Intelligence and Documentary Heritage. SCEaR Newsletter 2024 - Special Issue 2024. Paris: UNESCO, 2024. p. 49-53. Disponível em: https://unesdoc.unesco.org/ark:/48223/pf0000389844. Acesso em: 05 jun. 2025.

JAIN, N.; TAYAL, A. PANDAS AI: A Step Towards GEN AI. International Journal of Scientific Research in Engineering and Management (IJSREM), v. 7, n. 7, p. 1-9, 2023. DOI: https://doi.org/10.55041/IJSREM24506

LEMIEUX, V. Balancing Act: Navigating the Nexus of AI, Privacy, and Accessibility in Archives. In: DURANTI, L.; ROGERS, C. (Ed.). Artificial Intelligence and Documentary Heritage. SCEaR Newsletter 2024 - Special Issue 2024. Paris: UNESCO, 2024. p. 39-42. Disponível em: https://unesdoc.unesco.org/ark:/48223/pf0000389844. Acesso em: 05 jun. 2025.

LIKERT, R. A technique for the measurement of attitudes. Archives of Psychology, v. 22, n. 140, p. 1-55, 1932.

PACHECO, A.; SILVA, C. G. da; FREITAS, M. C. V de. A metadata model for authenticity in digital archival descriptions. Archival Science, v. 23, p. 629–673, 2023. DOI: https://doi.org/10.1007/s10502-023-09422-w. Disponível em: https://link.springer.com/article/10.1007/s10502-023-09422-w. Acesso em: 05 jun. 2025. DOI: https://doi.org/10.1007/s10502-023-09422-w

ROCKEMBACH, M. AI Literacy: A Must for Records Management and Archival Professionals. In: DURANTI, L.; ROGERS, C. (Ed.). Artificial Intelligence and Documentary Heritage. SCEaR Newsletter 2024 - Special Issue 2024. Paris: UNESCO, 2024. p. 90-95. Disponível em: https://unesdoc.unesco.org/ark:/48223/pf0000389844. Acesso em: 05 jun. 2025.

SANTOS, V. B. Preservação de documentos arquivísticos digitais. Ciência da Informação, [s. l.], v. 41, n. 1, 2012. DOI: https://doi.org/10.18225/ci.inf.v41i1.1357. Disponível em: https://revista.ibict.br/ciinf/article/view/1357. Acesso em: 05 jun. 2025.

SANTAREM SEGUNDO, J. E. Disciplina “Data Science e Inteligência Artificial: um olhar pela Ciência da Informação”. [Slides da aula 02]. PPGCI/UNESP, 1º sem. 2024.

STANČIĆ, H.; TRBUŠIĆ, Z. Annotation of Digitised Archival Materials Supported by AI. In: DURANTI, L.; ROGERS, C. (Ed.). Artificial Intelligence and Documentary Heritage. SCEaR Newsletter 2024 - Special Issue 2024. Paris: UNESCO, 2024.p. 73-78. Disponível em: https://unesdoc.unesco.org/ark:/48223/pf0000389844. Acesso em: 05 jun. 2025.

ZHA, D.; BHAT, Z. P.; LAI, K.; YANG, F.; JIANG, Z.; ZHONG, S.; HU, X. Data-centric Artificial Intelligence: a survey. arXiv:2303.10158v3 [cs.LG]. 2023.

Publicado

2025-06-16

Cómo citar

PIGNATARO, Tatiana Canelhas; SOUZA NETO, Manoel Pedro de; GRÁCIO, José Carlos Abbud; MADIO, Telma Campanha de Carvalho; SANTAREM SEGUNDO, José Eduardo. IA generativa na extração de metadados arquivísticos: um estudo baseado na norma ISAD(G). Encontros Bibli: Revista electrónica de bibliotecología, archivística y ciencias de la información., Florianópolis/SC, Brasil, v. 30, p. 1–28, 2025. DOI: 10.5007/1518-2924.2025.e103505. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/103505. Acesso em: 1 may. 2026.

Número

Sección

Dosier: Los nuevos escenarios de la sociedad digital ante el reto de la Inteligencia Artificial Generativa