Python scripts para o web scraping de metadados das descrições sobre os conjuntos de dados do cenário internacional de repositórios de dados de pesquisa

Autores

DOI:

https://doi.org/10.5007/1518-2924.2023.e94877

Palavras-chave:

Repositório de Dados, Dados de Pesquisa, Geociências, Re3data

Resumo

Objetivo: Os repositórios de dados de pesquisa são a evolução dos repositórios de documentos e visam acessar e preservar todos os materiais usados antes, durante e depois da realização pesquisa científica. Nesse contexto, o objetivo deste estudo é realizar uma abordagem exploratória e descritiva do cenário internacional de repositórios de dados de pesquisa, por meio do monitoramento dos metadados descritivos do registro internacional desse tipo de repositórios no Registry of Research Data Repositories (re3data.org).

Métodos: O desenvolvimento do método exigiu a aplicação de conhecimentos inerentes às técnicas e tecnologias utilizadas para análise descritiva de dados, recuperação de informações, manipulação, análise e visualização de dados. A aplicado ao método resulta em três scripts em Python 3.11 para coleta de metadados do re3data, scripts para conversão de metadados e scripts para visualização dos metadados em softwares como o VOSviewer. Os conjuntos de dados produzidos pela pesquisa pode ser encontrados no repositório de dados ZENODO (https://doi.org/10.5281/zenodo.7903109), em uma coleção de software depositada em (05/05/2023), nela foram recuperados 3108 registros de links para descrições de repositórios distribuídos internacionalmente. Conforme o experimento metodológico o conjunto de dados contém um diretório raiz com 3 subdiretórios, um chamado (scripts) com os códigos Pyhton (.py), outro diretório chamado (data) com os arquivos textuais (Tab-separated values,TSV) contidos e o arquivo (Information Systems Research, RIS). O terceiro diretório (env) é onde estão as bibliotecas Python necessárias para executar os scripts.

Potencial de reutilização: O método de pesquisa aplicado para manipular este conjunto de dados é baseado na extração automatizada de metadados do re3data e na visualização de redes; após o processo de coleta e análise dos dados é possível desencadear um estudo exploratório e descritivo sobre o cenário internacional dos repositórios de dados de pesquisa, verificados pelo re3data, o que permite o monitoramento ético da quantidade de repositórios de dados de pesquisa que estão cadastrados no re3data, quais são suas áreas, as instituições, os países o idioma o idiomas dos dados da pesquisa, a tipologia dos repositórios e dos dados depositados, suas os temáticas, áreas do conhecimento, tipos de acessos, licenças e softwares  utilizados. Além disso, outras questões podem ser levantadas durante a interpretação dos dados. O que reforça a necessidade desse conjunto de dados para a comunidade de profissionais da Biblioteconomia e da Ciência da Informação, o compartilhamento de dados e a técnica de extração podem colaborar com o reaproveitamento desses dados de pesquisa.

Downloads

Não há dados estatísticos.

Biografia do Autor

Alexandre Ribas Semeler, Federal University of Rio Grande do Sul

Alexandre Ribas Semeler is a Data Librarian at the Institute of Geosciences of the Federal University of Rio Grande do Sul (UFRGS), Porto Alegre, Brazil. He is a graduate in Librarianship from UFRGS (2003-2007), and holds a Master in Communication and Information from UFRGS (2008-2010). He is a Doctor in Information Science at the Federal University of Santa Catarina (UFSC) (2015-2017). He is a (2018-2019) postdoctor in Information Science at the Federal University of Santa Catarina, Florianópolis, Brazil. His areas of research interest include: interdisciplinary topics in information science, e-science, data science, and data librarianship.

Arthur Longoni Oliveira, Federal University of Rio Grande do Sul

Graduando de Ciência da Computação no Instituto de Informática da Universidade Federal Do Rio Grande Do Sul (2013-atual). Cientista de Dados Junior, Desenvolvedor Python Senior, Atuando nas seguintes áreas: Ciência da Informação, Programação Orientada a Objetos, Computação Paralela Aplicada à Coleta, Análise e Visualização de Dados Científicos.

Fabiana Andrade Pereira, São Paulo Research Foundation

Sou mestra em Ciência da Informação pelo Programa de Pós-Graduação em Ciência da Informação - PPGCI - ECA - Universidade de São Paulo (2020), onde pesquisei sobre os impactos dos processos avaliativos gerados por mecanismos de buscas acadêmicos, nas áreas de Bibliometria e Cientometria. Fiz uma pós-graduação - especialização em Gestão da Comunicação em Mídias Digitais pelo SENAC-SP (2011). Possuo graduação em Biblioteconomia pela Fundação Escola de Sociologia e Política de São Paulo (2009). Tenho experiência profissional nas áreas de Biblioteconomia e Ciência da Informação, com ênfase em Bibliotecas Virtuais, Controle de Vocabulários e Buscadores. Esforço-me nos diálogos entre a Ciência da Informação e Informação Digital, onde atuo, estudo e algumas vezes ministro aulas em Search Engine Optimization (SEO), Big Data, algoritmos e dataficação, mídias sociais/digitais e novas tecnologias. Também possuo diversos cursos de extensão em áreas correlatas da comunicação e da informação digital.

Policarpo Matiquite, Eduardo Mondlane University

Possui doutorado em Ciências de Informação pela UFSC Universidade Federal de Santa Catariana (2018) com Tese apresentada ao Programa de Pós-Graduação em Ciência da Informação - área de concentração Gestão da Informação, linha de pesquisa Organização, Representação e Mediação da Informação e do Conhecimento - no Centro de Ciências da Educação da Universidade Federal de Santa Catarina (2018). Possui também mestrado em Library and information science - University of the Western Cape (2011). Tem experiência em docência nas áreas de Biblioteconomia, Comunicação e Gestão de conhecimento. Possui experiência em gestão de projectos com enfoque para projectos para biblioteca universitárias. Participou da construção da Biblioteca Central da Universidade Eduardo Mondlane em Moçambique, Actualmente é Professor de varias disciplinas na Escola de Comunicação e Artes da Universidade Eduardo Mondlane.

Referências

RE3DATA. Disponível em: <http://www.re3data.org/about>. Acesso em: maio 2023.

Publicado

2023-08-04

Como Citar

SEMELER, Alexandre Ribas; LONGONI OLIVEIRA, Arthur; ANDRADE PEREIRA, Fabiana; MATIQUITE, Policarpo. Python scripts para o web scraping de metadados das descrições sobre os conjuntos de dados do cenário internacional de repositórios de dados de pesquisa. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, [S. l.], v. 28, p. 1–8, 2023. DOI: 10.5007/1518-2924.2023.e94877. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/94877. Acesso em: 11 dez. 2024.