Python scripts para o web scraping de metadados das descrições sobre os conjuntos de dados do cenário internacional de repositórios de dados de pesquisa
DOI:
https://doi.org/10.5007/1518-2924.2023.e94877Palavras-chave:
Repositório de Dados, Dados de Pesquisa, Geociências, Re3dataResumo
Objetivo: Os repositórios de dados de pesquisa são a evolução dos repositórios de documentos e visam acessar e preservar todos os materiais usados antes, durante e depois da realização pesquisa científica. Nesse contexto, o objetivo deste estudo é realizar uma abordagem exploratória e descritiva do cenário internacional de repositórios de dados de pesquisa, por meio do monitoramento dos metadados descritivos do registro internacional desse tipo de repositórios no Registry of Research Data Repositories (re3data.org).
Métodos: O desenvolvimento do método exigiu a aplicação de conhecimentos inerentes às técnicas e tecnologias utilizadas para análise descritiva de dados, recuperação de informações, manipulação, análise e visualização de dados. A aplicado ao método resulta em três scripts em Python 3.11 para coleta de metadados do re3data, scripts para conversão de metadados e scripts para visualização dos metadados em softwares como o VOSviewer. Os conjuntos de dados produzidos pela pesquisa pode ser encontrados no repositório de dados ZENODO (https://doi.org/10.5281/zenodo.7903109), em uma coleção de software depositada em (05/05/2023), nela foram recuperados 3108 registros de links para descrições de repositórios distribuídos internacionalmente. Conforme o experimento metodológico o conjunto de dados contém um diretório raiz com 3 subdiretórios, um chamado (scripts) com os códigos Pyhton (.py), outro diretório chamado (data) com os arquivos textuais (Tab-separated values,TSV) contidos e o arquivo (Information Systems Research, RIS). O terceiro diretório (env) é onde estão as bibliotecas Python necessárias para executar os scripts.
Potencial de reutilização: O método de pesquisa aplicado para manipular este conjunto de dados é baseado na extração automatizada de metadados do re3data e na visualização de redes; após o processo de coleta e análise dos dados é possível desencadear um estudo exploratório e descritivo sobre o cenário internacional dos repositórios de dados de pesquisa, verificados pelo re3data, o que permite o monitoramento ético da quantidade de repositórios de dados de pesquisa que estão cadastrados no re3data, quais são suas áreas, as instituições, os países o idioma o idiomas dos dados da pesquisa, a tipologia dos repositórios e dos dados depositados, suas os temáticas, áreas do conhecimento, tipos de acessos, licenças e softwares utilizados. Além disso, outras questões podem ser levantadas durante a interpretação dos dados. O que reforça a necessidade desse conjunto de dados para a comunidade de profissionais da Biblioteconomia e da Ciência da Informação, o compartilhamento de dados e a técnica de extração podem colaborar com o reaproveitamento desses dados de pesquisa.
Downloads
Referências
RE3DATA. Disponível em: <http://www.re3data.org/about>. Acesso em: maio 2023.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2023 Alexandre Ribas Semeler, Arthur Longoni Oliveira, Fabiana Andrade Pereira, Policarpo Matiquite
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
O autor deve garantir:
- que haja um consenso completo de todos os coautores em aprovar a versão final do documento e sua submissão para publicação.
- que seu trabalho é original, e se o trabalho e/ou palavras de outras pessoas foram utilizados, estas foram devidamente reconhecidas.
Plágio em todas as suas formas constituem um comportamento antiético de publicação e é inaceitável. Encontros Bibli reserva-se o direito de usar software ou quaisquer outros métodos de detecção de plágio.
Todas as submissões recebidas para avaliação na revista Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação passam por identificação de plágio e autoplágio. Plágios identificados em manuscritos durante o processo de avaliação acarretarão no arquivamento da submissão. No caso de identificação de plágio em um manuscrito publicado na revista, o Editor Chefe conduzirá uma investigação preliminar e, caso necessário, fará a retratação.
Esta revista, seguindo as recomendações do movimento de Acesso Aberto, proporciona seu conteúdo em Full Open Access. Assim os autores conservam todos seus direitos permitindo que a Encontros Bibli possa publicar seus artigos e disponibilizar pra toda a comunidade.
Os conteúdos de Encontros Bibli estão licenciados sob uma Licença Creative Commons 4.0 by.
Qualquer usuário tem direito de:
- Compartilhar — copiar, baixar, imprimir ou redistribuir o material em qualquer suporte ou formato
- Adaptar — remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial.
De acordo com os seguintes termos:
- Atribuição — Você deve dar o crédito apropriado, prover um link para a licença e indicar se mudanças foram feitas. Você deve fazê-lo em qualquer circunstância razoável, mas de maneira alguma que sugira ao licenciante a apoiar você ou o seu uso.
- Sem restrições adicionais — Você não pode aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.