Python scripts for web scraping metadata from descriptions of the international scenario of research data repositories
DOI:
https://doi.org/10.5007/1518-2924.2023.e94877Palabras clave:
Data Repository, Research Data, Geosciences, Re3dataResumen
Objective: Research data repositories are an evolution of document repositories that aim to access and preserve all materials used before, during, and after scientific research. In this context, this study aims to conduct an exploratory and descriptive investigation of the international scenario of data repositories by monitoring the descriptive metadata of the international register of this type of repositories in the Registry of Research Data Repositories (re3data.org).
Methods: The process requires applying knowledge inherent to the techniques and technologies used for descriptive data analysis, information retrieval, manipulation, analysis, and data visualization. Consequently, three scripts in Python 3.11 are provided for collecting metadata from re3data and scripts and converting the metadata to enable visualization in software such as VOSviewer, a dataset with metadata descriptions of repositories and conversions for visualization of networks. The datasets produced in this study can be found in the ZENODO Data Repository (https://doi.org/10.5281/zenodo.7903109). In a collection on (05/05/2023), 3108 links to the repository descriptions were retrieved. Data and scripts were created for this methodological experiment and shared at (DOI: doi.org/10.5281/zenodo.7903109). The dataset contains a root directory with three subdirectories: (scripts) with (.py) Python codes, another directory called (data) with textual files containing tab-separated values (.TSV), and the file (Information Systems Research, RIS). The third directory (env) contains the Python libraries required to run the scripts.
Potential for reuse: The research method applied to manipulate this dataset is based on automated re3data metadata extraction and network visualization; after the data collection and analysis process, it is possible to trigger a study based on the descriptions extracted from the Registry of Research Data Repositories (re3data), researchers can visualize the international scenario of research data repositories, verified by re3data, which allows ethical monitoring of the number of research data repositories that are registered in re3data, what are their areas, institutions, countries, the language of research data, the typology of repositories and deposited data, their themes, areas of knowledge, types of access, licenses and software used. In addition, other issues can be raised while interpreting the data. The community of Librarianship and Information Science professionals need to share data and the extraction technique these research data. Finally, it can be concluded whether information about research data repositories allows us to state that they are heterogeneous data sources that enable access and preservation of a wide range of research data types
Descargas
Citas
RE3DATA. Disponível em: <http://www.re3data.org/about>. Acesso em: maio 2023.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2023 Alexandre Ribas Semeler, Arthur Longoni Oliveira, Fabiana Andrade Pereira, Policarpo Matiquite
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
El autor debe garantizar:
que existe un consenso total de todos los coautores para aprobar la versión final del documento y su presentación para su publicación.
que su trabajo es original, y si se han utilizado el trabajo y / o las palabras de otras personas, estos se han reconocido correctamente.
El plagio en todas sus formas constituye un comportamiento editorial poco ético y es inaceptable. Encontros Bibli se reserva el derecho de utilizar software o cualquier otro método para detectar plagio.
Todas las presentaciones recibidas para su evaluación en la revista Encontros Bibli: revista electrónica de biblioteconomía y ciencias de la información pasan por la identificación del plagio y el auto-plagio. El plagio identificado en los manuscritos durante el proceso de evaluación dará como resultado la presentación de la presentación. En el caso de identificación de plagio en un manuscrito publicado en la revista, el Editor en Jefe llevará a cabo una investigación preliminar y, si es necesario, la retractará.
Esta revista, siguiendo las recomendaciones del movimiento de Acceso Abierto, proporciona su contenido en Acceso Abierto Completo. Por lo tanto, los autores conservan todos sus derechos, permitiendo a Encontros Bibli publicar sus artículos y ponerlos a disposición de toda la comunidad.
Los contenidos de Encontros Bibli están licenciados bajo Licencia Creative Commons 4.0.
Cualquier usuario tiene derecho a:
- Compartir: copiar, descargar, imprimir o redistribuir material en cualquier medio o formato
- Adaptar: mezclar, transformar y crear a partir del material para cualquier propósito, incluso comercial.
De acuerdo con los siguientes términos:
- Atribución: debe otorgar el crédito apropiado, proporcionar un enlace a la licencia e indicar si se han realizado cambios. Debe hacerlo bajo cualquier circunstancia razonable, pero de ninguna manera sugeriría que el licenciante lo respalde a usted o su uso.
- Sin restricciones adicionales: no puede aplicar términos legales o medidas tecnológicas que restrinjan legalmente a otros de hacer cualquier cosa que permita la licencia.