A natureza de conjuntos de dados científicos em repositórios sul-americanos: um levantamento de formatos e extensões
DOI:
https://doi.org/10.5007/1518-2924.2022.e85148Palavras-chave:
Dados científicos, Conjuntos de dados, Repositórios de dados, Formatos e extensões, LevantamentoResumo
Objetivo: identificar os repositórios de dados científicos criados e geridos por Instituições de Ensino Superior e/ou agências de pesquisa e fomento sul-americanas; identificar e descrever os formatos e extensões dos arquivos que compõem os conjuntos de dados científicos depositados nesses repositórios.
Método: oito repositórios recuperados pelo RE3DATA foram selecionados à investigação. Obteve-se uma população (N) de 1.115 conjuntos de dados científicos. A partir da Amostragem Aleatória Estratificada, chegou-se ao valor da amostra (n) igual a 258 conjuntos de dados, que corresponde a 23,15% da população (N). Os dados retirados das amostras foram condensados em tabelas e quadros.
Resultado: notou-se que a natureza dos conjuntos de dados científicos investigados se concentra em dados textuais e numéricos, salvos em arquivos de texto e em tabelas, respectivamente. Percebeu-se que os conjuntos de dados podem ser tanto homogêneos (um ou mais arquivos salvos em um único formato e extensão, ex.: formato de imagem em .jpg) ou heterogêneos (arquivos salvos em diferentes formatos e extensões, ex.: mesmo formato de imagem salvo em .jpg e .tiff) em sua composição. Apurou-se também que algumas extensões possibilitam a identificação da natureza, do domínio e do conteúdo dos dados, como observado nas extensões .gpx e .gdb, que se referem a dados de geolocalização, logo, de natureza alfanumérica.
Conclusões: há crescente necessidade de se descrever a natureza dos dados, assim como os formatos e extensões de seus arquivos. Esse tipo de metadado descritivo seria valioso a potenciais usuários, pois permitiria obter maior compreensão do contexto dos dados com foco em seu reúso.
Downloads
Referências
AMARAL, F. Introdução à ciência de dados: mineração de dados e Big Data. Rio de Janeiro: Alta Books, 2016. 320 p.
BITBERRY SOFTWARE APS. File.org: dta. [S. l.], 2020. Disponível em: https://file.org/extension/dta. Acesso em: 21 fev. 2020.
BORGMAN, C. L. Big data, little data, no data: scholarship in the networked world. Cambridge; London: The MIT Press, 2015.
BORGMAN, C. L; SCHARNHORST, A.; GOLSHAN, M. S. Digital data archives as knowledge infrastructures: mediating data sharing and reuse. Journal of the Association for Information Science and Technology, [S. l.], v. 70, n. 8, 2019. DOI: https://doi.org/10.1002/asi.24172. Disponível em: https://asistdl.onlinelibrary.wiley.com/doi/epdf/10.1002/asi.24172. Acesso em: 17 jun. 2020.
DATAONE. Software tools catalog. [S. l.], [2020]. Disponível em: https://www.dataone.org/software_tools_catalog. Acesso em: 19 fev. 2020.
DATAVERSE. Dataverse project: about. [S. l.], [2020]. Disponível em: https://dataverse.org/about. Acesso em: 19 fev. 2020.
FIVESTARDATA. 5 Estrelas para dados abertos. [S. l.], 2019. Disponível em: https://5stardata.info/pt-BR/. Acesso em: 16 set. 2019.
HEY, T.; TANSLEY, S.; TOLLE, K. (ed.). The fourth paradigm: data-intensive scientific discovery. Redmond, Washington: Microsoft Research, 2009.
HUNT, K. The challenges of integrating data literacy into the curriculum in an undergraduate institution. IASSIST, Denmark, v. 28, n. 2-3, p. 12-16, 2004. DOI: https://doi.org/10.29173/iq791. Disponível em: https://iassistquarterly.com/index.php/iassist/article/view/791. Acesso em: 21 ago. 2019.
IBICT. Sistema para construção de repositórios institucionais digitais (DSpace). Rio de Janeiro; Brasília, 2019. Disponível em: http://www.ibict.br/tecnologias-para-informacao/DSpace. Acesso em: 08 out. 2019.
ILHARCO, F. Filosofia da Informação: alguns problemas fundadores. In: II Congresso Ibérico de Ciências da Comunicação, 2004, Portugal. Anais […]. Portugal, 2004. Disponível em: https://www.cccc2004.ubi.pt. Acesso em: 26 set. 2019.
KOLTAY, T. Data literacy: in search of a name and identity. Journal of Documentation, [S. l.], v. 71, n. 2, p. 401-415, 2015. DOI: 10.1108/JD-02-2014-0026. Disponível em: https://www.emerald.com/insight/content/doi/10.1108/JD-02-2014-0026/full/pdf?title=data-literacy-in-search-of-a-name-and-identity. Acesso em: 24 ago. 2019.
ROCHA, L. L.; SALES, L. F.; SAYÃO, L. F. Uso de cadernos eletrônicos de laboratório para as práticas de ciência aberta e preservação de dados de pesquisa. PontodeAcesso, Salvador, v. 11, n. 3, p. 2-16, dez. 2017. DOI: http://dx.doi.org/10.9771/rpa.v11i3.24945. Disponível em: https://portalseer.ufba.br/index.php/revistaici/article/view/24945/15542. Acesso em: 20 set. 2018.
RODRIGUES, Marcello Mundim; DIAS, Guilherme Ataíde; LOURENÇO, Cíntia de Azevedo. Repositórios de dados científicos na América do Sul: uma análise da conformidade com os Princípios FAIR. Em Questão, Porto Alegre, v. 28, n. 2, e-113057, abr./jun. 2022. DOI: http://dx.doi.org/10.19132/1808- 5245282.113057.
SALES, L. F.; SAYÃO, L. F. Uma proposta de taxonomia para dados de pesquisa. Conhecimento em Ação, Rio de Janeiro, v.4, n. 1, p. 31-48, 2019. Disponível em: https://revistas.ufrj.br/index.php/rca/article/view/26337. Acesso em: 13 ago. 2020.
SARACEVIC, T. Ciência da Informação: origem, evolução e relações. Persp. Ci. Inf., Belo Horizonte, v. 1, n. 1, p. 41-62, 1996. Disponível em: https://brapci.inf.br/_repositorio/2010/08/pdf_fd9fd572cc_0011621.pdf. Acesso em: 14 out. 2019.
SHARPENED PRODUCTIONS. Fileinfo: the files extension database. [S. l.], 2020. Disponível em: https://fileinfo.com/. Acesso em: 18 set. 2019.
STOREY, V. C.; SONG, I. Big data technologies and management: what conceptual modelling can do. Data & Knowledge Engineering, [S. l.], v. 108, p. 50–67, 2017. DOI: https://doi.org/10.1016/j.datak.2017.01.001. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0169023X17300277. Acesso em: 25 jun. 2018.
WAMBA, S. F. et al. How ‘big data’ can make big impact: findings from a systematic review and a longitudinal case study. Int. J. Production Economics, [S. l.], v. 165, p. 234-246, 2015. DOI: https://doi.org/10.1016/j.ijpe.2014.12.031. Disponível em: https://www.sciencedirect.com/science/article/pii/S0925527314004253. Acesso em: 25 jun. 2018.
ZINS, C. Conceptual approaches for defining data, information, and knowledge. Journal of the American Society for Information Science and Technology, [S. l.], v. 58, n. 4, p. 479-493, 2007. DOI: https://doi.org/10.1002/asi.20508. Disponível em: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.20508. Acesso em: 25 jun. 2018.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 Marcello Mundim Rodrigues, Cíntia de Azevedo Lourenço, Guilherme Ataíde Dias
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
O autor deve garantir:
- que haja um consenso completo de todos os coautores em aprovar a versão final do documento e sua submissão para publicação.
- que seu trabalho é original, e se o trabalho e/ou palavras de outras pessoas foram utilizados, estas foram devidamente reconhecidas.
Plágio em todas as suas formas constituem um comportamento antiético de publicação e é inaceitável. Encontros Bibli reserva-se o direito de usar software ou quaisquer outros métodos de detecção de plágio.
Todas as submissões recebidas para avaliação na revista Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação passam por identificação de plágio e autoplágio. Plágios identificados em manuscritos durante o processo de avaliação acarretarão no arquivamento da submissão. No caso de identificação de plágio em um manuscrito publicado na revista, o Editor Chefe conduzirá uma investigação preliminar e, caso necessário, fará a retratação.
Esta revista, seguindo as recomendações do movimento de Acesso Aberto, proporciona seu conteúdo em Full Open Access. Assim os autores conservam todos seus direitos permitindo que a Encontros Bibli possa publicar seus artigos e disponibilizar pra toda a comunidade.
Os conteúdos de Encontros Bibli estão licenciados sob uma Licença Creative Commons 4.0 by.
Qualquer usuário tem direito de:
- Compartilhar — copiar, baixar, imprimir ou redistribuir o material em qualquer suporte ou formato
- Adaptar — remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial.
De acordo com os seguintes termos:
- Atribuição — Você deve dar o crédito apropriado, prover um link para a licença e indicar se mudanças foram feitas. Você deve fazê-lo em qualquer circunstância razoável, mas de maneira alguma que sugira ao licenciante a apoiar você ou o seu uso.
- Sem restrições adicionais — Você não pode aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.