A natureza de conjuntos de dados científicos em repositórios sul-americanos: um levantamento de formatos e extensões
DOI:
https://doi.org/10.5007/1518-2924.2022.e85148Palavras-chave:
Dados científicos, Conjuntos de dados, Repositórios de dados, Formatos e extensões, LevantamentoResumo
Objetivo: identificar os repositórios de dados científicos criados e geridos por Instituições de Ensino Superior e/ou agências de pesquisa e fomento sul-americanas; identificar e descrever os formatos e extensões dos arquivos que compõem os conjuntos de dados científicos depositados nesses repositórios.
Método: oito repositórios recuperados pelo RE3DATA foram selecionados à investigação. Obteve-se uma população (N) de 1.115 conjuntos de dados científicos. A partir da Amostragem Aleatória Estratificada, chegou-se ao valor da amostra (n) igual a 258 conjuntos de dados, que corresponde a 23,15% da população (N). Os dados retirados das amostras foram condensados em tabelas e quadros.
Resultado: notou-se que a natureza dos conjuntos de dados científicos investigados se concentra em dados textuais e numéricos, salvos em arquivos de texto e em tabelas, respectivamente. Percebeu-se que os conjuntos de dados podem ser tanto homogêneos (um ou mais arquivos salvos em um único formato e extensão, ex.: formato de imagem em .jpg) ou heterogêneos (arquivos salvos em diferentes formatos e extensões, ex.: mesmo formato de imagem salvo em .jpg e .tiff) em sua composição. Apurou-se também que algumas extensões possibilitam a identificação da natureza, do domínio e do conteúdo dos dados, como observado nas extensões .gpx e .gdb, que se referem a dados de geolocalização, logo, de natureza alfanumérica.
Conclusões: há crescente necessidade de se descrever a natureza dos dados, assim como os formatos e extensões de seus arquivos. Esse tipo de metadado descritivo seria valioso a potenciais usuários, pois permitiria obter maior compreensão do contexto dos dados com foco em seu reúso.
Downloads
Referências
AMARAL, F. Introdução à ciência de dados: mineração de dados e Big Data. Rio de Janeiro: Alta Books, 2016. 320 p.
BITBERRY SOFTWARE APS. File.org: dta. [S. l.], 2020. Disponível em: https://file.org/extension/dta. Acesso em: 21 fev. 2020.
BORGMAN, C. L. Big data, little data, no data: scholarship in the networked world. Cambridge; London: The MIT Press, 2015.
BORGMAN, C. L; SCHARNHORST, A.; GOLSHAN, M. S. Digital data archives as knowledge infrastructures: mediating data sharing and reuse. Journal of the Association for Information Science and Technology, [S. l.], v. 70, n. 8, 2019. DOI: https://doi.org/10.1002/asi.24172. Disponível em: https://asistdl.onlinelibrary.wiley.com/doi/epdf/10.1002/asi.24172. Acesso em: 17 jun. 2020.
DATAONE. Software tools catalog. [S. l.], [2020]. Disponível em: https://www.dataone.org/software_tools_catalog. Acesso em: 19 fev. 2020.
DATAVERSE. Dataverse project: about. [S. l.], [2020]. Disponível em: https://dataverse.org/about. Acesso em: 19 fev. 2020.
FIVESTARDATA. 5 Estrelas para dados abertos. [S. l.], 2019. Disponível em: https://5stardata.info/pt-BR/. Acesso em: 16 set. 2019.
HEY, T.; TANSLEY, S.; TOLLE, K. (ed.). The fourth paradigm: data-intensive scientific discovery. Redmond, Washington: Microsoft Research, 2009.
HUNT, K. The challenges of integrating data literacy into the curriculum in an undergraduate institution. IASSIST, Denmark, v. 28, n. 2-3, p. 12-16, 2004. DOI: https://doi.org/10.29173/iq791. Disponível em: https://iassistquarterly.com/index.php/iassist/article/view/791. Acesso em: 21 ago. 2019.
IBICT. Sistema para construção de repositórios institucionais digitais (DSpace). Rio de Janeiro; Brasília, 2019. Disponível em: http://www.ibict.br/tecnologias-para-informacao/DSpace. Acesso em: 08 out. 2019.
ILHARCO, F. Filosofia da Informação: alguns problemas fundadores. In: II Congresso Ibérico de Ciências da Comunicação, 2004, Portugal. Anais […]. Portugal, 2004. Disponível em: https://www.cccc2004.ubi.pt. Acesso em: 26 set. 2019.
KOLTAY, T. Data literacy: in search of a name and identity. Journal of Documentation, [S. l.], v. 71, n. 2, p. 401-415, 2015. DOI: 10.1108/JD-02-2014-0026. Disponível em: https://www.emerald.com/insight/content/doi/10.1108/JD-02-2014-0026/full/pdf?title=data-literacy-in-search-of-a-name-and-identity. Acesso em: 24 ago. 2019.
ROCHA, L. L.; SALES, L. F.; SAYÃO, L. F. Uso de cadernos eletrônicos de laboratório para as práticas de ciência aberta e preservação de dados de pesquisa. PontodeAcesso, Salvador, v. 11, n. 3, p. 2-16, dez. 2017. DOI: http://dx.doi.org/10.9771/rpa.v11i3.24945. Disponível em: https://portalseer.ufba.br/index.php/revistaici/article/view/24945/15542. Acesso em: 20 set. 2018.
RODRIGUES, Marcello Mundim; DIAS, Guilherme Ataíde; LOURENÇO, Cíntia de Azevedo. Repositórios de dados científicos na América do Sul: uma análise da conformidade com os Princípios FAIR. Em Questão, Porto Alegre, v. 28, n. 2, e-113057, abr./jun. 2022. DOI: http://dx.doi.org/10.19132/1808- 5245282.113057.
SALES, L. F.; SAYÃO, L. F. Uma proposta de taxonomia para dados de pesquisa. Conhecimento em Ação, Rio de Janeiro, v.4, n. 1, p. 31-48, 2019. Disponível em: https://revistas.ufrj.br/index.php/rca/article/view/26337. Acesso em: 13 ago. 2020.
SARACEVIC, T. Ciência da Informação: origem, evolução e relações. Persp. Ci. Inf., Belo Horizonte, v. 1, n. 1, p. 41-62, 1996. Disponível em: https://brapci.inf.br/_repositorio/2010/08/pdf_fd9fd572cc_0011621.pdf. Acesso em: 14 out. 2019.
SHARPENED PRODUCTIONS. Fileinfo: the files extension database. [S. l.], 2020. Disponível em: https://fileinfo.com/. Acesso em: 18 set. 2019.
STOREY, V. C.; SONG, I. Big data technologies and management: what conceptual modelling can do. Data & Knowledge Engineering, [S. l.], v. 108, p. 50–67, 2017. DOI: https://doi.org/10.1016/j.datak.2017.01.001. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0169023X17300277. Acesso em: 25 jun. 2018.
WAMBA, S. F. et al. How ‘big data’ can make big impact: findings from a systematic review and a longitudinal case study. Int. J. Production Economics, [S. l.], v. 165, p. 234-246, 2015. DOI: https://doi.org/10.1016/j.ijpe.2014.12.031. Disponível em: https://www.sciencedirect.com/science/article/pii/S0925527314004253. Acesso em: 25 jun. 2018.
ZINS, C. Conceptual approaches for defining data, information, and knowledge. Journal of the American Society for Information Science and Technology, [S. l.], v. 58, n. 4, p. 479-493, 2007. DOI: https://doi.org/10.1002/asi.20508. Disponível em: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.20508. Acesso em: 25 jun. 2018.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 Marcello Mundim Rodrigues, Cíntia de Azevedo Lourenço, Guilherme Ataíde Dias
![Creative Commons License](http://i.creativecommons.org/l/by/4.0/88x31.png)
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
O autor deve garantir:
- que haja um consenso completo de todos os coautores em aprovar a versão final do documento e sua submissão para publicação.
- que seu trabalho é original, e se o trabalho e/ou palavras de outras pessoas foram utilizados, estas foram devidamente reconhecidas.
Plágio em todas as suas formas constituem um comportamento antiético de publicação e é inaceitável. Encontros Bibli reserva-se o direito de usar software ou quaisquer outros métodos de detecção de plágio.
Todas as submissões recebidas para avaliação na revista Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação passam por identificação de plágio e autoplágio. Plágios identificados em manuscritos durante o processo de avaliação acarretarão no arquivamento da submissão. No caso de identificação de plágio em um manuscrito publicado na revista, o Editor Chefe conduzirá uma investigação preliminar e, caso necessário, fará a retratação.
Esta revista, seguindo as recomendações do movimento de Acesso Aberto, proporciona seu conteúdo em Full Open Access. Assim os autores conservam todos seus direitos permitindo que a Encontros Bibli possa publicar seus artigos e disponibilizar pra toda a comunidade.
Os conteúdos de Encontros Bibli estão licenciados sob uma Licença Creative Commons 4.0 by.
Qualquer usuário tem direito de:
- Compartilhar — copiar, baixar, imprimir ou redistribuir o material em qualquer suporte ou formato
- Adaptar — remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial.
De acordo com os seguintes termos:
- Atribuição — Você deve dar o crédito apropriado, prover um link para a licença e indicar se mudanças foram feitas. Você deve fazê-lo em qualquer circunstância razoável, mas de maneira alguma que sugira ao licenciante a apoiar você ou o seu uso.
- Sem restrições adicionais — Você não pode aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.