A natureza de conjuntos de dados científicos em repositórios sul-americanos: um levantamento de formatos e extensões

Autores

DOI:

https://doi.org/10.5007/1518-2924.2022.e85148

Palavras-chave:

Dados científicos, Conjuntos de dados, Repositórios de dados, Formatos e extensões, Levantamento

Resumo

Objetivo: identificar os repositórios de dados científicos criados e geridos por Instituições de Ensino Superior e/ou agências de pesquisa e fomento sul-americanas; identificar e descrever os formatos e extensões dos arquivos que compõem os conjuntos de dados científicos depositados nesses repositórios.

Método: oito repositórios recuperados pelo RE3DATA foram selecionados à investigação. Obteve-se uma população (N) de 1.115 conjuntos de dados científicos. A partir da Amostragem Aleatória Estratificada, chegou-se ao valor da amostra (n) igual a 258 conjuntos de dados, que corresponde a 23,15% da população (N). Os dados retirados das amostras foram condensados em tabelas e quadros.

Resultado: notou-se que a natureza dos conjuntos de dados científicos investigados se concentra em dados textuais e numéricos, salvos em arquivos de texto e em tabelas, respectivamente. Percebeu-se que os conjuntos de dados podem ser tanto homogêneos (um ou mais arquivos salvos em um único formato e extensão, ex.: formato de imagem em .jpg) ou heterogêneos (arquivos salvos em diferentes formatos e extensões, ex.: mesmo formato de imagem salvo em .jpg e .tiff) em sua composição. Apurou-se também que algumas extensões possibilitam a identificação da natureza, do domínio e do conteúdo dos dados, como observado nas extensões .gpx e .gdb, que se referem a dados de geolocalização, logo, de natureza alfanumérica.

Conclusões: há crescente necessidade de se descrever a natureza dos dados, assim como os formatos e extensões de seus arquivos. Esse tipo de metadado descritivo seria valioso a potenciais usuários, pois permitiria obter maior compreensão do contexto dos dados com foco em seu reúso.

Downloads

Não há dados estatísticos.

Biografia do Autor

Cíntia de Azevedo Lourenço, Universidade Federal de Minas Gerais

Cíntia Azevedo Lourenço é bacharel em Biblioteconomia pela PUC de Campinas e concluiu o mestrado em Biblioteconomia e Ciência da Informação pela Pontifícia Universidade Católica de Campinas em 1998 e o doutorado em Ciência da Informação pela Universidade Federal de Minas Gerais em 2005. Atualmente é Professora Associada na Escola de Ciência da Informação da Universidade Federal de Minas Gerais. Pesquisadora participante dos Grupos de Pesquisa: MHTX e RECRI. Membro do Grupo de Estudos e Pesquisas em Catalogação (GEPCAT). Atua na área de Ciência da Informação, com ênfase em Biblioteconomia, na área de Organização da Informação - Catalogação, Classificação do conhecimento e organização da informação na web.

Guilherme Ataíde Dias, Universidade Federal da Paraíba

Graduado em Ciência da Computação pela Universidade Federal da Paraíba ? UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa ? UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University ? CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo ? USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB . Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Referências

AMARAL, F. Introdução à ciência de dados: mineração de dados e Big Data. Rio de Janeiro: Alta Books, 2016. 320 p.

BITBERRY SOFTWARE APS. File.org: dta. [S. l.], 2020. Disponível em: https://file.org/extension/dta. Acesso em: 21 fev. 2020.

BORGMAN, C. L. Big data, little data, no data: scholarship in the networked world. Cambridge; London: The MIT Press, 2015.

BORGMAN, C. L; SCHARNHORST, A.; GOLSHAN, M. S. Digital data archives as knowledge infrastructures: mediating data sharing and reuse. Journal of the Association for Information Science and Technology, [S. l.], v. 70, n. 8, 2019. DOI: https://doi.org/10.1002/asi.24172. Disponível em: https://asistdl.onlinelibrary.wiley.com/doi/epdf/10.1002/asi.24172. Acesso em: 17 jun. 2020.

DATAONE. Software tools catalog. [S. l.], [2020]. Disponível em: https://www.dataone.org/software_tools_catalog. Acesso em: 19 fev. 2020.

DATAVERSE. Dataverse project: about. [S. l.], [2020]. Disponível em: https://dataverse.org/about. Acesso em: 19 fev. 2020.

FIVESTARDATA. 5 Estrelas para dados abertos. [S. l.], 2019. Disponível em: https://5stardata.info/pt-BR/. Acesso em: 16 set. 2019.

HEY, T.; TANSLEY, S.; TOLLE, K. (ed.). The fourth paradigm: data-intensive scientific discovery. Redmond, Washington: Microsoft Research, 2009.

HUNT, K. The challenges of integrating data literacy into the curriculum in an undergraduate institution. IASSIST, Denmark, v. 28, n. 2-3, p. 12-16, 2004. DOI: https://doi.org/10.29173/iq791. Disponível em: https://iassistquarterly.com/index.php/iassist/article/view/791. Acesso em: 21 ago. 2019.

IBICT. Sistema para construção de repositórios institucionais digitais (DSpace). Rio de Janeiro; Brasília, 2019. Disponível em: http://www.ibict.br/tecnologias-para-informacao/DSpace. Acesso em: 08 out. 2019.

ILHARCO, F. Filosofia da Informação: alguns problemas fundadores. In: II Congresso Ibérico de Ciências da Comunicação, 2004, Portugal. Anais […]. Portugal, 2004. Disponível em: https://www.cccc2004.ubi.pt. Acesso em: 26 set. 2019.

KOLTAY, T. Data literacy: in search of a name and identity. Journal of Documentation, [S. l.], v. 71, n. 2, p. 401-415, 2015. DOI: 10.1108/JD-02-2014-0026. Disponível em: https://www.emerald.com/insight/content/doi/10.1108/JD-02-2014-0026/full/pdf?title=data-literacy-in-search-of-a-name-and-identity. Acesso em: 24 ago. 2019.

ROCHA, L. L.; SALES, L. F.; SAYÃO, L. F. Uso de cadernos eletrônicos de laboratório para as práticas de ciência aberta e preservação de dados de pesquisa. PontodeAcesso, Salvador, v. 11, n. 3, p. 2-16, dez. 2017. DOI: http://dx.doi.org/10.9771/rpa.v11i3.24945. Disponível em: https://portalseer.ufba.br/index.php/revistaici/article/view/24945/15542. Acesso em: 20 set. 2018.

RODRIGUES, Marcello Mundim; DIAS, Guilherme Ataíde; LOURENÇO, Cíntia de Azevedo. Repositórios de dados científicos na América do Sul: uma análise da conformidade com os Princípios FAIR. Em Questão, Porto Alegre, v. 28, n. 2, e-113057, abr./jun. 2022. DOI: http://dx.doi.org/10.19132/1808- 5245282.113057.

SALES, L. F.; SAYÃO, L. F. Uma proposta de taxonomia para dados de pesquisa. Conhecimento em Ação, Rio de Janeiro, v.4, n. 1, p. 31-48, 2019. Disponível em: https://revistas.ufrj.br/index.php/rca/article/view/26337. Acesso em: 13 ago. 2020.

SARACEVIC, T. Ciência da Informação: origem, evolução e relações. Persp. Ci. Inf., Belo Horizonte, v. 1, n. 1, p. 41-62, 1996. Disponível em: https://brapci.inf.br/_repositorio/2010/08/pdf_fd9fd572cc_0011621.pdf. Acesso em: 14 out. 2019.

SHARPENED PRODUCTIONS. Fileinfo: the files extension database. [S. l.], 2020. Disponível em: https://fileinfo.com/. Acesso em: 18 set. 2019.

STOREY, V. C.; SONG, I. Big data technologies and management: what conceptual modelling can do. Data & Knowledge Engineering, [S. l.], v. 108, p. 50–67, 2017. DOI: https://doi.org/10.1016/j.datak.2017.01.001. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0169023X17300277. Acesso em: 25 jun. 2018.

WAMBA, S. F. et al. How ‘big data’ can make big impact: findings from a systematic review and a longitudinal case study. Int. J. Production Economics, [S. l.], v. 165, p. 234-246, 2015. DOI: https://doi.org/10.1016/j.ijpe.2014.12.031. Disponível em: https://www.sciencedirect.com/science/article/pii/S0925527314004253. Acesso em: 25 jun. 2018.

ZINS, C. Conceptual approaches for defining data, information, and knowledge. Journal of the American Society for Information Science and Technology, [S. l.], v. 58, n. 4, p. 479-493, 2007. DOI: https://doi.org/10.1002/asi.20508. Disponível em: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.20508. Acesso em: 25 jun. 2018.

Publicado

2022-05-27

Como Citar

RODRIGUES, Marcello Mundim; LOURENÇO, Cíntia de Azevedo; DIAS, Guilherme Ataíde. A natureza de conjuntos de dados científicos em repositórios sul-americanos: um levantamento de formatos e extensões. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, [S. l.], v. 27, n. 1, p. 1–26, 2022. DOI: 10.5007/1518-2924.2022.e85148. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/85148. Acesso em: 28 jan. 2025.