The nature of scientific datasets in South American repositories: a survey of formats and extensions




Scientific data, Datasets, Data repositories, Formats and extensions, Survey


Objective: identifying the scientific data repositories created and managed by Higher Education Institutions and/or South American research and funding agencies; identifying and describing the formats and extensions of files that compile the scientific datasets deposited in these repositories.

Methods: eight repositories retrieved by RE3DATA were selected for investigation. A population (N) of 1.115 scientific datasets was obtained. By using Stratified Random Sampling, the resulting sample (n) value was 258 datasets, which corresponds to 23,15% of the population (N). Data surveyed from the samples were condensed into tables and charts.

Results: it was noticed that the nature of the scientific datasets investigated is centered on textual and numerical data, saved in text files and tables, respectively. Also, the datasets may be either homogeneous (one or more files saved in a unique format and extension, e.g.: image format in .jpg) or heterogeneous (files saved in different formats and extensions, e.g.: same image format saved in .jpg and .tiff) in their composition. It was found that some extensions enable the identification of the nature, domain and content of the data, as observed in the .gpx and gdb extensions, which refer to geospatial data, therefore, alphanumeric data.

Conclusions: There is a growing need of describing the nature of data, as well as the formats and extensions of files. This kind of descriptive metadata would be valuable to potential users, as it would allow a greater understanding of the context of the data, focusing on data reuse.


Download data is not yet available.

Author Biographies

Cíntia de Azevedo Lourenço, Universidade Federal de Minas Gerais

Cíntia Azevedo Lourenço é bacharel em Biblioteconomia pela PUC de Campinas e concluiu o mestrado em Biblioteconomia e Ciência da Informação pela Pontifícia Universidade Católica de Campinas em 1998 e o doutorado em Ciência da Informação pela Universidade Federal de Minas Gerais em 2005. Atualmente é Professora Associada na Escola de Ciência da Informação da Universidade Federal de Minas Gerais. Pesquisadora participante dos Grupos de Pesquisa: MHTX e RECRI. Membro do Grupo de Estudos e Pesquisas em Catalogação (GEPCAT). Atua na área de Ciência da Informação, com ênfase em Biblioteconomia, na área de Organização da Informação - Catalogação, Classificação do conhecimento e organização da informação na web.

Guilherme Ataíde Dias, Universidade Federal da Paraíba

Graduado em Ciência da Computação pela Universidade Federal da Paraíba ? UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa ? UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University ? CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo ? USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB . Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.


AMARAL, F. Introdução à ciência de dados: mineração de dados e Big Data. Rio de Janeiro: Alta Books, 2016. 320 p.

BITBERRY SOFTWARE APS. dta. [S. l.], 2020. Disponível em: Acesso em: 21 fev. 2020.

BORGMAN, C. L. Big data, little data, no data: scholarship in the networked world. Cambridge; London: The MIT Press, 2015.

BORGMAN, C. L; SCHARNHORST, A.; GOLSHAN, M. S. Digital data archives as knowledge infrastructures: mediating data sharing and reuse. Journal of the Association for Information Science and Technology, [S. l.], v. 70, n. 8, 2019. DOI: Disponível em: Acesso em: 17 jun. 2020.

DATAONE. Software tools catalog. [S. l.], [2020]. Disponível em: Acesso em: 19 fev. 2020.

DATAVERSE. Dataverse project: about. [S. l.], [2020]. Disponível em: Acesso em: 19 fev. 2020.

FIVESTARDATA. 5 Estrelas para dados abertos. [S. l.], 2019. Disponível em: Acesso em: 16 set. 2019.

HEY, T.; TANSLEY, S.; TOLLE, K. (ed.). The fourth paradigm: data-intensive scientific discovery. Redmond, Washington: Microsoft Research, 2009.

HUNT, K. The challenges of integrating data literacy into the curriculum in an undergraduate institution. IASSIST, Denmark, v. 28, n. 2-3, p. 12-16, 2004. DOI: Disponível em: Acesso em: 21 ago. 2019.

IBICT. Sistema para construção de repositórios institucionais digitais (DSpace). Rio de Janeiro; Brasília, 2019. Disponível em: Acesso em: 08 out. 2019.

ILHARCO, F. Filosofia da Informação: alguns problemas fundadores. In: II Congresso Ibérico de Ciências da Comunicação, 2004, Portugal. Anais […]. Portugal, 2004. Disponível em: Acesso em: 26 set. 2019.

KOLTAY, T. Data literacy: in search of a name and identity. Journal of Documentation, [S. l.], v. 71, n. 2, p. 401-415, 2015. DOI: 10.1108/JD-02-2014-0026. Disponível em: Acesso em: 24 ago. 2019.

ROCHA, L. L.; SALES, L. F.; SAYÃO, L. F. Uso de cadernos eletrônicos de laboratório para as práticas de ciência aberta e preservação de dados de pesquisa. PontodeAcesso, Salvador, v. 11, n. 3, p. 2-16, dez. 2017. DOI: Disponível em: Acesso em: 20 set. 2018.

RODRIGUES, Marcello Mundim; DIAS, Guilherme Ataíde; LOURENÇO, Cíntia de Azevedo. Repositórios de dados científicos na América do Sul: uma análise da conformidade com os Princípios FAIR. Em Questão, Porto Alegre, v. 28, n. 2, e-113057, abr./jun. 2022. DOI: 5245282.113057.

SALES, L. F.; SAYÃO, L. F. Uma proposta de taxonomia para dados de pesquisa. Conhecimento em Ação, Rio de Janeiro, v.4, n. 1, p. 31-48, 2019. Disponível em: Acesso em: 13 ago. 2020.

SARACEVIC, T. Ciência da Informação: origem, evolução e relações. Persp. Ci. Inf., Belo Horizonte, v. 1, n. 1, p. 41-62, 1996. Disponível em: Acesso em: 14 out. 2019.

SHARPENED PRODUCTIONS. Fileinfo: the files extension database. [S. l.], 2020. Disponível em: Acesso em: 18 set. 2019.

STOREY, V. C.; SONG, I. Big data technologies and management: what conceptual modelling can do. Data & Knowledge Engineering, [S. l.], v. 108, p. 50–67, 2017. DOI: Disponível em: Acesso em: 25 jun. 2018.

WAMBA, S. F. et al. How ‘big data’ can make big impact: findings from a systematic review and a longitudinal case study. Int. J. Production Economics, [S. l.], v. 165, p. 234-246, 2015. DOI: Disponível em: Acesso em: 25 jun. 2018.

ZINS, C. Conceptual approaches for defining data, information, and knowledge. Journal of the American Society for Information Science and Technology, [S. l.], v. 58, n. 4, p. 479-493, 2007. DOI: Disponível em: Acesso em: 25 jun. 2018.



How to Cite

RODRIGUES, Marcello Mundim; LOURENÇO, Cíntia de Azevedo; DIAS, Guilherme Ataíde. The nature of scientific datasets in South American repositories: a survey of formats and extensions. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, [S. l.], v. 27, n. 1, p. 1–26, 2022. DOI: 10.5007/1518-2924.2022.e85148. Disponível em: Acesso em: 19 oct. 2024.

Similar Articles

<< < 1 2 3 4 5 6 7 8 9 10 > >> 

You may also start an advanced similarity search for this article.

Most read articles by the same author(s)