La naturaleza de los conjuntos de datos científicos en repositorios sudamericanos: una encuesta de formatos y extensiones

Autores/as

DOI:

https://doi.org/10.5007/1518-2924.2022.e85148

Palabras clave:

Dados científicos, Conjuntos de dados, Repositórios de dados, Formatos e extensões, Levantamento

Resumen

Objetivo: identificar los repositorios de datos científicos creados y administrados por instituciones de educación superior y/o agencias de investigación y desarrollo de América del Sur; identificar y describir los formatos y extensiones de los archivos que componen los conjuntos de datos científicos depositados en estos repositorios.

Método: se seleccionaron para la investigación ocho repositorios recuperados por RE3DATA. Se obtuvo una población (N) de 1.115 conjuntos de datos científicos. Con base en el Muestreo Aleatorio Estratificado, se alcanzó el valor de la muestra (n) igual a 258 conjuntos de datos, lo que corresponde al 23,15% de la población (N). Los datos tomados de las muestras se condensaron en tablas y gráficos.

Resultado: se observó que la naturaleza de los conjuntos de datos científicos investigados se centra en datos textuales y numéricos, guardados en archivos de texto y en tablas, respectivamente. Se notó que los conjuntos de datos pueden ser homogéneos (uno o más archivos guardados en un solo formato y extensión, por ejemplo, formato de imagen en .jpg) o heterogéneos (archivos guardados en diferentes formatos y extensiones, por ejemplo, el mismo formato de imagen guardado en .jpg y .tiff) en su composición. También se constató que algunas extensiones permiten identificar la naturaleza, el dominio y el contenido de los datos, como se observa en las extensiones .gpx y .gdb, que se refieren a datos de geolocalización, por tanto, de carácter alfanumérico.

Conclusiones: existe una creciente necesidad de describir la naturaleza de los datos, así como los formatos y extensiones de sus archivos. Este tipo de metadatos descriptivos sería valioso para los usuarios potenciales, ya que les permitiría obtener una mejor comprensión del contexto de los datos con un enfoque en su reutilización.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Cíntia de Azevedo Lourenço, Universidade Federal de Minas Gerais

Cíntia Azevedo Lourenço é bacharel em Biblioteconomia pela PUC de Campinas e concluiu o mestrado em Biblioteconomia e Ciência da Informação pela Pontifícia Universidade Católica de Campinas em 1998 e o doutorado em Ciência da Informação pela Universidade Federal de Minas Gerais em 2005. Atualmente é Professora Associada na Escola de Ciência da Informação da Universidade Federal de Minas Gerais. Pesquisadora participante dos Grupos de Pesquisa: MHTX e RECRI. Membro do Grupo de Estudos e Pesquisas em Catalogação (GEPCAT). Atua na área de Ciência da Informação, com ênfase em Biblioteconomia, na área de Organização da Informação - Catalogação, Classificação do conhecimento e organização da informação na web.

Guilherme Ataíde Dias, Universidade Federal da Paraíba

Graduado em Ciência da Computação pela Universidade Federal da Paraíba ? UFPB Campus II (1990), Bacharel em Direito pelo Centro Universitário de João Pessoa ? UNIPE (2010), Mestre em Organization & Management pela Central Connecticut State University ? CCSU (1995), Doutor em Ciência da Informação (Ciências da Comunicação) pela Universidade de São Paulo ? USP (2003) e Pós-Doutor pela UNESP (2011). Atualmente é professor Associado III na Universidade Federal da Paraíba, lotado no Departamento de Ciência da Informação. Está envolvido com a Pós-Graduação através do Programa de Pós-Graduação em Ciência da Informação e Programa de Pós-Graduação em Administração, ambos da UFPB . Tem interesse de pesquisa nas seguintes temáticas: Representação do Conhecimento; Arquitetura da Informação; Segurança da Informação; Tecnologias da Informação e Comunicação; Informação em Saúde; Redes Sociais; Software Livre; Direito, Ética e Propriedade Intelectual no Ciberespaço; Gestão de Dados Científicos; Informação Jurídica; Atualmente é Bolsista de Produtividade em Pesquisa (PQ) do CNPq.

Citas

AMARAL, F. Introdução à ciência de dados: mineração de dados e Big Data. Rio de Janeiro: Alta Books, 2016. 320 p.

BITBERRY SOFTWARE APS. File.org: dta. [S. l.], 2020. Disponível em: https://file.org/extension/dta. Acesso em: 21 fev. 2020.

BORGMAN, C. L. Big data, little data, no data: scholarship in the networked world. Cambridge; London: The MIT Press, 2015.

BORGMAN, C. L; SCHARNHORST, A.; GOLSHAN, M. S. Digital data archives as knowledge infrastructures: mediating data sharing and reuse. Journal of the Association for Information Science and Technology, [S. l.], v. 70, n. 8, 2019. DOI: https://doi.org/10.1002/asi.24172. Disponível em: https://asistdl.onlinelibrary.wiley.com/doi/epdf/10.1002/asi.24172. Acesso em: 17 jun. 2020.

DATAONE. Software tools catalog. [S. l.], [2020]. Disponível em: https://www.dataone.org/software_tools_catalog. Acesso em: 19 fev. 2020.

DATAVERSE. Dataverse project: about. [S. l.], [2020]. Disponível em: https://dataverse.org/about. Acesso em: 19 fev. 2020.

FIVESTARDATA. 5 Estrelas para dados abertos. [S. l.], 2019. Disponível em: https://5stardata.info/pt-BR/. Acesso em: 16 set. 2019.

HEY, T.; TANSLEY, S.; TOLLE, K. (ed.). The fourth paradigm: data-intensive scientific discovery. Redmond, Washington: Microsoft Research, 2009.

HUNT, K. The challenges of integrating data literacy into the curriculum in an undergraduate institution. IASSIST, Denmark, v. 28, n. 2-3, p. 12-16, 2004. DOI: https://doi.org/10.29173/iq791. Disponível em: https://iassistquarterly.com/index.php/iassist/article/view/791. Acesso em: 21 ago. 2019.

IBICT. Sistema para construção de repositórios institucionais digitais (DSpace). Rio de Janeiro; Brasília, 2019. Disponível em: http://www.ibict.br/tecnologias-para-informacao/DSpace. Acesso em: 08 out. 2019.

ILHARCO, F. Filosofia da Informação: alguns problemas fundadores. In: II Congresso Ibérico de Ciências da Comunicação, 2004, Portugal. Anais […]. Portugal, 2004. Disponível em: https://www.cccc2004.ubi.pt. Acesso em: 26 set. 2019.

KOLTAY, T. Data literacy: in search of a name and identity. Journal of Documentation, [S. l.], v. 71, n. 2, p. 401-415, 2015. DOI: 10.1108/JD-02-2014-0026. Disponível em: https://www.emerald.com/insight/content/doi/10.1108/JD-02-2014-0026/full/pdf?title=data-literacy-in-search-of-a-name-and-identity. Acesso em: 24 ago. 2019.

ROCHA, L. L.; SALES, L. F.; SAYÃO, L. F. Uso de cadernos eletrônicos de laboratório para as práticas de ciência aberta e preservação de dados de pesquisa. PontodeAcesso, Salvador, v. 11, n. 3, p. 2-16, dez. 2017. DOI: http://dx.doi.org/10.9771/rpa.v11i3.24945. Disponível em: https://portalseer.ufba.br/index.php/revistaici/article/view/24945/15542. Acesso em: 20 set. 2018.

RODRIGUES, Marcello Mundim; DIAS, Guilherme Ataíde; LOURENÇO, Cíntia de Azevedo. Repositórios de dados científicos na América do Sul: uma análise da conformidade com os Princípios FAIR. Em Questão, Porto Alegre, v. 28, n. 2, e-113057, abr./jun. 2022. DOI: http://dx.doi.org/10.19132/1808- 5245282.113057.

SALES, L. F.; SAYÃO, L. F. Uma proposta de taxonomia para dados de pesquisa. Conhecimento em Ação, Rio de Janeiro, v.4, n. 1, p. 31-48, 2019. Disponível em: https://revistas.ufrj.br/index.php/rca/article/view/26337. Acesso em: 13 ago. 2020.

SARACEVIC, T. Ciência da Informação: origem, evolução e relações. Persp. Ci. Inf., Belo Horizonte, v. 1, n. 1, p. 41-62, 1996. Disponível em: https://brapci.inf.br/_repositorio/2010/08/pdf_fd9fd572cc_0011621.pdf. Acesso em: 14 out. 2019.

SHARPENED PRODUCTIONS. Fileinfo: the files extension database. [S. l.], 2020. Disponível em: https://fileinfo.com/. Acesso em: 18 set. 2019.

STOREY, V. C.; SONG, I. Big data technologies and management: what conceptual modelling can do. Data & Knowledge Engineering, [S. l.], v. 108, p. 50–67, 2017. DOI: https://doi.org/10.1016/j.datak.2017.01.001. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0169023X17300277. Acesso em: 25 jun. 2018.

WAMBA, S. F. et al. How ‘big data’ can make big impact: findings from a systematic review and a longitudinal case study. Int. J. Production Economics, [S. l.], v. 165, p. 234-246, 2015. DOI: https://doi.org/10.1016/j.ijpe.2014.12.031. Disponível em: https://www.sciencedirect.com/science/article/pii/S0925527314004253. Acesso em: 25 jun. 2018.

ZINS, C. Conceptual approaches for defining data, information, and knowledge. Journal of the American Society for Information Science and Technology, [S. l.], v. 58, n. 4, p. 479-493, 2007. DOI: https://doi.org/10.1002/asi.20508. Disponível em: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.20508. Acesso em: 25 jun. 2018.

Publicado

2022-05-27

Cómo citar

RODRIGUES, Marcello Mundim; LOURENÇO, Cíntia de Azevedo; DIAS, Guilherme Ataíde. La naturaleza de los conjuntos de datos científicos en repositorios sudamericanos: una encuesta de formatos y extensiones. Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información., [S. l.], v. 27, n. 1, p. 1–26, 2022. DOI: 10.5007/1518-2924.2022.e85148. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/85148. Acesso em: 17 may. 2024.

Artículos similares

<< < 1 2 3 4 5 6 7 8 9 10 > >> 

También puede {advancedSearchLink} para este artículo.

Artículos más leídos del mismo autor/a