Mon, 09 Aug 2021 in Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação
CONJUNTOS DE DADOS PARA PESQUISAS CIENTOMÉTRICAS: RECUPERANDO QUALIS, SJR, SNIP A PARTIR DA WEB DE DADOS
RESUMO
Discorre sobre a publicação de conjuntos de dados cientométricos como dados abertos conectados. Os dados originais são extraídos de fontes primárias via navegadores de Internet e tratados de acordo com a Curadoria Digital de Dados e o Ciclo de Vida de Dados Conectados. Os dados referem-se ao histórico dos índices Qualis, SCImago Journal Rank e Source Normalized Impact per Paper, os quais são integrados para privilegiar acesso, reúso, interoperabilidade e processabilidade de recursos para com outras pesquisas bibliométricas/cientométricas. A integração dos dados decorre da evolução do trabalho “RAUTENBERG, S.; HILD, T. A.; SOUZA, L. de. Curadoria Digital de Dados e Web de Dados: mantendo Dados Abertos Conectados para estudos bibliométricos e cientométricos. Em Questão, v. 24, p. 29-47, Edição Especial 6 EBBC, 2018”, disponível em: https://seer.ufrgs.br/EmQuestao/article/view/86519, DOI: http://dx.doi.org/10.19132/1808-5245240.29-47. Dinamicamente, os conjuntos de dados resultantes são compartilhados na Web de Dados, via um servidor OpenLink Virtuoso acessado no endpoint http://lod.unicentro.br.
Main Text
1 APRESENTAÇÃO
Os avanços da Internet permitem o surgimento de novas formas de produção e exploração de dados, informações e conhecimento. Essa realidade sustenta o movimento de liberdade de distribuição e uso de recursos digitais, despontando na Web de Dados a plataforma global para publicar dados abertos conectados (AUER, 2014). Resumidamente, a Web de Dados possibilita a exploração de dados abertos conectados, permitindo o reúso, a compreensão, a interligação, a descoberta, a confiança, o acesso, a interoperabilidade e a processabilidade de recursos digitais (W3C, 2020a). Ressalta-se que o acolhimento desses benefícios ocorre com a implantação de endpoints (W3C, 2020b), os quais se caracterizam como um serviço web que implementa um protocolo específico de consulta para recuperar recursos digitais em formatos específicos (como por exemplo, CSV1, TSV2, XLS3, RDF4, entre outros).
Diante esse contexto, apresenta-se o endpointhttp://lod.unicentro.br/sparql como um ponto de acesso da Web de Dados e a evolução de seus conjuntos de dados abertos conectados para pesquisas do domínio da Ciência da Informação. Especificamente, como pergunta de pesquisa, este artigo de dados explicita “Como recuperar simultaneamente os conjuntos de dados Qualis, SJR5 e SNIP6 para promover pesquisas bibliométricas e/ou cientométricas?” Ao atender a essa questão, tal esforço permite:
- a recuperação agregada dos índices compartilhados, uma vez que a referida integração pode se tornar importante na condução de pesquisas relevantes;
- a colaboração com a comunidade científica em estudos bibliométricos e/ou cientométricos, ao minimizar os esforços para obter e recorrentemente criticar os recursos digitais; e
- o acesso aberto e perene de pesquisadores aos recursos digitais compartilhados, permitindo a exploração desses recursos digitais e até sustentar possíveis relacionamentos destes com outros conjuntos de dados da Ciência da Informação.
2 MÉTODOS E INSTRUMENTOS
Neste trabalho são considerados os conjuntos de dados dos estratos e índices cientométricos:
- Qualis - coletado nos últimos 15 anos, principalmente, a partir da Plataforma Sucupira (SUCUPIRA, 2020);
- SJR - coletado do Portal Journal SCImago & Country Rank (SJR, 2020); e
Ressalta-se que os conjuntos de dados enumerados anteriormente são recuperados anualmente a partir de suas fontes originais e armazenados na base de dados de um sistema legado. Posteriormente, é realizada a socialização dos índices cientométricos na Web de Dados, como dados abertos conectados. Na Figura 1 é ilustrado como os recursos de dados são compartilhados.
Conforme o trabalho seminal (RAUTENBERG; HILD; SOUZA, 2018), para custodiar os conjuntos de dados abertos conectados Qualis, SJR e SNIP, são aplicadas cinco atividades da Curadoria Digital de Dados (DIGITAL CURATION CENTER, 2020). Representadas na Figura 2, interdisciplinarmente, essas atividades são mediadas por quatro fases do Ciclo de Vida de Dados Conectados (AUER, 2014), conforme descritas na sequência.
As atividades de Seleção e Ingestão são realizadas simultaneamente durante a fase de Extração do Ciclo de Vida de Dados Conectados. A Seleção visa recuperar os dados de interesse de fontes originais para preservação a longo prazo. Com os dados recuperados, a Ingestão transfere os dados para uma área de armazenamento, um sistema legado.
A atividade de Transformação é o ato de criar dados, como por exemplo, ao migrar os dados originais para outro formato ou enriquecer os dados com semântica. No procedimento metodológico, os dados são recuperados do sistema legado, em formato CSV. Posteriormente, os dados são convertidos para RDF, utilizando os vocabulários ou ontologias para enriquecer a semântica dos recursos a serem compartilhados.
Na Curadoria Digital, a atividade de Armazenamento dos recursos digitais deve ser realizada de forma segura, respeitando os padrões relevantes. Neste sentido, para privilegiar o reúso, os recursos digitais resultantes da atividade de Transformação são armazenados em um endpoint da Web de Dados.
A atividade de Acesso, Uso e Reúso engloba as ações para garantir que os recursos digitais sejam acessíveis pelos consumidores de dados de forma ininterrupta. No Ciclo de Vida de Dados Conectados, essa atividade é relacionada à fase de Busca, Navegação e Exploração para recuperar e visualizar os recursos digitais compartilhados.
3 TABELA DE ESPECIFICAÇÕES
3.1 Descrição do conjunto de dados
Os índices cientométricos são relacionados e disponibilizados em 15 subconjuntos de dados em consonância aos anos de 2005 a 2019. Vale destacar que 2019 é último ano de referência para disponibilização dos dados brutos nas fontes originais, dado o período de preparação e escrita deste artigo. Cada conjunto contempla 10 colunas (metadados) em um arquivo TSV, como segue:
- ISSN - identificador inequívoco de um periódico;
- nameJournal - nome do periódico atrelado ao ISSN;
- year - ano referência em que o valor do índice é atrelado;
- idAreaCNPq - identificador da área de conhecimento do CNPq a que a avaliação QUALIS é atrelada;
- nameAreaCNPq - nome da área de conhecimento CNPq;
- QUALIS - valor do estrato de avaliação do periódico em determinada área de conhecimento CNPq, dado um ano específico;
- idSubAreaSCOPUS - identificador da subárea de conhecimento do SCOPUS a que uma avaliação SRJ ou SNIP é vinculada;
- nameSubAreaSCOPUS - nome da área de conhecimento SCOPUS;
- SJR - valor do índice SJR alcançado por um periódico em uma subárea do conhecimento SCOPUS, dado um ano específico; e
- SNIP - valor do índice SNIP alcançado por um periódico em uma subárea do conhecimento SCOPUS, dado um ano específico.
Na Figura são ilustrados alguns registros de dados recuperados, os quais representam exemplos de como as tuplas relacionam os índices Qualis, SJR e SNIP.
Os subconjuntos de dados são disponibilizados de diversas formas. Estaticamente, relacionado a esse artigo, um arquivo compactado denominado subconjuntosDados.zip é fornecido. Conforme a Tabela 1, são compactados 15 subconjuntos anuais, os quais foram coletados no endpoint http://lod.unicentro.br/sparql em 20 de março de 2021.
Os subconjuntos anualizados também podem ser recuperados dinamicamente de duas maneiras. Primeiramente, pode-se acessar os subconjuntos de dados via consultas SPARQL customizadas e submetidas ao endpoint http://lod.unicentro.br/sparql, conforme ilustrado na Figura 4, onde:
- o endereço de Internet que implementa os serviços para acessar os recursos digitais;
- a área para desenvolver ou colar uma consulta SPARQL aos recursos digitais de um determinado conjunto; e
- as opções disponibilizadas de formatação dos recursos digitais a serem recuperados.
Destaca-se que o endpoint http://lod.unicentro.br/sparql faz uso de uma instância do Servidor OpenLink Virtuoso (VIRTUOSO, 2020), o qual armazena os dados no formato RDF e acessa os recursos via consultas SPARQL. A escolha dessa base tecnológica encontra consonância aos preceitos dos Dados Abertos Conectados (W3C, 2020a) para privilegiar:
a) o grau máximo de abertura e consumo de recursos digitais na Web de Dados (5-STAR, 2021); e b) a diversidade de formatos de apresentação dos recursos recuperados (como destacado na Figura 4c: HTML, JSON, JavaScript, Turtle, RDF/XML, N-Triples ou CSV). Em face disso, a referida escolha tecnológica permite o consumo automatizado dos dados compartilhados por parte de aplicações computacionais que usam a Web de Dados como um repositório universal de recursos digitais. Ou seja, o referido endpoint torna-se a interface que possibilita o reúso, a compreensão, a interligação, a descoberta, a confiança, o acesso, a interoperabilidade e a processabilidade de recursos digitais na Web de Dados para com agentes computacionais (robôs) ou aplicações cientométricas baseadas na web.
Em relação aos dados disponibilizados neste artigo, a partir da interface do endpoint http://lod.unicentro.br/sparql, consultas SPARQL podem ser customizadas e permitir a exploração dos recursos RDF dos índices Qualis, SJR e SNIP, como exemplificado na consulta implementada na Listagem 1.
Na consulta SPARQL exemplificada, é importante observar que esta customiza a recuperação do subconjunto de registros no ano 2005 (observe as linhas 27, 46 e 65). Neste sentido, a consulta também pode ser reutilizada, ao adaptar suas linhas de filtragem para adquirir outros subconjuntos. Por exemplo, à medida que as fontes originais sejam incrementadas, outros subconjuntos podem constituídos, compreendendo os registros de dados para os anos vindouros. Isso também permite a obtenção de dados atualizados dos índices SJR e SNIP, ao considerar que para estes índices, os fatores de impacto dos periódicos são revistos em relação aos quantitativos de citações realizadas no triênio vigente.
Por fim, a outra forma dinâmica de obtenção dos subconjuntos de dados é mediada por links encurtados que implementam consultas SPARQL (Quadro 1), considerando os anos no intervalo [2005; 2019].
Cabe ressaltar que, no sentido da Curadoria Digital de Dados, o Quadro 1 expressa o incremento dos conjuntos de dados disponibilizados, uma vez que o histórico disponibilizado anteriormente compreendia o período [2005; 2016] (RAUTENBERG; HILD; SOUZA, 2018).
RESUMO
Main Text
1 APRESENTAÇÃO
2 MÉTODOS E INSTRUMENTOS
3 TABELA DE ESPECIFICAÇÕES
3.1 Descrição do conjunto de dados