Typesetting
Tue, 06 Aug 2024 in Encontros Bibli
CONJUNTO DE DADOS: ÍNDICES CIENTOMÉTRICOS DE PERIÓDICOS CIENTÍFICOS COMPARADOS AO ESTRATO QUALIS
RESUMO
Objetivo:
Descreve a confecção e publicação do conjunto de dados cientométricos de periódicos nacionais e internacionais consolidados a partir do Qualis, Scopus, SJC, Diamond Journals e Google Scholar. Tem como objetivo dar suporte a pesquisadores brasileiros que queiram analisar e comparar diversos atributos cientométricos e, também, o modelo econômico utilizado pelos periódicos, mesmo que estes não estejam ainda no Qualis. Além do conjunto de dados, o artigo também descreve a implementação de uma consulta na web para que qualquer pesquisador possa realizar consultas rápidas sem a necessidade de baixar o conjunto de dados.
Método:
Esta pesquisa caracteriza-se como descritiva e aplicada por envolver um problema prático que é a coleta dos dados de periódicos em diversas fontes. Para tanto, os dados foram agregados em um banco de dados relacional e exportados em um arquivo aberto no formato CSV.
Potencial de reutilização:
A disponibilização dos conjuntos de dados dos periódicos científicos agregados permite que outros pesquisadores possam realizar consultas e análises bibliométricas a partir de uma única fonte.
Main Text
1. APRESENTAÇÃO
Uma das tarefas corriqueiras de qualquer pesquisador é o planejamento da estratégia de publicação em periódicos científicos. A seleção de qual periódico publicar não é uma tarefa fácil pois o número de variáveis no processo decisório é muito grande. Tal escolha depende se o assunto de sua pesquisa tem aderência aos diversos “Call for Papers” (CFP) que surgem durante o ano, se existe custo para publicar e, especificamente para a realidade brasileira, se o periódico já faz parte do Qualis. Afinal, quem nunca ouviu a pergunta “mas qual é o Qualis da revista?” ao receber uma sugestão para publicar em um determinado periódico?
O chamado Qualis é um jargão utilizado no meio acadêmico brasileiro que resume a tabela Qualis Periódicos fornecida pela CAPES que, a cada quadriênio, determina uma classificação (ou índice de “qualidade”) para periódicos científicos. Na última avaliação quadrienal, a CAPES definiu 9 classificações: A1, A2, A3, A4, B1, B2, B3, B4 e C, com A1 sendo a classificação mais elevada que um periódico pode receber, e C, sendo a pior pontuação (CAPES, 2023a).
Apesar da própria instituição ressaltar em relatório técnico que “não recomenda e não se responsabiliza pela utilização do Qualis como uma fonte de classificação da qualidade dos periódicos científicos para outros fins que não a avaliação dos programas de pós-graduação stricto sensu” (CAPES, 2023b, p.1) efetivamente esse é um dos principais parâmetros de decisão por parte dos pesquisadores vinculados à pós-graduações no Brasil.
Isso ocorre porque o resultado desta estratificação é utilizado no sistema Sucupira e influi em grande medida na avaliação dos programas de pós-graduação (PPGs) e, por consequência, determinam o status dos PPGs e dos recursos financeiros que cada programa terá acesso.
Assim, este formato de classificação tem gerado polêmicas e conflitos no meio acadêmico, sendo que tais conflitos chegaram a ser tão graves que em 2021, no auge do desmonte de políticas públicas educacionais, durante o governo Bolsonaro, o Ministério Público do Rio de Janeiro foi acionado para mediar o caso. Tal ação resultou em um termo de adequação de conduta que deu uma maior transparência ao processo e atendeu a diversas reivindicações de pesquisadores e programas que se sentiram lesados (Palhares, 2021).
Um dos pontos centrais de polêmica do Qualis é a temporalidade da classificação, pois o estrato pode ser alterado no final do quadriênio e uma queda na classificação pode prejudicar a estratégia que um PPG utilizou para escolher em quais periódicos publicar. Em contrapartida, a metodologia necessita utilizar critérios referentes ao quadriênio que se tenta avaliar e, a princípio, estes critérios só poderão ser calculados após o fim dele.
Um outro ponto a considerar é o critério para a escolha de quais periódicos devem entrar na seleção na definição do Qualis. O critério atual contempla os periódicos onde os pesquisadores vinculados aos PPGs publicaram no quadriênio em análise. Este levantamento se dá a partir da base Sucupira e como o modelo atual faz uso de métricas cujos estratos são definidos pelo corpus total de periódicos analisados, ele reflete as escolhas feitas pelos pesquisadores dos PPGs dentre os periódicos existentes. Assim, apesar de mais de 60 mil periódicos estarem indexados nas grandes bases de dados (Web of Science (WoS) e Scopus), apenas 28.417 fazem parte do Qualis Periódicos de 2017-2020.
Em função desta temporalidade, uma estratégia de publicação deveria tentar prever quais serão as publicações que deverão se manter com uma boa classificação. E uma das formas de prever qual será o estrato de um determinado periódico é o acompanhamento dos índices cientométricos estrangeiros que são utilizados no cálculo dos estratos. Mesmo que estes sejam influenciados pelo corpus do quadriênio anterior, ainda sim é uma medida que pode auxiliar nesta previsão.
A partir destas constatações, buscou-se construir um banco de dados que agregasse diversos índices bibliométricos de um conjunto de periódicos maior que o disponibilizado pelo Qualis e pela Scopus para que um pesquisador ou PPG pudesse, de forma rápida, comparar os principais índices existentes e, a partir desta base, fosse possível cruzar tais informações através de análises estatísticas e cientométricas.
Buscou-se também incluir o índice-H5 do Google Scholar ao banco de dados, pois o grupo de trabalho do Qualis passou a incluir também tal índice como critério na montagem dos estratos. Tal escolha parece ter sido acertada, pois os índices da Scopus e WoS não têm a mesma amplitude que o Google Scholar para periódicos do Sul Global (Canto et al., 2022). No entanto, é importante ressaltar que o índice-H5 do Google em seu cálculo não leva em consideração o número de documentos indexados como divisor, algo que faz parte do Journal Impact Factor da WoS e o CiteScore da Scopus, configurando assim um indicador com uma dinâmica distinta desses dois indicadores.
É fato que já existem algumas iniciativas que buscam agregar índices bibliométricos. Um dos mais utilizados é o Publish or Perish da empresa Harzing, que apesar de ser gratuito não tem o software aberto, ou seja, não é possível a auditoria de como a coleta é realizada e quais os critérios que o software utiliza para fornecer os índices apresentados.
Outras iniciativas também muito conhecidas são o SCImago Journal Rank (SJR) editado pela Universidade de Granada na Espanha e o MIAR da Universidade de Barcelona. A deficiência do SJR é que ele se baseia exclusivamente na listagem da Scopus e desta forma deixa de incluir vários periódicos. Já a MIAR procura ser bem mais inclusiva, pois se utiliza de várias outras fontes de dados mas, infelizmente, não disponibiliza a base completa tal com a proposta aqui detalhada. Vale notar que outros trabalhos também relatam a construção de bases semelhantes que buscam comparar os diversos índices bibliométricos (Martín-Martín et al., 2021; Rautenberg; Souza; Hild, 2021).
Em resumo, o objetivo da pesquisa foi construir um conjunto de dados que dê subsídios para que coordenadores de PPGs e pesquisadores no campo da Cientometria possam avaliar, filtrar ou agregar o conjunto integral de periódicos científicos sem depender de softwares proprietários. A partir dos dados aqui disponibilizados, pode-se realizar cruzamentos entre os diversos índices cientométricos e responder perguntas do tipo: quais periódicos que contém H5 elevado e não estão presentes na base Scopus? Ou, quais os periódicos que existem em uma determinada área que tem H5 elevado e que não estão presentes no Qualis?
Por exemplo, utilizando o conjunto de dados descrito aqui, foi possível filtrar apenas os periódicos específicos da área de Comunicação Social e descobriu-se que o Brasil é o terceiro país que mais tem periódicos nesta área. Se a mesma consulta fosse realizada apenas com periódicos presentes na Scopus ou na base Qualis Periódicos, este resultado não seria obtido, pois ambas contêm menos registros que o conjunto apresentado aqui.
2. MÉTODOS E INSTRUMENTOS
O passo inicial foi a construção de um banco de dados em MySQL que pudesse armazenar os atributos necessários de cada periódico bem como o detalhamento da origem do índice e, também, as áreas de conhecimento para que fosse possível realizar filtros para as áreas de interesse dos usuários que venham a realizar consultas nesta base. Após a criação da base, iniciou-se a importação de cada uma das fontes de dados através de scripts em Python.
A importação de cada um dos arquivos em Comma-separated values (CSV) contou também com a validação do International Standard Serial Number (ISSN) no portal do ISSN. Caso o ISSN não existisse, o registro não seria gravado e um arquivo de ocorrências de erro era registrado. Esta verificação é necessária, pois na planilha fornecida pela CAPES, existem diversos ISSNs inválidos.
Uma vez que todas as bases em CSV foram importadas, iniciou-se a importação do H5 do Google através do script Google Scholar Crawler (Gomes; Gouveia; Pimenta, 2018). Como o Google Scholar não armazena o ISSN das publicações, a estratégia para encontrar o H5 do periódico foi buscar através do nome completo do periódico ou partes do nome, caso o nome completo não fosse encontrado e, por conta disso, são admitidas algumas falhas no processamento pelo crawler.
A tabela de Diamond Journals (Bosman; Frantsvåg; Kramer, 2021) foi utilizada especificamente para deduzir qual o modelo econômico de cada periódico, ou seja, caso o ISSN esteja presente nesta tabela, sabe-se que o modelo é aberto e sem cobranças de taxas para publicação (Article Processing Charges ou APCs).
Optou-se por não utilizar a WoS, pois até o fechamento da pesquisa não foi encontrado o detalhamento da política de dados que permite ou não a divulgação dos índices bibliométricos gerados pela empresa Clarivate. Além disso, o número de periódicos disponibilizados é bem menor do que o encontrado na Scopus. Na verdade, a partir do processamento realizado neste trabalho, pode-se verificar que apenas 6 periódicos indexados nas bases da Clarivate não estavam disponíveis no conjunto das outras bases já importadas.
Após o final de todos os processamentos de importação, um novo script foi executado para gerar a tabela CSV detalhada neste artigo, com os indicadores agregados para todos os periódicos coletados durante as cargas anteriores. O arquivo resultante, contém 62.855 periódicos ativos. O processamento completo pode ser visualizado na Figura 1.
Também foram disponibilizados dois serviços na web para facilitar o acesso aos dados, caso o pesquisador não queira fazer o download do arquivo. O primeiro permite que o usuário faça consultas pelo nome do periódico, pelo ISSN, pela área de conhecimento ou pelo modelo econômico do periódico.
Ao clicar em nome do periódico, o sistema já encaminha o usuário para o site do periódico e se clicar sobre o índice H5 ou Scopus, o usuário é direcionado para o Google Scholar ou para a página da Scopus equivalente. Um exemplo da tela pode ser visualizado na Figura 2.
Já o segundo serviço é uma API1 que permite que programaticamente se obtenha os dados de um determinado através da chamada https://odorico.irdx.com.br/get_issn/0961-0006. O resultado da chamada da API é um arquivo JSON no formato UTF-8 como o indicado no exemplo abaixo:
{"nome": "JOURNAL OF LIBRARIANSHIP AND INFORMATION SCIENCE",
"issn": "0961-0006", "eissn": null, "url": "https://journals.sagepub.com/home/lis",
"status": "A", "qualis": "A1", "pais": "England", "sistema": "-", "referencia": null, "dt_validacao": "2021-04-17", "assuntos": [{"cod_externo": "3309",
"descricao": "Library and Information Sciences"},
{ "cod_externo": null,
"descricao": "COMUNICA\u00c7\u00c3O E INFORMA\u00c7\u00c3O"}]}
3. TABELA DE ESPECIFICAÇÕES
3.1. Descrição do conjunto de dados
O conjunto de dados é disponibilizado em um único arquivo CSV no formato UTF-8 separado por ponto-e-vírgula e tendo os elementos textuais encapsulados por aspas. Cada linha representa um periódico contendo as seguintes colunas:
ISSN: Código ISSN Principal do periódico;
eISSN: Código ISSN específico da publicação online;
Título: Título completo sem abreviações ou extensões do tipo (ONLINE) ou (PRINT);
ASJC: Descrição da Área utilizado pela Scopus. Caso exista mais de um, a descrição será separada por vírgula (pode conter nulos);
Qualis: Estrato Qualis referente publicado em 2023 (Quadriênio 2017-2020) - Além dos 8 estratos, pode conter ND indicando que o Qualis não foi calculado;
Google H5: Índice H5 referente a 2020 calculado pelo Google (pode conter nulos)
Google H5M: Índice H5 Mediana referente a 2020 calculado pelo Google (pode conter nulos)
Citescore: índice Citescore da Scopus (pode conter nulos)
SJR: Índice SJR (pode conter nulos)
URL: Endereço do periódico na web (pode conter nulos)
País: Nome do País (em inglês) da Editora do Periódico (pode conter nulos)
Modelo Econômico: pode assumir 3 valores: (D) Diamond, (A) APC e (T) Trancado. Onde “Diamond” indica periódicos de acesso aberto sem nenhum tipo de cobrança ou restrição de acesso. “APC” (Article Processing Charges) indica que o periódico cobra o autor e “Trancado” indica que o acesso ao conteúdo é restrito sendo disponibilizado apenas a quem paga por ele.
RESUMO
Objetivo:
Método:
Potencial de reutilização:
Main Text
1. APRESENTAÇÃO
2. MÉTODOS E INSTRUMENTOS
3. TABELA DE ESPECIFICAÇÕES
3.1. Descrição do conjunto de dados