ScraperCI: um web scraper para coleta de dados científicos

Autores

DOI:

https://doi.org/10.5007/1518-2924.2023.e92471

Palavras-chave:

Recuperação da informação, Web scraping, Mecanismos de busca, Gestão de dados

Resumo

Objetivo: O desenvolvimento tecnológico das últimas décadas tem impulsionado a produção massiva de recursos informacionais e mudanças significativas nos processos de coleta e gestão de dados em praticamente todas as áreas. Tal cenário não é diferente no âmbito científico, onde a coleta e tratamento adequado de dados tem se apresentado como um desafio para pesquisadores. A presente pesquisa teve como objetivo apresentar um protótipo de Web scraper, denominado como ScraperCI, e analisar as potencialidades da utilização de ferramentas computacionais como esta para a coleta em bases de dados disponíveis na Web.

Método: A pesquisa caracteriza-se como aplicada, de natureza exploratória e descritiva, com abordagem qualitativa que visa identificar as potencialidades da utilização de Web scrapers no processo de coleta de dados.

Resultado: Conclui-se que o protótipo desenvolvido possibilita avanços consideráveis no processo de automação da coleta de dados científicos e que tais ferramentas possibilitam a automatização de processos de recuperação, favorecendo maior produtividade no que tange a extração de recursos informacionais na Web.

Conclusões: Espera-se que esta pesquisa possa estimular os profissionais da informação a desenvolver novas competências e enxergar possibilidades inovadoras em suas áreas de atuação profissional, atuando com protagonismo nesse meio interdisciplinar.

Biografia do Autor

Helton Luiz dos Santos Graciano, UFSCar - Universidade Federal de São Carlos

Mestre em Ciência da Informação e Engenheiro de Controle e Automação

Rogério Aparecido Sá Ramalho , Universidade Federal de São Carlos (UFSCar)

Doutor em Ciência da Informação - Docente na Universidade Federal de São Carlos e Coordenador do Núcleo de Informação, Tecnologia e Inovação - ITI UFSCar

Referências

BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de Informação: conceitos e tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013.

BORKO, H. Information science: What is it? American Documentation, [s.l.], v. 19, n. 1, p. 3-5, 1968.

CHOWDHURY, G. G. Introduction to modern information retrieval. 3. ed. New York: Neal-Schuman Publishers, 2010.

BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, [s.l.], v. 30, n. 1-7, p. 107-117, 1998. Disponível em: https://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf. Acesso em: 25 fev. 2022.

DASTIDAR, B. G.; BANERJEE, D.; SENGUPTA, S. An Intelligent Survey of Personalized Information Retrieval using Web Scraper. International Journal of Education and Management Engineering, [s.l.], v. 6, n. 5, p. 24-31, 2016. Disponível em: https://www.mecs-press.org/ijeme/ijeme-v6-n5/IJEME-V6-N5-3.pdf. Acesso em: 25 fev. 2022.

IDC. The State of Data Discovery and Cataloging. IDC White Paper, 2018. Disponível em: https://www.datateam.mx/downloads/alteryx/The_State_of_Data_Discovery__Cataloging.pdf. Acesso em: 25 fev. 2022.

MITCHELL, R. Web Scraping with Python: collecting more data from the modern web. 2nd ed. [S.l.]: O’Reilly Media, 2018.

MOOERS, C. N. Zatocoding applied to mechanical organization of knowledge. American Documentation, [s.l.], v. 2, n. 1, p. 20 32, 1951. Disponível em: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.5090020107. Acesso em: 25 fev. 2022.

PROBSTEIN, S. Reality check: still spending more time gathering instead of analyzing. Forbes Technology Council, 2019. Disponível em: https://www.forbes.com/sites/forbestechcouncil/2019/12/17/reality-check-still-spending-more-time-gathering-instead-of-analyzing. Acesso em: 25 fev. 2022.

RAMALHO, R. A. S.; OUCHI, M. T. Tecnologias Semânticas: novas perspectivas para a representação de recursos informacionais. Informação & Informação, Londrina, v. 16, n. 3, p. 75-60, 2011. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/9829. Acesso em: 25 fev. 2022.

SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da ciência da informação. Informação & Informação, Londrina, v. 21, n. 2, p. 116 142, 2016. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/27940. Acesso em: 25 fev. 2022.

SANT’ANA, R.C.G. Transdução informacional: impactos do controle sobre os dados. In: MARTÍNEZ-ÁVILA, D.; SOUZA, E.A.; GONZALEZ, M.E.Q. (ed.). Informação, conhecimento, ação autônoma e big data: continuidade ou revolução? Marília: Oficina Universitária; São Paulo: Cultura Acadêmica; FiloCzar, 2019, p. 117-128. Disponível em: http://books.scielo.org/id/gfrbh/pdf/martinez-9788572490559-09.pdf. Acesso em: 25 fev. 2022.

SILVEIRA, D. T.; CÓRDOVA, F. P. A pesquisa científica. In: GERHARDT, T. E., SILVEIRA, D. T. (orgs.). Métodos de pesquisa. Porto Alegre: Editora da UFRGS, 2009. Disponível em: http://hdl.handle.net/10183/52806. Acesso em: 25 fev. 2022.

SIRISURIYA, S. A. Comparative study on web scraping. In: INTERNATIONAL RESEARCH CONFERENCE, 8., 2015, KDU. Proceedings […]. [S.l.: s.n.], 2015. Disponível em: http://ir.kdu.ac.lk/bitstream/handle/345/1051/com-059.pdf. Acesso em: 25 fev. 2022.

SOUZA, R. R.; ALMEIDA, M. B.; BARACHO, R. M. A. Ciência da informação em transformação: Big Data, nuvens, redes sociais e Web Semântica. Ciência da Informação, Brasília, v. 42, n. 2, p. 159 173, 2013. Disponível em: https://revista.ibict.br/ciinf/article/view/1379. Acesso em: 25 fev. 2022.

SILVA, R. E. DA; SANTOS, P. L. V. A. DA C.; FERNEDA, E. Modelos de recuperação de informação e web semântica: a questão da relevância. Informação & Informação, Londrina v. 18, n. 3, p. 27, 2013. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/12822. Acesso em: 25 fev. 2022..

UPADHYAY. S. et al. Articulating the construction of a Web scraper for massive data extraction. In: INTERNATIONAL CONFERENCE ON ELECTRICAL, COMPUTER AND COMMUNICATION TECHNOLOGIES (ICECCT), 2., 2017, Coimbatore, India. Proceedings […]. [S.l.: s.n.], 2017. Disponível em: https://ieeexplore.ieee.org/document/8117827. Acesso em: 22 jan. 2022.

Publicado

2023-05-17

Como Citar

GRACIANO, . L. dos S.; RAMALHO , . A. S. . ScraperCI: um web scraper para coleta de dados científicos. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, [S. l.], v. 28, p. 1–18, 2023. DOI: 10.5007/1518-2924.2023.e92471. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/92471. Acesso em: 25 set. 2023.

Artigos mais lidos pelo mesmo(s) autor(es)