ScraperCI: un web scraper para la recopilación de datos científicos

Autores/as

DOI:

https://doi.org/10.5007/1518-2924.2023.e92471

Palabras clave:

Recuperación de Información, Web scraping, Mecanismos de búsqueda

Resumen

Objetivo: el desarrollo tecnológico de las últimas décadas ha impulsado la producción masiva de recursos de información y cambios significativos en los procesos de recolección y gestión de datos en prácticamente todos los ámbitos. Este escenario no es diferente en el campo científico, donde la recolección y el tratamiento adecuado de los datos ha sido un desafío para los investigadores. Esta investigación tuvo como objetivo presentar un prototipo de Web scraper, denominado ScraperCI, y analizar el potencial de utilizar herramientas computacionales como lo es para la recolección en bases de datos disponibles en la Web.

Métodos: la investigación se caracteriza por ser de naturaleza aplicada, exploratoria y descriptiva, con un enfoque cualitativo que tiene como objetivo identificar el potencial del uso de Web scrapers en el proceso de recolección de datos.

Resultados: se concluye que el prototipo desarrollado permite avances considerables en el proceso de automatización de la recolección de datos científicos y que tales herramientas posibilitan la automatización de los procesos de recuperación, favoreciendo una mayor productividad en cuanto a la extracción de recursos informativos en la Web.

Conclusiones: se espera que esta investigación pueda incentivar a los profesionales de la información a desarrollar nuevas habilidades y ver posibilidades innovadoras en sus áreas de actuación profesional, actuando con protagonismo en este entorno interdisciplinario.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Helton Luiz dos Santos Graciano, Federal University of São Carlos

Mestre em Ciência da Informação e Engenheiro de Controle e Automação

Rogério Aparecido Sá Ramalho , Federal University of São Carlos

Doutor em Ciência da Informação - Docente na Universidade Federal de São Carlos e Coordenador do Núcleo de Informação, Tecnologia e Inovação - ITI UFSCar

Citas

BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de Informação: conceitos e tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013.

BORKO, H. Information science: What is it? American Documentation, [s.l.], v. 19, n. 1, p. 3-5, 1968.

CHOWDHURY, G. G. Introduction to modern information retrieval. 3. ed. New York: Neal-Schuman Publishers, 2010.

BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, [s.l.], v. 30, n. 1-7, p. 107-117, 1998. Disponível em: https://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf. Acesso em: 25 fev. 2022.

DASTIDAR, B. G.; BANERJEE, D.; SENGUPTA, S. An Intelligent Survey of Personalized Information Retrieval using Web Scraper. International Journal of Education and Management Engineering, [s.l.], v. 6, n. 5, p. 24-31, 2016. Disponível em: https://www.mecs-press.org/ijeme/ijeme-v6-n5/IJEME-V6-N5-3.pdf. Acesso em: 25 fev. 2022.

IDC. The State of Data Discovery and Cataloging. IDC White Paper, 2018. Disponível em: https://www.datateam.mx/downloads/alteryx/The_State_of_Data_Discovery__Cataloging.pdf. Acesso em: 25 fev. 2022.

MITCHELL, R. Web Scraping with Python: collecting more data from the modern web. 2nd ed. [S.l.]: O’Reilly Media, 2018.

MOOERS, C. N. Zatocoding applied to mechanical organization of knowledge. American Documentation, [s.l.], v. 2, n. 1, p. 20 32, 1951. Disponível em: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.5090020107. Acesso em: 25 fev. 2022.

PROBSTEIN, S. Reality check: still spending more time gathering instead of analyzing. Forbes Technology Council, 2019. Disponível em: https://www.forbes.com/sites/forbestechcouncil/2019/12/17/reality-check-still-spending-more-time-gathering-instead-of-analyzing. Acesso em: 25 fev. 2022.

RAMALHO, R. A. S.; OUCHI, M. T. Tecnologias Semânticas: novas perspectivas para a representação de recursos informacionais. Informação & Informação, Londrina, v. 16, n. 3, p. 75-60, 2011. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/9829. Acesso em: 25 fev. 2022.

SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da ciência da informação. Informação & Informação, Londrina, v. 21, n. 2, p. 116 142, 2016. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/27940. Acesso em: 25 fev. 2022.

SANT’ANA, R.C.G. Transdução informacional: impactos do controle sobre os dados. In: MARTÍNEZ-ÁVILA, D.; SOUZA, E.A.; GONZALEZ, M.E.Q. (ed.). Informação, conhecimento, ação autônoma e big data: continuidade ou revolução? Marília: Oficina Universitária; São Paulo: Cultura Acadêmica; FiloCzar, 2019, p. 117-128. Disponível em: http://books.scielo.org/id/gfrbh/pdf/martinez-9788572490559-09.pdf. Acesso em: 25 fev. 2022.

SILVEIRA, D. T.; CÓRDOVA, F. P. A pesquisa científica. In: GERHARDT, T. E., SILVEIRA, D. T. (orgs.). Métodos de pesquisa. Porto Alegre: Editora da UFRGS, 2009. Disponível em: http://hdl.handle.net/10183/52806. Acesso em: 25 fev. 2022.

SIRISURIYA, S. A. Comparative study on web scraping. In: INTERNATIONAL RESEARCH CONFERENCE, 8., 2015, KDU. Proceedings […]. [S.l.: s.n.], 2015. Disponível em: http://ir.kdu.ac.lk/bitstream/handle/345/1051/com-059.pdf. Acesso em: 25 fev. 2022.

SOUZA, R. R.; ALMEIDA, M. B.; BARACHO, R. M. A. Ciência da informação em transformação: Big Data, nuvens, redes sociais e Web Semântica. Ciência da Informação, Brasília, v. 42, n. 2, p. 159 173, 2013. Disponível em: https://revista.ibict.br/ciinf/article/view/1379. Acesso em: 25 fev. 2022.

SILVA, R. E. DA; SANTOS, P. L. V. A. DA C.; FERNEDA, E. Modelos de recuperação de informação e web semântica: a questão da relevância. Informação & Informação, Londrina v. 18, n. 3, p. 27, 2013. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/12822. Acesso em: 25 fev. 2022..

UPADHYAY. S. et al. Articulating the construction of a Web scraper for massive data extraction. In: INTERNATIONAL CONFERENCE ON ELECTRICAL, COMPUTER AND COMMUNICATION TECHNOLOGIES (ICECCT), 2., 2017, Coimbatore, India. Proceedings […]. [S.l.: s.n.], 2017. Disponível em: https://ieeexplore.ieee.org/document/8117827. Acesso em: 22 jan. 2022.

Publicado

2023-05-17

Cómo citar

GRACIANO, Helton Luiz dos Santos; RAMALHO , Rogério Aparecido Sá. ScraperCI: un web scraper para la recopilación de datos científicos. Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información., [S. l.], v. 28, p. 1–18, 2023. DOI: 10.5007/1518-2924.2023.e92471. Disponível em: https://periodicos.ufsc.br/index.php/eb/article/view/92471. Acesso em: 19 may. 2024.

Artículos similares

<< < 1 2 3 4 5 6 7 8 9 10 > >> 

También puede {advancedSearchLink} para este artículo.