ScraperCI: un web scraper para la recopilación de datos científicos
DOI:
https://doi.org/10.5007/1518-2924.2023.e92471Palabras clave:
Recuperación de Información, Web scraping, Mecanismos de búsquedaResumen
Objetivo: el desarrollo tecnológico de las últimas décadas ha impulsado la producción masiva de recursos de información y cambios significativos en los procesos de recolección y gestión de datos en prácticamente todos los ámbitos. Este escenario no es diferente en el campo científico, donde la recolección y el tratamiento adecuado de los datos ha sido un desafío para los investigadores. Esta investigación tuvo como objetivo presentar un prototipo de Web scraper, denominado ScraperCI, y analizar el potencial de utilizar herramientas computacionales como lo es para la recolección en bases de datos disponibles en la Web.
Métodos: la investigación se caracteriza por ser de naturaleza aplicada, exploratoria y descriptiva, con un enfoque cualitativo que tiene como objetivo identificar el potencial del uso de Web scrapers en el proceso de recolección de datos.
Resultados: se concluye que el prototipo desarrollado permite avances considerables en el proceso de automatización de la recolección de datos científicos y que tales herramientas posibilitan la automatización de los procesos de recuperación, favoreciendo una mayor productividad en cuanto a la extracción de recursos informativos en la Web.
Conclusiones: se espera que esta investigación pueda incentivar a los profesionales de la información a desarrollar nuevas habilidades y ver posibilidades innovadoras en sus áreas de actuación profesional, actuando con protagonismo en este entorno interdisciplinario.
Descargas
Citas
BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de Informação: conceitos e tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013.
BORKO, H. Information science: What is it? American Documentation, [s.l.], v. 19, n. 1, p. 3-5, 1968.
CHOWDHURY, G. G. Introduction to modern information retrieval. 3. ed. New York: Neal-Schuman Publishers, 2010.
BRIN, S.; PAGE, L. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, [s.l.], v. 30, n. 1-7, p. 107-117, 1998. Disponível em: https://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf. Acesso em: 25 fev. 2022.
DASTIDAR, B. G.; BANERJEE, D.; SENGUPTA, S. An Intelligent Survey of Personalized Information Retrieval using Web Scraper. International Journal of Education and Management Engineering, [s.l.], v. 6, n. 5, p. 24-31, 2016. Disponível em: https://www.mecs-press.org/ijeme/ijeme-v6-n5/IJEME-V6-N5-3.pdf. Acesso em: 25 fev. 2022.
IDC. The State of Data Discovery and Cataloging. IDC White Paper, 2018. Disponível em: https://www.datateam.mx/downloads/alteryx/The_State_of_Data_Discovery__Cataloging.pdf. Acesso em: 25 fev. 2022.
MITCHELL, R. Web Scraping with Python: collecting more data from the modern web. 2nd ed. [S.l.]: O’Reilly Media, 2018.
MOOERS, C. N. Zatocoding applied to mechanical organization of knowledge. American Documentation, [s.l.], v. 2, n. 1, p. 20 32, 1951. Disponível em: https://onlinelibrary.wiley.com/doi/abs/10.1002/asi.5090020107. Acesso em: 25 fev. 2022.
PROBSTEIN, S. Reality check: still spending more time gathering instead of analyzing. Forbes Technology Council, 2019. Disponível em: https://www.forbes.com/sites/forbestechcouncil/2019/12/17/reality-check-still-spending-more-time-gathering-instead-of-analyzing. Acesso em: 25 fev. 2022.
RAMALHO, R. A. S.; OUCHI, M. T. Tecnologias Semânticas: novas perspectivas para a representação de recursos informacionais. Informação & Informação, Londrina, v. 16, n. 3, p. 75-60, 2011. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/9829. Acesso em: 25 fev. 2022.
SANT’ANA, R. C. G. Ciclo de vida dos dados: uma perspectiva a partir da ciência da informação. Informação & Informação, Londrina, v. 21, n. 2, p. 116 142, 2016. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/27940. Acesso em: 25 fev. 2022.
SANT’ANA, R.C.G. Transdução informacional: impactos do controle sobre os dados. In: MARTÍNEZ-ÁVILA, D.; SOUZA, E.A.; GONZALEZ, M.E.Q. (ed.). Informação, conhecimento, ação autônoma e big data: continuidade ou revolução? Marília: Oficina Universitária; São Paulo: Cultura Acadêmica; FiloCzar, 2019, p. 117-128. Disponível em: http://books.scielo.org/id/gfrbh/pdf/martinez-9788572490559-09.pdf. Acesso em: 25 fev. 2022.
SILVEIRA, D. T.; CÓRDOVA, F. P. A pesquisa científica. In: GERHARDT, T. E., SILVEIRA, D. T. (orgs.). Métodos de pesquisa. Porto Alegre: Editora da UFRGS, 2009. Disponível em: http://hdl.handle.net/10183/52806. Acesso em: 25 fev. 2022.
SIRISURIYA, S. A. Comparative study on web scraping. In: INTERNATIONAL RESEARCH CONFERENCE, 8., 2015, KDU. Proceedings […]. [S.l.: s.n.], 2015. Disponível em: http://ir.kdu.ac.lk/bitstream/handle/345/1051/com-059.pdf. Acesso em: 25 fev. 2022.
SOUZA, R. R.; ALMEIDA, M. B.; BARACHO, R. M. A. Ciência da informação em transformação: Big Data, nuvens, redes sociais e Web Semântica. Ciência da Informação, Brasília, v. 42, n. 2, p. 159 173, 2013. Disponível em: https://revista.ibict.br/ciinf/article/view/1379. Acesso em: 25 fev. 2022.
SILVA, R. E. DA; SANTOS, P. L. V. A. DA C.; FERNEDA, E. Modelos de recuperação de informação e web semântica: a questão da relevância. Informação & Informação, Londrina v. 18, n. 3, p. 27, 2013. Disponível em: https://ojs.uel.br/revistas/uel/index.php/informacao/article/view/12822. Acesso em: 25 fev. 2022..
UPADHYAY. S. et al. Articulating the construction of a Web scraper for massive data extraction. In: INTERNATIONAL CONFERENCE ON ELECTRICAL, COMPUTER AND COMMUNICATION TECHNOLOGIES (ICECCT), 2., 2017, Coimbatore, India. Proceedings […]. [S.l.: s.n.], 2017. Disponível em: https://ieeexplore.ieee.org/document/8117827. Acesso em: 22 jan. 2022.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2023 HELTON LUIZ DOS SANTOS GRACIANO, Rogério Aparecido Sá Ramalho
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
El autor debe garantizar:
que existe un consenso total de todos los coautores para aprobar la versión final del documento y su presentación para su publicación.
que su trabajo es original, y si se han utilizado el trabajo y / o las palabras de otras personas, estos se han reconocido correctamente.
El plagio en todas sus formas constituye un comportamiento editorial poco ético y es inaceptable. Encontros Bibli se reserva el derecho de utilizar software o cualquier otro método para detectar plagio.
Todas las presentaciones recibidas para su evaluación en la revista Encontros Bibli: revista electrónica de biblioteconomía y ciencias de la información pasan por la identificación del plagio y el auto-plagio. El plagio identificado en los manuscritos durante el proceso de evaluación dará como resultado la presentación de la presentación. En el caso de identificación de plagio en un manuscrito publicado en la revista, el Editor en Jefe llevará a cabo una investigación preliminar y, si es necesario, la retractará.
Esta revista, siguiendo las recomendaciones del movimiento de Acceso Abierto, proporciona su contenido en Acceso Abierto Completo. Por lo tanto, los autores conservan todos sus derechos, permitiendo a Encontros Bibli publicar sus artículos y ponerlos a disposición de toda la comunidad.
Los contenidos de Encontros Bibli están licenciados bajo Licencia Creative Commons 4.0.
Cualquier usuario tiene derecho a:
- Compartir: copiar, descargar, imprimir o redistribuir material en cualquier medio o formato
- Adaptar: mezclar, transformar y crear a partir del material para cualquier propósito, incluso comercial.
De acuerdo con los siguientes términos:
- Atribución: debe otorgar el crédito apropiado, proporcionar un enlace a la licencia e indicar si se han realizado cambios. Debe hacerlo bajo cualquier circunstancia razonable, pero de ninguna manera sugeriría que el licenciante lo respalde a usted o su uso.
- Sin restricciones adicionales: no puede aplicar términos legales o medidas tecnológicas que restrinjan legalmente a otros de hacer cualquier cosa que permita la licencia.