Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 97 Metodología de prevención del cibercrimen mediante Web Scraping y procesamiento del lenguaje natural para la detección de filtraciones de datos en la Dark Web Rico Pachón, N.; Gallo-Serpillo, F.; Barroso, R. Estos datos son no estructurados y cada incorporación representa un volumen variable de información, por lo que es esencial contar con un contenedor que permita almacenamiento ilimitado. • Procesamiento mediante minería de texto: diseñado para explotar la información extraída del texto de los archivos filtrados, aplicando técnicas de minería de texto para identificar datos personales valiosos que puedan ser vulnerables. • Explotación de los resultados: este módulo proporciona acceso a través de una API para realizar detección temprana de los datos críticos obtenidos, facilitando la integración con otras herramientas de Threat Intelligence para enriquecer los procesos de seguridad operativa. En las siguientes secciones, se explica en detalle cada módulo, proporcionando un desglose de sus funcionalidades, estrategias de implementación e integración dentro de la arquitectura general, con el objetivo de detallar el proceso seguido en la implementación. 2.2 Recopilación de datos mediante Web Scraping Según la definición dada por Ryan Mitchell (2015, p. 7), el término Web Scraping se refiere a la práctica de recopilar automáticamente datos de internet. Es una técnica con una larga historia y, dado que se usa ampliamente en varios contextos, también puede encontrarse bajo términos como screen scraping, data mining, web harvesting u otras variantes similares. Inicialmente, el Web Scraping estaba orientado a la obtención de datos de la Web Superficial (Surface Web); posteriormente, se desarrollaron adaptaciones específicas para inspeccionar datos en la Deep Web (Zhang et al., 2004, p. 1). Para esta investigación, se ha propuesto un microservicio con la capacidad de recopilar datos de una fuente específica en la Dark Web, aunque su uso puede extenderse a otras fuentes en el mercado negro de datos en internet. Un microservicio es un modelo arquitectónico que separa grandes sistemas en pequeñas unidades funcionales (Karabey Aksakalli et al., 2021, p. 1). La idea básica del microservicio propuesto es

RkJQdWJsaXNoZXIy MzA5NDI2