Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 89 Metodología de prevención del cibercrimen mediante Web Scraping y procesamiento del lenguaje natural para la detección de filtraciones de datos en la Dark Web Rico Pachón, N.; Gallo-Serpillo, F.; Barroso, R. Keywords Data Leakage; Text Mining; NLP; Cybercrime; Dark Web. 1 Introducción 1.1 La Dark Web como ecosistema para la venta de datos filtrados La Dark Web se ha convertido en un bastión para la distribución y la venta de contenido ilícito, así como en un medio que favorece las actividades del crimen organizado (Connolly et al., 2023, p. 1). En este sentido, una de las principales arquitecturas que alberga servicios en la Dark Web es “The Onion Router”, más conocida como la red TOR. Esta red es un sistema computacional basado en nodos cuya finalidad principal es garantizar el anonimato de los usuarios (Lacey y Salmon, 2015, p. 118). Cuando un usuario emplea TOR, su tráfico de internet se enruta (se dirige) a través de una serie de servidores operados por voluntarios distribuidos en todo el mundo. Cada nodo solo conoce el nodo que le pasó los datos y el nodo al que se los entregará, creando capas de cifrado similares a las capas de una cebolla, de ahí su nombre. Esta cadena de nodos dificulta que cualquier persona pueda rastrear el origen real de los datos. Si bien existen diversas técnicas y tácticas para explorar su contenido de manera dinámica, por ejemplo, el uso de Crawling (Gede et al., 2017, p. 2), análisis de contenido mediante etiquetas HTML (Al Nabki et al., 2017, p. 41) o incluso la utilización de Honeypots (Gallo-Serpillo y Valls-Prieto, 2024, p. 2), entre otras, resulta difícil estimar el volumen total de contenido ilegal alojado en la red TOR debido a la falta de indexación de los servicios y su naturaleza volátil; en este contexto, Saleem et al. (2022, p. 1) estiman que las páginas de acceso común (denominadas Web Superficial o Surface Web) representan aproximadamente el 4 % de los servicios de internet, mientras que el 96 % restante corresponde a contenido oculto y no indexado presente en la Dark Web. Aunque es complicado encontrar estudios actuales que cuantifiquen el contenido criminal en la red TOR, una

RkJQdWJsaXNoZXIy MzA5NDI2