Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 107 Metodología de prevención del cibercrimen mediante Web Scraping y procesamiento del lenguaje natural para la detección de filtraciones de datos en la Dark Web Rico Pachón, N.; Gallo-Serpillo, F.; Barroso, R. Por ejemplo, supongamos que en la imagen que se muestra en la Imagen 6 apareció en un archivo PDF dentro de una filtración de datos; si un hacker accede a este archivo y encuentra un correo electrónico que contiene tanto la dirección de correo como el número IBAN de una persona, la combinación de estas dos piezas de información puede facilitar el robo de identidad, fraudes financieros o incluso el acceso a cuentas bancarias; además, aunque las transacciones suelen requerir una contraseña, muchas personas aún utilizan contraseñas de cuatro dígitos fácilmente hackeables con técnicas simples de fuerza bruta y exploración basada en combinatoria, lo que aumenta el riesgo. Un atacante podría aprovechar esta información para realizar transacciones no autorizadas, como compras fraudulentas. Todo esto hace que la exposición simultánea de una dirección de correo electrónico y un número IBAN en un mismo texto sea peligrosa, debido al riesgo de comprometer la privacidad y la seguridad financiera de la persona. Además, revelar esta información en un solo texto aumenta la vulnerabilidad de la persona ante ataques de phishing y otros esquemas de ingeniería social, donde los delincuentes intentan engañar a las víctimas para que revelen más información confidencial. Por lo tanto, es crucial proteger tanto la dirección de correo electrónico como el IBAN de una persona y evitar que aparezcan juntos en el mismo documento para mitigar el riesgo de explotación y abuso. Por un lado, para identificar la dirección de correo electrónico, el software emplea el patrón previamente establecido, donde no es necesario definir el texto específico del usuario, el dominio o la extensión, sino solo el conjunto de caracteres permitidos. Se puede observar una coincidencia en el texto con este patrón al examinar la estructura construida con los símbolos “@” y “.”, como se muestra en la tabla siguiente. usuario @ dominio . extensión landlordsemail @ gmail . com De manera similar, el software está programado para identificar otras secuencias de caracteres, como las que siguen el formato de un número IBAN, una secuencia alfanumérica (con o sin espacios) que identifica de manera única cuentas bancarias. Se

RkJQdWJsaXNoZXIy MzA5NDI2