Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 109 Metodología de prevención del cibercrimen mediante Web Scraping y procesamiento del lenguaje natural para la detección de filtraciones de datos en la Dark Web Rico Pachón, N.; Gallo-Serpillo, F.; Barroso, R. ficios significativos en términos de ahorro de tiempo y mejora de la productividad que ofrecen las soluciones automatizadas de procesamiento de datos en comparación con los métodos manuales. El hecho de que toda la información recopilada a partir del texto se almacene posteriormente en una base de datos relacional dedicada para su análisis posterior permite realizar consultas sobre la información extraída de manera eficiente y escalable. 4 Conclusión y trabajo futuro A través de la investigación realizada, se ha evidenciado que la metodología propuesta, basada en la captura y el procesamiento de datos filtrados de la Dark Web, ofrece una solución prometedora para abordar los desafíos que plantean las filtraciones de datos. Mediante la aplicación de técnicas de minería de texto, la detección de información crítica dentro de los datos filtrados se ha automatizado significativamente, mejorando así la eficiencia y la precisión en la identificación de información vulnerable. Sin embargo, es crucial reconocer los desafíos encontrados, particularmente en lo que respecta a los problemas de codificación en diferentes idiomas, los cuales pueden afectar los procesos de tokenización. Para abordar este problema, futuras investigaciones se centrarán en el desarrollo de mecanismos robustos de detección de codificación de lenguaje que puedan identificar y manejar automáticamente distintos idiomas, asegurando una tokenización precisa en datos no estructurados. Además, la exploración de técnicas avanzadas de tokenización, como la tokenización por subpalabras (sub-word tokenization) o la codificación byte-pair encoding (BPE), podría proporcionar una mayor flexibilidad para manejar distintos idiomas y conjuntos de caracteres. Al invertir en investigación y desarrollo para abordar los desafíos presentados en este trabajo, se ofrece una herramienta

RkJQdWJsaXNoZXIy MzA5NDI2