Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 93 Metodología de prevención del cibercrimen mediante Web Scraping y procesamiento del lenguaje natural para la detección de filtraciones de datos en la Dark Web Rico Pachón, N.; Gallo-Serpillo, F.; Barroso, R. ciberdelincuente obtuvo una filtración de datos que contenía el nombre de usuario y la contraseña de un exempleado de la planta, lo que le habría permitido el acceso remoto a través de la aplicación TeamViewer; este software permite, entre otras funcionalidades, el control remoto y la transferencia de archivos entre computadoras. El atacante intentó cambiar la concentración de hidróxido de sodio en el sistema de 100 a 11.100 partes por millón, afortunadamente, no se registraron víctimas por envenenamiento. Dado lo expuesto en los párrafos anteriores, resulta evidente que las filtraciones de datos representan riesgos significativos para individuos, organizaciones y la sociedad. Afrontar los desafíos que plantean estas filtraciones requiere medidas proactivas para su prevención y, en caso de que esto no sea posible, reducir el impacto. 1.2 Minería de texto y su potencial uso en filtraciones de datos Dado que la protección de datos confidenciales ante filtraciones es una preocupación creciente, la investigación sobre enfoques de ciberseguridad para abordar este problema ha ganado atención en los últimos años. La mayoría de las investigaciones realizadas para abordar este problema se centran en los Sistemas de Prevención de Filtración de Datos (DLPS, por sus siglas en inglés), que han surgido como una barrera para hacer frente al problema (Alneyadi et al., 2016, p. 1). Sin embargo, estos sistemas se centran en soluciones de software que no permiten examinar el contenido de las filtraciones. Una técnica interesante que aún no ha sido explorada en profundidad es el análisis del texto contenido en las filtraciones. Esto ha sido mencionado brevemente por Ojoawo et al. (s. f., p. 14), quienes se basan en el análisis de texto a partir de la exploración de redes sociales; aunque este enfoque puede ser muy interesante, la falta de estudios en este campo se debe al desafío que supone la heterogeneidad de los datos, que hacen que el estudio de técnicas preventivas basadas en software y hardware sea más rápido que el análisis de la información filtrada. Sin embargo, si abordamos el problema desde una perspectiva social, en lugar de solo

RkJQdWJsaXNoZXIy MzA5NDI2