Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 95 Metodología de prevención del cibercrimen mediante Web Scraping y procesamiento del lenguaje natural para la detección de filtraciones de datos en la Dark Web Rico Pachón, N.; Gallo-Serpillo, F.; Barroso, R. filtrados. Así, una vez que el texto ha sido extraído de los archivos, se pueden aplicar técnicas de minería de texto, como la recuperación de información, la clasificación de texto y el reconocimiento de entidades (Guo et al., 2023, p. 1) para automatizar el análisis del contenido. Más concretamente, en el análisis de filtraciones de datos, una combinación de técnicas clásicas de minería de texto, como las búsquedas basadas en expresiones regulares, junto con el uso de modelos de lenguaje preentrenados (Language Models, LMs) que permiten el reconocimiento de entidades, puede ahorrar horas de búsqueda sobre los datos sensibles filtrados en comparación con el tiempo que requeriría dicha tarea a un humano. Estas técnicas permiten una exploración exhaustiva de los datos filtrados, identificando patrones y tendencias críticas para comprender la naturaleza y el alcance de la filtración de información confidencial. En conclusión, nuestro objetivo en este trabajo es extraer información relevante de diversas filtraciones de datos, permitiendo consultas posteriores, como determinar si el número de tarjeta de crédito o el email de un individuo ha sido comprometido. Por esta razón, este proceso no solo implica procesar los archivos contenidos en la filtración y extraer su texto para el posterior reconocimiento de entidades, sino también establecer una infraestructura eficiente de base de datos que facilite consultas posteriores de manera efectiva. A través de este estudio, también buscamos evaluar las posibles implicaciones de estas filtraciones de datos en la privacidad de los individuos y la seguridad organizacional. 2 Métodos En las siguientes secciones, presentamos los principales servicios y métodos utilizados para detectar y extraer datos filtrados en la Dark Web, así como el modelo para la extracción de datos críticos basado en minería de texto. La arquitectura propuesta se basa en el uso de herramientas de código abierto y componentes de computación en la nube para facilitar procesos de extracción de datos, garantizando que sea eficiente y escalable.
RkJQdWJsaXNoZXIy MzA5NDI2