Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 103 Metodología de prevención del cibercrimen mediante Web Scraping y procesamiento del lenguaje natural para la detección de filtraciones de datos en la Dark Web Rico Pachón, N.; Gallo-Serpillo, F.; Barroso, R. tancia de personalizar los modelos para adaptarlos a necesidades específicas. Además, las variaciones lingüísticas entre distintos idiomas pueden hacer que los modelos preentrenados en su versión por defecto sean insuficientes. En escenarios que involucran información sensible, utilizar la biblioteca para definir patrones en lugar de emplear modelos preentrenados completos resulta más práctico y eficaz. En este contexto, confiar en la coincidencia de patrones (pattern matching) para el reconocimiento de entidades demuestra ser una ventaja. Este enfoque permite identificar entidades basadas en patrones predefinidos, asegurando una mayor precisión y relevancia dentro del contexto del conjunto de datos. Por esta razón, se ha implementado un módulo para procesar los datos textuales utilizando varios extractores de información definidos por patrones, con el objetivo de recopilar diferentes entidades de información, como identificaciones (ID), correos electrónicos, números IBAN, entre otros. Estos extractores están diseñados para identificar y extraer información vulnerable relevante del texto, basándose en la búsqueda de patrones que caracterizan estas estructuras. Por ejemplo, consideremos la detección de direcciones de correo electrónico. Estas pueden dividirse de la siguiente manera según el patrón mostrado a continuación. usuario @ dominio . extensión Esta definición evita la búsqueda literal y permite que, incluso si no conocemos la coincidencia exacta que estamos buscando, el texto real que coincide con estos patrones se recupere del documento. Utilizando estas entidades encontradas mediante patrones en el texto, el módulo almacena la información extraída y procesada en una base de datos. Esta base de datos actúa como un repositorio centralizado para almacenar toda la información vulnerable relevante descubierta durante el proceso de minería de texto. Al almacenar los datos en un formato estructurado, la base de datos permite una gestión eficiente de la información, facilitando su recuperación y análisis, lo que posibilita una exploración más profunda y un mejor aprovechamiento de los conocimientos extraídos.

RkJQdWJsaXNoZXIy MzA5NDI2