Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 94 CIENCIAPOLICIAL una económica o de infraestructura, el impacto de los datos ya filtrados puede ser significativo, motivo por el cual es crucial comprender la información contenida en estas filtraciones. La minería de información implica descubrir conocimientos a partir de grandes conjuntos de datos con el objetivo de extraer información útil; se basa, entre otros conceptos, en la agregación de información, la cual permite, mediante el procesamiento en conjunto de estas grandes cantidades de información, detectar comportamientos que no pueden apreciarse en el dato individual. El aprendizaje automático, una rama de la inteligencia artificial, se centra en desarrollar algoritmos y modelos que permiten a las máquinas aprender y mejorar automáticamente cuando son expuestas a información, sin ser programadas explícitamente para encontrar y extraer patrones concretos en los datos. En ámbitos con grandes cantidades de datos suponen un gran avance en relación con la programación explícita, la cual requeriría una gran revisión humana para llegar a conocer primero todos los datos disponibles, así como aquellos de interés particular. Estas tecnologías se utilizan cada vez más en ciberseguridad para detectar y prevenir amenazas cibernéticas (Nayak et al., 2020, p. 1), por ejemplo, mediante la aplicación de aprendizaje automático en este campo se puede analizar el tráfico de la red en busca de comportamientos anómalos que indiquen posibles ataques, mientras que la minería de datos ayuda a identificar correos electrónicos de phishing o malware, lo que permite a muchas aplicaciones de gestor de correo la creación de carpetas inteligentes. Extraer información de la filtración de datos presenta diversos desafíos relacionados con los formatos en los que se encuentra la información; no obstante, a pesar de la variedad de formatos de archivo, que incluye imágenes, bases de datos, hojas de Excel, documentos, correos electrónicos, archivos PDF…, entre otros, y a pesar de que cada formato requiere de técnicas especializadas para la extracción de su información, todos tienen en común el contener información de carácter textual. La minería de texto, un subcampo de la minería de información y el procesamiento del lenguaje natural (NLP), permite analizar los datos en texto no estructurado presentes en documentos

RkJQdWJsaXNoZXIy MzA5NDI2