Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 101 Metodología de prevención del cibercrimen mediante Web Scraping y procesamiento del lenguaje natural para la detección de filtraciones de datos en la Dark Web Rico Pachón, N.; Gallo-Serpillo, F.; Barroso, R. chivo, el siguiente paso implica procesar el texto contenido en estos archivos. Para ello, se emplea un método especializado de extracción de texto, adaptado al tipo de archivo y a su codificación específica. Para abrir y leer el contenido sin errores, fue necesario considerar estas diferencias, lo que requiere desarrollar un código que cubra exhaustivamente la naturaleza de todos los archivos que podrían llegar a encontrarse potencialmente en la Dark Web. Los archivos en formatos de texto plano, como.txt,.rtf,.msg o incluso formatos de código como.sql,.java,.py, entre otros, pueden leerse como texto plano. Aunque los archivos con extensiones de código pueden parecer irrelevantes a primera vista, pueden ser cruciales. Por ejemplo, los archivos.sql se utilizan para definir bases de datos y, si contienen datos almacenados dentro de ellos, podrían incluir información sensible sobre los usuarios. Sin embargo, otros formatos, como archivos de.xlsx o.pdf, no pueden leerse de manera directa y requieren el uso de bibliotecas especializadas. La carga del texto de estos archivos se ha realizado en Python utilizando bibliotecas como pandas para manejar archivos.csv (que son texto plano, pero pueden gestionarse de manera más eficiente con esta biblioteca), Imagen 5: Ejemplo de código para detectar la codificación en archivo fuente import chardet # Función para detector la condificación del archivo def detect_encoding(file_path): with open(file_path, 'rb') as f: raw_data = f.read() result = chardet.detect(raw_data) encoding = result['encoding'] return encoding # Detección de la condificación encoding = detect_encoding(file_path) print(f"Detected encoding: {encoding}") # Lectura del archive con la codificación detectada with open(file_path, 'r', encoding=encoding) as f:

RkJQdWJsaXNoZXIy MzA5NDI2