Ciencia Policial 184 (2025)

Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 100 CIENCIAPOLICIAL Por lo tanto, una vez recopilados, los datos se almacenan en un Amazon Bucket, proporcionando una solución de almacenamiento segura y escalable. Este enfoque garantiza que los datos en bruto permanezcan accesibles para su posterior análisis y procesamiento, mientras se siguen las mejores prácticas en gestión y almacenamiento de datos. 2.4 Procesamiento mediante minería de texto El proceso de aplicación de técnicas de minería de texto a los datos recopilados abarca varios pasos para extraer y analizar información textual de manera eficiente. Inicialmente, todos los archivos en su formato original deben ser leídos para asegurar un conjunto de datos integral que permita analizar y detectar información potencialmente peligrosa. Para abordar el desafío de procesar y extraer información útil de los archivos almacenados en un bucket, se deben seguir una serie de pasos metodológicos. En primer lugar, se debe garantizar la lectura correcta de los archivos en el bucket, lo que, aunque pueda parecer trivial, representa un desafío significativo debido a la diversidad de formatos de archivo e idiomas en los que pueden estar escritos los documentos. Este paso es crucial, ya que una lectura precisa que garantice la carga completa de los archivos es fundamental para el procesamiento posterior, especialmente cuando se trata de contenido en diferentes alfabetos. Un manejo incorrecto podría llevar a la pérdida de datos o a una mala interpretación de la información, por lo que es imperativo implementar técnicas de análisis y conversión de texto robustas. Para garantizar que todos los archivos puedan ser leídos con precisión, independientemente de su formato o idioma, se ha utilizado la biblioteca chardet para detectar la codificación correcta. A continuación, se presenta un ejemplo mínimo reproducible que utiliza chardet para leer archivos con codificaciones desconocidas. Posteriormente, determinar el tipo de archivo en función de su extensión es crucial para manejar correctamente la extracción de texto. Una vez identificadas las características del ar-

RkJQdWJsaXNoZXIy MzA5NDI2