Ediciones Universidad de Salamanca / cc BY-NC-SA Ciencia Policial, 184, 87-113 102 CIENCIAPOLICIAL openpyxl y xlrd para archivos con extensiones correspondientes al programa Excel, y PyPDF2 para archivos PDF. Los archivos PDF presentan un desafío adicional, ya que requieren el uso de herramientas de reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) para extraer el texto después de haber sido leído el archivo. Además, cuando se recuperan archivos desde el bucket, el flujo de datos difiere en comparación con el acceso a archivos locales. Para mitigar posibles problemas, se almacena una copia temporal del archivo PDF en la máquina local antes de extraer el texto. Esto garantiza un procesamiento más fluido y evita posibles retrasos o interrupciones relacionadas con la red al cargar el contenido del archivo en Python. A continuación, se proporciona un ejemplo mínimo de código para ilustrar este proceso. Imagen 6: Ejemplo de lectura y extracción de datos ... # Leer el PDF de forma local y extraer el texto text = "" with open(local_file_path, "rb") as file: reader = PdfReader(file) # Extraer texto de cada página for page_number in range(len(reader.pages)): page = reader.pages[page_number] text += page.extract_text() # Eliminar el archive una vez procesaro os.remove(local_file_path) Estas bibliotecas aseguran que los datos de texto estén estandarizados y preparados para un análisis posterior, incluyendo tareas como la limpieza de datos y la normalización del texto. Después de la extracción del texto, se implementa el reconocimiento de entidades para analizar el texto procesado. Aunque los modelos preentrenados ofrecen amplias capacidades, pueden no ser siempre efectivos, especialmente cuando se trabaja con datos multilingües y patrones específicos. La implementación de spaCy, una biblioteca de procesamiento del lenguaje natural en Python, resalta la impor-
RkJQdWJsaXNoZXIy MzA5NDI2