Ciencia Policial nº183

99 La inteligencia artificial predictiva al servicio de la prevención e investigación del delito y del proceso penal García Torres, M.L. Ediciones Universidad de Salamanca / CC BY-NC-SA Ciencia Policial, 183, 91-132 parte de las reseñas están sin etiquetar. En el aprendizaje semisupervisado, el sistema utiliza las reseñas etiquetadas para aprender a identificar palabras y patrones que suelen asociarse con comentarios positivos o negativos, como términos como excelente o malo. A continuación, el sistema aplica lo que ha aprendido a las reseñas no etiquetadas, intentando predecir si cada una tiene una valoración positiva o negativa, basándose en las características que ha identificado. Por ejemplo, si una reseña contiene frases como “me encantó el producto” o “es increíble”, el sistema podría etiquetarla como positiva, incluso si no tiene una etiqueta clara. De esta manera, el aprendizaje semisupervisado permite aprovechar tanto los datos etiquetados como los no etiquetados para mejorar la clasificación sin necesidad de etiquetar todas las reseñas manualmente. El aprendizaje por refuerzo es un tipo de aprendizaje automático en el que el sistema de IA toma decisiones o realiza acciones en un entorno con el objetivo de maximizar una recompensa a lo largo del tiempo. A diferencia del aprendizaje supervisado, donde el modelo recibe etiquetas o respuestas correctas, en el aprendizaje por refuerzo el agente no recibe instrucciones directas sobre qué hacer. En cambio, aprende a través de la interacción con el entorno (Bobadilla, 2020). Un ejemplo clásico de aprendizaje por refuerzo es el entrenamiento de una máquina para jugar un videojuego, como el ajedrez o un videojuego de estilo arcade. Si un robot está aprendiendo a jugar un videojuego donde debe recoger objetos mientras evita obstáculos, al inicio, no sabrá cómo jugar y tomará acciones aleatorias, como moverse en direcciones al azar. Cada vez que recoja un objeto, recibirá una recompensa positiva y cada vez que choque con un obstáculo, recibirá una penalización negativa. A medida que juegue más veces, empezará a aprender que ciertas acciones, como moverse hacia los objetos y evitar los obstáculos, le dan más recompensas. Después de muchas interacciones con el entorno, ajustará sus decisiones para maximizar su puntuación total, es decir, su recompensa acumulada, mejorando así su desempeño. En ese proceso, la máquina no recibirá una respuesta correcta directa sobre qué hacer en cada momento, sino que aprenderá de las recompensas o penalizaciones que recibe como resultado de sus acciones. Con el tiempo, el sistema

RkJQdWJsaXNoZXIy MzA5NDI2