98 CIENCIAPOLICIAL Ediciones Universidad de Salamanca / CC BY-NC-SA Ciencia Policial, 183, 91-132 a los estudiantes en categorías basadas en similitudes en sus perfiles. Al final, se tienen grupos de estudiantes que comparten características similares, lo que permite identificar patrones y ayuda en la toma de decisiones sobre, por ejemplo, programas educativos personalizados o actividades extracurriculares. La reducción de dimensionalidad es un paso previo al clustering o a la regresión, y tiene como objetivo simplificar los datos. A veces, los datos son muy dispersos y no aportan mucha información útil. Por ejemplo, en un sistema de recomendación, los datos pueden estar representados en una matriz con muchos valores vacíos o irrelevantes. Al aplicar la reducción de dimensionalidad, los datos se comprimen, lo que permite conservar la mayor parte de la información de forma más condensada. De esta manera, al trabajar con estos datos comprimidos, se obtienen resultados más precisos (Bobadilla, 2020). Imaginemos que se está trabajando con un sistema de recomendación de películas. Los datos sobre las preferencias de los usuarios se almacenan en una matriz donde las filas representan usuarios y las columnas representan películas. Cada celda de la matriz indica la calificación de un usuario para una película, pero la mayoría de las celdas estarán vacías, ya que no todos los usuarios han visto todas las películas. Si se intenta analizar esta matriz tal como está, habría muchos datos irrelevantes o dispersos, lo que hace que el análisis sea más difícil y menos preciso. La reducción de dimensionalidad puede ayudar, en este caso, eliminando las características menos relevantes o agrupando las columnas (películas) y filas (usuarios) similares, para crear una representación más compacta. Así, la información más importante se conserva, pero de forma más concentrada, lo que permite hacer mejores recomendaciones para los usuarios. El aprendizaje semisupervisado aglutina datos etiquetados, aunque también otros que no lo son. Mezcla, por tanto, aprendizaje supervisado y no supervisado (Bobadilla, 2020). Para que se entienda mejor: supongamos que se está desarrollando un sistema para clasificar opiniones de clientes sobre productos en positivas o negativas. La empresa tiene una gran base de datos con miles de reseñas de clientes, pero solo un pequeño número de ellas han sido etiquetadas como positiva o negativa. La mayor
RkJQdWJsaXNoZXIy MzA5NDI2