Guía optimizada de reciclaje para MLOps

En general, es importante comprender claramente los requisitos de la empresa y el problema que se intenta resolver a la hora de determinar el mejor enfoque para automatizar el reentrenamiento de un modelo de aprendizaje automático activo. También es importante supervisar continuamente el rendimiento del modelo y realizar ajustes en la cadencia de reentrenamiento y las métricas según sea necesario.

Barbara

Enfoques para el reentrenamiento automático de modelos

  • Fijo: Reentrenamiento de una cadencia determinada (por ejemplo, diaria, semanal, mensual)
  • Dinámica: Reentrenamiento desencadenado ad hoc basado en métricas de rendimiento del modelo.

Y todo este proceso puede desplegarse en 2 entornos:

  • Nube: La más común. Ofrece grandes ventajas de flexibilidad
  • Edge: ideal para casos de uso que requieren privacidad, seguridad o baja latencia.

Estrategia de reciclaje:

Automatizar el reentrenamiento de un modelo de aprendizaje automático puede ser una tarea compleja, pero existen algunas prácticas recomendadas que pueden ayudar a guiar el diseño.

1. Métricas para activar el reciclaje: 

Las métricas utilizadas para activar el reentrenamiento dependerán del modelo y de su uso. Cada métrica necesitará un umbral para activar el reentrenamiento cuando el rendimiento del modelo caiga por debajo de él.

Algunas métricas ideales para activar el reentrenamiento del modelo son:

  • Predicción (puntuación o etiqueta) deriva
  • Degradación de la métrica de rendimiento
  • Degradación de las métricas de rendimiento para segmentos/cohortes específicos.
  • Desviación de características
  • Deriva de incrustaciones

2. Garantizar el funcionamiento del nuevo modelo

Habrá que probar o validar el nuevo modelo antes de ponerlo en producción para sustituir al antiguo. Para ello se recomiendan varios enfoques:

  • Revisión humana
  • Comprobaciones métricas automatizadas en el proceso CI/CD

3. Estrategia de promoción del nuevo modelo

La estrategia de promoción del nuevo modelo dependerá de su impacto en la empresa. En algunos casos, puede ser conveniente sustituir automáticamente el modelo antiguo por el nuevo. Pero en otros casos, el nuevo modelo puede requerir pruebas A/B antes de sustituir al modelo antiguo.

Algunas estrategias a tener en cuenta para probar modelos en vivo son:

  • Campeón vs. Retador: sirve tráfico de producción a ambos modelos pero sólo utiliza la predicción/respuesta del modelo existente (campeón) en la aplicación. Los datos del modelo retador se almacenan para su análisis, pero no se utilizan.
  • Pruebas A/B: dividir el tráfico de producción entre los dos modelos durante un periodo de experimentación determinado y comparar las métricas clave al final del experimento para decidir qué modelo promocionar.
  • Despliegue canario: Comience por redirigir un pequeño porcentaje del tráfico de producción al nuevo modelo. Dado que se encuentra en una ruta de producción, esto ayuda a detectar problemas reales con el nuevo modelo, pero limita el impacto a un pequeño porcentaje de usuarios. Aumente el tráfico al nuevo modelo hasta que reciba el 100% del tráfico.

4. Datos del bucle de realimentación de reentrenamiento

Una vez que identificamos que es necesario mantener el modelo, el siguiente paso es elegir el conjunto de datos adecuado con el que volver a entrenar. He aquí algunas recomendaciones para garantizar que los nuevos datos de entrenamiento mejoren el rendimiento del modelo.

  • Si el modelo funciona bien en general, pero no cumple los criterios de rendimiento óptimo en algunos segmentos, el nuevo conjunto de datos de entrenamiento debería contener puntos de datos adicionales para estos segmentos de menor rendimiento. Se puede utilizar una sencilla estrategia de muestreo ascendente para crear un nuevo conjunto de datos de entrenamiento dirigido a estos segmentos de bajo rendimiento.
  • Si el modelo se entrena en un intervalo de tiempo pequeño, es posible que el conjunto de datos de entrenamiento no capte ni represente con precisión todos los posibles patrones que aparecerán en los datos de producción en directo. Para evitarlo, evita entrenar el modelo solo con datos recientes.
  • Si la arquitectura de su modelo sigue el diseño de aprendizaje por transferencia, basta con añadir nuevos datos al modelo durante el reentrenamiento, sin perder los patrones que el modelo ya ha aprendido de los datos de entrenamiento anteriores.

5. Retorno de la inversión medible

La medición del impacto en los costes varía en función del entorno de implantación (nube frente a periferia).

Nube:

Aunque es difícil calcular el ROI directo de algunas tareas de IA, el valor del reciclaje optimizado de modelos es sencillo, tangible y posible de calcular directamente. Los costes de computación y almacenamiento de los trabajos de formación de modelos a menudo ya se registran como parte de los costes de computación en nube. A menudo, también se puede calcular el impacto empresarial de un modelo.

Al optimizar el reciclaje, tenemos en cuenta tanto los costes de reciclaje como el impacto del rendimiento del modelo en el negocio ("AI ROI"). Podemos sopesar estos costes entre sí para justificar el coste del reciclaje de los modelos.

Coste de reentrenamiento = (coste de cálculo del reentrenamiento + coste de almacenamiento del nuevo modelo) x frecuencia    

Borde:

El reentrenamiento Edge puede tener ventajas, como la privacidad de los datos y la reducción de la latencia, ya que los datos no tienen que transmitirse a través de una red y pueden permanecer en el dispositivo. Además, el reentrenamiento Edge puede ser necesario para adaptar el modelo a los cambios del entorno.

El coste del reentrenamiento de los modelos de aprendizaje automático en el Edge depende de varios factores, como el tamaño y la complejidad del modelo, la cantidad y calidad de los datos disponibles, la capacidad de procesamiento de la unidad de procesamiento Edge (EPU) y el coste de la energía.

En general, el proceso de reentrenamiento de modelos de aprendizaje automático en el Edge puede resultar más caro que hacerlo en la nube debido a las limitaciones de recursos de la EPU y a la necesidad de transmitir datos a través de una red, lo que puede resultar lento y costoso. Además, los modelos de aprendizaje automático a menudo requieren grandes cantidades de datos para entrenarse, lo que puede requerir una gran cantidad de almacenamiento en el Edge.

Sin embargo, también existen técnicas y herramientas para reducir el coste del reentrenamiento en el Edge, como el uso de técnicas de aprendizaje federado para filtrar sólo los datos necesarios, el aprendizaje por transferencia para aprovechar los modelos preentrenados, la optimización de los modelos para dispositivos de bajo consumo y la selección cuidadosa de los datos de entrenamiento para reducir el tamaño del conjunto de datos necesario.

La transición del reentrenamiento de modelos a intervalos fijos al reentrenamiento automatizado de modelos activado por el rendimiento del modelo ofrece numerosas ventajas a las organizaciones, desde menores costes de TI en un momento en el que los costes de la nube están aumentando hasta un mayor retorno de la inversión de la inteligencia artificial gracias a la mejora del rendimiento del modelo.

Barbara, La plataforma Cybsersecure Edge para MLOps

Barbara Industrial Edge Platform es una potente herramienta que puede ayudar a las organizaciones a simplificar y acelerar sus despliegues Edge ML, construyendo, orquestando y manteniendo fácilmente aplicaciones basadas en contenedores o nativas a través de miles de nodos Edge distribuidos.

Los datos más importantes de la industria comienzan "en el borde" a través de miles de dispositivos IoT, plantas industriales y máquinas de equipos. Descubra cómo convertir los datos en información y acciones en tiempo real con la plataforma más eficiente, económica y sin intervención.

Solicite una demostración.