Cada ingeniero de aprendizaje automático recuerda la primera vez que su modelo va a la vida. Las métricas se ven bien, las predicciones se mantienen estables... y luego, casi imperceptiblemente, los picos de latencia, las derivaciones de precisión o las dependencias se rompen. Para Saurabh Kumar, ingeniero de software senior en una gran minorista multinacional, ese frágil momento entre “ha funcionado” y “ha escalado” define la diferencia entre investigación y producción. “Production ML no se trata del modelo en sí”, explica Saurabh. “Se trata de cómo se comporta el modelo en el campo, bajo carga, bajo cambios y a escala. Saurabh trabajó extensamente en la rearquitectura del motor de puntuación y la construcción de la plataforma MLOps desde el principio para que el minorista sirva publicidad a escala. Sin embargo, lo que distingue a su enfoque no es sólo la sofisticación técnica, sino una disciplina metodológica, un libro de texto, como lo llama, para mantener los sistemas de producción rápidos, estables y con un error reducido. De la experimentación a la ejecución En el punto de vista de Saurabh, el viaje de un modelo entrenado a un sistema listo para la producción se asemeja a un proceso de transformación industrial. “Un modelo es como un motor de prototipo”, dice. “Puede funcionar hermosamente en un banco de pruebas, pero el momento en que se cae en un coche, todo cambia”. Esa realidad inspiró lo que él llama el Production ML Playbook, un conjunto de principios operativos destilados a partir de años de ensayo, fracaso y refinamiento. La primera, la prueba de latencia, se ocupa de la fricción invisible de la escala. “No se puede optimizar lo que no se mide”, señala Saurabh. “Cada compuesto millisegundo adicional cuando se sirven millones de solicitudes.” Su equipo emplea simulaciones de carga distribuida que reflejan la demanda del mundo real, la infraestructura de prueba de estrés antes del lanzamiento. El objetivo, explica, no es eliminar completamente la latencia, es comprenderlo lo suficientemente profundamente para predecir y controlarlo. Validación de la Regresión: Guardia contra las brechas sutiles Una vez que la latencia está bajo control, Saurabh se convierte en el sabotador silencioso de los sistemas de producción: la regresión. “Los errores de regresión son insidiosos”, dice. Para contrarrestar esa decadencia, Saurabh ayudó a construir un tubo de validación de regresión automatizado que rastrea tanto el rendimiento como el comportamiento.Cada iteración del modelo se prueba no solo para las métricas de precisión, sino también para la coherencia de la salida en todos los conjuntos de datos y ventanas de tiempo. Su enfoque se basa en gran medida en el ethos de desarrollo impulsado por las pruebas de la ingeniería de software, fusionando la experimentación ML con el rigor de la producción. “No se puede confiar en la intuición sola”, subraya Saurabh. “Necesitamos la reproductibilidad, el tipo que hace que sus experimentos sean defensibles y sus sistemas previsibles”. Este equilibrio de rigor y agilidad permite a su equipo navegar más rápido al tiempo que reduce las sorpresas operativas: una característica de lo que él llama madurez en las operaciones de ML. El imperativo de la automatización En el libro de Saurabh, la automatización no es sólo una conveniencia, es una salvaguardia. “La intervención humana debe ser la excepción, no la norma”, insiste. “Cada paso manual es un punto de fracaso potencial”. En el papel de Saurabh en el gran minorista multinacional, su equipo emplea tuberías de implementación automatizadas que integran la validación continua, las salvaguardas de retroalimentación y los desencadenantes de escala dinámica. “La automatización te da libertad”, dice Saurabh. “te permite centrarte en la estrategia, en las cuestiones arquitectónicas más grandes, sin luchar contra los mismos problemas de implementación una y otra vez”. Además de la eficiencia, la automatización también refuerza la fiabilidad.Cada nuevo modelo se somete a una serie de verificaciones de preimplantación, incluyendo pruebas de datos sintéticos y validación de modo de sombra, antes de ser promovido al tráfico en vivo. “Tratamos cada implementación como un experimento”, añade. Filosofía de la escalación: Confía en el proceso, no en la caza Para Saurabh, el éxito de la producción no viene de la intuición, viene de la confianza en el proceso. “No se puede escalar el instinto de una persona”, dice. Su filosofía más amplia combina el rigor científico de la investigación con el pragmatismo operativo de la ingeniería.Bajo su liderazgo, los equipos de IA han cultivado un ciclo de retroalimentación continuo, el aprendizaje de modelos a partir de datos en vivo, el aprendizaje de infraestructuras a partir del comportamiento del modelo y los ingenieros aprenden de ambos. “La producción no es el fin de la experimentación”, dice. “Es donde la experimentación se hace responsable”. hacia la fiabilidad autónoma Mirando hacia adelante, Saurabh contempla la producción de tuberías ML que son auto-observación y auto-corrección, capaz de detectar picos de latencia o regresiones de forma autónoma y reequilibrar los recursos en tiempo real. “La automatización sin comprensión es sólo un caos más rápido”, dice. “El objetivo no es eliminar el juicio humano, es elevarlo”. Esa mentalidad se ha convertido en su estrella del norte, la creencia de que los sistemas de producción, como las personas que los construyen, deben evolucionar a través de la retroalimentación, la transparencia y la mejora continua. “Los mejores sistemas”, concluye, “no solo funcionan de manera eficiente. This story was published by Steve Beyatte under HackerNoon's Programa de Blogging de Negocios . Esta historia fue publicada por Steve Beyatte bajo HackerNoon's Programa de Blogging de Negocios Programa de Blogging de Negocios .