Generations of Machine Learning

diciembre 12, 2018

supply chain science and tech

00:00:06 Introducción al desarrollo generacional de machine learning.
00:00:38 Primera generación: algoritmos estadísticos de forecast de las décadas de 1950/60.
00:03:26 Transición a la segunda generación: modelos no paramétricos de finales de los 80 y 90.
00:06:20 Convergencia entre lo estadístico y el machine learning.
00:07:55 Impacto de las mejoras tecnológicas en la evolución del machine learning.
00:09:54 El efecto del deep learning en el forecast, en contraste con el ML estándar.
00:11:31 Modelos paramétricos, evitando el overfitting del deep learning.
00:13:01 La relación del deep learning con el hardware, GPUs, álgebra lineal.
00:14:50 El papel de la computación en la nube en el procesamiento de datos del deep learning.
00:16:01 Desafíos de las GPUs, beneficios de la computación en la nube para el forecast en supply chain.
00:17:22 Futuro del ML: auge de differentiable programming.
00:19:13 Inversiones en ML de la industria de supply chain, adaptación al big data.
00:22:44 Ritmo de cambio tecnológico, adaptación de los supply chain executives.
00:25:24 Conclusión: SaaS, la importancia de la computación en la nube en la evolución tecnológica.

Resumen

En una entrevista, el fundador de Lokad, Joannes Vermorel, discutió la historia de machine learning (ML), desde sus orígenes en los algoritmos de forecast de series de tiempo de las décadas de 1950 hasta el advenimiento del deep learning. Él enfatizó las aplicaciones del ML en la gestión de supply chain, especialidad de su empresa. Vermorel describió la progresión desde modelos simples, orientados a datos, hasta modelos estadísticos no paramétricos capaces de aprender cualquier patrón con datos suficientes. La conversación abarcó hitos clave del ML, el papel de la tecnología, y el desafío del overfitting. Vermorel predijo futuros desarrollos en ML, incluyendo differentiable programming, y el enfoque continuo en el reconocimiento de voz e imagen. Concluyó abogando por el Software as a Service para ayudar a los supply chain executives a mantenerse al día con el rápido cambio tecnológico.

Resumen Extendido

La entrevista entre el presentador Kieran Chandler y Joannes Vermorel, fundador de Lokad, profundiza en la evolución y desarrollo del machine learning, con un énfasis particular en su aplicación en la gestión de supply chain.

Vermorel sugiere que los orígenes del machine learning se remontan a las décadas de 1950 y 60, con la aparición de los primeros algoritmos de forecast de series de tiempo. Estos algoritmos, aunque tradicionalmente no se reconocían como machine learning en su concepción, exhibían características clave del machine learning, tales como estar orientados a los datos, ser estadísticos y estar diseñados para aprender patrones a partir de los datos. Vermorel subraya además que el uso inicial de estos algoritmos estaba estrechamente relacionado con la optimización de supply chain, área en la que su empresa, Lokad, se especializa hoy en día.

En cuanto a los métodos específicos utilizados en esta fase temprana del machine learning, Vermorel menciona varios que serían familiares para los profesionales de supply chain. Estos incluyen promedios móviles, suavizado exponencial, y modelos más complejos como los métodos Holt-Winters y Box-Jenkins. Él caracteriza a estos algoritmos iniciales como relativamente simples, diseñados principalmente para adaptarse a las capacidades computacionales de las computadoras disponibles durante ese periodo. Estos primeros modelos necesitaban ser rápidos y eficientes, capaces de procesar cientos de puntos de datos con miles de operaciones dentro de las limitaciones de potencia de procesamiento y memoria limitadas.

Al cambiar la conversación hacia la progresión del machine learning, Vermorel comparte que el siguiente salto significativo ocurrió a finales de los 80 y durante los 90, marcado por la aparición de modelos estadísticos no paramétricos. Esta evolución, desde los modelos paramétricos de la primera generación, caracterizados por un número fijo de parámetros ajustables (típicamente no más de una docena), representó un desarrollo crítico.

Los modelos paramétricos, limitados por sus parámetros fijos, podían adaptarse solo a un cierto rango de patrones de datos. En contraste, los modelos no paramétricos no tenían una forma predeterminada, lo que les permitía potencialmente aprender cualquier patrón, siempre que hubiera suficientes datos. Este cambio señaló un avance en las capacidades y flexibilidad del machine learning, proporcionando la base para las aplicaciones de machine learning más complejas y versátiles que se ven hoy en día.

Vermorel comienza destacando el desafío del overfitting en los primeros modelos de forecast, donde aumentar el número de parámetros podía llevar a modelos que se ajustaban perfectamente a los datos históricos pero carecían de capacidades predictivas para el futuro. Este fue un gran enigma en el campo durante décadas hasta finales de los 90, cuando surgieron soluciones satisfactorias con la aparición de modelos no paramétricos.

Luego discute los dos grupos en el campo que surgieron en esa época: statistical learning y machine learning. El primero estaba compuesto por matemáticos que realizaban estadísticas con un amplio uso de computadoras, mientras que el segundo consistía en profesionales de la informática que gradualmente se orientaron hacia algoritmos estadísticos. Él señala que estas perspectivas dieron lugar a diferentes estilos de modelado. Por ejemplo, el grupo de statistical learning favorecía las máquinas de soporte vectorial, un modelo bien entendido matemáticamente. Por otro lado, el grupo de machine learning se sentía más atraído por las redes neuronales, que implicaban mucha manipulación numérica.

Chandler luego dirige la conversación hacia el papel de la tecnología en la evolución de estos campos. Vermorel menciona un avance significativo a finales de los 90, la idea de que más datos conducen a mejores resultados. Este concepto se extendió no solo a series de tiempo más largas, sino también a conjuntos de datos más diversos. Inicialmente, este enfoque fue un proceso lento, ya que requería esperar a que se acumulara más historia. Sin embargo, los avances en machine learning y statistical learning permitieron aprovechar datos de más productos, conduciendo a forecasts de demanda más precisos.

Vermorel cita la introducción de modelos como las máquinas de soporte vectorial a finales de los 90 y los random forests a principios de los 2000 como pasos significativos para capturar información de conjuntos de datos más grandes y diversos.

Posteriormente, la discusión pasa al advenimiento del deep learning. Vermorel explica que la acumulación gradual de conocimientos críticos hizo que el deep learning fuera considerablemente diferente del machine learning estándar. Uno de los beneficios clave del deep learning es su capacidad para aprender funciones más complejas con menos datos en comparación con los algoritmos de shallow learning.

Curiosamente, Vermorel señala que el deep learning no necesariamente supera a los algoritmos clásicos en conjuntos de datos pequeños. Pero, destaca cuando se trata de conjuntos de datos muy grandes, donde los algoritmos de shallow learning no logran aprovechar la información adicional disponible.

En un giro sorprendente, el deep learning devolvió el uso de modelos paramétricos, aunque con millones de parámetros, en contraste con los modelos paramétricos iniciales que tenían un número fijo de parámetros. El desafío aquí fue evitar un overfitting masivo, el cual se superó mediante una serie de técnicas ingeniosas.

Vermorel discutió además el papel de las Unidades de Procesamiento Gráfico (GPUs) en el avance del machine learning. Estas son esenciales para las tareas de deep learning, pero son costosas y demandan mucha energía. Las plataformas de computación en la nube aliviaron este problema proporcionando granjas de GPUs bajo demanda, abordando efectivamente los problemas de costo y consumo de energía. Esto ha sido particularmente beneficioso para la optimización de supply chain, donde los forecasts estadísticos se ejecutan típicamente una vez al día, requiriendo la asignación de GPUs solo por un corto período.

Transicionando hacia el futuro del machine learning, Vermorel predijo un regreso a los modelos no paramétricos dentro del espectro del deep learning. Señaló un nuevo enfoque, “differentiable programming”, donde la estructura del modelo de deep learning se ajusta durante la fase de aprendizaje. Este enfoque dinámico podría ser la próxima fase significativa en el machine learning y statistical learning.

Cuando se le preguntó sobre el enfoque actual de las grandes empresas de tecnología, Vermorel mencionó que el reconocimiento de voz, la síntesis de voz, el reconocimiento de imagen y la traducción de lenguaje natural están recibiendo actualmente una inversión sustancial. Estas son áreas centrales de investigación y desarrollo, que impulsan el futuro del machine learning. Sin embargo, las empresas de supply chain, incluyendo Lokad, están un poco rezagadas, ya que carecen de los recursos para invertir considerablemente en tecnologías de machine learning.

La optimización de supply chain presenta desafíos únicos para la aplicación del machine learning, particularmente porque maneja fragmentos de datos más pequeños en comparación con otros campos como el procesamiento de imágenes. Esto requiere una utilización equilibrada tanto de CPUs como de GPUs.

Chandler luego planteó el tema del rápido cambio tecnológico y el desafío que esto representa para los supply chain executives, cuyas soluciones implementadas corren el riesgo de quedar obsoletas rápidamente. Vermorel aconsejó que el Software as a Service (SaaS) podría ser una solución viable. Destacó a Lokad como un ejemplo de proveedor de SaaS que actualiza y optimiza constantemente sus servicios, aliviando así la carga sobre sus clientes.

Transcripción Completa

Kieran Chandler: Hoy en Lokad TV, vamos a retroceder al principio e investigar el desarrollo generacional del machine learning y también entender si este progreso gradual puede darnos alguna pista sobre qué depara el futuro del machine learning. Entonces, Joannes, ¿cómo era esta primera generación de machine learning? ¿Cuándo surgió?

Joannes Vermorel: Curiosamente, diría que los primeros algoritmos de machine learning estaban, de alguna manera, relacionados con supply chain, con el primer algoritmo de forecast de series de tiempo que surgió durante los 50s y 60s. Tenía todos los ingredientes fundamentales: estaba orientado a los datos, era estadístico y, de hecho, intentaba aprender patrones a partir de los datos. En ese entonces, la gente no se refería a eso como machine learning; simplemente eran algoritmos de forecast. Pero todos los ingredientes estaban presentes.

Kieran Chandler: ¿Qué tipo de métodos se utilizaron? Quiero decir, la mayoría de los profesionales de supply chain los conocerían, ¿verdad?

Joannes Vermorel: Conocerían los promedios móviles, el suavizado exponencial, y luego existen métodos más sofisticados de esa época, como el modelo Holt-Winters, los modelos Box-Jenkins, etc. Así que surgió una serie de algoritmos relativamente simples justo al inicio de las computadoras. Es interesante ver que tan pronto como las empresas contaban con computadoras, se utilizaban en realidad para optimizar supply chain, aunque para propósitos relativamente modestos.

Kieran Chandler: En aquel entonces, las cosas eran muy diferentes en el mundo del análisis computacional. ¿Cuál era el enfoque principal en esos días?

Joannes Vermorel: El enfoque principal era contar con tan poca potencia de procesamiento, memoria y capacidad para realizar muchos cálculos. Todos esos modelos de primera generación, que datan de los 60s y 70s, estaban enfocados en ser extremadamente rápidos. Eso significa que si tenías 100 puntos de datos para procesar, solo tendrías unas pocas miles de operaciones para realizar sobre esos puntos de datos. Estos algoritmos fueron diseñados para máquinas que contaban únicamente con kilobytes de memoria y frecuencias de procesador por debajo de 1 MHz.

Kieran Chandler: Me imagino que en aquel entonces se aplicaban muchos menos recursos al análisis computacional en comparación con hoy, donde hay cientos de miles de personas trabajando en ello. ¿Cuánto tiempo tardó en surgir la siguiente generación? ¿Tomó mucho tiempo que eso sucediera?

Joannes Vermorel: Fue una evolución gradual. Tuvimos la primera ola de modelos que surgieron en los 60s y 70s, y todos eran modelos paramétricos. Estos eran modelos estadísticos con un número fijo de parámetros, típicamente no más de una docena.

Kieran Chandler: ¿Qué significa eso, un parámetro?

Joannes Vermorel: Un parámetro es como un número. Así, tu modelo estadístico tenía un par de números que podías ajustar para que el modelo se adaptara a los datos. La esencia de la fase de aprendizaje es encontrar esos parámetros. Típicamente, tenías alrededor de media docena, quizá hasta una docena para los modelos más sofisticados, y eso era todo. Lo que ocurrió a finales de los 80 y más fuertemente en los 90 fue la aparición de modelos estadísticos no paramétricos. Eso fue interesante porque la primera generación de modelos no podía ajustarse a ningún tipo de patrones de series de tiempo o patrones de demanda; tenían un número muy limitado de parámetros, por lo que eran muy limitados en lo que podían aprender al observar datos históricos.

Kieran Chandler: La segunda generación, pasando de modelos paramétricos a no paramétricos, fue significativa. Si tenías suficientes datos, potencialmente podías aprender cualquier patrón. Este avance a finales de los 90 llevó al desarrollo de modelos con atractivas propiedades matemáticas. Dada una cantidad arbitrariamente grande de datos, podías acercarte arbitrariamente al mejor modelo sin acabar con un problema de overfitting. El overfitting, por supuesto, ocurre cuando aumentas el número de parámetros hasta el punto en que el modelo se ajusta perfectamente a tus datos históricos pero pierde capacidades predictivas sobre el futuro. El overfitting es un problema desconcertante, se trata de tener un modelo de forecast que es preciso en los datos que no tienes. Este problema desconcertó a los tomadores de decisiones durante décadas, hasta que surgieron soluciones satisfactorias con la introducción de modelos no paramétricos a finales de los 90. Con estos modelos, empezamos a ver el advenimiento del machine learning. ¿Cómo ocurrió eso y qué impacto tuvo?

Joannes Vermorel: Es interesante. En términos de terminología, teníamos varios campos. Teníamos el campo del aprendizaje estadístico, donde matemáticos que se dedicaban a la estadística comenzaron a utilizar las computadoras en gran medida para respaldar su trabajo. Por otro lado, machine learning era lo opuesto. Eran personas de informática quienes se encontraban con este tipo de problemas y comenzaron a moverse gradualmente hacia algoritmos estadísticos. Era más bien una diferencia de perspectiva.

Por ejemplo, en el campo del aprendizaje estadístico, tenías las máquinas de soporte vectorial que estaban bien entendidas desde una perspectiva matemática, lo que atrajo a la comunidad estadística más radical. Por otro lado, tenías redes neuronales, mucho cómputo numérico que atrajo a la comunidad de machine learning. Estas eran diferentes perspectivas sobre el dominio, y gradualmente convergieron.

Kieran Chandler: Independientemente del campo al que pertenecieras, lo que evolucionaba a tu alrededor era la tecnología y las capacidades de lo que podías lograr con ella. Entonces, ¿cuáles fueron las mejoras tecnológicas significativas y los avances que realmente ayudaron con todo esto?

Joannes Vermorel: La innovación a finales de los años 90 fue la idea de que si tenías más datos, obtendrías mejores resultados. Y no me refiero solamente a series temporales más largas, sino también a más series temporales. Para supply chain, eso significa, ¿puedes obtener un forecast de demanda más preciso solo porque contabas con más historial? Pero el problema es que, si deseas un historial de ventas de un año o más, necesitas esperar otro año, lo cual es un proceso muy lento. Además, con el lanzamiento de new products y algunos productos siendo eliminados, nunca se obtiene mucho más historial.

Hubo algunos avances en poder aprovechar más datos de más productos. Esto no llegó a finales de los 90; llegó más en los años 2000. Lo que lo hizo posible fueron los avances en machine learning y en el aprendizaje estadístico, todos relacionados con esos modelos no paramétricos.

Hubo una serie de estos modelos estadísticos que representaron avances, como las máquinas de soporte vectorial, publicadas alrededor del ‘96 con una implementación funcional para el ‘98, y luego random forests alrededor de 2001. Estos modelos comenzaron a funcionar muy bien al capturar información de conjuntos de datos mayores con más diversidad en términos de características.

Kieran Chandler: Deep learning, ¿cuál fue el impacto de esto y cuál fue la diferencia clave entre deep learning y el machine learning estándar?

Joannes Vermorel: Es interesante porque deep learning es la conjunción de probablemente una docena de ideas críticas, pero todo fue muy gradual. Al juntar todas esas cosas, realmente marcó una gran diferencia. Un beneficio clave de deep learning es la capacidad de aprender funciones más complejas con menos datos. El problema con los algoritmos de machine learning de segunda generación, como el shallow learning, es que pueden aprender cualquier patrón estadístico si se les da suficientes datos, pero en la práctica se requiere una cantidad enorme de datos para llegar ahí, lo cual es completamente impráctico. Deep learning, de alguna manera, era capaz de aprovechar mejor conjuntos de datos muy grandes.

Primero, deep learning no necesariamente supera a los algoritmos clásicos en conjuntos de datos pequeños, pero cuando los conjuntos de datos se vuelven muy grandes, esos algoritmos de shallow learning no aprovechan tanto como realmente es posible, toda la información extra que existe, mientras que deep learning sí puede. Entonces, ¿qué hace que deep learning sea diferente? Volvemos a los modelos paramétricos, que se usaron ya desde la década de 1950 o 1960. Estos tienen un número fijo de parámetros, y luego pasamos a modelos no paramétricos donde el número de parámetros es dinámico. Luego, con deep learning, volvemos a los modelos paramétricos, pero la gran diferencia es que estos modelos tienen varios millones de parámetros. Nuestros modelos pueden tener hasta 20 millones de parámetros.

Para evitar un sobreajuste masivo, se descubrió una serie de trucos muy ingeniosos como parte del movimiento de deep learning. Otro ingrediente clave fue pensar en modelos estadísticos que tuvieran la máxima afinidad con el hardware de computación que teníamos, como las unidades de procesamiento gráfico (GPUs), que son muy eficientes en álgebra lineal. Uno de los trucos computacionales del deep learning es reducir todo a álgebra lineal. Al pasar de cálculos en CPU a cálculos en GPU, ganamos dos órdenes de magnitud de computación extra, haciendo que muchas cosas que no eran posibles de repente se volvieran posibles.

Kieran Chandler: Hablas de la progresión del hardware y la capacidad de procesamiento, ¿cuáles fueron las otras mejoras técnicas que se realizaron en la industria que hicieron esto posible? ¿Cómo encajó la llegada de la computación en la nube en todo esto?

Joannes Vermorel: La computación en la nube realmente ayudó a facilitar la recopilación de todos los datos. Si quieres que el deep learning sea realmente de interés, necesitas muchos datos. Manejar terabytes de datos es, de hecho, mucho más fácil con la computación en la nube.

Kieran Chandler: Parece que las plataformas de computación en la nube han simplificado las cosas para todos. Por ejemplo, ya no tienes que lidiar con cuotas de disco o gestionar manualmente tu almacenamiento en múltiples discos físicos. ¿Es correcto?

Joannes Vermorel: Absolutamente. Las plataformas de computación en la nube han eliminado muchos de los procesos manuales asociados con la gestión del almacenamiento. Además, han facilitado la consolidación de todas las capas necesarias para deep learning.

Kieran Chandler: ¿Qué hay del costo del deep learning y de las GPUs? Son bastante caras y consumen mucha energía, ¿no es así?

Joannes Vermorel: De hecho, las tarjetas gráficas pueden consumir fácilmente alrededor de 400 a 500 vatios. Si comienzas a tener varias de ellas, puede convertirse en un problema eléctrico. Sin embargo, la computación en la nube ha facilitado esto al ofrecer granjas de GPUs bajo demanda. En el caso específico de supply chain, es muy conveniente porque, típicamente, solo necesitas hacer tu forecast estadístico una vez al día. Puedes asignar tus GPUs durante una hora, realizar todos tus cálculos, y luego devolverlas a tu plataforma de computación en la nube preferida, ya sea Microsoft Azure, Amazon Web Services o Google Cloud.

Kieran Chandler: Machine learning se ha desarrollado gradualmente en las últimas décadas. ¿Podemos tomar alguna pista de esto para predecir el futuro de machine learning? ¿Qué podemos esperar ver a continuación?

Joannes Vermorel: Curiosamente, todo va en ciclos. Comenzamos con modelos paramétricos y forecast de series temporales, luego pasamos a modelos no paramétricos con los primeros algoritmos genéricos de machine learning. A continuación, hicimos la transición a modelos hiperparamétricos con deep learning. Ahora, lo que está emergiendo son nuevamente modelos no paramétricos en el espectro de deep learning. Estos son métodos de deep learning más sofisticados que ajustan la propia estructura del modelo durante la fase de aprendizaje. Si tuviera que apostar por la palabra de moda de mañana, sería “differentiable programming”. Este enfoque es similar al deep learning, pero es mucho más dinámico en la forma en que se construye y evoluciona el modelo durante la fase de aprendizaje.

Kieran Chandler: Entonces, differentiable programming es la nueva palabra de moda. La industria supply chain a menudo va un poco detrás de los cuatro grandes en términos de en qué se están enfocando. ¿En qué están invirtiendo en investigación en este momento y qué grandes desarrollos podemos esperar en el próximo año o así?

Joannes Vermorel: En lo que respecta al machine learning, los grandes problemas en los que los gigantes tecnológicos están invirtiendo miles de millones son el reconocimiento de voz, la síntesis de voz, el reconocimiento de imágenes y la traducción de lenguaje natural. Estos son problemas fundamentales para el aprendizaje basado en la información y están a la vanguardia en términos de investigación y desarrollo. Las supply chains, incluidos aquellos que desarrollan software de machine learning, están algo rezagadas. Nadie en la supply chain tiene los recursos para invertir mil millones de dólares al año para un mejor forecast de demanda.

Kieran Chandler: Se ha realizado una inversión sustancial en forecasting, pero parece que es una pequeña fracción de lo necesario. Parece estar un par de años detrás de los grandes desarrollos. ¿Cuáles son tus pensamientos al respecto?

Joannes Vermorel: Tienes razón. El gran desarrollo en este momento es adaptar las técnicas que se encuentran en otras áreas, como el procesamiento de imágenes y de voz, a situaciones de supply chain. Esto requiere un rediseño significativo. Por ejemplo, esos grandes problemas suelen tener grandes volúmenes de datos para procesar. Una imagen, por ejemplo, ocupará varios megabytes. Por lo tanto, no se requiere una cadena de procesamiento sofisticada para mover tus datos de la CPU a la GPU. Tu imagen es un gran objeto con mucha información que permanecerá en la GPU durante bastante tiempo antes de que se complete el cálculo.

Por otro lado, las supply chains tienen requisitos diferentes. Los objetos que deseas optimizar, como las unidades de almacenamiento, son de menor tamaño en términos de datos pero son numerosos. Todo tu historial de movimientos para un SKU cabrá en unos pocos kilobytes, pero tienes decenas de millones de ellos. Por lo tanto, adaptar estas técnicas desarrolladas para grandes problemas de machine learning a las supply chains presenta una serie de desafíos. Requiere que saquemos el máximo provecho tanto de la CPU como de la GPU, ya que aún hay muchos cálculos que se realizan mejor en el lado de la CPU.

Kieran Chandler: Parece que la industria está en constante evolución y cambio. Las implementaciones tienden a quedarse obsoletas rápidamente. ¿Cómo puede un ejecutivo de supply chain mantenerse al día, y tienes algún consejo para ello?

Joannes Vermorel: El ritmo de cambio es, en efecto, un desafío. Pero siempre ha sido un problema en lo que respecta a las computadoras. Mi sugerencia es optar por soluciones de Software as a Service (SaaS) como Lokad. Por ejemplo, estamos en la quinta generación de nuestro forecasting engine, pero nuestros clientes no tienen que hacer nada técnico para actualizarse. Los actualizamos de una versión a la siguiente en su nombre, como parte del paquete.

Con la llegada del software SaaS, este problema se vuelve mucho más fácil de gestionar. No tienes que dedicar recursos solamente para mantenerte al día: tu proveedor lo hace por ti. Este no era el caso con el software on-premises, donde actualizar de una versión a otra era típicamente un gran proyecto.

Por cierto, las plataformas de computación en la nube han resuelto este mismo problema para nosotros. Así, un gerente de supply chain que use una aplicación SaaS como Lokad, que ofrece análisis predictivo avanzado para optimizar tu supply chain, se mantendrá al día con el ritmo de cambio. Lokad, a su vez, se mantiene al día con el ritmo de cambio porque la plataforma de computación en la nube que utilizamos es Platform as a Service (PaaS), y actualiza constantemente muchas cosas por nosotros.

Kieran Chandler: Parece que todos, en esencia, se mantienen al tanto de los avances tecnológicos, eso es bastante revelador. Gracias por compartir tus pensamientos, Joannes. Continuaremos esta discusión la próxima vez. Gracias a todos por vernos.

Regresar a Lokad TV ›

PREVIOUS EPISODES