El amplio campo del aprendizaje automático (ML) proporciona una amplia variedad de técnicas y métodos que cubren numerosas situaciones. Sin embargo, la cadena de suministro tiene sus propios desafíos específicos de datos y a veces los aspectos que podrían considerarse “básicos” por los profesionales de la cadena de suministro no se benefician de instrumentos de ML satisfactorios, al menos según nuestros estándares. Este fue el caso de las variables categóricas, que están omnipresentes en la cadena de suministro, por ejemplo, para representar categorías de productos, países de origen, métodos de pago, etc. Por lo tanto, algunos de nosotros decidimos revisitar la noción de variables categóricas desde una perspectiva de programación diferenciable.

Descenso de gradiente estocástico con estimador de gradiente para características categóricas

En la cadena de suministro, las variables categóricas a menudo faltan, no porque los datos no se conozcan, sino porque la propia categorización no siempre tiene sentido. Por ejemplo, el corte (recto / ajustado / delgado, etc.) es aplicable a los pantalones pero no a los cinturones. Por lo tanto, la distinción entre “datos faltantes” y “datos no aplicables” puede parecer sutil pero es importante. Es el tipo de distinción que diferencia a un modelo bien comportado de uno extraño.

El siguiente artículo presenta una contribución de Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) y Thierry Paquet (Litis).

Título: Descenso de gradiente estocástico con estimador de gradiente para características categóricas

Autores: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet

Resumen: Los datos categóricos están presentes en áreas clave como la salud o la cadena de suministro, y estos datos requieren un tratamiento específico. Para aplicar modelos de aprendizaje automático recientes a este tipo de datos, se necesita codificación. Para construir modelos interpretables, la codificación one-hot sigue siendo una solución muy buena, pero dicha codificación crea datos dispersos. Los estimadores de gradiente no son adecuados para datos dispersos: el gradiente se considera principalmente como cero cuando simplemente no siempre existe, por lo que se introduce un nuevo estimador de gradiente. Mostramos qué minimiza este estimador en teoría y mostramos su eficiencia en diferentes conjuntos de datos con múltiples arquitecturas de modelos. Este nuevo estimador funciona mejor que los estimadores comunes en configuraciones similares. También se publica un conjunto de datos de venta al por menor del mundo real después de la anonimización. En general, el objetivo de este artículo es considerar a fondo los datos categóricos y adaptar los modelos y optimizadores a estas características clave.

Descargar el artículo (PDF)