Le vaste domaine de l’apprentissage automatique (ML) offre une large gamme de techniques et de méthodes qui couvrent de nombreuses situations. Cependant, la supply chain présente ses propres défis spécifiques en matière de données, et parfois, des aspects qui pourraient être considérés comme “basiques” par les professionnels de la supply chain ne bénéficient pas d’instruments ML satisfaisants - du moins selon nos critères. Tel était le cas avec les variables catégorielles, qui sont omniprésentes dans la supply chain - par exemple, pour représenter les catégories de produits, les pays d’origine, les modes de paiement, etc. Ainsi, certains d’entre nous ont décidé de revisiter la notion de variables catégorielles d’un point de vue de la programmation différentiable.

Descente de gradient stochastique avec estimateur de gradient pour les variables catégorielles

Dans la supply chain, les variables catégorielles sont souvent absentes, non pas parce que les données ne sont pas connues, mais parce que la catégorisation elle-même ne fait même pas toujours sens. Par exemple, la coupe (droite / skinny / slim, etc.) s’applique aux pantalons mais pas aux ceintures. Ainsi, la distinction entre “données manquantes” et “données non applicables” peut sembler subtile mais est néanmoins importante. C’est le genre de distinction qui différencie un modèle bien comporté d’un modèle étrangement comporté.

Le document ci-dessous présente une contribution de Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) et Thierry Paquet (Litis).

Titre : Descente de gradient stochastique avec estimateur de gradient pour les variables catégorielles

Auteurs : Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet

Résumé : Les données catégorielles sont présentes dans des domaines clés tels que la santé ou la supply chain, et ces données nécessitent un traitement spécifique. Afin d’appliquer des modèles d’apprentissage automatique récents sur de telles données, un encodage est nécessaire. Pour construire des modèles interprétables, l’encodage one-hot reste une très bonne solution, mais un tel encodage crée des données clairsemées. Les estimateurs de gradient ne conviennent pas aux données clairsemées : le gradient est principalement considéré comme nul alors qu’il n’existe tout simplement pas toujours, c’est pourquoi un nouvel estimateur de gradient est introduit. Nous montrons ce que cet estimateur minimise en théorie et démontrons son efficacité sur différents ensembles de données avec plusieurs architectures de modèles. Ce nouvel estimateur est plus performant que les estimateurs courants dans des conditions similaires. Un ensemble de données réel provenant du secteur de la vente au détail est également publié après anonymisation. Dans l’ensemble, l’objectif de cet article est de prendre en compte de manière approfondie les données catégorielles et d’adapter les modèles et les optimiseurs à ces caractéristiques clés.

Télécharger le document (PDF)