Il vasto campo del machine learning (ML) offre un’ampia varietà di tecniche e metodi che coprono numerose situazioni. Supply chain, tuttavia, presenta una propria serie di sfide relative ai dati, e talvolta aspetti che potrebbero essere considerati di base dai professionisti della supply chain non beneficiano di strumenti ML soddisfacenti – almeno secondo i nostri standard. Questo è stato il caso delle variabili categoriche, che sono onnipresenti nella supply chain - per esempio, per rappresentare le categorie di prodotto, i paesi di origine, i metodi di pagamento, ecc. Pertanto, alcuni di noi hanno deciso di rivedere il concetto di variabili categoriche da una prospettiva di programmazione differenziabile.

Discesa del gradiente stocastico con stimatore di gradiente per variabili categoriche

Nella supply chain, le variabili categoriche sono frequentemente assenti, non perché i dati non siano noti, ma perché la categorizzazione stessa non abbia sempre senso. Ad esempio, il taglio (straight / skinny / slim / ecc.) è applicabile ai pantaloni ma non alle cinture. Di conseguenza, la distinzione tra “missing data” e “non-applicable data” potrebbe sembrare sottile ma è comunque importante. È quel tipo di distinzione che differenzia un modello ben comportato da uno con un comportamento strano.

Il documento qui sotto presenta un contributo di Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) e Thierry Paquet (Litis).


Titolo: Discesa del gradiente stocastico con stimatore di gradiente per variabili categoriche

Autori: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet

Abstract: I dati categorici sono presenti in settori chiave come la salute o la supply chain, e questi dati richiedono un trattamento specifico. Per applicare modelli moderni di machine learning a tali dati, è necessario ricorrere a codifiche. Per costruire modelli interpretabili, la codifica one-hot è ancora una soluzione molto valida, ma questa codifica genera dati sparsi. Gli stimatori di gradiente non sono adatti ai dati sparsi: il gradiente viene principalmente considerato come zero, mentre in realtà non esiste sempre, pertanto viene introdotto un nuovo stimatore di gradiente. Mostriamo in teoria cosa minimizza questo stimatore e ne dimostriamo l’efficienza su diversi dataset con molteplici architetture di modello. Questo nuovo stimatore performa meglio dei soliti stimatori in condizioni simili. Un dataset reale del settore retail viene inoltre rilasciato dopo l’anonimizzazione. In generale, l’obiettivo di questo articolo è considerare a fondo i dati categorici e adattare modelli e ottimizzatori a queste caratteristiche fondamentali.

Scarica il documento (PDF)