Il vasto campo dell’apprendimento automatico (ML) fornisce una vasta gamma di tecniche e metodi che coprono numerose situazioni. La supply chain, tuttavia, presenta una serie specifica di sfide legate ai dati e talvolta gli aspetti che potrebbero essere considerati “di base” dagli operatori della supply chain non traggono vantaggio dagli strumenti di ML soddisfacenti - almeno secondo i nostri standard. Questo è stato il caso delle variabili categoriche, che sono onnipresenti nella supply chain - ad esempio, per rappresentare categorie di prodotti, paesi di origine, metodi di pagamento, ecc. Pertanto, alcuni di noi hanno deciso di riconsiderare la nozione di variabili categoriche da una prospettiva di programmazione differenziabile.

Discesa del gradiente stocastica con stimatore del gradiente per caratteristiche categoriche

Nella supply chain, le variabili categoriche sono spesso assenti, non perché i dati non siano noti, ma perché la stessa categorizzazione non sempre ha senso. Ad esempio, il taglio (dritto / skinny / slim / ecc.) è applicabile ai pantaloni ma non alle cinture. Pertanto, la distinzione tra “dati mancanti” e “dati non applicabili” potrebbe sembrare sottile ma è comunque importante. È il tipo di distinzione che differenzia un modello ben comportato da uno strano.

Il documento qui di seguito presenta un contributo di Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) e Thierry Paquet (Litis).

Titolo: Discesa del gradiente stocastica con stimatore del gradiente per caratteristiche categoriche

Autori: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet

Abstract: I dati categorici sono presenti in settori chiave come la salute o la supply chain, e questi dati richiedono un trattamento specifico. Per applicare modelli di apprendimento automatico recenti a tali dati, è necessaria la codifica. Per costruire modelli interpretabili, la codifica one-hot è ancora una soluzione molto valida, ma tale codifica crea dati sparsi. Gli stimatori del gradiente non sono adatti per i dati sparsi: il gradiente viene considerato principalmente come zero mentre semplicemente non esiste sempre, quindi viene introdotto un nuovo stimatore del gradiente. Mostriamo cosa minimizza questo stimatore in teoria e mostriamo la sua efficienza su diversi set di dati con diverse architetture di modelli. Questo nuovo stimatore funziona meglio dei comuni stimatori nelle stesse impostazioni. Viene anche rilasciato un dataset di vendita al dettaglio del mondo reale dopo l’anonimizzazione. Nel complesso, lo scopo di questo documento è quello di considerare attentamente i dati categorici e adattare modelli e ottimizzatori a queste caratteristiche chiave.

Scarica il documento (PDF)