Random Forests colonnari

gennaio 11, 2019

technology

Joannes Vermorel

Molte supply chain sfide possono essere inquadrate come problemi di classificazione o di regressione. Ad esempio, prevedere la domanda può essere considerato una regressione; mentre decidere se allineare un prezzo al livello di prezzo di un concorrente sia accettabile può essere considerato una classificazione.

Una random forest è una tecnica di machine learning che può essere usata per imparare i modelli dai dati, tipicamente con l’intento di eseguire sia una classificazione che una regressione.

Sebbene le random forests non rappresentino più il machine learning all’avanguardia - il deep learning le supera in molte, se non nella maggior parte, delle situazioni - esistono comunque distinti vantaggi pratici associati ad esse, come è stato ben riassunto da Ahmed El Deeb in The Unreasonable Effectiveness of Random Forests.

Infatti, quando Ahmed El Deeb sottolinea che È davvero difficile costruire una cattiva Random Forest!, sono d’accordo, e questo rappresenta un vantaggio pratico significativo. Al contrario, i modelli di deep learning sono, beh, esigenti per usare un eufemismo, e una miriade di parametri oscuri può migliorare - o peggiorare - le prestazioni in modi non sempre chiarissimi per il data scientist.

Così, le random forests sono ora integrate in Envision. Bonus: le previsioni delle random forests vengono restituite come variabili casuali, il che rappresenta un ottimo abbinamento per gli approcci probabilistici all’ottimizzazione della supply chain.

A livello interno, abbiamo sviluppato la nostra implementazione altamente ottimizzata delle random forests. Abbiamo rubato molte intuizioni da xgBoost. L’intuizione principale è che stiamo utilizzando una strategia di elaborazione dei dati columnar - a differenza degli approcci precedenti, che erano tabular. Nel contesto di Envision, questo approccio garantisce ulteriori benefici prestazionali poiché i dati stessi sono già organizzati in un formato columnar all’interno di Envision. Inoltre, in un contesto di supply chain, le caratteristiche di input sono frequentemente o scarse o a bassa cardinalità - per esempio, i prodotti a lento movimento. L’approccio columnar ci permette di comprimere significativamente i dati, ottenendo così ulteriori accelerazioni per quelle random forests.

Le random forests più veloci possono sembrare una funzionalità di poco conto, tuttavia la performance è una funzionalità. La risorsa più scarsa è solitamente lo Supply Chain Scientist stesso/a. Spendere meno tempo in attesa che i risultati numerici vengano prodotti significa che si può dedicare più tempo al pensare e a risolvere la reale sfida della supply chain.

Random Forests colonnari

Altri articoli

Chiedi a Lokad