Da Crps a Cross Entropy
La nostra deep learning technology rappresenta una pietra miliare importante sia per noi che per i nostri clienti. Alcuni dei cambiamenti associati al deep learning sono evidenti e tangibili, anche per i non esperti. Ad esempio, gli uffici di Lokad sono ora pieni di box Nvidia associati a prodotti per gaming di fascia alta. Quando ho avviato Lokad nel 2008, non avrei mai immaginato che saremmo finiti per impiegare così tanto hardware da gaming di fascia alta nella risoluzione delle supply chain sfide.

Poi, alcuni altri cambiamenti sono molto più sottili eppure altrettanto critici: passare da CRPS (continuous ranked probability score) a cross-entropy è uno di questi cambiamenti.
L’uso sistematico della metrica CRPS da parte di Lokad fu introdotto contemporaneamente al nostro motore di previsione di 4ª generazione; il nostro primo motore probabilistico nativo. Il CRPS era stato introdotto come generalizzazione della funzione di perdita pinball, e ha svolto egregiamente il suo compito. All’epoca, Lokad non avrebbe mai superato le sfide nei settori aerospaziale o della moda – supply chain wise – senza questa metrica. Tuttavia, il CRPS, che, in sostanza, generalizza l’errore assoluto medio alle previsioni probabilistiche, non è privo di difetti.
Ad esempio, dal punto di vista del CRPS, è accettabile assegnare una probabilità a zero a un esito stimato, se la maggior parte della massa di probabilità non è troppo distante dall’esito effettivamente osservato. Questo è esattamente ciò che ci si aspetta da una generalizzazione dell’errore assoluto medio. Tuttavia, ciò implica anche che i modelli probabilistici possano affermare con certezza assoluta che alcuni eventi non accadranno, mentre quegli eventi effettivamente si verificano. Questo tipo di dichiarazioni statistiche estremamente errate sul futuro comporta un costo che è strutturalmente sottostimato dal CRPS.
La cross-entropy, invece, assegna una penalità infinita a un modello che si dimostra sbagliato dopo aver assegnato una probabilità zero a un esito che, nonostante ciò, si verifica. Pertanto, dal punto di vista della cross-entropy, i modelli devono abbracciare la prospettiva che tutti i futuri sono possibili, anche se non con la stessa probabilità. Assegnare una probabilità uniforme pari a zero ogni volta che non ci sono dati sufficienti per una stima accurata della probabilità non è più una risposta valida.
Tuttavia, la cross-entropy non è superiore solo da un punto di vista puramente teorico. In pratica, utilizzare la cross-entropy per guidare il processo di apprendimento statistico produce alla fine modelli che risultano superiori secondo entrambe le metriche: la cross-entropy e il CRPS; anche se il CRPS è completamente assente dal processo di ottimizzazione.
La cross-entropy è la metrica fondamentale che guida il nostro motore di previsione di 5ª generazione. Questa metrica si discosta sostanzialmente dall’intuizione che supportava i nostri vecchi motori di previsione. Per la prima volta, Lokad adotta una prospettiva completamente bayesiana sull’apprendimento statistico, mentre le nostre iterazioni precedenti erano maggiormente radicate nella prospettiva frequentista.
Dai un’occhiata alla nostra ultima voce della knowledge base su cross-entropy.