Apprendimento su larga scala: un contributo agli algoritmi di clustering asincroni distribuiti
Il primo grande progresso di Lokad fu l’uso di previsioni di tipo altamente atipico a fini di supply chain, in particolare previsioni quantili. Da Lokad, le previsioni quantili furono i precursori delle previsioni probabilistiche. I quantili rappresentarono il primo significativo allontanamento da quella che è tuttora considerata la teoria del supply chain. (Questo progresso fu associato al lavoro del primo impiegato di Lokad, Benoit Patra. In quanto CEO e fondatore, non mi sono inserito nel libro paga della mia stessa azienda fino a molto tempo dopo.)
Quindici anni dopo, con grande orrore, mi resi conto che i manoscritti dei molteplici PhD condotti presso Lokad non erano mai stati pubblicati sul nostro sito. Quindi, meglio tardi che mai, ripubblicheremo questo manoscritto!
Autore: Benoit Patra
Data: Marzo 2012


Riassunto:
I temi affrontati in questo manoscritto di tesi sono ispirati dai problemi di ricerca incontrati dall’azienda Lokad, riassunti nel primo capitolo. Il Capitolo 2 tratta di un metodo non parametrico per prevedere i quantili di una serie temporale a valori reali. In particolare, stabiliamo un risultato di consistenza per questa tecnica con ipotesi minime. Il resto della dissertazione è dedicato all’analisi degli algoritmi di clustering asincroni distribuiti (DALVQ). Il Capitolo 3 propone innanzitutto una descrizione matematica dei modelli e poi offre un’analisi teorica, in cui vengono dimostrati l’esistenza di un consenso asintotico e la convergenza quasi certa verso punti critici della distorsione. Nel capitolo successivo, proponiamo un’analisi approfondita nonché alcuni esperimenti su schemi di parallelizzazione da implementare per una distribuzione pratica degli algoritmi DALVQ. Infine, il Capitolo 5 contiene un’implementazione efficace di DALVQ sulla piattaforma Cloud Computing Microsoft Windows Azure. Studiamo, tra gli altri argomenti, l’incremento di velocità portato dall’algoritmo con maggiori risorse di calcolo parallelo, e confrontiamo questo algoritmo con il cosiddetto metodo di Lloyd, anch’esso distribuito e impiegato su Windows Azure.
Curiosità: L’abstract menziona “Windows Azure”, che in effetti era il nome commerciale di Microsoft Azure nei primi anni.
Giuria:
