Großskalenlernen: ein Beitrag zu verteilten asynchronen Clustering-Algorithmen
Lokads erster großer Durchbruch war der Einsatz von höchst untypischen Prognosearten für supply chain Zwecke, insbesondere Quantilprognosen. Bei Lokad waren Quantilprognosen die Vorläufer der probabilistischen Vorhersagen. Quantile markierten Lokads ersten signifikanten Bruch mit dem, was immer noch als die ‘mainstream’ supply chain Theorie betrachtet wird. Dieser Durchbruch war mit der Arbeit von Lokads erstem Mitarbeiter, Benoit Patra, verbunden. (Als CEO und Gründer trat ich erst viel später in die Gehaltsliste meines eigenen Unternehmens ein.)
Fünfzehn Jahre später wurde mir, zu meinem Entsetzen, klar, dass die Manuskripte der mehrfach an Lokad durchgeführten Doktorarbeiten nie auf unserer Webseite veröffentlicht wurden. Besser spät als nie, lasst uns dieses Manuskript neu veröffentlichen!
Autor: Benoit Patra
Datum: März 2012


Zusammenfassung:
Die in diesem Doktorarbeitsmanuskript behandelten Themen sind von den Forschungsproblemen inspiriert, denen das Unternehmen Lokad begegnet ist, welche im ersten Kapitel zusammengefasst werden. Kapitel 2 behandelt eine nichtparametrische Methode zur Prognose der Quantile einer reellen Zeitreihe. Insbesondere stellen wir ein Konsistenzresultat für diese Technik unter minimalen Annahmen fest. Der Rest der Dissertation widmet sich der Analyse verteilter asynchroner Clustering-Algorithmen (DALVQ). Kapitel 3 schlägt zunächst eine mathematische Beschreibung der Modelle vor und bietet dann eine theoretische Analyse, in der die Existenz eines asymptotischen Konsenses und die fast sichere Konvergenz zu kritischen Punkten der Verzerrung bewiesen werden. Im nächsten Kapitel unterbreiten wir eine ausführliche Diskussion sowie einige Experimente zu Parallelisierungsschemata, die für einen praktischen Einsatz der DALVQ-Algorithmen implementiert werden sollen. Abschließend enthält Kapitel 5 eine effektive Implementierung von DALVQ auf der Cloud Computing Plattform Microsoft Windows Azure. Wir untersuchen unter anderem die durch den Algorithmus mit mehr parallelen Rechenressourcen erzielten Geschwindigkeitssteigerungen und vergleichen diesen Algorithmus mit der sogenannten Lloyd’s-Methode, die ebenfalls verteilt ist und auf Windows Azure eingesetzt wird.
Fun fact: Das Abstract erwähnt ‚Windows Azure‘, welches in den frühen Jahren tatsächlich der Handelsname von Microsoft Azure war.
Jury:
