Klassifikationsalgorithmen, die in der Cloud verteilt werden
Lokads erste große Disruption, nach dem Projektstart im Jahr 2008, war das Aufkommen von Cloud Computing. Cloud Computing war ein neues Paradigma, das die Branche im Sturm eroberte. Über Nacht war das alte HPC (High-Performance Computing) passé, und Lokad musste seinen Nachfolger annehmen. Cloud Computing stellte Lokads ersten radikalen Bruch mit dem dar, was noch als ‘Mainstream’ Enterprise Software gelten kann. Obwohl die meisten Enterprise-Anbieter heutzutage SaaS anbieten, hat fast keiner ein cloud-natives Design übernommen1. Die Einführung von Cloud Computing wurde durch die bahnbrechende Arbeit von Matthieu Durut, Lokads zweitem Mitarbeiter (Lokads erster Mitarbeiter war ein anderer Doktor), vorangetrieben.
Ähnlich wie die Arbeit von Benoit Petra wurde dieses Manuskript bisher noch nie auf Lokads Webseite veröffentlicht. Ich freue mich, dies heute in Ordnung zu bringen.
Autor: Matthieu Durut
Datum: September 2012


Zusammenfassung:
Die in dieser Arbeit behandelten Themen wurden von den Forschungsproblemen inspiriert, denen sich das Unternehmen Lokad gegenübersah. Diese Probleme stehen im Zusammenhang mit der Herausforderung, effiziente Parallelisierungstechniken für Clustering-Algorithmen auf einer Cloud Computing-Plattform zu entwerfen. Kapitel 2 bietet eine Einführung in die Cloud Computing-Technologien, insbesondere in jene, die für intensive Berechnungen vorgesehen sind. Kapitel 3 erläutert näher das Microsoft Cloud Computing Angebot: Windows Azure. Das folgende Kapitel beschreibt technische Aspekte der Entwicklung von Cloud-Anwendungen und stellt einige Cloud-Design-Patterns vor. Kapitel 5 widmet sich der Parallelisierung eines bekannten Clustering-Algorithmus: dem Batch K-Means. Es liefert Einblicke in die Herausforderungen einer Cloud-Implementierung von verteiltem Batch K-Means, insbesondere den Einfluss der Kommunikationskosten auf die Effizienz der Implementierung. Die Kapitel 6 und 7 widmen sich der Parallelisierung eines weiteren Clustering-Algorithmus, der Vektorquantisierung (VQ). Kapitel 6 bietet eine Analyse verschiedener Parallelisierungsschemata der VQ und präsentiert die verschiedenen Beschleunigungen der Konvergenz, die diese bieten. Kapitel 7 liefert eine Cloud-Implementierung dieser Schemata. Sie hebt hervor, dass gerade die Online-Natur der VQ-Technik eine asynchrone Cloud-Implementierung ermöglicht, welche die in Kapitel 5 eingeführten Kommunikationskosten drastisch reduziert.
Jury:

Dissertation herunterladen (PDF)
-
Ein Lackmustest zur Beurteilung, ob ein Anbieter ein cloud-natives Design besitzt, besteht darin, den Anbieter zu fragen, ob Sie als Kunde innerhalb von Stunden von null auf 10 Terabyte skalieren können, ohne die Erlaubnis des Anbieters. Die meisten Enterprise-Softwareanbieter arbeiten nicht mit zusammengelegten Ressourcen; daher ist eine vorherige Verhandlung erforderlich, um einen angemessen dimensionierten Pool dedizierter Ressourcen zu sichern. ↩︎