Die erste große Disruption bei Lokad, nach dem Beginn des Projekts im Jahr 2008, war das Aufkommen von Cloud Computing. Cloud Computing war ein neues Paradigma, das die Branche im Sturm eroberte. Über Nacht war das alte HPC (High-Performance Computing) tot, und Lokad musste seinen Nachfolger akzeptieren. Cloud Computing stellte den ersten radikalen Bruch von Lokad mit dem dar, was immer noch als ‘Mainstream’-Unternehmenssoftware betrachtet werden kann. Obwohl die meisten Unternehmensanbieter heutzutage SaaS anbieten, hat kaum einer ein cloud-natives Design übernommen1. Die Einführung von Cloud Computing wurde durch die Pionierarbeit von Matthieu Durut vorangetrieben, dem zweiten Mitarbeiter von Lokad (der erste Mitarbeiter von Lokad war ebenfalls ein Doktor).

Ähnlich wie die Arbeit von Benoit Petra wurde dieses Manuskript zuvor noch nie auf der Lokad-Website veröffentlicht. Ich freue mich, diesen Fehler heute zu korrigieren.

Autor: Matthieu Durut

Datum: September 2012

Abstrakt der Klassifikationsalgorithmen Abbildung der Klassifikationsalgorithmen

Zusammenfassung:

Die in dieser Arbeit behandelten Themen sind von den Forschungsproblemen inspiriert, mit denen das Unternehmen Lokad konfrontiert ist. Diese Probleme beziehen sich auf die Herausforderung, effiziente Parallelisierungstechniken für Clustering-Algorithmen auf einer Cloud-Computing-Plattform zu entwerfen. Kapitel 2 bietet eine Einführung in die Cloud-Computing-Technologien, insbesondere solche, die sich mit intensiven Berechnungen befassen. Kapitel 3 erläutert speziell das Microsoft Cloud Computing-Angebot: Windows Azure. Das folgende Kapitel erläutert technische Aspekte der Cloud-Anwendungsentwicklung und stellt einige Cloud-Designmuster vor. Kapitel 5 widmet sich der Parallelisierung eines bekannten Clustering-Algorithmus: dem Batch K-Means. Es bietet Einblicke in die Herausforderungen einer Cloud-Implementierung von verteiltem Batch K-Means, insbesondere die Auswirkungen von Kommunikationskosten auf die Implementierungseffizienz. Kapitel 6 und 7 sind der Parallelisierung eines weiteren Clustering-Algorithmus, der Vektorquantisierung (VQ), gewidmet. Kapitel 6 bietet eine Analyse verschiedener Parallelisierungsschemata von VQ und stellt die verschiedenen Konvergenzbeschleunigungen vor, die sie bieten. Kapitel 7 bietet eine Cloud-Implementierung dieser Schemata. Es zeigt, dass es die Online-Natur der VQ-Technik ist, die eine asynchrone Cloud-Implementierung ermöglicht, was die in Kapitel 5 eingeführten Kommunikationskosten drastisch reduziert.

Jury:

Jury der Klassifikationsalgorithmen

Die Dissertation herunterladen (PDF)


  1. Ein Lackmustest, um festzustellen, ob ein Anbieter ein cloud-natives Design hat, besteht darin, den Anbieter zu fragen, ob Sie als Kunde innerhalb von Stunden von null auf 10 Terabyte gehen können, ohne die Erlaubnis des Anbieters einholen zu müssen. Die meisten Unternehmenssoftwareanbieter arbeiten nicht mit gemeinsam genutzten Ressourcen, daher ist eine vorherige Verhandlung erforderlich, um einen angemessen dimensionierten Pool von dedizierten Ressourcen zu sichern. ↩︎