La première grande disruption de Lokad, après le lancement du projet en 2008, a été l’émergence du cloud computing. Le cloud computing était un nouveau paradigme qui avait fait sensation dans l’industrie. Du jour au lendemain, l’ancien HPC (calcul haute performance) était mort, et Lokad devait adopter son successeur. Le cloud computing représentait le premier écart radical de Lokad par rapport à ce qui peut encore être considéré comme des logiciels d’entreprise « classiques »1. Bien que la plupart des fournisseurs d’entreprise proposent aujourd’hui des solutions SaaS, presque aucun n’a adopté une conception native du cloud1. L’adoption du cloud computing a été motivée par les travaux pionniers de Matthieu Durut, deuxième employé de Lokad (le premier employé de Lokad était également titulaire d’un doctorat).

Tout comme le travail de Benoit Petra, ce manuscrit n’avait jamais été publié auparavant sur le site web de Lokad. Je suis heureux de réparer cette erreur aujourd’hui.

Auteur : Matthieu Durut

Date : septembre 2012

Résumé des algorithmes de classification Figure des algorithmes de classification

Résumé :

Les sujets abordés dans cette thèse sont inspirés des problèmes de recherche auxquels la société Lokad est confrontée. Ces problèmes sont liés au défi de concevoir des techniques de parallélisation efficaces des algorithmes de regroupement sur une plateforme de Cloud Computing. Le chapitre 2 présente une introduction aux technologies de Cloud Computing, en particulier celles consacrées aux calculs intensifs. Le chapitre 3 détaille plus spécifiquement l’offre de Cloud Computing de Microsoft : Windows Azure. Le chapitre suivant détaille les aspects techniques du développement d’applications cloud et présente quelques modèles de conception cloud. Le chapitre 5 est consacré à la parallélisation d’un algorithme de regroupement bien connu : le Batch K-Means. Il fournit des informations sur les défis d’une implémentation cloud du Batch K-Means distribué, en particulier l’impact des coûts de communication sur l’efficacité de l’implémentation. Les chapitres 6 et 7 sont consacrés à la parallélisation d’un autre algorithme de regroupement, la quantification vectorielle (VQ). Le chapitre 6 propose une analyse de différentes stratégies de parallélisation de la VQ et présente les différents gains de vitesse de convergence qu’elles offrent. Le chapitre 7 propose une implémentation cloud de ces stratégies. Il met en évidence que c’est la nature en ligne de la technique VQ qui permet une implémentation cloud asynchrone, ce qui réduit considérablement les coûts de communication introduits dans le chapitre 5.

Jury :

Jury des algorithmes de classification

Télécharger la thèse (PDF)


  1. Un test décisif pour évaluer si un fournisseur dispose d’une conception native du cloud est de demander au fournisseur si, en tant que client, vous pouvez passer de zéro à 10 téraoctets en quelques heures sans autorisation du fournisseur. La plupart des fournisseurs de logiciels d’entreprise n’opèrent pas avec des ressources mutualisées ; par conséquent, une négociation préalable est nécessaire pour obtenir un pool de ressources dédiées de taille appropriée. ↩︎ ↩︎