Классификационные алгоритмы, распределенные в облаке
Первое значимое нарушение, после запуска проекта в 2008 году, произошло с появлением облачных вычислений. Облачные вычисления стали новой парадигмой, которая захватила индустрию. Мгновенно устарел старый HPC (высокопроизводительные вычисления), и Lokad пришлось принять его преемника. Облачные вычисления стали первым радикальным отходом от того, что до сих пор можно считать «мейнстримным» корпоративным ПО. Хотя большинство корпоративных вендоров сегодня предлагают SaaS, почти никто не перешел на облачно-нативный дизайн1. Принятие облачных вычислений было обусловлено новаторской работой Маттьё Дюру, второго сотрудника Lokad (первым сотрудником был другой доктор).
Подобно работе Бенуа Петра, эта рукопись никогда ранее не публиковалась на сайте Lokad. Я рад исправить эту ошибку сегодня.
Автор: Matthieu Durut
Дата: Сентябрь 2012


Аннотация:
Темы, рассмотренные в данной диссертации, вдохновлены исследовательскими задачами, с которыми сталкивалась компания Lokad. Эти задачи связаны с проблемой разработки эффективных методов параллелизации алгоритмов кластеризации на платформе облачных вычислений. Глава 2 представляет введение в технологии облачных вычислений, особенно те, что предназначены для интенсивных вычислений. Глава 3 более подробно описывает облачное предложение Microsoft: Windows Azure. Следующая глава излагает технические аспекты разработки облачных приложений и представляет некоторые шаблоны проектирования для облачных решений. Глава 5 посвящена параллелизации известного алгоритма кластеризации — Batch K-Means. В ней анализируются проблемы облачной реализации распределенного Batch K-Means, в особенности влияние затрат на коммуникацию на эффективность реализации. Главы 6 и 7 посвящены параллелизации другого алгоритма кластеризации — векторного квантования (VQ). Глава 6 предоставляет анализ различных схем параллелизации VQ и демонстрирует разнообразные ускорения сходимости, которые они обеспечивают. Глава 7 описывает облачную реализацию этих схем. Она подчеркивает, что именно онлайн-характер метода VQ позволяет реализовать асинхронное облачное решение, что радикально снижает затраты на коммуникации, обсуждаемые в главе 5.
Жюри:

-
Критерием для оценки того, использует ли вендор облачно-нативный дизайн, является вопрос: можете ли вы, как клиент, перейти от нуля до 10 терабайт за несколько часов без разрешения вендора. Большинство поставщиков корпоративного ПО не работают с объединенными ресурсами, поэтому требуется предварительное согласование для обеспечения пула выделенных ресурсов надлежащего размера. ↩︎