00:00:06 Введение в развитие поколений машинного обучения.
00:00:38 1-е поколение: статистические алгоритмы прогнозирования 1950-х/60-х годов.
00:03:26 Переход ко 2-му поколению: непараметрические модели конца 80-х/90-х годов.
00:06:20 Статистическое прогнозирование по сравнению с машинным обучением.
00:07:55 Влияние технологических улучшений на эволюцию машинного обучения.
00:09:54 Влияние глубокого обучения на прогнозирование, сравнение с обычным МО.
00:11:31 Параметрические модели, избегание переобучения глубокого обучения.
00:13:01 Связь глубокого обучения с аппаратным обеспечением, графическими процессорами, линейной алгеброй.
00:14:50 Роль облачных вычислений в обработке данных глубокого обучения.
00:16:01 Проблемы с графическими процессорами, преимущества облачных вычислений для прогнозирования в сфере поставок.
00:17:22 Будущее машинного обучения: развитие дифференцируемого программирования.
00:19:13 Инвестиции в машинное обучение в сфере поставок, адаптация к большим данным.
00:22:44 Темп изменений в технологиях, адаптация руководителей поставок.
00:25:24 Заключение: важность SaaS и облачных вычислений в эволюции технологий.

Резюме

В интервью основатель Lokad Жоанн Верморель обсудил историю машинного обучения (МО) от его возникновения в алгоритмах прогнозирования временных рядов 1950-х годов до появления глубокого обучения. Он подчеркнул применение МО в управлении цепями поставок, специализации его компании. Верморель описал развитие от простых моделей, основанных на данных, до непараметрических статистических моделей, способных обучаться любому шаблону при наличии достаточного количества данных. Беседа затронула ключевые вехи развития МО, роль технологий и проблему переобучения. Верморель предсказал будущие разработки в области МО, включая дифференцируемое программирование, и продолжающийся фокус на распознавании голоса и изображений. Он заключил, рекомендуя использовать программное обеспечение как услугу для помощи руководителям цепей поставок в сопровождении быстрого технологического развития.

Расширенное резюме

В интервью ведущий Киран Чандлер и основатель Lokad Жоанн Верморель обсуждают эволюцию и развитие машинного обучения, с особым акцентом на его применение в управлении цепями поставок.

Верморель предполагает, что истоки машинного обучения можно проследить до 1950-х и 1960-х годов, с появлением первых алгоритмов прогнозирования временных рядов. Эти алгоритмы, хотя и не были традиционно признаны машинным обучением при их создании, обладали ключевыми характеристиками машинного обучения, такими как основанность на данных, статистический подход и способность извлекать закономерности из данных. Верморель также подчеркивает, что первоначальное использование этих алгоритмов было тесно связано с оптимизацией цепей поставок, областью, в которой специализируется его компания Lokad, и по сей день.

Что касается конкретных методов, используемых в этой ранней фазе машинного обучения, Верморель упоминает несколько, которые знакомы специалистам по цепям поставок. Среди них: скользящие средние, экспоненциальное сглаживание и более сложные модели, такие как методы Хольта-Винтерса и Бокса-Дженкинса. Он охарактеризовал эти первоначальные алгоритмы как относительно простые, созданные прежде всего для соответствия вычислительным возможностям компьютеров, доступных в то время. Этим ранним моделям требовалась быстрая и эффективная обработка сотен точек данных с тысячами операций в рамках ограничений ограниченной вычислительной мощности и памяти.

Переведя разговор на прогресс машинного обучения, Верморель говорит, что следующий значительный скачок произошел в конце 80-х и в 90-х годах, когда появились непараметрические статистические модели. Эта эволюция от параметрических моделей первого поколения, характеризующихся фиксированным количеством настраиваемых параметров (обычно не более десятка), стала ключевым развитием.

Параметрические модели, ограниченные своими фиксированными параметрами, могли адаптироваться только к определенному диапазону закономерностей данных. В отличие от них, непараметрические модели не имели заранее определенной формы, что позволяло им потенциально изучать любую закономерность при наличии достаточного количества данных. Этот сдвиг сигнализировал о прорыве в возможностях и гибкости машинного обучения, положивший основу для более сложных и универсальных приложений машинного обучения, которые мы видим сегодня.

Верморель начинает с подчеркивания проблемы переобучения в ранних моделях прогнозирования, где увеличение количества параметров могло привести к моделям, которые идеально соответствуют историческим данным, но не предлагают прогностических возможностей для будущего. Это была большая загадка в этой области на протяжении десятилетий, пока в конце 90-х годов не появились удовлетворительные решения с появлением непараметрических моделей.

Затем он обсуждает два лагеря, сформировавшихся в этой области примерно в то же время: статистическое обучение и машинное обучение. Первое включало в себя математиков, занимающихся статистикой с широким использованием компьютеров, в то время как второе состояло из компьютерных специалистов, постепенно переходящих к статистическим алгоритмам. Он отмечает, что эти точки зрения привели к различным стилям моделирования. Например, сторонники статистического обучения предпочитали метод опорных векторов, модель, хорошо понятная с математической точки зрения. С другой стороны, сторонники машинного обучения больше привлекали нейронные сети, которые требовали многочисленных числовых манипуляций.

Затем Чандлер переводит разговор на роль технологии в развитии этих областей. Верморель упоминает значительный прорыв в конце 90-х годов - идею о том, что больше данных приводит к лучшим результатам. Этот подход распространялся не только на более длинные временные ряды, но и на более разнообразные наборы данных. Изначально этот подход был медленным процессом, так как требовалось ждать накопления большего объема истории. Однако прогресс в машинном обучении и статистическом обучении позволил использовать данные от большего количества продуктов, что привело к более точным прогнозам спроса.

Верморель упоминает введение моделей, таких как метод опорных векторов в конце 90-х годов и случайные леса в начале 2000-х, как значительные шаги вперед в использовании информации из более крупных и разнообразных наборов данных.

Затем обсуждение переходит к появлению глубокого обучения. Верморель объясняет, что постепенное накопление критических идей сделало глубокое обучение значительно отличным от стандартного машинного обучения. Одним из ключевых преимуществ глубокого обучения является его способность изучать более сложные функции с меньшим количеством данных по сравнению с алгоритмами поверхностного обучения.

Интересно, Верморель указывает на то, что глубокое обучение не обязательно превосходит классические алгоритмы на небольших наборах данных. Однако оно превосходит их при работе с очень большими наборами данных, где алгоритмы поверхностного обучения не могут использовать дополнительную информацию.

В неожиданном повороте глубокое обучение вернуло использование параметрических моделей, хотя и с многомиллионным количеством параметров, в отличие от ранних параметрических моделей, у которых было фиксированное количество параметров. Здесь вызовом было избежать массового переобучения, что было преодолено с помощью ряда умных техник.

Верморель далее обсудил роль графических процессоров (GPU) в развитии машинного обучения. Они являются неотъемлемыми для задач глубокого обучения, но дороги и потребляют много энергии. Облачные вычислительные платформы решают эту проблему, предоставляя графические процессоры по требованию, что позволяет справиться с проблемами затрат и энергопотребления. Это особенно полезно для оптимизации цепей поставок, где статистические прогнозы обычно выполняются ежедневно и требуют выделения графического процессора только на короткий период времени.

Переходя к будущему машинного обучения, Верморель предсказал возвращение к непараметрическим моделям в рамках спектра глубокого обучения. Он указал на новый подход, “дифференцируемое программирование”, при котором структура модели глубокого обучения настраивается во время фазы обучения. Этот динамический подход может стать следующей значительной фазой в машинном обучении и статистическом обучении.

На вопрос о текущем фокусе крупных технологических компаний Верморель упомянул, что в настоящее время значительные инвестиции направлены на распознавание речи, синтез речи, распознавание изображений и машинный перевод естественного языка. Это является основными областями исследований и разработки, определяющими будущее машинного обучения. Однако компании, занимающиеся оптимизацией цепей поставок, включая Lokad, немного отстают, так как у них нет ресурсов для крупных инвестиций в технологии машинного обучения.

Оптимизация цепей поставок представляет уникальные вызовы для применения машинного обучения, особенно потому, что она работает с меньшими фрагментами данных по сравнению с другими областями, такими как обработка изображений. Это требует сбалансированного использования как центральных процессоров (CPU), так и графических процессоров (GPU).

Затем Чандлер поднял вопрос быстрого технологического изменения и вызовов, с которыми сталкиваются руководители цепей поставок, чьи реализованные решения могут быстро устареть. Верморель посоветовал использовать программное обеспечение как услугу (SaaS) в качестве жизнеспособного решения. Он выделил Lokad как пример поставщика SaaS, который постоянно обновляет и оптимизирует свои услуги, тем самым облегчая бремя для своих клиентов.

Полный транскрипт

Кирен Чандлер: Сегодня на Lokad TV мы вернемся к началу и исследуем поколения развития машинного обучения, а также попытаемся понять, могут ли эти постепенные изменения дать нам какие-либо подсказки о будущем машинного обучения. Итак, Жоанн, как выглядело первое поколение машинного обучения? Когда оно появилось?

Жоанн Верморель: Интересно, что я бы сказал, что первые алгоритмы машинного обучения были, в некотором смысле, связаны с цепями поставок с самым первым алгоритмом прогнозирования временных рядов, который появился в 50-х и 60-х годах. У него были все основные компоненты: он был основан на данных, статистический и, действительно, пытался изучать закономерности из данных. В то время люди не называли это машинным обучением; они просто использовали алгоритмы прогнозирования. Но все компоненты были на месте.

Кирен Чандлер: Какие методы использовались? Я имею в виду, большинство практиков в области цепей поставок их знают, верно?

Жоанн Верморель: Они знали скользящую среднюю, экспоненциальное сглаживание, а также более сложные методы того времени, такие как модель Хольта-Винтерса, модели Бокса-Дженкинса и т. д. Таким образом, с самого начала компьютеров появился ряд относительно простых алгоритмов. Интересно отметить, что как только у компаний появились компьютеры, они начали использоваться для оптимизации цепей поставок, хотя и для относительно скромных целей.

Кирен Чандлер: В то время анализ данных был совсем другим. Какова была основная цель в те дни?

Жоанн Верморель: Основной упор делался на то, чтобы иметь как можно меньше вычислительной мощности, памяти и возможностей для выполнения большого количества вычислений. Все эти модели первого поколения, созданные в 60-х и 70-х годах, были нацелены на максимальную скорость работы. Это означает, что если у вас было 100 точек данных для обработки, вам нужно было выполнить всего несколько тысяч операций над этими точками данных. Эти алгоритмы были разработаны для машин, у которых было всего несколько килобайт памяти и тактовая частота процессора ниже 1 МГц.

Кирен Чандлер: Представляю, что в то время на анализ данных было гораздо меньше ресурсов по сравнению сегодняшним днем, когда над ним работает сотни тысяч людей. Сколько времени потребовалось для появления следующего поколения? Это заняло много времени?

Жоанн Верморель: Это было постепенное развитие. У нас была первая волна моделей, появившихся в 60-х и 70-х годах, и все они были параметрическими моделями. Это были статистические модели с фиксированным количеством параметров, обычно не более десятка.

Кирен Чандлер: Что такое параметр?

Жоанн Верморель: Параметр - это число. Таким образом, ваша статистическая модель имела несколько чисел, которые можно было настроить, чтобы модель соответствовала данным. Суть этапа обучения заключается в поиске этих параметров. Обычно их было около полудюжины, а для более сложных моделей - до десятка, и все. В конце 80-х и особенно в 90-х годах начал появляться непараметрические статистические модели. Это было интересно, потому что модели первого поколения не могли адаптироваться к любым временным или спросовым закономерностям; у них было очень ограниченное количество параметров, поэтому они были очень ограничены в том, что могли узнать, наблюдая исторические данные.

Кирен Чандлер: Переход от параметрических к непараметрическим моделям был значительным для второго поколения. Если у вас было достаточно данных, вы могли потенциально изучить любой паттерн. Этот прорыв в конце 90-х годов привел к разработке моделей с привлекательными математическими свойствами. При наличии произвольного количества данных вы могли получить модель, которая максимально приближается к лучшей модели, не сталкиваясь с проблемой переобучения. Переобучение, конечно, возникает, когда вы увеличиваете количество параметров до такой степени, что модель идеально соответствует вашим историческим данным, но теряет способность прогнозировать будущее. Проблема переобучения занимала умы принимающих решения на протяжении десятилетий, пока не появились удовлетворительные решения с появлением непараметрических моделей в конце 90-х годов. С появлением этих моделей мы начали видеть наступление машинного обучения. Как это произошло и какое влияние это имело?

Жоанн Верморель: Это интересно. В терминологии у нас было несколько лагерей. У нас был лагерь статистического обучения, где математики, занимающиеся статистикой, начали широко использовать компьютеры для поддержки своей работы. С другой стороны, машинное обучение было наоборот. Это были компьютерные специалисты, которые столкнулись с такими проблемами и постепенно начали переходить к статистическим алгоритмам. Это было скорее различие в подходе.

Например, в лагере статистического обучения были метод опорных векторов, который был хорошо понятен с математической точки зрения и привлекал серьезное статистическое сообщество. С другой стороны, у нас были нейронные сети, многочисленные численные методы, которые привлекали сообщество машинного обучения. Это были разные подходы к предметной области, и они постепенно слились.

Kieran Chandler: Независимо от того, к какому лагерю вы принадлежали, вокруг вас развивалась технология и возможности, которые вы могли достичь с ее помощью. Так вот, какие значительные технологические улучшения и прорывы действительно помогли во всем этом?

Joannes Vermorel: Прорывом в конце 90-х годов была идея, что если у вас есть больше данных, вы получите лучшие результаты. И я не имею в виду только более длинные временные ряды, но и больше временных рядов. Для цепей поставок это означает, можно ли получить более точный прогноз спроса только потому, что у вас есть больше истории? Но проблема в том, что если вам нужен год или более истории продаж, вам нужно ждать еще один год, что является очень медленным процессом. Более того, с запуском новых продуктов и выводом из ассортимента некоторых продуктов, у вас никогда не будет гораздо больше истории.

Были сделаны некоторые прорывы в возможности использования большего количества данных из большего количества продуктов. Это не произошло в конце 90-х годов; это произошло больше в 2000-х годах. Это стало возможным благодаря прорывам в машинном обучении и статистическом обучении, все это связано с непараметрическими моделями.

Был ряд этих статистических моделей, которые представляли собой прорывы, например, метод опорных векторов, опубликованный примерно в 1996 году с рабочей реализацией к 1998 году, а затем случайные леса около 2001 года. Эти модели начали очень хорошо работать в сборе информации из больших наборов данных с большим разнообразием функций.

Kieran Chandler: Глубокое обучение, каково его влияние и в чем ключевая разница между глубоким обучением и обычным машинным обучением?

Joannes Vermorel: Интересно, потому что глубокое обучение - это сочетание, вероятно, десятка критических идей, но все это было очень постепенным. Собрав все эти вещи вместе, это действительно сделало большую разницу. Одно из ключевых преимуществ глубокого обучения - это возможность изучать более сложные функции с меньшим количеством данных. Проблема алгоритмов машинного обучения второго поколения, таких как поверхностное обучение, заключается в том, что они могут изучать любой статистический шаблон, если им дать достаточно данных, но на практике для этого требуется огромное количество данных, что является абсолютно непрактичным. Глубокое обучение, в свою очередь, было способно лучше использовать очень большие наборы данных.

Во-первых, глубокое обучение не обязательно превосходит классические алгоритмы на небольших наборах данных, но когда наборы данных становятся очень большими, эти алгоритмы поверхностного обучения действительно не используют все дополнительные информации, которые там есть, в то время как глубокое обучение может. Так в чем же разница глубокого обучения? Мы возвращаемся к параметрическим моделям, которые использовались еще в 1950-х или 1960-х годах. У них фиксированное количество параметров, и мы перешли к непараметрическим моделям, где количество параметров динамично. Затем, с глубоким обучением, мы снова возвращаемся к параметрическим моделям, но большая разница в том, что у этих моделей может быть несколько миллионов параметров. Наши модели могут иметь до 20 миллионов параметров.

Чтобы избежать массового переобучения, был ряд очень умных трюков, раскрытых в рамках движения глубокого обучения. Еще один ключевой элемент заключался в том, чтобы думать о статистических моделях, которые имели максимальную близость к вычислительному оборудованию, которое у нас было, такому как графические процессоры (GPU), которые очень эффективны в линейной алгебре. Одним из вычислительных трюков глубокого обучения является приведение всего к линейной алгебре. Переключившись с вычислений на ЦП на вычисления на ГПУ, мы получили два порядка больше вычислений, что позволило многие вещи, которые раньше были невозможны, вдруг стать возможными.

Kieran Chandler: Вы говорите о прогрессе аппаратного обеспечения и возможностях обработки, какие еще технические улучшения были сделаны в отрасли, чтобы это стало возможным? Как вписывается облачные вычисления в эту картину?

Joannes Vermorel: Облачные вычисления действительно помогли облегчить сбор всех данных. Если вы хотите, чтобы глубокое обучение было действительно интересным, вам нужно много данных. Перемещение терабайтов данных действительно намного проще с помощью облачных вычислений.

Kieran Chandler: Кажется, что облачные вычислительные платформы упростили все для всех. Например, вам больше не нужно иметь дело с дисковыми квотами или вручную управлять хранением на нескольких физических дисках. Это правильно?

Joannes Vermorel: Абсолютно. Облачные вычислительные платформы устраняют множество ручных процессов, связанных с управлением хранилищем. Кроме того, они облегчают объединение всех необходимых уровней для глубокого обучения.

Kieran Chandler: Как насчет стоимости глубокого обучения и графических процессоров (GPU)? Они довольно дорогие и потребляют много энергии, не так ли?

Joannes Vermorel: Действительно, графические карты могут потреблять около 400-500 ватт. Если у вас начинается несколько из них, это может стать проблемой с электропитанием. Однако облачные вычисления облегчают это, предлагая графические процессоры по требованию. В случае цепочки поставок это очень удобно, потому что обычно вам нужно только один раз в день делать статистический прогноз. Вы можете выделить свои графические процессоры на один час, выполнить все вычисления и затем вернуть их на предпочитаемую вами облачную вычислительную платформу, будь то Microsoft Azure, Amazon Web Services или Google Cloud.

Kieran Chandler: Машинное обучение развивалось постепенно за последние несколько десятилетий. Можем ли мы взять какие-либо подсказки из этого, чтобы предсказать будущее машинного обучения? Что мы можем ожидать в будущем?

Joannes Vermorel: Интересно, все идет по циклам. Мы начали с параметрических моделей и прогнозирования временных рядов, затем перешли к непараметрическим моделям с первыми общими алгоритмами машинного обучения. Затем мы перешли к гиперпараметрическим моделям с глубоким обучением. Сейчас появляются снова непараметрические модели в спектре глубокого обучения. Это более сложные методы глубокого обучения, которые корректируют саму структуру модели во время фазы обучения. Если бы мне пришлось поставить на слово будущего, это было бы “дифференцируемое программирование”. Этот подход похож на глубокое обучение, но он намного более динамичен в том, как модель строится и развивается во время фазы обучения.

Kieran Chandler: Итак, дифференцируемое программирование - новый модный термин. Промышленность цепочки поставок часто отстает от крупных компаний в том, на что они сосредотачиваются. Во что они вкладывают исследования в настоящее время и какие большие разработки мы можем ожидать в ближайший год или около того?

Joannes Vermorel: Что касается машинного обучения, большие проблемы, в которые вкладывают миллиарды долларов технологические гиганты, - это распознавание речи, синтез речи, распознавание изображений и машинный перевод естественного языка. Это основные проблемы для информационного обучения и впереди по исследованиям и разработкам. Цепочки поставок, включая те, которые разрабатывают программное обеспечение для машинного обучения, немного отстают. Никто в цепочке поставок не имеет ресурсов, чтобы вкладывать миллиард долларов в год для улучшения спроса.

Kieran Chandler: В прогнозирование были вложены значительные инвестиции, но кажется, что это всего лишь малая часть того, что необходимо. Похоже, что оно отстает на несколько лет от крупных разработок. Каковы ваши мысли по этому поводу?

Joannes Vermorel: Вы правы. Большое развитие сейчас заключается в адаптации техник, найденных в других областях, таких как обработка изображений и речи, в ситуации цепочки поставок. Это требует значительной переработки. Например, у этих больших проблем обычно есть большие объемы данных для обработки. Изображение, например, будет составлять несколько мегабайт. Поэтому не требуется сложного конвейера для перемещения данных с ЦП на ГПУ. Ваше изображение - это большой объект с большим количеством информации, которая будет оставаться в ГПУ достаточно долго, прежде чем будет выполнен расчет.

С другой стороны, у цепей поставок есть различные требования. Объекты, которые вы хотите оптимизировать, такие как единицы хранения, имеют меньший объем данных, но их много. Вся история перемещений для SKU поместится в несколько килобайт, но их у вас десятки миллионов. Поэтому адаптация этих техник, разработанных для больших проблем машинного обучения, к цепям поставок представляет собой ряд сложностей. Это требует от нас максимально использовать как ЦПУ, так и ГПУ, потому что все еще есть много вычислений, которые лучше выполнять на стороне ЦПУ.

Kieran Chandler: Кажется, что отрасль постоянно развивается и меняется. Реализации обычно быстро устаревают. Как снабженческому руководителю удается быть в курсе событий, и у вас есть какие-либо советы по этому поводу?

Joannes Vermorel: Темп изменений действительно является вызовом. Но это всегда была проблема, что касается компьютеров. Мое предложение - выбрать решения программного обеспечения как услугу (SaaS), например, Lokad. Например, мы находимся на пятом поколении нашего прогнозного движка, но нашим клиентам не нужно делать никаких технических обновлений. Мы обновляем их от одной версии к следующей от их имени, в рамках пакета.

С появлением программного обеспечения SaaS эту проблему стало гораздо легче управлять. Вам не нужно выделять ресурсы только для того, чтобы быть в курсе - ваш поставщик делает это за вас. Это не было так в случае программного обеспечения, установленного на месте, где обновление от одной версии к следующей обычно было большим проектом.

Кстати, облачные вычислительные платформы решили эту же проблему для нас. Таким образом, менеджер цепи поставок, использующий приложение SaaS, такое как Lokad, которое предоставляет передовую прогностическую аналитику для оптимизации вашей цепи поставок, будет быть в курсе событий. Lokad, в свою очередь, следит за темпом изменений, потому что используемая нами облачная вычислительная платформа является платформой как услуга (PaaS), и постоянно обновляет множество вещей для нас.

Kieran Chandler: Кажется, что все в основном идут в ногу с технологическими достижениями, это довольно проницательно. Спасибо, что поделились своими мыслями, Жоанн. Мы продолжим эту дискуссию в следующий раз. Спасибо за просмотр, всем.