00:00:06 Введение в развитие машинного обучения по поколениям.
00:00:38 1-е поколение: статистические алгоритмы прогнозирования 1950-х/60-х годов.
00:03:26 Переход ко 2-му поколению: непараметрические модели конца 80-х/90-х годов.
00:06:20 Схождение статистических методов и машинного обучения.
00:07:55 Влияние технологических улучшений на эволюцию машинного обучения.
00:09:54 Влияние глубокого обучения на прогнозирование, в отличие от стандартного МЛ.
00:11:31 Параметрические модели, предотвращающие переобучение в глубоких нейронных сетях.
00:13:01 Связь глубокого обучения с аппаратным обеспечением, GPU, линейной алгеброй.
00:14:50 Роль облачных вычислений в обработке данных глубокого обучения.
00:16:01 Проблемы с GPU, преимущества облачных вычислений для прогнозирования в цепочке поставок.
00:17:22 Будущее МЛ: подъём дифференцируемого программирования.
00:19:13 Инвестиции отрасли цепочки поставок в МЛ, адаптация к большим данным.
00:22:44 Темпы технологических перемен, адаптация руководителей цепочек поставок.
00:25:24 Заключение: значение SaaS и облачных вычислений в эволюции технологий.

Резюме

В интервью основатель Lokad, Жоаннес Верморель, рассказал об истории машинного обучения (ML), от его истоков в алгоритмах прогнозирования временных рядов 1950-х годов до появления глубокого обучения. Он подчеркнул применение МЛ в управлении цепями поставок, что является специализацией его компании. Верморель описал переход от простых, основанных на данных моделей к непараметрическим статистическим моделям, способным обучаться любому паттерну при наличии достаточного объёма данных. В беседе обсуждались ключевые этапы развития МЛ, роль технологий и проблема переобучения. Верморель предсказал будущие направления развития МЛ, включая дифференцируемое программирование, а также продолжающийся акцент на распознавании голоса и изображений. Он завершил рассказ, призывая использовать программное обеспечение как услугу, чтобы помочь руководителям цепочек поставок идти в ногу с быстрыми технологическими изменениями.

Расширенное резюме

Интервью между ведущим Кираном Чендлером и Жоаннесом Верморелем, основателем Lokad, изучает эволюцию и развитие машинного обучения с особым акцентом на его применение в управлении цепями поставок.

Верморель утверждает, что истоки машинного обучения можно проследить до 1950-х и 60-х годов, когда появились первые алгоритмы прогнозирования временных рядов. Эти алгоритмы, хотя и не воспринимались тогда как машинное обучение, обладали ключевыми характеристиками МЛ: они были основаны на данных, статистичны и предназначались для выявления закономерностей в данных. Верморель также отмечает, что первоначальное использование этих алгоритмов было тесно связано с оптимизацией цепочек поставок, областью, в которой сегодня специализируется его компания, Lokad.

Что касается конкретных методов, применявшихся на этом раннем этапе машинного обучения, Верморель называет несколько, знакомых специалистам по цепочкам поставок. К ним относятся скользящая средняя, экспоненциальное сглаживание, а также более сложные модели, такие как метод Хольта-Винтерса и модели Бокса-Дженка. Он характеризует эти начальные алгоритмы как относительно простые, разработанные с учётом вычислительных возможностей компьютеров того времени. Ранние модели должны были быть быстрыми и эффективными, способными обрабатывать сотни точек данных с тысячами операций в условиях ограниченной вычислительной мощности и памяти.

Перемещая беседу к развитию машинного обучения, Верморель делится тем, что следующий значимый скачок произошёл в конце 80-х и в 90-х годах, что было отмечено появлением непараметрических статистических моделей. Эта эволюция от параметрических моделей первого поколения, характеризующихся фиксированным числом настраиваемых параметров (обычно не более дюжины), стала критически важным развитием.

Параметрические модели, ограниченные фиксированными параметрами, могли адаптироваться только к узкому диапазону паттернов данных. В отличие от них, непараметрические модели не имели заранее определённой формы, что позволяло им потенциально изучать любую закономерность при наличии достаточного объёма данных. Этот сдвиг ознаменовал прорыв в возможностях и гибкости машинного обучения, заложив основу для более сложных и универсальных приложений МЛ, наблюдаемых сегодня.

Верморель начинает с выделения проблемы переобучения в ранних моделях прогнозирования, где увеличение числа параметров могло привести к моделям, идеально подгоняющимся под исторические данные, но неспособным к предсказанию будущего. Это было серьёзной загадкой в области в течение десятилетий, пока в конце 90-х не появились удовлетворительные решения с внедрением непараметрических моделей.

Затем он обсуждает два направления в этой области, которые сформировались в тот период: статистическое обучение и машинное обучение. Первое представляло собой математиков, занимающихся статистикой с активным использованием компьютеров, в то время как второе состояло из ИТ-специалистов, постепенно переходивших к статистическим алгоритмам. Он отмечает, что эти подходы породили различные стили моделирования. Например, сторонники статистического обучения предпочитали метод опорных векторов, хорошо понятный с математической точки зрения. С другой стороны, коллектив машинного обучения больше тяготел к нейронным сетям, требующим массовых числовых вычислений.

Чендлер затем переводит разговор к роли технологий в эволюции этих областей. Верморель упоминает значительный прорыв в конце 90-х, заключающийся в идее, что больше данных приводит к лучшим результатам. Эта концепция распространялась не только на длинные временные ряды, но и на более разнообразные наборы данных. Изначально этот подход развивался медленно, поскольку требовал накопления более обширной истории. Однако достижения в области машинного обучения и статистического обучения позволили использовать данные по большему количеству продуктов, что привело к более точным прогнозам спроса.

Верморель упоминает введение моделей, таких как метод опорных векторов в конце 90-х и случайный лес в начале 2000-х, как важные шаги вперёд в улавливании информации из более крупных и разнообразных наборов данных.

Далее разговор переходит к появлению глубокого обучения. Верморель объясняет, что постепенное накопление ключевых идей сделало глубокое обучение значительно отличным от стандартного машинного обучения. Одним из основных преимуществ глубокого обучения является его способность обучаться более сложным функциям при меньшем объёме данных по сравнению с алгоритмами неглубокого обучения.

Интересно, что Верморель отмечает, что глубокое обучение не всегда превосходит классические алгоритмы на небольших наборах данных. Но оно преуспевает при работе с очень большими наборами данных, где неглубокие алгоритмы не могут извлечь дополнительную информацию.

В неожиданном повороте глубокое обучение возродило использование параметрических моделей, хотя и с количеством параметров, измеряемым в миллионах, в отличие от ранних параметрических моделей с фиксированным числом параметров. Основной задачей здесь было избежать масштабного переобучения, что было решено с помощью ряда изящных методик.

Верморель далее обсуждает роль графических процессоров (GPU) в развитии машинного обучения. Они необходимы для задач глубокого обучения, но являются дорогими и энергоемкими. Платформы облачных вычислений решили эту проблему, предоставляя GPU-фермы по запросу, эффективно решая вопросы затрат и энергопотребления. Это оказалось особенно полезным для оптимизации цепочек поставок, где статистические прогнозы обычно выполняются один раз в сутки и требуют выделения GPU лишь на короткий промежуток времени.

Переходя к будущему машинного обучения, Верморель предсказал сдвиг в сторону возвращения к непараметрическим моделям в контексте глубокого обучения. Он указал на новый подход — “дифференцируемое программирование”, при котором структура модели глубокого обучения корректируется в процессе обучения. Этот динамичный подход может стать следующим значительным этапом в развитии машинного и статистического обучения.

На вопрос о текущих приоритетах крупных технологических компаний, Верморель упомянул, что голосовое распознавание, синтез голоса, распознавание изображений и перевод естественного языка сейчас получают значительные инвестиции. Это ключевые направления исследований и разработок, формирующие будущее машинного обучения. Однако компании, работающие в сфере цепочек поставок, в том числе Lokad, несколько отстают, так как им не хватает ресурсов для масштабных инвестиций в технологии МЛ.

Оптимизация цепочек поставок представляет собой уникальные вызовы для применения машинного обучения, особенно потому, что она работает с меньшими объемами данных по сравнению с такими областями, как обработка изображений. Это требует сбалансированного использования как CPU, так и GPU.

Чендлер затем затрагивает проблему быстрого технологического прогресса и вызов, с которым сталкиваются руководители цепочек поставок, чьи внедрённые решения рискуют быстро устареть. Верморель посоветовал, что программное обеспечение как услуга (SaaS) может стать жизнеспособным решением. Он подчеркнул, что Lokad является примером провайдера SaaS, который постоянно обновляет и оптимизирует свои сервисы, облегчая таким образом бремя для своих клиентов.

Полный транскрипт

Киран Чендлер: Сегодня на Lokad TV мы вернёмся к истокам и изучим поколенческое развитие машинного обучения, а также попытаемся понять, может ли этот постепенный прогресс дать нам какие-либо подсказки относительно будущего МЛ. Итак, Жоаннес, как выглядело первое поколение машинного обучения? Когда оно появилось?

Жоаннес Верморель: Любопытно, что первые алгоритмы машинного обучения, можно сказать, были связаны с цепочками поставок благодаря первому алгоритму прогнозирования временных рядов, появившемуся в 50-х и 60-х годах. Он обладал всеми ключевыми составляющими: был основан на данных, статистичен и, несомненно, стремился выявлять закономерности в данных. Тогда люди не называли это машинным обучением; это были всего лишь алгоритмы прогнозирования. Но все необходимые компоненты уже присутствовали.

Киран Чендлер: Так какие методы использовались? То есть, большинство специалистов по цепочкам поставок их знают, верно?

Жоаннес Верморель: Они знали о скользящей средней, экспоненциальном сглаживании, а также о более изысканных методах той эпохи, таких как модель Хольта-Винтерса, модели Бокса-Дженка и другие. Таким образом, сразу с появлением компьютеров в компаниях начали использоваться относительно простые алгоритмы для оптимизации цепочек поставок, пусть и для довольно скромных целей.

Киран Чендлер: Тогда времена были совершенно иными в мире вычислительного анализа. Каков был основной акцент в те дни?

Жоаннес Верморель: Основное внимание уделялось тому, что ресурсов было крайне мало — минимальная вычислительная мощность, память и возможности для проведения множества вычислений. Все модели первого поколения, разработанные в 60-х и 70-х годах, были ориентированы на сверхскорость. Это означало, что если у вас было 100 точек данных для обработки, то общее количество операций составляло всего несколько тысяч. Эти алгоритмы были созданы для машин с всего лишь несколькими килобайтами памяти и тактовой частотой процессора ниже 1 МГц.

Киран Чендлер: Могу предположить, что в то время ресурсов, выделяемых на вычислительный анализ, было значительно меньше, чем сегодня, когда над этим работают сотни тысяч людей. Сколько времени потребовалось для появления следующего поколения? Заняло ли это много времени?

Жоаннес Верморель: Это было постепенное развитие. Первая волна моделей, появившихся в 60-х и 70-х годах, состояла исключительно из параметрических моделей. Это были статистические модели с фиксированным числом параметров, как правило, не превышающим дюжину.

Киран Чендлер: Что означает параметр?

Жоаннес Верморель: Параметр — это как число. То есть, ваша статистическая модель имела несколько числовых значений, которые можно было настроить для подгонки модели под данные. Суть фазы обучения заключается в нахождении этих параметров. Обычно их было около полудюжины, возможно, до дюжины для более изощрённых моделей, и на этом всё. То, что произошло в конце 80-х и особенно в 90-х годах, — это появление непараметрических статистических моделей. Это было интересно, потому что модели первого поколения не могли адекватно описывать какие-либо закономерности временных рядов или спроса; их возможности были очень ограничены фиксированным числом параметров, поэтому они не могли многому научиться, наблюдая за историческими данными.

Киран Чендлер: Второе поколение, переход от параметрических к непараметрическим моделям, стало значительным этапом. Если данных достаточно, можно потенциально выявить любую закономерность. Этот прорыв в конце 90-х привёл к разработке моделей с привлекательными математическими свойствами. При наличии произвольно большого объёма данных можно было приблизиться к оптимальной модели, не сталкиваясь с проблемой переобучения. Переобучение, конечно, возникает, когда увеличение числа параметров приводит к тому, что модель идеально подгоняется под исторические данные, но теряет способность предсказывать будущее. Это было загадкой для руководителей в течение десятилетий, пока в конце 90-х не появились удовлетворительные решения с внедрением непараметрических моделей. С этими моделями мы стали свидетелями появления машинного обучения. Как это произошло и какое влияние оказало?

Joannes Vermorel: Это интересно. С точки зрения терминологии, было несколько лагерей. Был лагерь статистического обучения, где математики, занимавшиеся статистикой, начали активно использовать компьютеры для поддержки своей работы. С другой стороны, машинное обучение представляло собой нечто противоположное. Это были специалисты по компьютерам, которые сталкивались с такого рода проблемами и постепенно начали переходить к статистическим алгоритмам. Это было скорее различие в перспективах.

Например, в лагере статистического обучения использовались опорные векторные машины, хорошо понятные с математической точки зрения, что привлекало основное ядро статистического сообщества. С другой стороны, существовали нейронные сети и множество численных методов, что привлекало сообщество машинного обучения. Это были разные взгляды на область, которые постепенно сходились.

Kieran Chandler: Независимо от лагеря, к которому вы принадлежали, развивались технологии и возможности того, чего можно было достичь с их помощью. Так какие же значимые технологические улучшения и прорывы действительно помогли во всем этом?

Joannes Vermorel: Прорыв в конце 90-х годов заключался в идее, что чем больше данных у вас есть, тем лучше будут результаты. И я имею в виду не только более длинные временные ряды, но и больше временных рядов. Для цепочки поставок это означает: можно ли получить более точный прогноз спроса просто потому, что у вас больше истории? Но проблема в том, что если вам нужна история продаж за год или более, вам придется ждать еще год, что является очень медленным процессом. Более того, с запуском новых продуктов и выводом некоторых продуктов из ассортимента, вы никогда не получаете существенно больше истории.

Были достигнуты некоторые прорывы в использовании большего объема данных от большего числа продуктов. Это произошло не в конце 90-х, а скорее в 2000-х. Что сделало это возможным, так это прорывы в машинном и статистическом обучении, все связанные с этими непараметрическими моделями.

Существовала серия статистических моделей, представляющих собой прорывы, например, опорные векторные машины, опубликованные около 96 года с рабочей реализацией к 98 году, а затем случайные леса около 2001 года. Эти модели начали отлично работать по захвату информации из больших наборов данных с большим разнообразием признаков.

Kieran Chandler: Глубокое обучение, каков его был эффект и в чем заключалась основная разница между глубоким обучением и обычным машинным обучением?

Joannes Vermorel: Это интересно, потому что глубокое обучение представляет собой сочетание, вероятно, десятка критически важных идей, но все происходило очень постепенно. Объединение всех этих факторов действительно имело большое значение. Одним из ключевых преимуществ глубокого обучения является способность изучать более сложные функции при меньшем объеме данных. Проблема алгоритмов второго поколения машинного обучения, таких как поверхностное обучение, заключается в том, что они могут изучить любую статистическую закономерность, если предоставить достаточно данных, но на практике для этого требуется огромное количество данных, что совершенно непрактично. Глубокое обучение, в определенной мере, способно эффективнее использовать очень большие наборы данных.

Во-первых, глубокое обучение не обязательно превосходит классические алгоритмы на небольших наборах данных, но когда данные становятся очень большими, алгоритмы поверхностного обучения не используют весь дополнительный объем информации так, как это может сделать глубокое обучение. Так что же отличает глубокое обучение? Мы возвращаемся к параметрическим моделям, которые использовались еще в 1950-х или 1960-х годах. У них фиксированное количество параметров, затем мы перешли к непараметрическим моделям, где число параметров динамическое. А с глубоким обучением мы вновь возвращаемся к параметрическим моделям, но большая разница в том, что эти модели имеют миллионы параметров. Наши модели могут насчитывать до 20 миллионов параметров.

Чтобы избежать массовой переобученности, была разработана серия весьма изящных приемов в рамках движения глубокого обучения. Еще одним ключевым элементом было использование статистических моделей, имеющих максимальную совместимость с вычислительным оборудованием, которое у нас было, таким как графические процессоры (GPU), которые очень эффективны в линейной алгебре. Один из вычислительных трюков глубокого обучения заключается в сведении всего к линейной алгебре. Переход с вычислений на CPU к вычислениям на GPU дал нам два порядка дополнительной вычислительной мощности, благодаря чему многое, что раньше было невозможно, внезапно стало возможным.

Kieran Chandler: Вы говорите о прогрессе аппаратного обеспечения и вычислительной мощности, какие еще технические улучшения были достигнуты в отрасли, что сделало это возможным? Как появление облачных технологий вписывается в эту картину?

Joannes Vermorel: Облако действительно способствовало сбору всех данных. Если вы хотите, чтобы глубокое обучение было по-настоящему эффективным, вам нужно много данных. Перемещать терабайты данных намного проще с облачными технологиями.

Kieran Chandler: Кажется, что облачные вычислительные платформы упростили жизнь для всех. Например, вам больше не нужно беспокоиться о дисковых квотах или ручном управлении хранилищем на нескольких физических дисках. Это так?

Joannes Vermorel: Абсолютно. Облачные вычислительные платформы устранили множество ручных процессов, связанных с управлением хранилищем. Кроме того, они способствовали консолидации всех необходимых слоев для глубокого обучения.

Kieran Chandler: А как насчет стоимости глубокого обучения и GPU? Они довольно дорогие и потребляют много энергии, не так ли?

Joannes Vermorel: Действительно, графические карты могут потреблять около 400–500 ватт. Если их становится несколько, это может привести к электрическим проблемам. Однако облачные вычисления облегчили это, предлагая GPU-фермы по запросу. В частности, для цепочки поставок это очень удобно, поскольку, как правило, вам нужно проводить статистический прогноз всего один раз в день. Вы можете выделить свои GPU на один час, выполнить все расчеты, а затем вернуть их на предпочитаемую облачную платформу, будь то Microsoft Azure, Amazon Web Services или Google Cloud.

Kieran Chandler: Машинное обучение развивалось постепенно на протяжении последних нескольких десятилетий. Можно ли из этого сделать какие-либо выводы о будущем машинного обучения? Что мы можем ожидать дальше?

Joannes Vermorel: Интересно, что все происходит циклично. Мы начинали с параметрических моделей и прогнозирования временных рядов, затем перешли к непараметрическим моделям с первыми универсальными алгоритмами машинного обучения. Потом мы перешли к гиперпараметрическим моделям с глубоким обучением. А теперь в спектре глубокого обучения снова появляются непараметрические модели. Это более изощренные методы глубокого обучения, которые корректируют саму структуру модели в процессе обучения. Если бы мне пришлось угадывать модное слово завтрашнего дня, я бы выбрал “дифференцируемое программирование”. Этот подход схож с глубоким обучением, но гораздо более динамичен в том, как модель строится и развивается в процессе обучения.

Kieran Chandler: Значит, дифференцируемое программирование – новое модное словечко. Индустрия цепочки поставок часто немного отстает от ведущих четырех в том, на чем они сосредотачиваются. В что они сейчас инвестируют исследования и какие крупные разработки мы можем ожидать в ближайший год или около того?

Joannes Vermorel: Что касается машинного обучения, то основные проблемы, в которые технологические гиганты инвестируют миллиарды, — это распознавание голоса, синтез речи, распознавание изображений и перевод с естественных языков. Это ключевые задачи для обучения, ориентированного на информацию, и они лидируют в исследованиях и разработках. Цепочки поставок, включая тех, кто разрабатывает программное обеспечение для машинного обучения, немного отстают. Никто в цепочке поставок не располагает ресурсами, чтобы инвестировать миллиард долларов в год ради улучшения прогноза спроса.

Kieran Chandler: В прогнозировании были значительные инвестиции, но, кажется, они составляют лишь небольшую часть необходимого. Кажется, что они отстают на несколько лет от крупных разработок. Каковы ваши мысли по этому поводу?

Joannes Vermorel: Вы правы. Главный прорыв сейчас заключается в адаптации методов, применяемых в других областях, таких как обработка изображений и голоса, к задачам цепочек поставок. Это требует значительной переработки. Например, у этих крупных задач обычно имеется огромный объем данных для обработки. Изображение, например, может занимать несколько мегабайт. Поэтому не требуется сложный конвейер для переноса ваших данных с CPU на GPU. Ваше изображение — это большой объект с большим количеством информации, который остается в GPU довольно долго до завершения расчета.

С другой стороны, цепочки поставок имеют иные требования. Объекты, которые вы хотите оптимизировать, такие как единицы складского учёта, по объему данных меньше, но их много. Вся история перемещений для SKU займет всего несколько килобайт, но их десятки миллионов. Поэтому адаптация этих методов, разработанных для крупных задач машинного обучения, к цепочкам поставок представляет собой ряд проблем. Это требует максимального использования как CPU, так и GPU, поскольку многое все же лучше рассчитывается на стороне CPU.

Kieran Chandler: Похоже, что индустрия постоянно развивается и меняется. Реализации быстро устаревают. Как руководителю цепочки поставок успевать за изменениями, и есть ли у вас какие-нибудь советы по этому поводу?

Joannes Vermorel: Темпы изменений действительно являются проблемой. Но что касается компьютеров, это всегда было проблемой. Мой совет — выбирать решения типа Software as a Service (SaaS), такие как Lokad. Например, мы находимся на пятом поколении нашего прогнозного движка, но нашим клиентам не нужно заниматься техническими обновлениями. Мы обновляем их с одной версии на другую за них, в рамках пакета.

С появлением SaaS-программного обеспечения эту проблему стало гораздо проще решать. Вам не нужно выделять ресурсы только для того, чтобы успевать за изменениями — ваш поставщик делает это за вас. Раньше, с программным обеспечением, устанавливаемым на месте, обновление с одной версии на другую обычно было большим проектом.

Кстати, облачные вычислительные платформы решили эту самую проблему для нас. Таким образом, менеджер цепочки поставок, использующий SaaS-приложение, такое как Lokad, которое предоставляет продвинутую прогнозную аналитику для оптимизации вашей цепочки поставок, будет успевать за изменениями. А Lokad, в свою очередь, успевает за изменениями, потому что облачная вычислительная платформа, которую мы используем, является Platform as a Service (PaaS) и постоянно обновляет многие компоненты для нас.

Kieran Chandler: Похоже, что все по сути успевают за технологическим прогрессом, это довольно поучительно. Спасибо, что поделились своими мыслями, Joannes. Мы продолжим эту дискуссию в следующий раз. Спасибо за просмотр, всем.