00:00:08 Введение и опыт Роба Хиндмана в области прогнозирования.
00:01:31 Устойчивость техник прогнозирования и программного обеспечения в реальном мире.
00:04:08 Применение техник прогнозирования в различных областях с обильными данными.
00:05:43 Проблемы обслуживания различных отраслей в цепи поставок.
00:07:30 Навигация по сложностям корпоративного программного обеспечения и сбора данных.
00:08:00 Прогнозирование временных рядов и альтернативные подходы.
00:09:05 Проблемы, с которыми сталкивается Lokad в предиктивной аналитике.
00:11:29 Долговечность и мотивация в академической разработке программного обеспечения.
00:13:12 Переход от прогнозирования точки к прогнозированию вероятности.
00:15:00 Недостатки академических методов и их реализация в реальном мире.
00:16:01 Производительность простой модели в конкурсе.
00:16:56 Важность элегантных и лаконичных методов.
00:18:48 Баланс точности, сложности и стоимости моделей.
00:19:25 Надежность и скорость в пакетах R для прогнозирования.
00:20:31 Баланс надежности, точности и затрат на внедрение в бизнесе.
00:21:35 Важность методов, специфичных для проблемы, в прогнозировании.
00:23:00 Прогнозирование долговечности техник и библиотек прогнозирования.
00:25:29 Обязательства Роба по поддержке его библиотек прогнозирования.
00:26:12 Представление Fable и его применение в прогнозировании временных рядов.
00:27:03 Оценка мира с открытым исходным кодом и его влияние на инструменты прогнозирования.

Резюме

В интервью с Киреном Чандлером, Жоаннес Верморель, основатель Lokad, и Роб Хиндман, профессор статистики в Монашском университете, обсуждают устойчивость техник прогнозирования в реальном мире. Программное обеспечение для прогнозирования Хиндмана с открытым исходным кодом, которое было загружено миллионами пользователей, выдерживает испытание временем и способно решать около 90% проблем прогнозирования компаний. Гости подчеркивают сложности обслуживания широкой аудитории с различными потребностями в отрасли цепи поставок и важность создания удобного и эффективного программного обеспечения, доступного для всех. Они также подчеркивают значение программного обеспечения с открытым исходным кодом и сотрудничества в разработке высококачественных методов прогнозирования.

Расширенное резюме

В этом интервью Кирен Чандлер обсуждает устойчивость техник прогнозирования в реальном мире с Жоаннесом Верморелем, основателем Lokad, и Робом Хиндманом, профессором статистики в Монашском университете. Программное обеспечение для прогнозирования Хиндмана с открытым исходным кодом было загружено миллионами пользователей и выдерживает испытание временем, в отличие от многих других инструментов программного обеспечения.

Верморел ценит работу Хиндмана за то, что он выходит за рамки типичного академического программного обеспечения, создавая комплексный набор библиотек, встраивая многие из своих собственных результатов и предоставляя последовательную среду на основе популярного языка R для статистического анализа. Верморел считает, что есть немного примеров научного программного обеспечения, которое имеет такую долговечность и аудиторию.

Академические исследования Хиндмана не ограничиваются прогнозированием цепей поставок; он интересуется применением техник прогнозирования в любой области с большим объемом данных. Его работа включает прогнозирование потребления электроэнергии, смертности, населения, числа туристов и недавно случаев COVID-19 для правительства Австралии. Помимо прогнозирования, он также работает над обнаружением аномалий и исследовательским анализом данных.

Обсуждая проблемы обслуживания широкой аудитории с различными потребностями в отрасли цепей поставок, Верморел объясняет, что способ восприятия и записи данных программным обеспечением предприятия (ERP, MRP, WMS) часто является полуслучайным.

Они обсуждают осложнения, возникающие при использовании данных, которые в первую очередь не собираются для целей прогнозирования, и переходе от одной системы планирования ресурсов предприятия (ERP) к другой. Они также обсуждают необходимость техник прогнозирования, которые могут адаптироваться к различным ИТ-ландшафтам и историческим несчастным случаям внедрения программного обеспечения предприятия.

Верморел подчеркивает важность прогнозов в контекстах, которые не поддаются анализу временных рядов, таких как мода, где спрос и внедрение новых продуктов влияют на проблему прогнозирования. Он подчеркивает необходимость того, чтобы прогнозные модели учитывали обратные связи и действия, основанные на прогнозах, а также контролировали различные факторы, такие как ассортимент товаров и стратегии продвижения. Такой многогранный подход является важным для решения сложных задач прогнозного анализа, с которыми сталкивается Lokad.

Хиндман объясняет, что его программное обеспечение для временных рядов способно решать около 90% проблем прогнозирования компаний, но оставшиеся 10% требуют других подходов. Он также обращается к проблеме краткосрочного академического программного обеспечения, объясняя это фокусом на публикации статей и отсутствием вознаграждения за поддержание программного обеспечения в долгосрочной перспективе. Это приводит к недостатку внимания к сотрудничеству с практиками и обеспечению документированности и долговечности методов.

В интервью подчеркиваются проблемы и сложности оптимизации и прогнозирования цепей поставок, включая необходимость адаптируемых техник, важность учета контекстов, не связанных с временными рядами, и влияние обратных связей и принятия решений на прогнозные модели. Кроме того, оно подчеркивает разрыв между академическими исследованиями и практическим применением в области прогнозирования.

Оба гостя подчеркивают важность создания удобного для пользователя программного обеспечения, которое было бы эффективным и доступным, чтобы изменить мир.

Hyndman упоминает сдвиг от прогнозирования точек к вероятностному прогнозированию в академической литературе за последние 15 лет. Lokad была одной из первых компаний по прогнозированию цепей поставок, которая внедрила эту изменение в свое программное обеспечение. Поскольку исходное программное обеспечение Hyndman было сосредоточено на точечных прогнозах, его новые пакеты приоритезируют вероятностные прогнозы.

Vermorel указывает на скрытые недостатки во многих академических публикациях, такие как численная нестабильность, чрезмерное время вычислений или сложная реализация. Он также подчеркивает важность балансировки точности с простотой, поскольку чрезмерно сложные модели могут быть непрактичными или необязательными. Vermorel приводит пример из конкурса M5, где Lokad достигла высокой точности, используя относительно простую модель.

Hyndman соглашается с тем, что балансировка затрат на создание программного обеспечения, вычислений и точности является важной. Оба гостя ценят лаконичные, элегантные методы прогнозирования с широким применением, такие как те, которые представлены в библиотеках Hyndman.

Разговор вызывает вопросы о компромиссах между точностью и сложностью в моделях прогнозирования. Vermorel оспаривает мудрость стремиться к незначительному улучшению точности за счет гораздо большей сложности, как это видно в моделях глубокого обучения. Как Vermorel, так и Hyndman подчеркивают важность сосредоточиться на сути хороших прогнозов, не заблудившись в мелких улучшениях, которые могут не оправдать добавленную сложность.

Hyndman подчеркивает важность учета как точности, так и затрат на вычисления при разработке методов прогнозирования. Он связывает надежность своих прогнозирующих пакетов с их происхождением в консалтинговых проектах, где они должны были быть быстрыми, надежными и применимыми в различных контекстах.

Vermorel подчеркивает важность учета добавленной стоимости, которую метод прогнозирования приносит проблеме. Он сравнивает простые параметрические модели с более сложными методами, такими как градиентный бустинг деревьев, отмечая, что в некоторых случаях более простые модели могут быть достаточными. Vermorel также обсуждает особые проблемы прогнозирования в отраслях, таких как мода и автомобильное послепродажное обслуживание, где факторы замены и совместимости играют значительную роль.

Интервьюируемые подчеркивают важность не отвлекаться на сложность, поскольку она не обязательно означает лучшие научные или точные результаты. Vermorel предсказывает, что фундаментальные методы прогнозирования временных рядов будут по-прежнему актуальны через 20 лет, в то время как сложные методы, основанные на текущем оборудовании, могут устареть.

Роб Хиндман обсуждает свою работу по прогнозированию, в частности разработку программного пакета с открытым исходным кодом “Fable”, который упрощает процесс прогнозирования для тысяч временных рядов одновременно. Он подчеркивает свое обязательство поддерживать пакет как минимум 10 лет и отмечает преимущества программного обеспечения с открытым исходным кодом, включая сотрудничество и доступность.

Как Vermorel, так и Hyndman подчеркивают важность программного обеспечения с открытым исходным кодом в своей работе и потенциал сотрудничества в разработке высококачественных методов прогнозирования. Hyndman также упоминает свое преданность поддержке общедоступных библиотек, которые существуют с 2005 года, и роль, которую они играют в доступности анализа данных для общественности.

В целом, интервью подчеркивает сложности прогнозирования в сложном и быстро меняющемся мире и важность программного обеспечения и сотрудничества в разработке эффективных решений. Упор на программное обеспечение с открытым исходным кодом и общедоступный доступ подчеркивает ценность доступности анализа данных и прогнозирования для широкой аудитории.

Оба интервьюируемых ценят открытый характер своей работы, который обеспечивает широкий доступ и сотрудничество в разработке высококачественных методов прогнозирования.

Полный текст

Киран Чандлер: Прогнозирование - это древняя практика, которая постоянно развивается, и поэтому многие программные продукты не выдерживают испытание временем. Один человек, который не поддался этой тенденции, - наш сегодняшний гость, Роб Хиндман, который разработал программное обеспечение с открытым исходным кодом, которое было загружено миллионами пользователей. Поэтому сегодня мы с ним обсудим устойчивость методов прогнозирования в реальном мире. Итак, Роб, большое спасибо, что присоединились к нам прямо из Австралии. Я знаю, что у вас уже поздний вечер. Как всегда, мы хотим начать с того, чтобы узнать немного о наших гостях, так что, может быть, вы могли бы просто рассказать нам немного о себе.

Роб Хиндман: Спасибо, Киран, и рад присоединиться к вам. Да, здесь в Австралии уже 8 вечера, так что не так поздно. Я профессор статистики и руководитель кафедры эконометрики и бизнес-статистики в Монашском университете. Я там уже 26 лет. Большую часть этого времени я также был главным редактором Международного журнала прогнозирования и директором Международного института прогнозирования с 2005 по 2018 год. Я академик, пишу много статей и написал несколько книг, в том числе три о прогнозировании. Если я не занимаюсь этим, то обычно играю в теннис.

Киран Чандлер: Понятно, я сам люблю поиграть в теннис летом. Может быть, однажды мы сможем сыграть вместе. Йоанн, сегодня наша тема - устойчивость методов прогнозирования в реальном мире и идея “программного обеспечения”, которое является устойчивым и длительным. В чем суть этой идеи?

Йоанн Верморель: Большинство программного обеспечения со временем разрушается по разным причинам. Когда речь идет о научном программном обеспечении, нужно подумать о том, как это программное обеспечение создается. Обычно оно создается для поддержки публикации статьи, поэтому это в основном одноразовое программное обеспечение. То, что я нашел довольно замечательным в работе профессора Хиндмана, - это то, что он вышел за рамки того, что обычно делается в академических кругах, а именно создание одноразового программного обеспечения, публикация статьи, завершение работы и переход к следующей статье. Он на самом деле создал огромный набор библиотек, которые не только включали множество его собственных результатов и результатов его коллег, но и предоставляли очень последовательную среду на основе языка, который стал очень популярным, а именно R, среда для статистического анализа. Это доказало свою ценность на протяжении нескольких десятилетий, и это довольно значительное достижение. Большая часть программного обеспечения, которое мы видим сегодня, является старым, с очень небольшим количеством основ, выходящих из Unix и более сложных вещей. В области науки о данных нет так много примеров вещей, которые выдерживают испытание временем, кроме основных строительных блоков для линейной алгебры и подобных областей.

Киран Чандлер: … анализ, но когда вы действительно об этом задумаетесь, я могу назвать десяток примеров программного обеспечения, которое смогло завоевать такую аудиторию и продержаться так долго. Однако их действительно немного. Я считаю, что здесь есть нечто особенное, выходящее за рамки обычных академических исследований. Роб, давайте поговорим немного подробнее о вашем академическом исследовании. Очевидно, что вы не ограничиваетесь только миром цепей поставок, как мы здесь. Так вот, в каких других областях вам интересно применять методы прогнозирования?

Роб Хиндман: Меня интересует все, где я могу получить много данных. Например, я занимаюсь прогнозированием потребления электроэнергии, где есть много хороших данных за десятилетия. Я прогнозирую смертность, население, и в последнее время я работаю над прогнозированием туристических чисел, что является довольно сложной задачей во время пандемии. Я помогаю австралийскому правительству разобраться в этом. Еще одна задача, над которой я работаю для австралийского правительства, - это прогнозирование случаев COVID-19. Это моя первая попытка заниматься чем-то в эпидемиологической сфере, и мне пришлось изучить немало эпидемиологического подхода к моделированию и внедрить его в некоторые прогностические ансамбли. Это было интересно. В основном, если есть много данных, я заинтересован в попытке их моделирования. Я также занимаюсь обнаружением аномалий и исследовательским анализом данных, где есть большие объемы данных. Я работал с множеством компаний и правительственных организаций, и если они обращаются ко мне с проблемой, которая включает в себя много данных, я заинтересован в размышлениях о том, как сделать лучший прогноз по сравнению с тем, что происходит в настоящее время.

Киран Чандлер: Замечательно, я могу представить, что туристическая индустрия в настоящее время довольно интересна. С точки зрения прогнозирования, это настоящая аномалия. Йоханнес, наш фокус, очевидно, на индустрии поставок, но идея заключается в том, что мы не сосредоточены только на одной отрасли. Мы обслуживаем очень широкую аудиторию, поэтому с какими сложностями вы можете столкнуться, когда пытаетесь удовлетворить потребности такого большого количества разных людей?

Йоханнес Верморель: Во-первых, это просто то, как мы воспринимаем мир. У нас нет ничего подобного научному измерению, такому как установленная для смертности или других вещей статистика. У вас есть корпоративное программное обеспечение, такое как ERP, MRP и WMS, которое производит или записывает данные почти случайным образом. Сбор данных не был причиной, по которой все эти программы были внедрены, поэтому вы получаете записи, но они не были разработаны как инструменты для выполнения измерений в течение времени, которые можно было бы прогнозировать. Это почти случайный побочный продукт, и это создает массу сложностей. Одна из проблем, с которыми вы сталкиваетесь, - это то, что вы можете сделать в терминах прогностических методик и фокусированного исследования, что-то, что выживет при переходе от одной ERP к другой. Если вы меняете систему, которая очень беспорядочна и случайна, вам нужно учесть, как это повлияет на процесс прогнозирования.

Киран Чандлер: Итак, следующая тема, о которой я хотел бы поговорить, - это различный IT-ландшафт и исторические случайности в развертывании различных корпоративных программных инструментов. Если вам приходится полностью изменять метод, очевидно, что вы не накапливаете никакого набора знаний или техник. Одна из проблем заключается в том, можно ли что-то сделать в этой области? И с нашей точки зрения в Lokad наибольший интерес представляют прогнозы, которые обычно не представляют себя естественным образом в виде временных рядов. Что, если у вас есть проблема, которая не удобно формулируется в виде временного ряда? Вам все равно нужно что-то, что похоже на прогноз, но оно представляется себя очень по-другому. Роб, каковы ваши мысли о применении альтернативных методов прогнозирования временных рядов?

Роб Хиндман: Ну, это очень сильно зависит от данных, как сказал Йоханнес, чтобы определить, какая модель будет необходима для решения конкретной проблемы. Мое программное обеспечение для временных рядов решает множество проблем, но не все из них. Некоторые компании будут иметь набор данных, организованный таким образом или записанный таким образом, что им придется его изменить или придумать другое решение. Программное обеспечение, которое я написал и которое является самым популярным, решает 90% проблем прогнозирования компаний; с остальными 10% вам придется делать другие вещи.

Киран Чандлер: Как часто, по вашему опыту, возникает таких 10%, Йоханнес?

Йоханнес Верморель: Это очень тонкая проблема. Мой собственный путь через мир прогнозирования в Lokad показал мне, насколько глубоко это знание. Сначала мы перешли от прогнозов на точку к вероятностным прогнозам, что изменило наше представление о проблеме. Но это еще более глубоко. Например, если мы говорим о моде, проблема заключается в том, что вы хотите прогнозировать спрос, чтобы знать, что производить. Однако, когда вы решаете, что вы собираетесь производить, у вас есть гибкость вводить больше или меньше продуктов. Таким образом, сама идея, что у вас есть временные ряды, которые можно прогнозировать, зависит от ваших решений. В моде, например, то, что вы вводите еще один продукт в свой ассортимент, является частью вашей проблемы прогнозирования. Вы хотите не только прогнозировать спрос, но и формировать спрос. В ходе нашего пути мы поняли, что у нас есть неустранимые неопределенности, которые дают нам один угол, полностью ортогональный классической точечной перспективе прогнозирования. Но нам также приходится иметь дело со всеми обратными связями.

Киран Чандлер: Итак, Йоханнес, расскажите нам, как прогнозные модели влияют на оптимизацию цепочки поставок?

Йоханнес Верморель: Когда мы делаем прогноз, мы принимаем лучше обоснованное решение. Это имеет глубокое влияние на то, как мы хотим строить наши прогнозные модели. Затем мы можем добавить больше переменных, таких как контроль степени продуктов, ценовые точки, сообщение и даже продвижение продуктов. Если я продолжу на примере моды, вы прогнозируете количество, которое вы хотите иметь, а затем решаете, что в ваших магазинах некоторые продукты будут представлены намного более постоянно, чем другие. Это имеет глубокое влияние на то, что вы будете наблюдать. Основной вызов, с которым столкнулась Lokad в области прогнозного анализа, заключался в том, чтобы иметь возможность рассматривать проблемы с разных точек зрения, что усложняет чисто временную перспективу.

Киран Чандлер: Хорошо, Роб, давайте, может быть, перейдем к обсуждению вещей с академической точки зрения. Многие люди создают программное обеспечение исключительно для научной статьи, а затем оно почти выбрасывается. Почему, по вашему мнению, некоторым создаваемым программам не хватает долговечности?

Роб Хиндман: Ну, нужно подумать о мотивации большинства ученых. Им платят за написание статей и проведение занятий. После написания статьи может быть некоторая поддержка для создания программного обеспечения для ее реализации. Но большинству ученых это не приносит реальной награды, и, конечно, нет никакой награды за поддержание этого программного обеспечения в течение длительного времени. Те, кто это делает, делают это потому, что им это небезразлично или это труд любви. Это не то, за что им платят. Это не их основная деятельность. Я думаю, что это проблема в академическом мире. Слишком много внимания уделяется созданию новых методов и их публикации, а недостаточно внимания уделяется взаимодействию с практикующим сообществом и обеспечению того, чтобы ваши методы были хорошо задокументированы и имели дружественное пользователю программное обеспечение, доступное в долгосрочной перспективе. Это проблема мотивации в академическом мире. Моя мотивация заключается в том, что, разработав новую методологию, я хочу, чтобы люди ее использовали. Я не хочу просто опубликовать статью и прочитать ее дюжиной или, если мне повезет, сотней человек. Я действительно хочу, чтобы мои методы вносили разницу в мире. Независимо от того, за что мне платят, я делаю это, потому что получаю много удовлетворения от того, что мои методы действительно используются на практике.

Йоханнес Верморель: Прогнозные модели стали более сложными, и их нелегко сделать надежными. В Lokad нам приходится поддерживать много старого кода, чтобы наши модели работали. Проблема заключается в том, что нельзя просто создать модель и оставить ее такой. Вам нужно иметь способ объяснить, что делает модель и почему она это делает. Вам нужно убедиться, что модель хорошо задокументирована и что люди могут использовать ее на практике. Это не так просто, но это важно, если вы хотите, чтобы ваши модели были приняты.

Роб Хиндман: Я думаю, что также интересно то, что с течением времени появляются новые методы, и поэтому вам нужно предоставлять новое программное обеспечение или новые инструменты, которые учитывают развитие прогнозирования. Одним из них, о котором упомянул Йоханнес, является переход от точечного прогнозирования к вероятностному прогнозированию, который произошел в академической литературе, возможно, в последние 15 лет, и Lokad был очень быстр в освоении этого и предоставлении вероятностных прогнозов. Я думаю, что, вероятно, Lokad была одной из первых компаний по прогнозированию цепей поставок в мире, которая сделала это. Мое первоначальное программное обеспечение, хотя и давало вероятностные прогнозы, всегда делало упор на точечные прогнозы,

Киран Чандлер: В последние несколько лет акцент перевернулся. Сначала получают вероятностные прогнозы, а затем точечные прогнозы.

Йоханнес Верморель: Одна из моих собственных критик с многими академическими публикациями заключается в том, что обычно вы сталкиваетесь с тоннами скрытых недостатков в методах. Таким образом, у вас есть метод, который, как вы знаете, превосходит эталон, но когда вы хотите внедрить его в фактическую реализацию, вы увидите, например, что он численно нестабилен или что время вычисления нереально долгое настолько, что если вы используете игрушечный набор данных, это уже займет дни вычислений. И если вы хотите иметь какой-либо набор данных из реального мира, это будет занимать годы вычислений.

И у вас могут возникнуть все возможные проблемы, такие как то, что метод дьявольски сложен для реализации, и даже если в теории вы можете сделать все правильно, на практике у вас всегда будет какая-то глупая ошибка, которая помешает вам достичь чего-либо. Или, возможно, метод может иметь невероятно тонкие зависимости от длинной серии метапараметров, поэтому это некая темная наука, чтобы заставить его работать, потому что у вас есть, скажем, 20 неясных параметров, которые вам нужно настроить таким образом, что они полностью не задокументированы и обычно существуют только в умах исследователей, создавших метод.

Роб Хиндман: Это очень интересно, потому что когда я смотрю на методы, которые выдерживают испытание временем, многие суперклассические методы, которые вы создали для Хиндмана, например, демонстрируют удивительно хорошие результаты по сравнению с очень сложными методами. Во время конкурса M5 в прошлом году Lokad заняла шестое место среди 909 команд по точности прогнозирования точечного прогноза. Но мы сделали это с помощью модели, которая была очень простой, почти учебной параметрической модели прогнозирования, и мы использовали небольшой трюк с моделированием ETS, чтобы в основном получить эффект дробового оружия и вероятностное распределение.

В целом, это, вероятно, была модель, которую мы могли бы суммировать на одной странице с несколькими коэффициентами для сезонности, дня недели, недели месяца, недели года, и все. Так что, буквально, мы отстали на один процент от самой точной модели, которая использовала градиентные деревья, и я подозреваю, что в терминах сложности кода, сложности модели и общей непрозрачности мы говорим о чем-то, что в два, а может быть, и в три раза сложнее.

Йоханнес Верморель: В этом я верю в успех ваших библиотек. Мне очень нравится в методах то, что большинство из них имеют элегантную реализацию и они лаконичны. Таким образом, в терминах применимости есть нечто глубоко истинное и верное, где вы получаете точность с минимальными усилиями и хлопотами, в отличие, я бы сказал, от другой стороны лагеря глубокого обучения. У меня ничего против глубокого обучения, когда вы хотите решить невероятно сложные проблемы, например, например…

Киран Чандлер: Добро пожаловать в эпизод. Сегодня у нас Йоханнес Верморель, основатель Lokad, и Роб Хиндман, профессор статистики и руководитель кафедры эконометрики и бизнес-статистики в Монашском университете. Обсудим машинный перевод и точность модели.

Йоханнес Верморель: Я оспариваю мудрость наличия модели, которая на один процент точнее, но имеет миллионы параметров и является невероятно сложной и непрозрачной. Действительно ли это лучше с научной точки зрения? Может быть, нам не следует отвлекаться на достижение одного процента большей точности за счет того, что модель становится в 1000 раз сложнее. Есть опасность полностью заблудиться. Хорошая наука, особенно в прогнозировании, должна сосредоточиться на сути того, что делает хороший прогноз, отбросив отвлечения, которые приносят небольшую долю дополнительной точности, но, возможно, за счет большого количества дополнительного недопонимания.

Роб Хиндман: Вам нужно найти баланс между двумя затратами: затратами на разработку программного обеспечения и выполнение фактических вычислений, и затратами на точность. В академическом мире обычно акцент делается на точности, не учитывая затраты на вычисления или разработку кода. Я согласен с вами, Йоханнес, что нам нужно учитывать оба аспекта. Иногда вам не обязательно нужен самый точный метод, если на его поддержку и выполнение вычислений требуется слишком много времени. Мои пакеты прогнозирования надежны, потому что они были разработаны в рамках консультационных проектов. Эти функции применялись в различных контекстах, поэтому они должны были быть относительно надежными. Я не хотел, чтобы компании возвращались ко мне и говорили, что что-то не работает или что оно не работает с их набором данных. Факт того, что я провел много консультаций, означает, что эти функции видели много данных, прежде чем они были представлены широкой публике. Они также должны быть относительно быстрыми, потому что большинство компаний не хотят ждать несколько дней, чтобы выполнить вычисления MCMC на модели Байеса; они хотят получить прогноз в разумное время.

Киран Чандлер: Как вы сбалансируете надежность, точность и затраты на внедрение модели с бизнес-точки зрения, Йоханнес?

Йоханнес Верморель: Все сводится к тому, что вы добавляете на стол. Например, если у нас есть супер простая параметрическая модель, как та, которую мы использовали для соревнования M5, и мы достигаем одного процента точности очень сложного метода градиентного бустинга, который был победителем, стоит ли добавленная сложность? Победивший метод использовал градиентные бустинги с очень сложной схемой дополнения данных, которая, по сути, была способом значительно увеличить ваш набор данных.

Киран Чандлер: Это довольно большое количество, и теперь у вас есть набор данных, который в 20 раз больше. И затем вы применяете очень сложную и сложную модель поверх этого. Так вопрос в том, принесете ли вы что-то фундаментально новое и глубокое на стол? И как вы это сбалансируете?

Йоханнес Верморель: Я сбалансирую это, задумавшись, если я упускаю из виду слона в комнате, который мне действительно нужно учесть. Например, если я говорю о моде, очевидно, что каннибализация и замещение очень сильны. Люди не заходят в магазин моды, думая, что им нужен именно этот штрих-код. Это даже не правильный способ мыслить о проблеме. Каннибализация и замещение повсюду, и вам нужно что-то, что объединяет эту концепцию. Если я рассматриваю автомобильную отрасль, например, и смотрю на рынок автозапчастей, проблема в том, что люди не покупают автозапчасти, потому что им нравятся автозапчасти. Они покупают автозапчасти, потому что у их транспортного средства есть проблема, и они хотят ее исправить, и все. Оказывается, что у вас есть очень сложная матрица совместимости между транспортными средствами и автозапчастями. В Европе есть более 1 миллиона различных автозапчастей и более 100 000 различных транспортных средств. И обычно для любой проблемы, которую у вас есть, есть дюжина различных совместимых автозапчастей, поэтому у вас есть замещение, но в отличие от моды оно представлено в полностью детерминированной форме. Замещения почти идеально известны и имеют четкую структуру, и вы хотите иметь метод, который действительно использует тот факт, что в этом нет никакой неопределенности.

Таким образом, проблема за проблемой я сбалансирую это, убедившись, что если мы хотим заплатить за дополнительную сложность, это действительно стоит того. Например, если я возьму библиотеки профессора Хиндмана по сравнению, скажем, с TensorFlow, чтобы дать представление, для большинства ваших моделей мы говорим о, вероятно, килобайтах кода. Если мы посмотрим на TensorFlow, только одна скомпилированная библиотека занимает 800 мегабайт, и как только вы включите TensorFlow версии один, вы почти включаете миллиарды строк кода.

Иногда люди могут подумать, что мы спорим о чем-то, что является всего лишь вопросом оттенков серого, и нет правильного или неправильного ответа. Это просто вопрос вкуса, можно ли сделать его немного проще или немного сложнее. Но реальность, которую я наблюдаю, заключается в том, что обычно это не просто оттенки серого. Мы говорим о методах с несколькими порядками сложности. Итак, если я хочу сделать свой прогноз, например, каковы шансы, что библиотеки профессора Хиндмана будут актуальны еще 20 лет, и каковы шансы, что TensorFlow версии один будет актуален еще 20 лет? Я бы поставил немало денег на идею, что фундаментальные методы временных рядов останутся актуальными.

Кирен Чандлер: Вы думаете, что техника прогнозирования будет актуальна еще 20 лет?

Жоанн Верморель: Вещи, которые включают буквально миллиарды строк случайной сложности о спецификах графических карт, которые были выпущены за последние пять лет, исчезнут. Я не отрицаю тот факт, что были некоторые абсолютно потрясающие прорывы в глубоком обучении. Что я говорю, так это то, что нам действительно нужно понять добавленную стоимость, которая сильно варьируется в зависимости от проблем, с которыми мы сталкиваемся. Мы не должны отвлекаться на сложность. Это не значит, что она более научная, точная или действительная. Она может быть впечатляющей и похожей на TED-доклад, но мы должны быть очень осторожны в этом отношении.

Кирен Чандлер: Роб, я оставлю вам последний вопрос. Что касается того, о чем говорил Жоанн, о том, что вещи будут существовать еще 10-20 лет, вы можете представить, что ваши библиотеки все еще будут существовать? Над чем вы работаете сегодня, что, по вашему мнению, будет полезно в ближайшие годы?

Роб Хиндман: Моя первая публичная библиотека появилась примерно в 2005 году, так что они уже просуществовали 15 лет. Я, конечно, намерен поддерживать все из них, даже те, которые я считаю устаревшими. Это не требует больших усилий. Над новыми пакетами, над которыми я работаю, есть пакет под названием Fable, который реализует большую часть тех же техник, но по-другому, чтобы пользователи могли прогнозировать тысячи временных рядов одновременно. Fable и некоторые связанные пакеты уже существуют несколько лет, и моя новейшая учебная книга использует их. Я ожидаю, что они будут широко использоваться как минимум 10 лет, и пока я способен, я буду поддерживать их и убедиться, что они будут существовать. Мне повезло иметь очень хорошего помощника, который помогает мне с поддержкой пакетов. Он также привержен миру открытого исходного кода и созданию высококачественного программного обеспечения в разработке с открытым исходным кодом.

Кирен Чандлер: Это замечательно, и мир открытого исходного кода позволяет каждому иметь к нему доступ. Большое спасибо вам обоим за ваше время. Мы должны закончить здесь, и спасибо за внимание. Увидимся в следующем эпизоде.