Вероятностное прогнозирование (Цепочка поставок)

learn menu
Автор: Жоанн Верморель, ноябрь 2020 г.

Прогноз считается вероятностным, а не детерминированным, если он содержит набор вероятностей, связанных со всеми возможными будущими результатами, а не указывает на один конкретный результат как “единственный” прогноз. Вероятностные прогнозы важны в случае, когда неопределенность неизбежна, что почти всегда бывает в случае сложных систем. Для цепочек поставок вероятностные прогнозы необходимы для принятия надежных решений в условиях неопределенности будущих условий. В частности, спрос и время выполнения, два ключевых аспекта анализа цепочки поставок, лучше всего рассматриваются с помощью вероятностного прогнозирования. Вероятностная перспектива естественным образом подходит для экономического приоритезации решений на основе ожидаемой, но неопределенной отдачи. Большое разнообразие статистических моделей обеспечивает вероятностные прогнозы. Некоторые из них структурно близки к их детерминированным аналогам, в то время как другие существенно отличаются. Оценка точности вероятностного прогноза требует специфических метрик, отличающихся от их детерминированных аналогов. Использование вероятностных прогнозов требует специализированных инструментов, отличающихся от их детерминированных аналогов.

Много костей, иллюстрирующих вероятностный прогноз

Детерминированные прогнозы против вероятностных прогнозов

Оптимизация цепочек поставок основана на правильном предвидении будущих событий. Численно эти события предвидятся с помощью прогнозов, которые включают в себя широкий спектр численных методов, используемых для количественной оценки будущих событий. С 1970-х годов наиболее широко используемой формой прогноза стал детерминированный временной ряд: количество, измеренное в течение времени - например, спрос на продукт в единицах - прогнозируется в будущем. Прошлая часть временного ряда - это исторические данные, будущая часть временного ряда - это прогноз.

Скользящее среднее как детерминированный прогноз.
MA означает “скользящая средняя”, она не особенно хорошо работает с разреженными временными рядами.

Эти прогнозы временных рядов называются детерминированными, потому что для каждого момента времени в будущем прогноз предоставляет одно значение, которое ожидается наиболее точно соответствовать будущему результату. Действительно, хотя прогноз является однозначным, широко понятно, что прогнозу мало шансов быть абсолютно правильным. Будущие результаты будут отклоняться от прогноза. Соответствие детерминированного прогноза его будущим результатам количественно оценивается с помощью метрик точности, таких как среднеквадратичная ошибка (MSE), например.

Прогнозы с вероятностной оценкой принимают другую перспективу на предвидение будущих результатов. Вместо того чтобы представлять одно значение как “лучший” результат, вероятностный прогноз состоит в присвоении вероятности каждому возможному результату. Другими словами, все будущие события остаются возможными, но они не равновероятны. Ниже представлена визуализация вероятного временного ряда, демонстрирующая “эффект дробовика”, который обычно наблюдается в большинстве реальных ситуаций. Мы вернемся к этой визуализации более подробно в следующем разделе.

Прогноз спроса с вероятностной оценкой.
Вероятностный прогноз, иллюстрирующий ситуацию с высокой степенью неопределенности.

Временной ряд, количество измеренное в течение времени, вероятно, является наиболее широко известной и широко используемой моделью данных. Эту модель данных можно прогнозировать как детерминированным, так и вероятностным способом. Однако существует много альтернативных, обычно более богатых моделей данных, которые также подходят для прогнозирования обоих видов. Например, компания, занимающаяся ремонтом реактивных двигателей, может пожелать предвидеть точный список запасных частей, которые понадобятся для предстоящей технической операции. Это предвидение может быть представлено в виде прогноза, но это не будет прогноз временного ряда. Детерминированный прогноз, связанный с этой операцией, представляет собой точный список частей и их количества. В то же время, вероятностный прогноз - это вероятность каждой комбинации частей (включая количество), что именно эта комбинация будет необходима для выполнения ремонта.

Кроме того, хотя термин “прогноз” подчеркивает предвидение какого-либо рода, идея может быть обобщена на любое статистически обоснованное утверждение о системе, включая ее прошлые (но неизвестные) свойства. Практика статистического прогнозирования возникла в течение 20-го века, до появления более современной перспективы статистического обучения, которая охватывает все данные, основанные на экстраполяциях, которые могут быть выполнены, независимо от какой-либо временной размерности. Для большей ясности, мы будем продолжать использовать термин “прогноз” в дальнейшем, даже если временной аспект не всегда равносилен прошлому, известному, и будущему, неизвестному. Например, компания может пожелать оценить продажи, которые могли бы состояться для продукта в магазине, если бы продукт не был отсутствующим на складе в этот день. Оценка полезна для количественной оценки проблемы в терминах качества обслуживания. Однако, поскольку событие уже прошло, “реальная” цифра продаж никогда не будет наблюдаться. Тем не менее, предполагая, что она еще не была тривиально наблюдаема, статистическая оценка прошлого спроса является проблемой, очень близкой к оценке будущего спроса.

Вероятностные прогнозы более богаты - информационно - чем их детерминированные аналоги. В то время как детерминированный прогноз дает “лучшую догадку” о будущем результате, он ничего не говорит о альтернативах. Фактически, всегда возможно преобразовать вероятностный прогноз в его детерминированный аналог, взяв среднее, медиану, моду и т. д. из вероятностного распределения. Однако обратное не верно: невозможно восстановить вероятностный прогноз из детерминированного.

Однако, хотя вероятностные прогнозы статистически превосходят детерминированные прогнозы, они остаются редко используемыми в цепочке поставок. Однако их популярность последние десять лет постоянно растет. Исторически вероятностные прогнозы появились позже, так как они требуют значительно больше вычислительных ресурсов. Использование вероятностных прогнозов для целей цепочки поставок также требует специализированных программных инструментов, которые также часто недоступны.

Применение в цепочке поставок

Оптимизация цепочки поставок состоит в принятии “правильного” решения - в настоящий момент времени - которое наиболее выгодно решит будущую ситуацию, которая только приближенно оценивается. Однако, неопределенность, связанная с будущими событиями, в значительной степени несократима. Таким образом, компании необходимо, чтобы решение было устойчивым, если предвидение будущего события - то есть прогноз - неполноценно. Это было сделано минимально с середины XX века благодаря анализу запасов безопасности. Однако, как мы увидим ниже, помимо исторического интереса, больше нет никаких причин отдавать предпочтение запасам безопасности перед “естественными” вероятностными численными методами.

Вероятностная перспектива прогнозирования занимает радикальную позицию по отношению к неопределенности: этот подход пытается количественно оценить неопределенность в наибольшей степени. В цепочке поставок затраты обычно сосредоточены на статистических экстремумах: это неожиданно высокий спрос, который вызывает нехватку товара, это неожиданно низкий спрос, который вызывает списание товара со склада. Между ними запасы товара нормально оборачиваются. Вероятностные прогнозы - грубо говоря - это попытка управлять этими редкими ситуациями с высокими затратами, которые являются неотъемлемыми в современных цепях поставок. Вероятностные прогнозы могут и должны рассматриваться как основной элемент любой практики управления рисками в рамках цепочки поставок.

Многие аспекты цепочек поставок особенно подходят для вероятностного прогнозирования, такие как:

  • спрос: одежда, аксессуары, запасные части; а также многие другие типы товаров, обычно связаны с неустойчивым и/или прерывистым спросом. Запуск продукта может быть удачным или неудачным. Акции конкурентов могут временно и непредсказуемо уменьшить долю рынка.
  • время выполнения заказа: импорт из-за рубежа может вызвать целую серию задержек на любом этапе цепочки (производство, транспортировка, таможня, прием и т. д.). Даже местные поставщики могут иногда иметь длительные сроки выполнения заказа, если у них возникают проблемы с запасами. Время выполнения заказа обычно имеет “толстые хвосты” распределения.
  • урожайность (свежие продукты): количество и качество производства многих свежих продуктов зависят от условий, таких как погода, которые находятся вне контроля компании. Вероятностный прогноз количественно оценивает эти факторы на протяжении всего сезона и предлагает возможность выйти за пределы релевантности классических прогнозов погоды.
  • возвраты (электронная коммерция): когда клиент заказывает один и тот же товар в трех разных размерах, вероятность того, что два из этих размеров будут возвращены, высока. В более общем случае, хотя существуют сильные региональные различия, клиенты обычно используют выгодные политики возврата, если они существуют. Вероятность возвратов для каждого заказа должна быть оценена.
  • брак (авиация): ремонтопригодные детали самолетов, часто называемые ротаблами, иногда не могут быть отремонтированы. В этом случае деталь списывается, так как она не пригодна для повторного монтажа на самолет. Хотя обычно невозможно заранее знать, выживет ли деталь после ремонта или нет, вероятность списания детали должна быть оценена.
  • запасы (розничная торговля): клиенты могут перемещать, повреждать или даже красть товары из розничного магазина. Таким образом, электронный уровень запасов является только приближением реальной доступности товара на полке, воспринимаемой клиентами. Уровень запасов, воспринимаемый клиентами, должен быть оценен с помощью вероятностного прогноза.

Этот краткий список показывает, что углы, подходящие для вероятностного прогноза, значительно превосходят единственный традиционный угол “прогнозирования спроса”. Хорошо спроектированная оптимизация цепи поставок требует учета всех соответствующих источников неопределенности. Хотя иногда возможно снизить неопределенность - как подчеркивается в концепции “lean manufacturing” - обычно существуют экономические компромиссы, и в результате остается некоторое количество неустранимой неопределенности.

Прогнозы, однако, являются всего лишь образованными мнениями о будущем. Вероятностные прогнозы могут рассматриваться как замечательно детализированные мнения, но в этом отношении они не отличаются от их детерминированных аналогов. Ценность вероятностных прогнозов для цепи поставок заключается в том, как эта детализация используется для принятия более прибыльных решений. В частности, вероятностные прогнозы обычно не ожидаются более точными, чем их детерминированные аналоги, если для оценки качества прогнозов используются детерминированные метрики точности.

В защиту изменчивости

Несмотря на то, что многие подходы к управлению цепями поставок пропагандируют идею об устранении изменчивости, она остается неизбежной - отсюда и необходимость вероятностных прогнозов. Первое заблуждение заключается в том, что изменчивость обязательно является плохим фактором для цепи поставок; это не так. Второе заблуждение заключается в том, что изменчивость может быть устранена; это невозможно.

Изменчивость имеет положительные последствия для цепей поставок во многих ситуациях. Например, с точки зрения спроса, большинство отраслей определяются новизной, такой как мода, культурные продукты, мягкая и твердая роскошь, а также “попадания или промахи” в бизнесе. Большинство новых продуктов не являются успешными (промахами), но те, которые имеют успех (попадания), приносят огромную прибыль. Дополнительная изменчивость хороша, потому что она увеличивает вероятность получения высоких доходов, в то время как недостатки остаются ограниченными (в худшем случае, весь запас списывается). Непрерывный поток новых продуктов, поступающих на рынок, обеспечивает постоянное обновление “попаданий”, в то время как старые продукты устаревают.

С точки зрения поставщика, процесс поиска поставщиков, который обеспечивает высокую изменчивость цен, является более превосходным - при равных условиях - по сравнению с альтернативным процессом, который генерирует более последовательные (т.е. менее изменчивые) цены. Действительно, выбирается наименьшая цена, в то время как остальные отклоняются. Неважно, насколько низкая “средняя” цена поставки, важно обнаружить источники с более низкими ценами. Таким образом, хороший процесс поиска поставщиков должен быть спроектирован для увеличения изменчивости, например, путем акцентирования рутины исследования новых поставщиков, а не ограничения процесса поиска на хорошо установленных.

Иногда изменчивость может быть полезна по более тонким причинам. Например, если бренд слишком предсказуем, когда дело доходит до его акционных операций, клиенты определяют паттерн и начинают откладывать покупку, так как знают, что акция будет и когда. Изменчивость - даже хаотичность - акционных мероприятий смягчает это поведение в некоторой степени.

Другой пример - наличие факторов путаницы в самой цепочке поставок. Если новые продукты всегда запускаются с телевизионной и радиорекламой, статистически сложно различить соответствующее влияние телевидения и радио. Добавление изменчивости в интенсивность рекламной кампании в зависимости от канала обеспечивает возможность извлечения большего количества статистической информации из этих операций, которая впоследствии может быть превращена в идеи для более эффективного распределения маркетинговых ресурсов.

Естественно, не всякая изменчивость является полезной. Производство по принципу “lean manufacturing” правильно подчеркивает, что на производственной стороне цепочки поставок изменчивость обычно вредна, особенно когда речь идет о изменении сроков. Действительно, в таких ситуациях могут случайно возникать процессы “последним пришел - первым ушел” (LIFO), что, в свою очередь, усиливает изменчивость времени выполнения заказа. В таких ситуациях случайную изменчивость следует устранить, обычно путем улучшения процесса, иногда - путем улучшения оборудования или условий.

Изменчивость - даже если она вредна - часто является неизбежной. Как мы увидим в следующем разделе, цепочки поставок подчиняются закону малых чисел. Бессмысленно думать, что уровень магазина когда-либо можно надежно предсказать - с детерминистской точки зрения - пока клиенты сами не знают, что они собираются купить. Более обще говоря, снижение изменчивости всегда связано с затратами (и дальнейшее снижение стоит еще дороже), в то время как предельное снижение изменчивости приводит только к уменьшению отдачи. Таким образом, даже если изменчивость может быть снижена, на практике она очень редко может быть полностью устранена из-за экономических последствий.

Закон малых чисел

Закон малых чисел в цепочке поставок можно сформулировать так: малые числа преобладают повсюду вдоль цепочки. Этот наблюдательный закон является результатом экономии масштаба и нескольких других факторов, которые определяют большую часть структурных аспектов цепочек поставок:

  • поставщик, который поставляет десятки тысяч единиц материалов в день, вероятно, имеет минимальные партии заказа (MOQ) или скидки на цену, которые предотвращают слишком частое размещение заказов. Количество заказов, переданных поставщику в любой день, редко превышает однозначное число.
  • фабрика, производящая десятки тысяч единиц в день, вероятно, работает с большими партиями тысяч единиц. Производственная продукция, скорее всего, упаковывается в целые палеты. Количество партий в любой день не превышает небольшое двузначное число.
  • склад, который получает десятки тысяч единиц в день, вероятно, поставляется грузовиками, каждый грузовик разгружает свой груз на склад. Количество поставок грузовиков в любой день редко превышает двузначное число, даже для очень больших складов.
  • розничный магазин, который может содержать десятки тысяч единиц товара на складе, вероятно, распределяет свой ассортимент на тысячи отдельных товарных позиций. Количество единиц товара на складе для каждого товара очень редко превышает однозначное число.

Естественно, изменяя единицу измерения, всегда можно увеличить числа. Например, если вместо количества палет мы считаем количество граммов палет или их денежную стоимость в центах США, получаются большие числа. Однако закон малых чисел следует понимать с позиции счета вещей с точки зрения разумной цепочки поставок. Хотя в теории этот принцип может показаться достаточно субъективным, на практике это не так из-за очевидных дискретных особенностей современных цепочек поставок: пакеты, коробки, палеты, контейнеры, грузовики …

Этот закон имеет высокую актуальность с точки зрения вероятностного прогнозирования. Во-первых, он подчеркивает, что в ситуациях цепочки поставок преобладают дискретные прогнозы, то есть результат, который нужно предвидеть (или принять решение), является целым числом, а не дробным числом. Вероятностные прогнозы особенно подходят для дискретных ситуаций, потому что для каждого дискретного результата можно оценить вероятность. В отличие от этого, детерминированные прогнозы имеют проблемы с дискретными результатами. Например, что означает, что ожидаемые ежедневные продажи продукта составляют 1,3 единицы? Единицы не продаются дробно. Хотя из этого утверждения можно сделать более осмысленные “дискретные” интерпретации, его вероятностный аналог (например, 27% вероятность спроса на 0 единиц, 35% вероятность спроса на 1 единицу, 23% вероятность спроса на 2 единицы и т. д.) намного более прямолинеен, потому что он учитывает дискретную природу интересующего явления.

Во-вторых, хотя вероятностные прогнозы могут казаться радикально более сложными с точки зрения вычислительных ресурсов, на практике это не так, именно благодаря закону малых чисел. Действительно, вернемся к обсуждаемым выше ежедневным продажам продукта, нет смысла численно оценивать вероятность того, что спрос превысит 100 единиц в любой заданный день. Эти вероятности можно округлить до нуля - или некоторого произвольно малого значения. Влияние на числовую точность модели цепочки поставок остается незначительным. Как правило, разумно считать, что вероятностные прогнозы требуют примерно три порядка больше вычислительных ресурсов, чем их детерминированные аналоги. Однако, несмотря на это дополнительное время, преимущества в терминах эффективности цепочки поставок значительно превышают стоимость вычислительных ресурсов.

Метрики точности для вероятностных прогнозов

Независимо от того, что происходит, разумно спроектированный вероятностный прогноз указывает на то, что существует ненулевая вероятность того, что такой результат может произойти. Это любопытно, потому что на первый взгляд может показаться, что вероятностные прогнозы как-то устойчивы к реальности, подобно гадалке, делающей множество двусмысленных пророческих заявлений, которые никогда не могут быть доказаны неверными, так как гадалка всегда может придумать объяснение о правильном способе интерпретации пророчеств после события. На самом деле существует несколько способов количественно оценить качество вероятностного прогноза. Некоторые из этих способов являются метриками, похожими по духу на метрики, используемые для оценки точности детерминированных прогнозов. Другие способы отклоняются от детерминированной перспективы и предлагают более радикальные и глубокие подходы.

Давайте кратко рассмотрим четыре различных подхода к оценке точности вероятностного прогноза:

  • функция потерь пинбола
  • непрерывная ранжированная вероятностная оценка (CRPS)
  • байесовская правдоподобность
  • генеративная антагонистическая перспектива

Функция потерь пинбола предоставляет метрику точности для оценки квантиля, полученного из вероятностного прогноза. Например, если мы хотим оценить количество товара, которое с вероятностью 98% будет больше или равно спросу покупателя в магазине для данного продукта, это количество можно получить непосредственно из вероятностных прогнозов, просто суммируя вероятности, начиная с 0 единиц спроса, 1 единицы спроса и т. д., пока вероятность не превысит 98%. Функция потерь пинбола loss function предоставляет прямую оценку качества этой смещенной оценки будущего спроса. Ее можно рассматривать как инструмент для оценки качества любой точки кумулятивной функции плотности вероятностного прогноза.

Непрерывная приоритетная вероятность (CRPS) предоставляет метрику, которую можно интерпретировать как “количество смещения” массы вероятностей, необходимое для перемещения всей массы вероятностей к наблюдаемому результату. Это наиболее прямое обобщение средней абсолютной ошибки (MAE) с вероятностной точки зрения. Значение CRPS является однородным с единицей измерения самого результата. Эта перспектива может быть обобщена на произвольные метрические пространства, а не только на одномерные ситуации, через то, что известно как “теория транспортировки” и метрика Монжа-Канторовича (что выходит за рамки данного документа).

Вероятность и ее перекрестная энтропийная родственница принимают байесовскую перспективу “наименьшей степени удивления”: чем выше вероятность наблюдаемых результатов, тем лучше. Например, у нас есть две вероятностные модели A и B: модель A утверждает, что вероятность наблюдения 0 единиц спроса составляет 50% для любого дня; модель B утверждает, что вероятность наблюдения 0 единиц спроса составляет 1% для любого дня. Мы наблюдаем спрос в течение 3 дней и получаем следующие наблюдения: 0, 0, 1. У модели A был примерно 10% шанс сгенерировать эти наблюдения, в то время как для модели B это был только примерно 0,01% шанс. Таким образом, модель B значительно менее вероятна, чем модель A. Вероятность отклоняется от детерминированной перспективы наличия значимого “абсолютного” критерия для оценки моделей. Вместо этого она предоставляет механизм для “сравнения” моделей, но численно этот механизм на самом деле не может быть использован ни для чего, кроме сравнения моделей.

Самая современная перспектива на этот вопрос - это генеративно-состязательная перспектива (Иан Гудфеллоу и др., 2014). В основном, эта перспектива утверждает, что “лучшая” вероятностная модель - это та, которая может использоваться для генерации результатов - в стиле монте-карло - которые невозможно отличить от реальных результатов. Например, если мы рассмотрим исторический список транзакций в местном гипермаркете, мы можем обрезать эту историю в произвольной точке времени в прошлом и использовать вероятностную модель для генерации фальшивых, но реалистичных транзакций вперед. Модель будет считаться “идеальной”, если невозможно, с помощью статистического анализа, восстановить точку времени, где набор данных переходит от “реальных” к “фальшивым” данным. Суть генеративно-состязательного подхода заключается в “обучении” метрик, которые усиливают недостаток любой вероятностной модели. Вместо фокусировки на конкретной метрике, эта перспектива рекурсивно использует техники машинного обучения для “обучения” самих метрик.

Поиск лучших способов оценки качества вероятностных прогнозов все еще является активной областью исследований. Нет четкого разграничения между двумя вопросами “Как получить лучший прогноз?” и “Как определить, что прогноз лучше?”. Недавние работы значительно размыли границы между ними, и вероятно, что следующие прорывы будут включать дальнейшие изменения в самом способе рассмотрения вероятностных прогнозов.

Исчезающе малые вероятности и логарифмическая правдоподобность

Очень маленькие вероятности естественным образом возникают при рассмотрении многомерной ситуации через призму вероятностных прогнозов. Эти маленькие вероятности проблематичны, потому что компьютеры не обрабатывают бесконечно точные числа. Вероятностные значения часто являются “исчезающе” малыми в том смысле, что они округляются до нуля из-за ограничений на числовую точность. Решение этой проблемы не заключается в обновлении программного обеспечения для произвольных вычислений с точностью, что является очень неэффективным с точки зрения вычислительных ресурсов, а в использовании “логарифмического трюка”, который преобразует умножение в сложение. Этот трюк используется - одним способом или другим - практически каждым программным обеспечением, работающим с вероятностными прогнозами.

Предположим, что у нас есть случайные переменные $$X_1, X_2, \ldots, X_n$$, представляющие спрос на день для всех $$n$$ различных товаров, обслуживаемых в данном магазине. Пусть $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ соответствуют эмпирическому спросу, наблюдаемому в конце дня для каждого товара. Для первого товара - управляемого $$X_1$$ - вероятность наблюдения $$\hat{x}_1$$ записывается как $$P(X_1=\hat{x}_1)$$. . Теперь предположим, несколько злоупотребляя, но ради ясности, что все товары строго независимы по спросу. Вероятность совместного события наблюдения $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ равна:

$$P(X_1=\hat{x}\_1 \ldots X_n=\hat{x}\_n)=\prod_{k=1}^{n}P(X_k=\hat{x}_k)$$

Если $$P(X_k=\hat{x}_k) \approx \tfrac{1}{2}$$ (грубая аппроксимация) и $$n=10000$$, то совместная вероятность выше имеет порядок $$\tfrac{1}{{2^{10000}}} \approx 5 \times 10^{-3011}$$, что является очень маленьким значением. Это значение недостаточно точно представимо, т.е. оно становится меньше представимого малого числа, даже учитывая 64-битные числа с плавающей запятой, которые обычно используются для научных вычислений.

“Логарифмический трюк” заключается в работе с логарифмом выражения, то есть:

$$lnP(X_1=\hat{x}_1 \ldots X_n=\hat{x}\_n)= \sum_k^n lnP(X_k=\hat{x}_k)$$

Логарифм превращает серию умножений в серию сложений, что оказывается намного более численно стабильным, чем серия умножений.

Использование “логарифмического трюка” часто встречается при работе с вероятностными прогнозами. Логарифмическая правдоподобность является буквально логарифмом правдоподобия (введенного ранее), поскольку исходное правдоподобие обычно не может быть численно представлено с учетом общих типов чисел с плавающей запятой.

Алгоритмические варианты вероятностных прогнозов

Вопрос компьютерной генерации вероятностных прогнозов почти так же обширен, как и область машинного обучения сама по себе. Границы между этими двумя областями, если они есть, в основном являются вопросом субъективного выбора. Тем не менее, в этом разделе представлены относительно избранные алгоритмические подходы, которые могут быть использованы для получения вероятностных прогнозов.

В начале 20-го века, возможно, в конце 19-го века, возникла идея резервного запаса, где неопределенность спроса моделируется по нормальному распределению. Поскольку предварительно вычисленные таблицы нормального распределения уже были установлены для других наук, в частности, для физики, применение резервного запаса требовало только умножения уровня спроса на коэффициент “резервного запаса”, взятого из существующей таблицы. По анекдотическим данным, многие учебники по цепочке поставок, написанные до 1990-х годов, все еще содержали таблицы нормального распределения в своих приложениях. К сожалению, основным недостатком этого подхода является то, что нормальные распределения не являются разумным предложением для цепочек поставок. Во-первых, что касается цепочек поставок, безопасно предположить, что ничто никогда не распределено нормально. Во-вторых, нормальное распределение является непрерывным распределением, что противоречит дискретной природе событий в цепочке поставок (см. “Закон малых чисел” выше). Таким образом, хотя технически “резервные запасы” имеют вероятностную составляющую, основная методология и численные рецепты нацелены на детерминистическую перспективу. Однако этот подход здесь перечислен ради ясности.

Перейдем к началу 2000-х годов, методы ансамблевого обучения - наиболее известными представителями которых являются, вероятно, случайные леса и градиентный бустинг - относительно просты для расширения от детерминистической перспективы к вероятностной. Основная идея ансамблевого обучения заключается в комбинировании множества слабых детерминистических предикторов, таких как деревья решений, в более совершенный детерминистический предиктор. Однако возможно настроить процесс смешивания для получения вероятностей, а не только одной агрегированной величины, тем самым превращая метод ансамблевого обучения в вероятностный метод прогнозирования. Эти методы являются непараметрическими и способны подгоняться под толстохвостые и/или многомодальные распределения, как это обычно бывает в цепочке поставок. У этих методов есть два заметных недостатка. Во-первых, по своей природе функция плотности вероятности, создаваемая этим классом моделей, обычно содержит много нулей, что мешает использованию метрики логарифма правдоподобия. Более обще, эти модели не очень подходят для байесовской перспективы, так как новые наблюдения часто объявляются “невозможными” (т.е. с нулевой вероятностью) моделью. Однако эту проблему можно решить с помощью методов регуляризации1. Во-вторых, модели обычно имеют размер, сопоставимый с значительной частью входного набора данных, и операция “прогнозирование” обычно требует почти таких же вычислительных затрат, как и операция “обучение”.

Методы гиперпараметрического обучения, собранные под общим названием “глубокое обучение”, которые взорвались в 2010-х годах, были, почти случайно, вероятностными. Действительно, в то время как подавляющее большинство задач, где глубокое обучение действительно блестит (например, классификация изображений), сосредоточены только на детерминированных прогнозах, оказывается, что метрика перекрестной энтропии - вариант вышеупомянутого логарифма правдоподобия - обладает очень крутыми градиентами, которые часто хорошо подходят для стохастического градиентного спуска (SGD), который лежит в основе методов глубокого обучения. Таким образом, модели глубокого обучения оказываются разработанными как вероятностные, не потому что вероятности были интересны, а потому что градиентный спуск сходится быстрее, когда функция потерь отражает вероятностный прогноз. Таким образом, в отношении глубокого обучения цепочка поставок отличается своим интересом к фактическому вероятностному выводу модели глубокого обучения, в то время как большинство других случаев использования сводят вероятностное распределение к его среднему, медиане или моде. Сети смеси плотности - это тип сети глубокого обучения, направленный на изучение сложных вероятностных распределений. Результатом самого себя является параметрическое распределение, возможно, состоящее из гауссовых. Однако, в отличие от “запасных запасов”, смесь многих гауссовых может, на практике, отражать поведение с толстыми хвостами, которое наблюдается в цепях поставок. В то время как методы глубокого обучения часто считаются передовыми, следует отметить, что достижение численной стабильности, особенно при использовании смесей плотности, остается неким “темным искусством”.

Дифференцируемое программирование является потомком глубокого обучения, которое стало популярным в самом конце 2010-х годов. Оно имеет много общих технических характеристик с глубоким обучением, но отличается по фокусу. В то время как глубокое обучение сосредоточено на изучении произвольных сложных функций (например, игра в Го) путем стекирования большого количества простых функций (например, сверточных слоев), дифференцируемое программирование сосредоточено на мелкой структуре процесса обучения. Самая мелкозернистая, наиболее выразительная структура, буквально может быть отформатирована как программа, которая включает ветвления, циклы, вызовы функций и т. д. Дифференцируемое программирование представляет большой интерес для цепочки поставок, потому что проблемы обычно представляют себя в виде высокоструктурированных форм, и эти структуры известны экспертам2. Например, продажи определенной рубашки могут быть поглощены другой рубашкой другого цвета, но не будут поглощены продажами рубашки, отличающейся на три размера. Такие структурные априорные знания являются ключевыми для достижения высокой эффективности использования данных. Действительно, с точки зрения цепочки поставок количество данных обычно ограничено (см. закон малых чисел). Таким образом, структурное “формулирование” проблемы помогает гарантировать, что желаемые статистические закономерности изучаются, даже при ограниченных данных. Структурные априорные знания также помогают решать проблемы численной стабильности. По сравнению с ансамблевыми методами, структурные априорные знания обычно требуют меньше времени, чем инженерия признаков; также упрощается поддержка модели. С другой стороны, дифференцируемое программирование до сих пор остается довольно молодым подходом.

Монте-Карло-подход (1930 / 1940 гг.) может быть использован для подхода к вероятностным прогнозам с другой стороны. Рассмотренные до сих пор модели предоставляют явные функции плотности вероятности (PDF). Однако с точки зрения Монте-Карло модель может быть заменена генератором - или сэмплером - который случайным образом генерирует возможные результаты (иногда называемые “отклонениями”). Функции плотности вероятности могут быть восстановлены путем усреднения результатов генератора, хотя функции плотности вероятности часто полностью обходятся для сокращения требований к вычислительным ресурсам. Действительно, генератор часто разрабатывается таким образом, чтобы он был значительно более компактным - по объему данных - чем представляемые им функции плотности вероятности. Большинство методов машинного обучения - включая перечисленные выше для прямого решения вероятностных прогнозов - могут способствовать обучению генератора. Генераторы могут иметь форму низкоразмерных параметрических моделей (например, моделей пространства состояний) или гиперпараметрических моделей (например, моделей LSTM и GRU в глубоком обучении). Ансамблевые методы редко используются для поддержки генеративных процессов из-за высоких вычислительных затрат на их операции “предсказания”, которые широко используются для поддержки подхода Монте-Карло.

Работа с вероятностными прогнозами

Для получения полезных идей и принятия решений на основе вероятностных прогнозов требуется специализированное числовое оборудование. В отличие от детерминированных прогнозов, где есть простые числа, сами прогнозы являются явными функциями плотности вероятности или генераторами Монте-Карло. Качество вероятностного оборудования на практике так же важно, как и качество вероятностных прогнозов. Без этого оборудования использование вероятностных прогнозов сводится к детерминированному процессу (подробнее об этом в разделе “Антипаттерны” ниже).

Например, оборудование должно быть способно выполнять следующие задачи:

  • Комбинировать неопределенное время производства с неопределенным временем транспортировки, чтобы получить “общее” неопределенное время выполнения.
  • Комбинировать неопределенный спрос с неопределенным временем выполнения, чтобы получить “общий” неопределенный спрос, который должен быть покрыт заказываемым запасом.
  • Комбинировать неопределенные возвраты заказов (электронная коммерция) с неопределенной датой прибытия заказа поставщика в пути, чтобы получить неопределенное время выполнения для клиента.
  • Дополнить прогноз спроса, полученный статистическим методом, хвостовым риском, полученным вручную на основе общего понимания контекста, не отраженного историческими данными, такого как пандемия.
  • Комбинировать неопределенный спрос с неопределенным состоянием запаса по отношению к сроку годности (продовольственная розница), чтобы получить неопределенный остаток запаса на конец дня.

Как только все вероятностные прогнозы - не только спрос - правильно объединены, должна произойти оптимизация решений цепи поставок. Это включает вероятностную перспективу на ограничения, а также функцию оценки. Однако этот аспект оборудования выходит за рамки настоящего документа.

Существуют два широких “вкуса” инструментов для работы с вероятностными прогнозами: алгебры над случайными величинами и вероятностное программирование. Эти два подхода дополняют друг друга, так как у них нет одинакового набора преимуществ и недостатков.

Алгебра случайных величин обычно работает с явными функциями плотности вероятности. Алгебра поддерживает обычные арифметические операции (сложение, вычитание, умножение и т. д.), но применяет их к вероятностным аналогам, часто рассматривая случайные величины как статистически независимые. Алгебра обеспечивает числовую стабильность, которая почти на равных условиях с детерминированными числами. Все промежуточные результаты могут быть сохранены для последующего использования, что очень удобно для организации и устранения неполадок в конвейере данных. Однако выразительность этих алгебр обычно ограничена, так как обычно невозможно выразить все тонкие условные зависимости, которые существуют между случайными величинами.

Вероятностное программирование принимает Монте-Карло подход к проблеме. Логика записывается один раз, обычно придерживаясь полностью детерминированной перспективы, но выполняется множество раз с помощью инструментов (т.е. процесса Монте-Карло), чтобы собрать необходимую статистику. Максимальная выразительность достигается через “программные” конструкции: можно моделировать произвольные сложные зависимости между случайными величинами. Запись самой логики через вероятностное программирование также обычно немного проще по сравнению с алгеброй случайных величин, так как логика включает только обычные числа. Однако существует постоянный компромисс между числовой стабильностью (больше итераций обеспечивают лучшую точность) и вычислительными ресурсами (больше итераций стоят больше). Кроме того, промежуточные результаты обычно недоступны, так как их существование является временным - именно для снижения нагрузки на вычислительные ресурсы.

Недавние работы в области глубокого обучения также указывают на то, что существуют и другие подходы, выходящие за рамки представленных выше. Например, вариационные автоэнкодеры предлагают возможности для выполнения операций в латентных пространствах, давая впечатляющие результаты при выполнении очень сложных преобразований данных (например, автоматическое удаление очков с фотопортрета). Хотя эти подходы концептуально очень интересны, они пока не показали большой практической значимости при решении проблем цепи поставок.

Визуализация вероятностных прогнозов

Самый простой способ визуализации дискретного вероятностного распределения - это гистограмма, где вертикальная ось указывает на вероятность, а горизонтальная ось - на значение интересующей случайной величины. Например, вероятностный прогноз времени выполнения заказа может быть представлен следующим образом:

probabilistic-forecast-leadtime
Эмпирическое распределение наблюдаемых времен выполнения заказов в ежедневных интервалах.

Будущий спрос, суммированный за определенный период времени, также может быть представлен гистограммой. В более общем случае, гистограмма хорошо подходит для всех одномерных случайных величин над множеством $${ℤ}$$, множеством относительных целых чисел.

Визуализация вероятностного эквивалента равноотстоящего временного ряда - то есть количества, меняющегося в дискретные периоды времени равной длины - уже намного сложнее. Действительно, в отличие от одномерной случайной величины, не существует канонической визуализации такого распределения. Остерегайтесь, что периоды не могут считаться независимыми. Таким образом, хотя возможно представить “вероятностный” временной ряд, выстроив серию гистограмм - по одной на каждый период -, такое представление плохо отражает способ, которым события развиваются в цепочке поставок.

probabilistic-demand-intervals
Вероятностный прогноз спроса, представленный через пороги квантилей.

Например, не слишком невероятно, что новый запущенный продукт будет успешным и достигнет высоких объемов продаж (попадание). Также не слишком невероятно, что тот же новый запущенный продукт провалится и приведет к низким объемам продаж (промах). Однако, чрезмерно вероятными являются повседневные колебания между уровнями продаж “попадание” или “промах”.

Интервалы прогнозирования, как часто можно встретить в литературе о цепочках поставок, вводят в заблуждение. Они склонны подчеркивать ситуации с низкой неопределенностью, которые не являются характерными для фактических ситуаций в цепочке поставок;

rob-hyndman-prediction-intervals
Фрагмент из Visualization of probabilistic forecasts, Роб Хиндман, 21 ноября 2014 года

Обратите внимание, что эти интервалы прогнозирования являются именно вероятностными распределениями, расположенными рядом с цветовой схемой для выделения конкретных порогов квантилей.

Более точное представление - то есть, которое не улучшает сильную межпериодную зависимость - заключается в рассмотрении кумулятивных значений во времени, взятии квантилей этих значений, а затем дифференциации для восстановления приростов по периодам (см. первую иллюстрацию вероятностного прогноза, приведенную в начале данной статьи). Визуализация остается той же, но лежащая в основе семантика отличается. Мы теперь рассматриваем квантили по сценариям, выделяя чрезвычайно благоприятные (соответственно неблагоприятные) сценарии.

Антипаттерны вероятностного прогнозирования

Вероятностные прогнозы вызывают сомнения в том, как многие люди “интуитивно” мыслят о будущем. В этом разделе мы рассмотрим некоторые из наиболее часто неправильно понимаемых аспектов вероятностного прогнозирования.

Нет такого понятия как “непредсказуемые” события

С точки зрения детерминистического подхода предсказать результат лотереи невозможно, так как шансы угадать “один к миллиону”. Однако с вероятностной точки зрения проблема тривиальна: у каждого билета есть “один к миллиону” шанс на победу. Очень высокая дисперсия результата не должна путаться с “непредсказуемостью” самого явления, которое может быть вполне понятно, как в случае с лотереей. Вероятностное прогнозирование заключается в количественной оценке и структурировании дисперсии, а не в ее устранении.

Нет такого понятия как “нормальные” распределения

Нормальные распределения, также известные как гауссовы, являются всеобщими в учебниках по цепочке поставок и физике. Однако, что касается человеческих дел, почти ничто не распределено “нормально”. Нормальные распределения, по своей природе, делают большие отклонения (по сравнению с средними отклонениями) чрезвычайно редкими, до такой степени, что они исключаются как просто невозможные моделью - то есть с вероятностью меньше одного к миллиарду. Спрос, время выполнения заказа, возвраты - это множество паттернов, которые категорически не являются нормально распределенными. Единственным плюсом нормальных распределений является то, что они хорошо подходят для создания учебных задач для студентов, так как они позволяют получить явные аналитические решения.

Выборочное использование вероятностей

Когда сталкиваются с вероятностным распределением, соблазнительно выбрать одну точку распределения, возможно, среднее или медиану, и продолжить на основе этого числа. Этот процесс противоречит самой сути вероятностного аспекта прогноза. Вероятности не должны сводиться к одной точечной оценке, потому что, какая бы точка ни была выбрана, этот процесс приводит к огромной потере информации. Таким образом, хотя это и немного беспокоит, вероятности должны сохраняться в их исходном виде как можно дольше. Точкой сворачивания обычно является окончательное решение в цепочке поставок, которое максимизирует прибыль при неопределенном будущем.

Удаление статистических выбросов

Большинство классических численных методов - твердо укоренившихся в детерминистической перспективе прогнозов (например, скользящие средние) - плохо себя ведут при обнаружении статистических выбросов. Таким образом, многие компании устанавливают процессы для ручной “очистки” исторических данных от этих выбросов. Однако необходимость такого процесса очистки только подчеркивает недостатки этих численных методов. Напротив, статистические выбросы являются неотъемлемым элементом вероятностного прогноза, так как они способствуют получению более полной картины того, что происходит “на хвосте” распределения. Другими словами, эти выбросы являются ключом для количественной оценки вероятности обнаружения дальнейших выбросов.

Привозить меч на перестрелку

Для манипулирования вероятностными распределениями требуется специализированное оборудование. Создание вероятностного прогноза - это только один из многих шагов, необходимых для достижения реальной ценности для компании. Многие практики в области цепочки поставок отказываются от вероятностных прогнозов из-за отсутствия подходящих инструментов для работы с ними. Многие поставщики корпоративного программного обеспечения присоединились к этой тенденции и теперь утверждают, что поддерживают “вероятностное прогнозирование” (наряду с “ИИ” и “блокчейном”), но на самом деле они так и не продвинулись дальше косметической реализации нескольких вероятностных моделей (см. вышеуказанный раздел). Представление модели вероятностного прогнозирования практически ничего не стоит без обширного инструментария для использования ее числовых результатов.

Примечания


  1. Функция smooth() в Envision удобна для регуляризации случайных переменных через дискретный процесс выборки какого-либо вида. ↩︎

  2. Предварительные знания о структуре проблемы не следует путать с предварительными знаниями о самом решении. “Экспертные системы”, разработанные в 1950-х годах в виде набора написанных вручную правил, потерпели неудачу, потому что человеческие эксперты не могут буквально перевести свою интуицию в числовые правила на практике. Структурные априорные знания, используемые в дифференцируемом программировании, описывают принцип, а не детали решения. ↩︎