Нестабильность и скрещение квантилей

Особенности квантильных прогнозов


Главная » Ресурсы » Здесь

Квантильные прогнозы бесценны для оптимизации товарных запасов, однако небольшой процент квантильных числовых значений, выдаваемых системой Lokad может вести себя довольно странно. На данной странице мы расскажем, как появляются подобные неожиданные результаты и что с этим можно сделать.

Большинство парадоксов, существующих в квантильной технологии прогнозирования Lokad, не являются проблемами для квантильных схем — нашей технологии прогнозирования третьего поколения. В частности, негативные последствия нестабильности и перекрещивания квантилей практически полностью устраняются при использовании квантильных схем. См. также «Создание приоритетного списка закупок с помощью квантильных схем».


Выбор модели из библиотеки

Наша технология прогнозирования представляет собой библиотеку моделей прогнозирования, которые отбираются исходя из того, насколько точные они выдают прогнозы. Общей архитектуре приложения для прогнозирования посвящена отдельная страница. Процесс подбора наиболее точных моделей (1) называется выбором. Выбор основывается на результатах ретроспективного тестирования, процесса, при котором каждая модель проверяется на множестве наборов данных.

Такая система имеет большие преимущества:
  • Прогнозы получаются гораздо точнее, чем при использовании всего одной модели.
  • Для составления прогноза не требуется чрезмерно много данных о природе спроса.
  • Переподгонка и другие системные ошибки не могут значительно изменить результаты прогнозирования.

Тем не менее, данный процесс иногда дает противоречивые результаты.

Нестабильность квантилей

При выборе моделей прогнозирования, наиболее точные из них дают, как правило, очень похожие результаты. Таким образом, самая точная модель для 1-го дня может стать самой точной моделью 2-го дня. Тем не менее, изменения в прогнозируемых показателях, как правило, незначительны с практической точки зрения.

И все же, иногда самая точная и вторая по точности модели дают очень разные показатели. Например, модель А может очень хорошо отражать сезонные изменения, но не замечать моду, тогда как модель В хорошо отражает влияние моды, но не сезонные изменения. В таких случаях модели А и В могут быть примерно одинаково точны «в целом», но при этом давать очень разные прогнозы в определенных моменты времени.

На практике такие ситуации встречаются редко, но их можно проследить практически на любом подходящем наборе данных. Любой набор данных, состоящий из более 100 записей, как правило, содержит подобные случаи как минимум для одной единицы товара; причем вероятность подобных ситуаций выше, если фактические данные о спросе содержат ошибки или если их мало.

То, что мы сейчас описали, на самом деле является скрытым процессом, происходящим в Lokad. В большинстве случаев вы даже ничего не заметите. Тем не менее, такую ситуацию можно наблюдать, если вы запустите Lokad с использованием двух слегка отличающихся наборов данных. Например, представим, что вы создали прогнозы в понедельник с использованием набора А, который включает все ваши продажи до воскресенья. Затем, по какой-либо причине, например, вы забыли включить какие-нибудь новые элементы, в среду вы создаете новый прогноз, по набору данных В, которые включает в себя все продажи до вторника. Для вас эти наборы очень похожи, так как они отличаются всего на 2 дня, и вы будете ожидать одинаковые прогнозы. Тем не менее, вы увидите различия, порой значительные. Это очень показательный пример квантильной нестабильности: во время процесса выбора данные за 2 дня могли привести к выбору другой математической модели, результаты которой в целом очень похожи. Общая точность будет немного выше, но в частности прогнозы могут быть разными, что вы можете воспринять как аномалии.

Перекрещивание квантилей

Точно также, при увеличении вероятности обслуживания количество точек возобновления заказа должно также увеличиваться; это подтверждается экспериментами, проведенными в Lokad. Тем не менее, в ситуации, подобной выше, при создании двух прогнозов в Lokad на основании сходных наборов данных с немного другой вероятностью обслуживания (скажем, не 97%, а 98%), повышение вероятности обслуживания для группы предметов может привести к уменьшению точки возобновления заказа, которое можно заметить при сравнении прогнозов. С точки зрения пользователя, такой прогноз, разумеется, кажется неверным.

Проблема, которую мы здесь наблюдаем, на самом деле давно известна в статистике под названием «перекрещивание квантилей».

Перекрещивание квантилей в Lokad, опять же, происходит из-за особенностей процесса выбора модели. Все квантильные модели прогнозирования работают по одному принципу: увеличение тау-фактора (вероятности обслуживания) ведет к увеличению значения квантили (количество точек возобновления заказа). Тем не менее, если выбирается модель с немного более высокой общей точностью, по сравнению с первоначальной, но которая дает сильно отличающиеся показатели, в некоторых значениях квантили происходит сбой, и мы можем наблюдать перекрещивание квантилей. Вы должны помнить, что общая точность прогнозов в таких случаях не снижается — выбирается наилучшая модель для выбранной вами вероятности обслуживания.

На практике данная ситуация возникает очень редко, но ее можно наблюдать практически в любом подходящем наборе данных. Нужно отметить, что высокая вероятность обслуживания также повышает частоту перекрещивания квантилей, потому что значения прогнозов становятся менее стабильными. Спрогнозировать последний 1% спроса (при вероятности обслуживания в 99%) гораздо сложнее, нежели оценить последние 10% (при вероятности обслуживания в 90%). Здесь наблюдается сильный «эффект рычага», поэтому набор математических моделей, используемых для создания прогнозов при вероятности обслуживания в 98% обычно отличается от тех, которые используются для 96 или 97%.

Квантильный коллапс

Квантильный коллапс представляет собой очень сильное перекрещивание квантилей. Если вероятность обслуживания постоянно повышать до крайних значений, то в какой-то момент не просто отдельные, а большинство квантильных прогнозов начнут уменьшаться. Таким образом, при повышении вероятности обслуживания может получиться так, что рекомендованные объемы товарных запасов окажутся ниже установленных ранее. Мы называем появление таких странных показателей квантильным коллапсом.

Для возникновения квантильного коллапса нужно установить недопустимую вероятность обслуживания. Таким образом, если вы столкнетесь с ситуацией, описанной в данном разделе, мы настоятельно рекомендуем ознакомиться со страницей, посвященной выбору вероятности обслуживания, так как если вы будете соблюдать наши указания, вы легко справитесь с данной проблемой.

Квантильный коллапс появляется из-за известного недостатка нашей технологии прогнозирования. Простыми словами, если устанавливать крайние значения вероятности обслуживания, например 99% или даже 97% при ости данных, приложение для прогнозирования не сможет выделять наиболее эффективные модели прогнозирования. При очень высоких значениях вероятности обслуживания, все модели прогнозирования намеренно сильно переоценивают спрос. В результате выбираются модели со “средними” показателями эффективности, что приводит к возможности коллапса, так как спрогнозированные объемы товара снижаются, а вероятность обслуживания повышается.

Бороться с квантильными коллапсами, конечно, очень интересно с теоретической точки зрения, но на практике это случается только когда вероятность обслуживания значительно превышает разумный уровень товарных запасов. Составление более качественных прогнозов — основная миссия Lokad, однако мы стараемся работать над сценариями, которые действительно имеют значение для бизнеса; поэтому мы не будем усиленно бороться с квантильными коллапсами.

Как справиться с такими парадоксальными показаниями

Случаи нестабильности и перекрещивания квантилей говорят о врожденном несовершенстве статистических технологий прогнозирования. Тем не менее, важно понимать, что непродуманное исправление подобных отклонений может значительно ухудшить ситуацию.

Можно решить проблему, установив запрет на изменение прогнозируемого значения на более, чем X%. Также возможно сделать так, чтобы прогнозируемое значение увеличивалось строго в соответствии с увеличением вероятности обслуживания.

В любом случае, мы будем выбирать одно значение вместо другого, не имея для этого никакой статистической подоплеки: при обработке одного или двух прогнозов, итоговое значение может казаться более правильным, но не являться таковым на самом деле, а значит компания не сможет выиграть от него.

Мы рекомендуем придерживаться квантильных значений в том виде, в каком вы их получаете. Не пытайтесь скорректировать один отчет вручную, добавляя значения из другого, который кажется вам более правильным, потому что, как правило, вы не можете знать какое из двух значений на самом деле "точнее". Поверьте, один отчет всегда более-менее точен в целом.

Безусловно, существует некоторая видимая выгода, которую можно получить, отследив такие аномалии, однако видимая не значит заметная. С точки зрения Lokad, существуют целые категории улучшений, которые можно внести в нашу технологию и которые приведут к еще более значительным усовершенствованиям. С коммерческой точки зрения, точный расчет времени выполнения заказа и установка адекватной вероятности обслуживания приносят гораздо больше пользы, нежели погоня за чуть более высокой точностью прогнозов, которую можно достичь, минимизировав нестабильность и перекрещивание квантилей.

Технология прогнозирования Lokad постоянно дорабатывается. Мы создаем самые качественные рыночные прогнозы и работаем над проблемными случаями, описанными выше.

(1) Здесь мы значительно упростили процесс выбора. На самом деле при прогнозировании используется сложная комбинация наиболее выигрышных моделей. Тем не менее, для простоты можно сказать, что выбирается всего одна «выигрышная» модель.