Квантильная регрессия

learn menu
От Жоаннеса Вермореля, февраль 2012

Квантильная регрессия — это тип регрессии (т.е. прогнозирования), который намеренно вводит смещение в результат. Вместо того чтобы искать среднее значение прогнозируемой переменной, квантильная регрессия ищет медиану и любые другие квантели (иногда называемые процентилями). Квантили особенно полезны для оптимизации запасов как прямой метод вычисления точки повторного заказа.

Регрессия здесь является синонимом прогноза. “Регрессия” подчеркивает математический подход, тогда как “прогноз” — практическое применение результата.

Понятие квантильной регрессии является довольно продвинутой статистической темой, цель этой статьи — не углубляться в строгий анализ данного вопроса, а дать (относительно) интуитивное введение в тему для практиков в ритейле или производстве.

Визуальное представление квантилей

Нижний и верхний временные ряды квантилей рядом со средним прогнозным временным рядом.

График выше иллюстрирует 3 различных прогноза:

  • красным, прогноз квантиля 75%.
  • черным, средний прогноз.
  • зеленым, прогноз квантиля 25%.

На графике квантили ведут себя очень похоже на интервалы доверия. Однако на практике квантиль нужен только для одной целевой процентной доли.

Квантили (или проценттили) будущего спроса

Классический и самый интуитивный прогноз — это средний прогноз: соответствующие веса пере-прогнозирования и недопрогнозирования должны быть равны, иначе прогноз будет смещенным (точнее смещенным относительно среднего).

Хотя наличие несмещенного прогноза является желательным свойством, оно ничего не говорит о точности прогноза. В частности, прогноз может быть несмещенным, но при этом крайне неточным. Смещение касается только склонности модели прогнозирования переоценивать или недооценивать будущее.

Первым уточнением этого представления является медианный прогноз: соответствующие частоты пере-прогнозирования и недопрогнозирования должны быть равны, иначе прогноз будет смещен относительно медианы.

На данном этапе мы уже сместили понятие несмещенных прогнозов от равных весов к равным шансам. Это смещение тонкое, но в некоторых ситуациях может иметь значительное числовое влияние.

Иллюстрация: Средний против медианного дохода домохозяйств в США

Доход домохозяйств (household income) иллюстрирует существенную разницу между средним и медианным значениями.

Согласно данным Бюро переписи населения США, в 2004 году медианный доход домохозяйств составлял $44,389, в то время как в том же году средний доход был $60,528, что почти на 40% выше медианы.

Это расхождение объясняется высокими доходами (относительно) самых богатых домохозяйств США по сравнению с остальным населением. Такое расхождение между средним и медианным значениями будет наблюдаться во всех распределениях, которые не являются симметричными, обычно — во всех распределениях, не следующих нормальному закону.

Обобщение медианы

Медиана представляет собой порог, при котором распределение делится с вероятностью 50/50. Однако возможно рассмотреть другие частотные соотношения. Например, можно рассмотреть соотношения 80/20 или 90/10 или любые другие, при которых сумма составляет 100%.

Квантили представляют собой обобщение медианы на любую заданную процентную долю. Для τ, значения между 0 и 1, квантильная регрессия Q(τ) представляет собой порог, при котором вероятность наблюдения значения ниже этого порога равна ровно τ.

Квантильные прогнозы

Как классические, так и квантильные прогнозы используют временной ряд в качестве входных данных. Временные ряды представляют собой исходные данные. В дополнение к данным, классический средний прогноз временного ряда требует двух дополнительных структурных настроек:

  • период, например, день, неделя или месяц.
  • горизонт, целое число, представляющее количество прогнозируемых периодов.

Неявно временной ряд агрегируется в соответствии с периодом, а горизонт выбирается достаточно большим, чтобы быть практически полезным, обычно больше, чем срок поставки.

Средние прогнозы обладают очень удобным свойством: их математически корректно суммировать. Например, если y1, y2, y3 и y4 представляют прогноз на 4 недели вперед, то если нам требуется ожидаемый спрос только на следующие две недели, мы можем суммировать y1+y2.

Однако суммирование квантильных прогнозов математически некорректно, или, точнее, сумма квантилей не дает квантиль суммы (суммы сегментов).

Давайте проиллюстрируем, почему квантиль нельзя суммировать. Предположим, что у нас есть игрок, который каждую неделю ставит одну монету по $1 в игровой автомат. Пусть вероятность выигрыша составляет 1% для приза в $50, а в остальных случаях — ноль. Если мы рассмотрим 99%-й квантиль ожидаемого выигрыша, то получим еженедельный выигрыш в $50 каждую неделю. Однако, если мы рассмотрим 99%-й квантиль за две недели, ожидаемый выигрыш по-прежнему равен $50. Действительно, вероятность выиграть дважды составляет всего 0,01% (1% умноженное на 1%), поэтому 99%-й квантиль остается неизменным. Суммирование двух еженедельных квантилей по 99% дало бы $100, но на самом деле требуется 16 недель, чтобы накопить выигрыш в $100 для 99%-го квантиля (доказательство этого численного результата не приводится, так как оно выходит за рамки данной статьи).

Поскольку квантильные прогнозы нельзя суммировать, квантильные прогнозы временных рядов требуют переосмысления самого понятия агрегации по периодам. Действительно, создание квантильных прогнозов для каждого периода бессмысленно, поскольку такие элементарные прогнозы нельзя объединить для получения корректных квантилей по сегментам.

Таким образом, квантильный прогноз временного ряда имеет свою специфическую структуру:

  • τ целевой квантиль, процентное значение.
  • λ горизонт, выражающий длительность (обычно в днях).

Например, если временной ряд представляет продажи продукта A, и у нас заданы параметры τ=0.90 и λ=14 дней, то квантильный прогноз (τ, λ) вернет значение спроса, которое с вероятностью ровно 90% окажется больше, чем суммарный спрос, наблюдаемый за 14 дней (или, соответственно, с вероятностью 10% окажется меньше спроса за те же 14 дней).

В отличие от классических прогнозов, квантильные прогнозы выдают только одно значение для каждого временного ряда, независимо от горизонта. В определенной степени квантильные прогнозы менее зависят от периода, чем их классические аналоги.

Ловушка Lokad

На первый взгляд, квантильные прогнозы кажутся несколько более сложными, чем классические. Тем не менее, во многих реальных ситуациях практики в итоге сначала строят средние прогнозы, чтобы затем экстраполировать их непосредственно в квантильные прогнозы, обычно предполагая, что прогнозы следуют нормальному распределению. Однако этот этап экстраполяции часто является самым слабым звеном процесса и может значительно ухудшить конечный результат. Технология прогнозирования должна адаптироваться к практическим требованиям, то есть предоставлять нативные квантильные прогнозы, а не наоборот.

Дополнительная литература