Квантильная регрессия

Автор: Жоаннес Верморель, февраль 2012 года

Квантильная регрессия - это тип регрессии (т.е. прогнозирования), который намеренно вводит смещение в результат. Вместо поиска среднего значения переменной, которую нужно предсказать, квантильная регрессия ищет медиану и любые другие квантили (иногда называемые процентилями). Квантили особенно полезны для оптимизации запасов в качестве прямого метода для вычисления точки повторного заказа.

Регрессия здесь является синонимом прогнозирования. “Регрессия” подчеркивает математический подход, в то время как “прогнозирование” подчеркивает практическое использование полученного результата.

Понятие квантильной регрессии является относительно сложной статистической темой, целью этой статьи не является строгое изложение этой темы, а скорее предоставление (относительно) интуитивного введения в эту тему для практиков в розничной торговле или производстве.

Визуальное представление квантилей

Временные ряды нижнего и верхнего квантиля рядом с временным рядом среднего прогноза.

На графике выше изображены 3 различных прогноза:

красным цветом - прогноз на 75% квантиль.
черным цветом - средний прогноз.
зеленым цветом - прогноз на 25% квантиль.

Визуально квантили ведут себя примерно так же, как доверительные интервалы. Однако на практике квантиль необходим только для одного целевого процента.

Квантили (или процентили) будущего спроса

Классический и наиболее интуитивный прогноз - это средний прогноз: соответствующие веса пере- и недо-прогнозирования должны быть равны, иначе прогноз будет смещен (точнее смещен против среднего).

Хотя иметь несмещенный прогноз является желательным свойством, это ничего не говорит о точности прогноза. В частности, прогноз может быть как несмещенным, так и широко неточным. Смещение относится только к склонности прогнозной модели к пере- или недооценке будущего.

Первое уточнение этой концепции - это медианный прогноз: соответствующая частота пере- и недо-прогнозирования должна быть равна, иначе прогнозы будут смещены против медианы.

На этом этапе мы уже сместили понятие несмещенных прогнозов от равных весов к равным шансам. Это смещение незаметно, но в некоторых ситуациях оно может иметь большое числовое значение.

Иллюстрация: Средний доход домохозяйств в США по сравнению с медианным

Доход домохозяйств иллюстрирует глубокую разницу между средним и медианным.

Согласно Бюро переписи населения США, в 2004 году медианный доход домохозяйств составлял $44,389, в то время как средний (средний) доход в том же году составлял $60,528, почти на 40% выше медианного.

Это расхождение объясняется высокими доходами (по сравнению) самых богатых домохозяйств США по сравнению с остальным населением. Такое расхождение между средним и медианным будет наблюдаться во всех распределениях, которые не являются симметричными, обычно во всех распределениях, которые не следуют нормальному распределению.

Обобщение медианы

Медиана представляет собой порог, на котором распределение делится на 50/50 шансов. Однако возможно рассмотреть другие частотные соотношения. Например, мы можем рассмотреть 80/20 или 90/10 или любые другие соотношения, при условии, что общая сумма остается равной 100%.

Квантили представляют собой обобщение медианы для любого заданного процента. Для τ, значения между 0 и 1, квантильная регрессия Q(τ) представляет собой порог, при котором вероятность наблюдения значения ниже порога точно равна τ.

Квантильные прогнозы

Классические и квантильные прогнозы берут временной ряд в качестве входных данных. Временной ряд представляет собой входные данные. Кроме данных, для классического прогноза среднего временного ряда требуется две дополнительные структурные настройки:

период, такой как день, неделя или месяц.
горизонт, целое число, представляющее количество прогнозируемых периодов.

Подразумевается, что временной ряд агрегируется в соответствии с периодом, и горизонт выбирается достаточно большим для практического использования, обычно больше срока поставки.

Средние прогнозы имеют очень удобное свойство: математически правильно складывать прогнозы. Например, если y1, y2, y3 и y4 представляют прогноз на 4 недели вперед, то если нам нужен ожидаемый спрос только на следующие две недели, то мы можем сложить y1+y2.

Однако сложение квантильных прогнозов математически некорректно, или точнее говоря, сумма квантилей не дает квантиль суммы (суммы сегментов).

Давайте проиллюстрируем, почему квантиль нельзя складывать. Предположим, что у нас есть игрок, который каждую неделю играет одну монету стоимостью $1 в игровой автомат. Предположим, что шансы на выигрыш составляют 1% с призом в $50 и ноль в противном случае. Если мы посмотрим на 99% квантиль ожидаемой награды, у нас будет еженедельная награда в $50 каждую неделю. Однако, если мы посмотрим на 99% квантиль за две недели, ожидаемая награда все равно будет равна $50. Действительно, вероятность выигрыша дважды составляет всего 0,01% (1% умноженное на 1%), поэтому 99% квантиль остается неизменным. Сложение двух 99% недельных квантилей дало бы $100, но на самом деле требуется 16 недель, чтобы накопить $100 при 99% квантиле (доказательство этого числового результата не приводится, так как оно выходит за рамки данной статьи).

Поскольку квантильные прогнозы нельзя суммировать, квантильные временные ряды нужно переосмыслить саму идею агрегации по периодам. Действительно, создание периодических квантильных прогнозов бессмысленно, потому что эти элементарные прогнозы нельзя объединить, чтобы получить правильные квантили по сегментам.

Таким образом, квантильный временной ряд прогноза имеет отличную структуру:

τ целевой квантиль, в процентах.
λ горизонт, выражающий длительность (обычно в днях).

Например, если временные ряды представляют продажи продукта A, и у нас есть настройки τ=0.90 и λ=14 дней, то квантильный прогноз (τ, λ) вернет значение спроса, которое имеет ровно 90% шанс быть больше общего спроса, наблюдаемого за 14 дней (соответственно 10% шанс быть ниже спроса за те же 14 дней).

В отличие от классических прогнозов, квантильные прогнозы производят только одно значение для каждого временного ряда, независимо от горизонта. В некотором смысле, квантильные прогнозы более независимы от периода по сравнению с их классическими аналогами.

Особенность Lokad

С первого взгляда квантильные прогнозы выглядят несколько сложнее, чем классические. Тем не менее, во многих реальных ситуациях практики часто начинают с создания средних прогнозов, чтобы затем экстраполировать их сразу как квантильные прогнозы, обычно предполагая, что прогнозы следуют нормальному распределению. Однако этот шаг экстраполяции часто является слабым звеном процесса и может значительно ухудшить конечный результат. Технология прогнозирования должна адаптироваться к практическим требованиям, то есть предоставлять нативные квантильные прогнозы, а не наоборот.

Дополнительная литература

Точка повторного заказа, как квантили применяются к оптимизации запасов.
Функция квантильных потерь (пинбол), как измерить точность квантильного прогноза.
Roger Koenker, Kevin F. Hallock, (2001) Квантильная регрессия, Journal of Economic Perspectives, 15 (4), 143–156
Ichiro Takeuchi, Quoc V. Le, Timothy D. Sears, Alexander J. Smola, (2006), Непараметрическая оценка квантилей, Journal of Machine Learning Research 7 1231–1264