Непрерывная ранжированная вероятностная оценка (CRPS)

learn menu
Оригинальная статья: Joannes Vermorel, июнь 2016 года.
Обновлено: Алексей Тихонов, май 2024 года.

Вероятностные прогнозы присваивают вероятность каждому возможному будущему событию. Однако все вероятностные прогнозы не одинаково точны, и требуются метрики для оценки точности различных вероятностных прогнозов. Простые метрики точности, такие как MAE (средняя абсолютная ошибка) или MAPE (средняя абсолютная процентная ошибка), не могут быть применены непосредственно к вероятностным прогнозам. Непрерывная ранжированная вероятностная оценка (CRPS) обобщает MAE на случай вероятностных прогнозов. Вместе с перекрестной энтропией, CRPS является одной из наиболее широко используемых метрик точности, где используются вероятностные прогнозы.

Обзор

CRPS часто используется для оценки точности двух моделей вероятностного прогнозирования. В частности, эта метрика может быть объединена с процессом обратного тестирования для стабилизации оценки точности путем использования нескольких измерений на одном и том же наборе данных.

Эта метрика отличается от более простых метрик, таких как MAE, из-за ее асимметричного выражения: в то время как прогнозы являются вероятностными, наблюдения являются детерминированными. В отличие от функции потерь пинбола, CRPS не фокусируется на какой-либо конкретной точке распределения вероятности, а рассматривает распределение прогнозов в целом.

Формальное определение

Пусть $${X}$$ - случайная величина.

Пусть $${F}$$ - функция распределения (CDF) $${X}$$, такая что $${F(y)=\mathbf{P}\left[X \leq y\right]}$$.

Пусть $${x}$$ - наблюдение, а $${F}$$ - функция распределения, связанная с эмпирическим вероятностным прогнозом.

CRPS между $${x}$$ и $${F}$$ определяется следующим образом:

$$\qquad \qquad \qquad \qquad{CRPS(F, x) = \int_{-\infty}^{\infty}\Big(F(y)- 𝟙(y - x)\Big)^2dy} \qquad \qquad \qquad \qquad \qquad \qquad \tag{1}$$

где $${𝟙}$$ - функция Хевисайда, которая принимает значение:

  • 1, если аргумент положительный или равен нулю,
  • 0 в противном случае.

CRPS выражается в тех же единицах, что и наблюдаемая переменная (например, если спрос на продукт прогнозируется в единицах, то CRPS также будет выражен в единицах).

CRPS обобщает среднюю абсолютную ошибку (MAE). Фактически, если прогноз является детерминированным, то CRPS сводится к MAE. Этот момент иллюстрируется на диаграмме D ниже.

Известные свойства

Гнейтинг и Рафтери (2004) показывают, что непрерывный ранжированный вероятностный балл может быть записан следующим образом:

$$\qquad \qquad \qquad \qquad {CRPS(F,x) = \mathbf{E}\Big[|X-x|\Big]-\frac{1}{2}\mathbf{E}\Big[|X-X^*|\Big]} \qquad \qquad \qquad \qquad \qquad \qquad \tag{2}$$

где

  • $${X}$$ и $${X^*}$$ - независимые копии линейной случайной величины,
  • $${X}$$ - случайная величина, связанная с функцией распределения $${F}$$,
  • $${\mathbf{E}[X]}$$ - математическое ожидание $${X}$$.

Численная оценка

С числовой точки зрения простой способ вычисления CPRS состоит в разбиении исходного интеграла на два интеграла на хорошо выбранных границах для упрощения функции Хевисайда, что дает:

$$\qquad \qquad \qquad \qquad{CRPS(F, x) = \int_{-\infty}^x F(y)^2dy + \int_x^{\infty}\Big(F(y)- 1\Big)^2dy} \qquad \qquad \qquad \qquad \qquad \tag{3}$$

На практике, так как $$F$$ - это эмпирическое распределение, полученное с помощью модели прогнозирования, соответствующая случайная величина $${X}$$ имеет компактную поддержку, что означает, что существует только конечное число точек, где $${\mathbf{P}[X = x] \gt 0}$$. Кроме того, все значения $$x$$ являются дискретными числами. Таким образом, интегралы могут быть преобразованы в конечные суммы, как показано в формуле ниже и на диаграмме B в следующем разделе.

$$\qquad \qquad \qquad \qquad{CRPS(F, x) = \sum_{k=0}^x F(y_k)^2 + \sum_{x+1}^{n} (F(y_k) - 1)^2} \qquad \qquad \qquad \qquad \qquad \qquad \tag{4}$$

В формуле (4) индекс $$n$$ обозначает последний элемент правого хвоста вероятностного распределения (например, наивысшее значение спроса с ненулевой вероятностью).

Наконец, так как вычисление CRPS выполняется для одной точки времени, чтобы вычислить CRPS за определенный интересующий нас период оценки (например, для окна ответственности, которое является суммой срока поставки поставщика и периода перезаказа), мы должны взять среднее значение для соответствующих значений CRPS, вычисленных для этого периода.

$$\qquad \qquad \qquad \qquad \qquad \qquad {CRPS = \frac{1}{T} \sum_{t=1}^{T} CRPS_t} \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \tag{5}$$

Визуальное представление

Чтобы проиллюстрировать вычисление CRPS, рассмотрим следующий пример (см. диаграммы ниже):

A: Изначально мы построили вероятностный прогноз спроса, используя отрицательное биномиальное распределение и обрезая его хвосты с вероятностями ниже 0,1% (что представляет собой крайне маловероятные события, такие как те, которые происходят раз в три года или около того). Предсказанные значения спроса с ненулевыми вероятностями охватывали диапазон от 1 до 26 единиц. Позднее оказалось, что фактический спрос составил 15 единиц (как показано вертикальной красной пунктирной линией).

B: Мы вычислили CRPS в соответствии с 4-й формулой выше (см. “Численная оценка”). Полученное значение CRPS представляет собой сумму двух областей, заполненных светло-красным цветом.

C: То же самое, что и на диаграмме A, но с добавленным точечным прогнозом для сравнения.

D: Вычисление CRPS для точечного прогноза показывает, что когда CRPS применяется к точечному прогнозу, результатом является метрика точности MAE. Действительно, точечные прогнозы являются тривиальными формами вероятностных прогнозов, где мы неявно присваиваем 100% вероятность одному значению. Затем кумулятивная диаграмма вероятности для CRPS будет представлена двумя ступенчатыми функциями - одной для точечных прогнозов и одной для фактического спроса. Это означает, что в зависимости от относительного положения точечного прогноза и фактического значения одна из двух сумм в формуле CRPS (4) станет равной нулю: первая сумма для переоценок и вторая сумма для недооценок.

Диаграмма, иллюстрирующая вероятностный прогноз и метрику CRPS для оценки его точности.
A: Вероятностный прогноз. B: CRPS. C: Вероятностный прогноз по сравнению с точечным прогнозом. D: CRPS точечного прогноза - MAE.

В приведенном примере для этих 4 диаграмм значения CRPS для вероятностного прогноза и для точечного прогноза составляют 3,32 и 3 соответственно. Исходя из этих чисел, можно заключить, что точечный прогноз более точный, так как его метрика точности меньше (лучше), чем у вероятностного прогноза. Однако этот вывод неверен.

В приведенном выше примере мы рассмотрели только одно значение фактического спроса, однако при обучении вероятностного прогноза с использованием исторических данных вероятности корректируются в соответствии с частотами появления соответствующих значений спроса (учитывая значения, доступные в наборе данных обучения). Если они выбраны правильно, то среднее значение CRPS для тестового набора данных будет сравнимо с значением для обучающего/проверочного набора данных, так как прогноз должен адекватно отражать частоты появления различных значений спроса в тестовых данных.

Ниже приведена диаграмма, демонстрирующая превосходство вероятностных прогнозов по сравнению с точечными прогнозами.

Диаграмма, иллюстрирующая, как меняется CRPS в зависимости от фактических значений для вероятностных и точечных прогнозов.

Обратите внимание, как плавно меняется CRPS в зависимости от различных фактических значений. Также обратите внимание, что за исключением небольшой области (где точечный прогноз очень близок к фактическому), во всех остальных областях CRPS для вероятностных прогнозов меньше, чем у точечного прогноза.

Если бы у нас было несколько разных точечных прогнозов, это наблюдение все равно оставалось бы верным. Нужно было бы в уме перемещать красную кривую влево или вправо в зависимости от точечного прогноза, но превосходство вероятностного прогнозирования все равно оставалось бы действительным.

References

Gneiting, T. and Raftery, A. E. (2004). Strictly proper scoring rules, prediction, and estimation. Technical Report no. 463, Department of Statistics, University of Washington, Seattle, Washington, USA.