Перекрестная энтропия

learn menu
Автор: Жоанн Верморель, январь 2018

Перекрестная энтропия - это метрика, которая может использоваться для отражения точности вероятностных прогнозов. Перекрестная энтропия имеет тесную связь с оценкой максимального правдоподобия. Перекрестная энтропия имеет первостепенное значение для современных систем прогнозирования, поскольку она способствует доставке более точных прогнозов, даже для альтернативных метрик. С точки зрения управления цепями поставок, перекрестная энтропия особенно важна, поскольку она поддерживает оценку моделей, которые также хорошо улавливают вероятности редких событий, которые часто являются самыми затратными. Эта метрика существенно отличается от интуиции, которая поддерживает более простые метрики точности, такие как среднеквадратическая ошибка или средняя абсолютная процентная ошибка.

Частотная вероятность против байесовской вероятности

Общий способ понимания статистики - это частотная вероятностная перспектива. При попытке дать количественную оценку неопределенного явления, частотная перспектива утверждает, что измерения должны повторяться много раз, и что, подсчитывая количество возникновений интересующего явления, можно оценить частоту явления, то есть его вероятность. Поскольку частота сходится через множество экспериментов, вероятность оценивается более точно.

Перекрестная энтропия отклоняется от этой перспективы, принимая байесовскую вероятностную перспективу. Байесовская перспектива меняет подход к проблеме. При попытке дать количественную оценку неопределенного явления, байесовская перспектива начинается с модели, которая непосредственно дает оценку вероятности для явления. Затем, через повторные наблюдения, мы оцениваем, насколько модель справляется с реальными проявлениями явления. По мере увеличения числа проявлений, измерение (не)соответствия модели улучшается.

Частотная и байесовская перспективы являются обе допустимыми и полезными. С точки зрения управления цепями поставок, поскольку сбор наблюдений затратен и относительно неизменен - компании имеют мало контроля над генерацией заказов на продукт - байесовская перспектива часто более удобна.

Интуиция перекрестной энтропии

Перед тем, как перейти к алгебраической формулировке перекрестной энтропии, давайте попробуем прояснить ее основную идею. Предположим, у нас есть вероятностная модель - или просто модель в дальнейшем - которая предназначена как для объяснения прошлого, так и для прогнозирования будущего. Для каждого прошлого наблюдения эта модель предоставляет оценку вероятности того, что это наблюдение должно было произойти так, как оно произошло. Хотя возможно построить модель, которая просто запоминает все прошлые наблюдения, присваивая им вероятность точно равную 1, эта модель не скажет нам ничего о будущем. Таким образом, интересная модель каким-то образом приближает прошлое и, следовательно, предоставляет вероятности, которые меньше 1 для прошлых событий.

Приняв байесовскую перспективу, мы можем оценить вероятность того, что модель сгенерировала все наблюдения. Если мы дополнительно предположим, что все наблюдения независимы (IID, фактически независимы и одинаково распределены), то вероятность того, что эта модель сгенерировала набор наблюдений, которые у нас есть, является произведением всех вероятностей, оцененных моделью для каждого прошлого наблюдения.

Математическое произведение тысяч переменных, которые обычно меньше 0,5 - предполагая, что мы имеем дело с явлением, которое довольно неопределенно - можно ожидать, что это будет невероятно малое число. Например, даже при рассмотрении отличной модели для прогнозирования спроса, какова будет вероятность того, что эта модель сможет сгенерировать все данные о продажах, которые компания наблюдала в течение года? Хотя оценка этого числа не является тривиальной, ясно, что это число будет поразительно малым.

Таким образом, чтобы смягчить эту численную проблему, известную как арифметическое недостаточное представление, вводятся логарифмы. Интуитивно логарифмы могут использоваться для преобразования произведений в суммы, что удобно решает проблему арифметического недостаточного представления.

Формальное определение перекрестной энтропии

Для двух дискретных случайных переменных $${p}$$ и $${q}$$ перекрестная энтропия определяется следующим образом:

$${H(p, q) = -\sum_x p(x)\log q(x)}$$

Это определение несимметрично. $${P}$$ предполагается “истинным” распределением, частично наблюдаемым, в то время как $${Q}$$ предполагается “неестественным” распределением, полученным из построенной статистической модели.

В теории информации перекрестная энтропия может быть интерпретирована как ожидаемая длина в битах для кодирования сообщений, когда вместо $${P}$$ используется $${Q}$$. Эта перспектива выходит за рамки настоящего обсуждения и не является первостепенной в контексте управления цепями поставок.

На практике, поскольку $${P}$$ неизвестно, перекрестная энтропия эмпирически оценивается по наблюдениям, просто предполагая, что все собранные наблюдения равновероятны, то есть $${p(x)=1/N}$$, где $${N}$$ - количество наблюдений.

$${H(q) = - \frac{1}{N} \sum_x \log q(x)}$$

Интересно, что эта формула идентична средней оценке максимального правдоподобия. Оптимизация перекрестной энтропии или логарифма правдоподобия суть одно и то же, как концептуально, так и численно.

Превосходство перекрестной энтропии

С 1990-х годов до начала 2010-х большинство статистического сообщества было уверено в том, что наиболее эффективным способом, с чисто числовой точки зрения, оптимизировать заданную метрику, скажем, MAPE (средняя абсолютная процентная ошибка), было построение алгоритма оптимизации, направленного непосредственно на эту метрику. Однако критическое, но контринтуитивное понимание, достигнутое сообществом глубокого обучения, заключается в том, что это не так. Числовая оптимизация - очень сложная проблема, и большинство метрик не подходят для эффективной численной оптимизации в большом масштабе. Также в тот же период сообщество науки о данных в целом поняло, что все проблемы прогнозирования / предсказания на самом деле являются проблемами численной оптимизации.

С точки зрения цепочки поставок, вывод заключается в том, что даже если цель компании - оптимизировать метрику прогнозирования, такую ​​как MAPE или MSE (среднеквадратичная ошибка), на практике наиболее эффективным путем является оптимизация перекрестной энтропии. В Lokad в 2017 году мы собрали значительное количество эмпирических данных, подтверждающих этот утверждение. Еще более удивительно, перекрестная энтропия также превосходит CRPS (непрерывная ранжированная вероятность), другую вероятностную метрику точности, даже если полученные модели в конечном итоге оцениваются по CRPS.

Не совсем ясно, что делает перекрестную энтропию такой хорошей метрикой для численной оптимизации. Один из наиболее убедительных аргументов, подробно описанный в Ian Goodfellow et all, заключается в том, что перекрестная энтропия обеспечивает очень большие значения градиента, которые особенно ценны для градиентного спуска, который является наиболее успешным методом масштабной оптимизации, доступным в настоящее время.

CRPS против перекрестной энтропии

Что касается цепочки поставок, перекрестная энтропия в значительной степени превосходит CRPS как метрику для вероятностных прогнозов просто потому, что она намного больше акцентирует внимание на редких событиях. Рассмотрим вероятностную модель для спроса, у которой среднее значение составляет 1000 единиц, и вся масса распределения сосредоточена в сегменте от 990 до 1010. Предположим далее, что следующее наблюдаемое количество спроса составляет 1011.

С точки зрения CRPS, модель относительно хорошая, так как наблюдаемый спрос отличается от среднего прогноза примерно на 10 единиц. В отличие от этого, с точки зрения перекрестной энтропии, модель имеет бесконечную ошибку: модель предсказала, что наблюдение 1011 единиц спроса имеет нулевую вероятность - очень сильное утверждение - которое оказалось фактически неверным, как показывает тот факт, что только что было наблюдено 1011 единиц.

Склонность CRPS к предпочтению моделей, которые могут делать абсурдные утверждения, например, событие XY никогда не произойдет, в то время как событие все же происходит, в значительной степени способствует объяснению, с точки зрения цепочки поставок, почему перекрестная энтропия дает лучшие результаты. Перекрестная энтропия предпочитает модели, которые не попадают в “ловушку”, так сказать, когда происходит неожиданное. В цепочке поставок неожиданное случается, и когда это происходит без предварительной подготовки, справиться с этим событием оказывается очень дорогостоящим.