Kreuzentropie

learn menu
Von Joannes Vermorel, Januar 2018

Die Kreuzentropie ist eine Metrik, die verwendet werden kann, um die Genauigkeit von probabilistischen Vorhersagen widerzuspiegeln. Die Kreuzentropie weist enge Verbindungen zur Maximum-Likelihood-Schätzung auf. Kreuzentropie ist von zentraler Bedeutung für moderne Prognosesysteme, da sie die Möglichkeit bietet, überlegene Vorhersagen zu liefern, selbst wenn alternative Metriken zugrunde liegen. Aus supply chain Perspektive ist die Kreuzentropie besonders wichtig, da sie die Schätzung von Modellen unterstützt, die auch gut darin sind, die Wahrscheinlichkeiten seltener Ereignisse zu erfassen, welche häufig die kostenintensivsten sind. Diese Metrik weicht erheblich von der Intuition ab, die einfachere Genauigkeitsmetriken unterstützt, wie den mittleren quadratischen Fehler oder den mittleren absoluten prozentualen Fehler.

Frequentistische Wahrscheinlichkeit vs. Bayesianische Wahrscheinlichkeit

Eine gängige Art, Statistik zu verstehen, ist die frequentistische Wahrscheinlichkeitsperspektive. Wenn man versucht, ein unsicheres Phänomen quantitativ zu erfassen, besagt die frequentistische Perspektive, dass Messungen vielfach wiederholt werden sollten, und dass durch das Zählen der Vorkommnisse des interessierenden Phänomens dessen Häufigkeit, also seine Wahrscheinlichkeit, geschätzt werden kann. Da sich die Frequenzrate durch viele Experimente annähert, wird die Wahrscheinlichkeit genauer bestimmt.

Die Kreuzentropie weicht von dieser Perspektive ab, indem sie die bayesianische Wahrscheinlichkeitsperspektive übernimmt. Die bayesianische Perspektive kehrt das Problem um. Wenn man versucht, ein unsicheres Phänomen quantitativ zu verstehen, beginnt die bayesianische Perspektive mit einem Modell, das direkt eine Wahrscheinlichkeitsabschätzung für das Phänomen liefert. Anschließend bewerten wir anhand wiederholter Beobachtungen, wie gut sich das Modell im Vergleich zu den tatsächlichen Vorkommnissen des Phänomens schlägt. Mit zunehmender Anzahl der Beobachtungen verbessert sich die Messung der (Un-)Angemessenheit des Modells.

Die frequentistische und die bayesianische Perspektive sind beide gültig und nützlich. Aus supply chain Sicht – da das Sammeln von Beobachtungen kostspielig und relativ unflexibel ist, weil Unternehmen kaum Einfluss darauf haben, Bestellungen für ein Produkt zu generieren – erweist sich die bayesianische Perspektive häufig als praktikabler.

Die Intuition der Kreuzentropie

Bevor wir uns der algebraischen Formulierung der Kreuzentropie widmen, wollen wir versuchen, etwas Licht auf ihre zugrundeliegende Intuition zu werfen. Nehmen wir an, dass wir ein probabilistisches Modell – im Folgenden einfach Modell genannt – haben, das sowohl die Vergangenheit erklären als auch die Zukunft vorhersagen soll. Für jede vergangene Beobachtung liefert dieses Modell eine Schätzung der Wahrscheinlichkeit, mit der diese Beobachtung so eintreten sollte, wie sie es tat. Obwohl es möglich ist, ein Modell zu konstruieren, das sich einfach alle vergangenen Beobachtungen einprägt und ihnen exakt eine Wahrscheinlichkeit von 1 zuweist, würde uns ein solches Modell nichts über die Zukunft verraten. Daher nähert sich ein interessantes Modell der Vergangenheit nur annähernd und liefert somit Wahrscheinlichkeiten, die für vergangene Ereignisse kleiner als 1 sind.

Indem wir die bayesianische Perspektive übernehmen, können wir die Wahrscheinlichkeit bewerten, mit der das Modell alle Beobachtungen generiert hätte. Wenn wir zusätzlich annehmen, dass alle Beobachtungen unabhängig sind (IID, also unabhängig und identisch verteilt), dann ist die Wahrscheinlichkeit, mit der dieses Modell die Gesamtheit der vorliegenden Beobachtungen erzeugt hätte, das Produkt all der vom Modell für jede vergangene Beobachtung geschätzten Wahrscheinlichkeiten.

Das mathematische Produkt von Tausenden von Variablen, die typischerweise kleiner als 0,5 sind – vorausgesetzt, dass es sich um ein Phänomen mit hoher Unsicherheit handelt – kann erwartungsgemäß eine unglaublich kleine Zahl ergeben. Zum Beispiel, selbst wenn man von einem hervorragenden Modell zur Nachfrageprognose ausgeht, wie hoch wäre die Wahrscheinlichkeit, dass dieses Modell alle Verkaufsdaten erzeugen könnte, die ein Unternehmen im Laufe eines Jahres beobachtet hat? Obwohl die Schätzung dieser Zahl nicht trivial ist, ist es klar, dass sie erstaunlich klein wäre.

Um dieses numerische Problem, bekannt als arithmetischer Underflow, zu mildern, werden Logarithmen eingeführt. Intuitiv lassen sich Logarithmen dazu verwenden, Produkte in Summen zu verwandeln, was das Problem des arithmetischen Underflows auf bequeme Weise löst.

Formale Definition der Kreuzentropie

Für zwei diskrete Zufallsvariablen $${p}$$ und $${q}$$ ist die Kreuzentropie definiert als:

$${H(p, q) = -\sum_x p(x)\log q(x)}$$

Diese Definition ist nicht symmetrisch. $${P}$$ ist als die „wahre“ Verteilung gedacht, die nur teilweise beobachtet wird, während $${Q}$$ als die aus einem konstruierten statistischen Modell gewonnene „unnatürliche“ Verteilung verstanden wird.

In der Informationstheorie kann die Kreuzentropie als die erwartete Länge in Bits für die Kodierung von Nachrichten interpretiert werden, wenn $${Q}$$ anstelle von $${P}$$ verwendet wird. Diese Perspektive geht über die vorliegende Diskussion hinaus und ist aus supply chain Sicht nicht von primärer Bedeutung.

In der Praxis, da $${P}$$ nicht bekannt ist, wird die Kreuzentropie empirisch auf Basis der Beobachtungen geschätzt, indem man einfach annimmt, dass alle gesammelten Beobachtungen gleich wahrscheinlich sind, nämlich $${p(x)=1/N}$$, wobei $${N}$$ die Anzahl der Beobachtungen darstellt.

$${H(q) = - \frac{1}{N} \sum_x \log q(x)}$$

Interessanterweise ist diese Formel identisch mit der durchschnittlichen Log-Likelihood-Schätzung. Die Optimierung der Kreuzentropie oder der Log-Likelihood entspricht im Wesentlichen dem gleichen, sowohl konzeptionell als auch numerisch.

Überlegenheit der Kreuzentropie

Von den 1990er Jahren bis Anfang der 2010er Jahre war ein Großteil der Statistik-Community davon überzeugt, dass der effizienteste Weg, eine gegebene Metrik – etwa MAPE (mean absolute percentage error) – aus rein numerischer Sicht zu optimieren, darin bestand, einen Optimierungsalgorithmus direkt auf diese Metrik auszurichten. Doch ein kritischer, wenn auch kontraintuitiver Erkenntnisgewinn der deep learning Community war, dass dem nicht so war. Numerische Optimierung ist ein sehr schwieriges Problem, und die meisten Metriken eignen sich nicht für effiziente, groß angelegte numerische Optimierungsansätze. Im gleichen Zeitraum erkannte auch die data science Community, dass alle Prognose- / Vorhersageprobleme tatsächlich numerische Optimierungsprobleme sind.

Aus supply chain Sicht ist die Quintessenz, dass selbst wenn das Ziel eines Unternehmens darin besteht, eine Prognosemetrik wie MAPE oder MSE (mean square error) zu optimieren, in der Praxis der effizienteste Weg darin besteht, die Kreuzentropie zu optimieren. Bei Lokad haben wir im Jahr 2017 eine beträchtliche Menge empirischer Belege gesammelt, die diese These unterstützen. Überraschenderweise übertrifft die Kreuzentropie auch CRPS (continuous-ranked probability score), eine weitere probabilistische Genauigkeitsmetrik, selbst wenn die resultierenden Modelle letztlich anhand von CRPS bewertet werden.

Es ist nicht vollständig geklärt, was die Kreuzentropie zu einer derart guten Metrik für die numerische Optimierung macht. Eines der überzeugendsten Argumente, ausführlich dargestellt in Ian Goodfellow et all, ist, dass die Kreuzentropie sehr hohe Gradientenwerte liefert, die insbesondere für gradient descent von großem Wert sind, was sich als die derzeit erfolgreichste Methode der skalengerechten Optimierung erwiesen hat.

CRPS vs. Kreuzentropie

Nach supply chain Gesichtspunkt übertrifft die Kreuzentropie CRPS als Metrik für probabilistische Vorhersagen weitgehend, da sie seltene Ereignisse wesentlich stärker gewichtet. Betrachten wir ein probabilistisches Modell für die Nachfrage, das einen Mittelwert von 1000 Einheiten aufweist, wobei die gesamte Verteilungsmasse auf dem Segment von 990 bis 1010 konzentriert ist. Nehmen wir weiter an, dass die nächste gemessene Nachfrage 1011 beträgt.

Aus der CRPS-Perspektive ist das Modell relativ gut, da die beobachtete Nachfrage etwa 10 Einheiten vom mittleren Forecast entfernt liegt. Im Gegensatz dazu weist das Modell aus der Perspektive der Kreuzentropie einen unendlichen Fehler auf: Das Modell sagte voraus, dass die Beobachtung von 1011 Einheiten Nachfrage eine Wahrscheinlichkeit von null hätte – eine sehr starke Aussage –, was sich als faktisch inkorrekt herausstellte, wie die Tatsache belegt, dass gerade 1011 Einheiten beobachtet wurden.

Die Neigung von CRPS, Modelle zu begünstigen, die absurde Behauptungen aufstellen können wie das Ereignis XY wird niemals eintreten, während das Ereignis doch eintritt, trägt maßgeblich dazu bei, aus supply chain Sicht zu erklären, warum die Kreuzentropie bessere Ergebnisse liefert. Die Kreuzentropie bevorzugt Modelle, die nicht unvorbereitet getroffen werden, sozusagen, wenn das Unwahrscheinliche eintritt. In der supply chain tritt das Unwahrscheinliche nämlich tatsächlich auf, und wenn dies ohne vorherige Vorbereitung geschieht, erweist sich der Umgang mit diesem Ereignis als sehr kostspielig.