Kreuzentropie

learn menu
Von Joannes Vermorel, Januar 2018

Die Kreuzentropie ist eine Metrik, die zur Darstellung der Genauigkeit von probabilistischen Prognosen verwendet werden kann. Die Kreuzentropie hat starke Verbindungen zur Maximum-Likelihood-Schätzung. Die Kreuzentropie ist von besonderer Bedeutung für moderne Prognosesysteme, da sie die Bereitstellung überlegener Prognosen ermöglicht, selbst für alternative Metriken. Aus einer Supply-Chain-Perspektive ist die Kreuzentropie besonders wichtig, da sie die Schätzung von Modellen unterstützt, die auch in der Lage sind, die Wahrscheinlichkeiten seltener Ereignisse zu erfassen, die häufig die kostspieligsten sind. Diese Metrik weicht erheblich von der Intuition ab, die einfachere Genauigkeitsmetriken, wie den mittleren quadratischen Fehler oder den mittleren absoluten prozentualen Fehler, unterstützt.

Häufigistische Wahrscheinlichkeit vs. Bayes’sche Wahrscheinlichkeit

Eine gängige Methode, um Statistik zu verstehen, ist die häufigistische Wahrscheinlichkeitsperspektive. Bei dem Versuch, einem unsicheren Phänomen eine quantitative Bedeutung zu geben, besagt die häufigistische Perspektive, dass Messungen viele Male wiederholt werden sollten und dass durch Zählen der Anzahl der Vorkommnisse des interessierenden Phänomens die Häufigkeit des Phänomens, d.h. seine Wahrscheinlichkeit, geschätzt werden kann. Wenn die Häufigkeit durch viele Experimente konvergiert, wird die Wahrscheinlichkeit genauer geschätzt.

Die Kreuzentropie weicht von dieser Perspektive ab, indem sie die bayessche Wahrscheinlichkeitsperspektive annimmt. Die bayessche Perspektive kehrt das Problem um. Bei dem Versuch, einem unsicheren Phänomen eine quantitative Bedeutung zu geben, beginnt die bayessche Perspektive mit einem Modell, das eine Wahrscheinlichkeitsschätzung für das Phänomen direkt liefert. Dann bewerten wir durch wiederholte Beobachtungen, wie gut das Modell mit den tatsächlichen Vorkommnissen des Phänomens zurechtkommt. Mit zunehmender Anzahl der Vorkommnisse verbessert sich die Messung der (Un)angemessenheit des Modells.

Die häufigistische und die bayessche Perspektive sind beide gültig und nützlich. Aus einer Supply-Chain-Perspektive ist die bayessche Perspektive häufiger anwendbar, da das Sammeln von Beobachtungen kostspielig und etwas unflexibel ist - Unternehmen haben wenig Kontrolle über die Generierung von Bestellungen für ein Produkt.

Die Intuition der Kreuzentropie

Bevor wir uns mit der algebraischen Formulierung der Kreuzentropie befassen, wollen wir versuchen, etwas Licht auf ihre zugrunde liegende Intuition zu werfen. Nehmen wir an, wir haben ein probabilistisches Modell - oder einfach nur Modell im Folgenden -, das sowohl die Vergangenheit erklären als auch die Zukunft vorhersagen soll. Für jede vergangene Beobachtung liefert dieses Modell eine Schätzung der Wahrscheinlichkeit, dass diese Beobachtung genauso passiert ist, wie sie es getan hat. Während es möglich ist, ein Modell zu konstruieren, das sich einfach alle vergangenen Beobachtungen merkt und ihnen eine Wahrscheinlichkeit von genau 1 zuweist, würde uns dieses Modell nichts über die Zukunft sagen. Ein interessantes Modell approximiert also irgendwie die Vergangenheit und liefert somit Wahrscheinlichkeiten, die für vergangene Ereignisse kleiner als 1 sind.

Durch die Annahme der bayesschen Perspektive können wir die Wahrscheinlichkeit bewerten, dass das Modell alle Beobachtungen generiert hätte. Wenn wir weiterhin annehmen, dass alle Beobachtungen unabhängig voneinander sind (IID, Independent and Identically Distributed), dann ist die Wahrscheinlichkeit, dass dieses Modell die Sammlung von Beobachtungen generiert hätte, die wir haben, das Produkt aller Wahrscheinlichkeiten, die vom Modell für jede vergangene Beobachtung geschätzt wurden.

Das mathematische Produkt Tausender Variablen, die in der Regel kleiner als 0,5 sind - unter der Annahme, dass wir es mit einem recht unsicheren Phänomen zu tun haben - kann erwartungsgemäß eine unglaublich kleine Zahl sein. Zum Beispiel, selbst wenn wir ein ausgezeichnetes Modell zur Vorhersage der Nachfrage betrachten, welche Wahrscheinlichkeit besteht, dass dieses Modell alle Verkaufsdaten generieren könnte, die ein Unternehmen im Laufe eines Jahres beobachtet hat? Die Schätzung dieser Zahl ist zwar nicht trivial, aber es ist klar, dass diese Zahl erstaunlich klein wäre.

Um dieses numerische Problem, das als arithmetischer Unterlauf bekannt ist, zu mildern, werden Logarithmen eingeführt. Intuitiv können Logarithmen verwendet werden, um Produkte in Summen umzuwandeln, was das Problem des arithmetischen Unterlaufs bequem löst.

Formale Definition der Kreuzentropie

Für zwei diskrete Zufallsvariablen $${p}$$ und $${q}$$ wird die Kreuzentropie wie folgt definiert:

$${H(p, q) = -\sum_x p(x)\log q(x)}$$

Diese Definition ist nicht symmetrisch. $${P}$$ wird als die “wahre” Verteilung betrachtet, die nur teilweise beobachtet wird, während $${Q}$$ als die “unnatürliche” Verteilung betrachtet wird, die aus einem konstruierten statistischen Modell stammt.

In der Informationstheorie kann die Kreuzentropie als die erwartete Länge in Bits für die Codierung von Nachrichten interpretiert werden, wenn anstelle von $${P}$$ $${Q}$$ verwendet wird. Diese Perspektive geht über die vorliegende Diskussion hinaus und ist aus Sicht der Supply Chain nicht von vorrangiger Bedeutung.

In der Praxis wird die Kreuzentropie empirisch aus den Beobachtungen geschätzt, indem einfach angenommen wird, dass alle gesammelten Beobachtungen gleich wahrscheinlich sind, d.h. $${p(x)=1/N}$$, wobei $${N}$$ die Anzahl der Beobachtungen ist.

$${H(q) = - \frac{1}{N} \sum_x \log q(x)}$$

Interessanterweise ist diese Formel identisch mit der durchschnittlichen Log-Likelihood-Schätzung. Die Optimierung der Kreuzentropie oder der Log-Likelihood ist im Wesentlichen dasselbe, sowohl konzeptionell als auch numerisch.

Die Überlegenheit der Kreuzentropie

Von den 1990er Jahren bis Anfang 2010 war die Mehrheit der statistischen Gemeinschaft davon überzeugt, dass der effizienteste Weg, rein numerisch betrachtet, eine bestimmte Metrik zu optimieren, z.B. MAPE (mittlerer absoluter prozentualer Fehler), darin bestand, einen Optimierungsalgorithmus direkt für diese Metrik zu entwickeln. Doch eine kritische und dennoch gegenintuitive Erkenntnis, die von der Deep Learning-Gemeinschaft erzielt wurde, besagt, dass dies nicht der Fall war. Numerische Optimierung ist ein sehr schwieriges Problem, und die meisten Metriken sind nicht geeignet für effiziente, groß angelegte numerische Optimierungsbemühungen. Auch während des gleichen Zeitraums hatte die Data Science-Gemeinschaft im Allgemeinen erkannt, dass alle Prognose-/Vorhersageprobleme tatsächlich numerische Optimierungsprobleme waren.

Aus Sicht der Supply Chain ist die Quintessenz, dass selbst wenn das Ziel des Unternehmens darin besteht, eine Prognosemetrik wie MAPE oder MSE (mittlerer quadratischer Fehler) zu optimieren, der effizienteste Weg in der Praxis darin besteht, die Kreuzentropie zu optimieren. Bei Lokad haben wir im Jahr 2017 eine beträchtliche Menge an empirischen Beweisen gesammelt, die diese Behauptung unterstützen. Noch überraschender ist vielleicht, dass die Kreuzentropie auch CRPS (Continuous Ranked Probability Score), eine andere probabilistische Genauigkeitsmetrik, übertrifft, auch wenn die resultierenden Modelle letztendlich gegen CRPS bewertet werden.

Es ist nicht ganz klar, was die Kreuzentropie zu einer guten Metrik für die numerische Optimierung macht. Eines der überzeugendsten Argumente, das in Ian Goodfellow et al detailliert beschrieben wird, ist, dass die Kreuzentropie sehr große Gradientenwerte liefert, die besonders wertvoll für das Gradientenabstiegsverfahren sind, das derzeit die erfolgreichste Skalierungsoptimierungsmethode ist.

CRPS vs. Kreuzentropie

Was die Supply Chain betrifft, übertrifft die Kreuzentropie CRPS als Metrik für probabilistische Prognosen weitgehend, einfach weil sie einen viel größeren Schwerpunkt auf seltene Ereignisse legt. Betrachten wir ein probabilistisches Modell für die Nachfrage, das einen Mittelwert von 1000 Einheiten hat, wobei die gesamte Masse der Verteilung auf dem Segment 990 bis 1010 konzentriert ist. Nehmen wir weiterhin an, dass die nächste beobachtete Menge für die Nachfrage 1011 ist.

Aus der Sicht von CRPS ist das Modell relativ gut, da die beobachtete Nachfrage etwa 10 Einheiten von der durchschnittlichen Prognose entfernt ist. Im Gegensatz dazu hat das Modell aus der Sicht der Kreuzentropie einen unendlichen Fehler: Das Modell hat vorhergesagt, dass die Beobachtung von 1011 Einheiten Nachfrage eine Wahrscheinlichkeit von null hatte - eine sehr starke Behauptung -, die sich als faktisch falsch herausstellte, wie durch die Tatsache belegt wird, dass gerade 1011 Einheiten beobachtet wurden.

Die Neigung von CRPS, Modelle zu bevorzugen, die absurde Behauptungen aufstellen können wie das Ereignis XY wird niemals eintreten, während das Ereignis tatsächlich eintritt, trägt maßgeblich dazu bei, aus Sicht der Supply Chain zu erklären, warum die Kreuzentropie bessere Ergebnisse liefert. Die Kreuzentropie bevorzugt Modelle, die nicht “überrascht” sind, sozusagen, wenn das Unwahrscheinliche passiert. In der Supply Chain passiert das Unwahrscheinliche, und wenn es ohne vorherige Vorbereitung geschieht, ist der Umgang mit diesem Ereignis sehr kostspielig.