Wie wir bereits gesagt haben, besteht der ganze Sinn der Prognose darin, Modelle zu erstellen, die genau auf den Daten sind, die Sie nicht haben. Doch auf den ersten Blick sieht dies wie eine weitere verrückte Idee von Mathematikern aus: sowohl seltsam als auch völlig unpraktisch.

Aber in unserer Erfahrung ist die Messung der echten Prognosegenauigkeit ein echtes Geschäftsproblem. Das Scheitern daran kostet Geld. Tatsächlich steigen die Kosten umso mehr, je größer das Unternehmen ist.

Immer noch keine Ahnung von dem tatsächlichen Prognosefehler?

Schauen Sie sich unseren neuesten 9-minütigen Slidecast an (die Skripte sind unten eingefügt).

youtube video

Slidecast-Skripte:

Overfitting: Ihre Prognosen sind möglicherweise nicht so gut, wie die Messung Ihnen sagt

Die Prognosegenauigkeit ist für viele Branchen wie Einzelhandel, Fertigung oder Dienstleistungen entscheidend. Wenn Sie Ihre Kundennachfrage überprognostizieren, explodieren Ihre Kosten, weil Sie zu viel Personal und zu viel Lagerbestand haben. Aber wenn Sie Ihre Kundennachfrage unterschätzen, werden Ihre Kunden wütend, weil sie Ihr Produkt nicht kaufen können oder weil sie zu lange auf Bedienung warten müssen.

In diesem Slidecast werde ich ein wenig bekanntes Problem bei der Prognose namens Overfitting vorstellen.

Dieses Problem ist aus zwei Gründen wenig bekannt. Erstens handelt es sich um ein subtils Problem - in vielerlei Hinsicht nicht offensichtlich und gegenintuitiv. Zweitens handelt es sich um ein Problem, das Mathematiker seit dem 19. Jahrhundert beschäftigt. Erst Ende der neunziger Jahre, vor etwas mehr als 10 Jahren, begann die wissenschaftliche Gemeinschaft, dieses Problem sowohl auf theoretischer als auch auf praktischer Ebene wirklich zu verstehen.

Bevor wir weitermachen, lassen Sie mich zum Schluss kommen. Overfitting hat einen sehr starken Einfluss auf Ihre Prognosen. Overfitting kann Sie glauben machen, dass Sie einen Prognosefehler von 10% haben, während Ihr tatsächlicher Prognosefehler 20% beträgt, und das wäre noch nicht einmal der schlimmste Fall.

Overfitting ist ein sehr reales Geschäftsproblem. Overfitting kostet Geld.

Darüber hinaus gibt es keine Möglichkeit, Overfitting zu umgehen. Moderne statistische Theorien basieren auf diesem Konzept. Overfitting spielt eine zentrale Rolle in diesen Theorien, egal auf welche Weise Sie sich der Statistik nähern, Overfitting ist hier, um zu bleiben.

Das Hauptproblem besteht darin, was Prognosegenauigkeit tatsächlich bedeutet.

Intuitiv besteht der einfachste Weg, die Prognosegenauigkeit zu messen, darin, eine Prognose zu erstellen und auf das prognostizierte Ereignis zu warten, damit wir die Prognose mit ihrem entsprechenden Ergebnis vergleichen können.

Doch diese Methode hat einen großen Nachteil: Sie sagt nur etwas über die Genauigkeit vergangener Prognosen aus. Aus geschäftlicher Sicht ist es wenig wichtig zu wissen, ob vergangene Prognosen gut oder schlecht waren, da Sie sie sowieso nicht ändern können. Was wirklich wichtig ist, ist sicherzustellen, dass zukünftige Prognosen wirklich genau sind.

Dann gibt es noch ein anderes Problem: Es gibt keinen Grund zu glauben, dass vergangene Genauigkeit als zuverlässiger Indikator für zukünftige Genauigkeit verwendet werden kann, es sei denn, die Methode, die zur Erstellung der Prognosen verwendet wird, ist von einer Prognose zur nächsten streng identisch.

Seit dem 18. Jahrhundert haben Mathematiker den Begriff des statistischen Modells eingeführt. Der Hauptaspekt statistischer Modelle besteht nicht darin, trotz der populären Meinung gute oder schlechte Prognosen zu liefern, sondern wiederholbare Prognosen zu liefern.

Mit einem statistischen Modell erhalten Sie einen Prozess, der die Erstellung von Prognosen automatisiert. Es garantiert nicht, dass die Prognosen gut sind, aber wenn die Prognosen schlecht sind, können Sie das Modell weiter analysieren.

Betrachten wir die folgende Beispiel-Zeitreihe. Wir werden das Overfitting-Problem anhand aufeinanderfolgender statistischer Modelle veranschaulichen.

Beginnen wir mit einem einfachen linearen Modell. Wie Sie sehen können, passt die Linie nicht wirklich gut zu den Punkten der Zeitreihe. Dadurch haben wir einen großen Fehler von über 50%. Dieses Modell passt nicht wirklich zu den Daten.

Dann können wir die Komplexität des Modells erhöhen. Wir haben jetzt ein Modell, das ungefähr dem lokalen Durchschnitt der Zeitreihe entspricht. Dieses neue Modell sieht viel besser aus als das vorherige und tatsächlich wurde der Fehler um das Fünffache reduziert und beträgt jetzt 10%.

Wir haben hier ein gutes Modell, aber können wir den Fehler noch weiter reduzieren? Nun, die Antwort ist einfach: Ja, wir können ein Modell produzieren, das einen Fehler von weniger als 1% erreicht.

Wie Sie sehen können, ist es ziemlich einfach; wir müssen nur ein Modell entwerfen, das nahezu alle Punkte der Zeitreihe durchläuft.

Aber können wir diesem Modell wirklich vertrauen, dass es bei zukünftigen Prognosen eine Genauigkeit von 1% aufweist? Offensichtlich können wir das nicht! Dieses Modell optimiert nur winzige Schwankungen der Vergangenheit, die nichts anderes als zufällige Variationen sind. Intuitiv können wir echte Zufälligkeit nicht vorhersagen; wir können nur Muster wie Trends, Saisonalität usw. vorhersagen.

Wenn wir die letzten beiden Modelle vergleichen, haben wir ein offensichtliches Problem: Nach unserer Fehlermessung ist das Modell auf der rechten Seite - das mit einem Fehler von 1% - zehnmal besser als das Modell auf der linken Seite.

Obwohl offensichtlich das beste Modell das auf der linken Seite ist. Dieses Modell gleicht den zufälligen Schwankungen der Zeitreihe aus.

Es gibt also etwas nicht in Ordnung mit der Art und Weise, wie wir den Fehler messen. Dieser Fehler, wie in den vorherigen Grafiken dargestellt, wird als empirischer Fehler bezeichnet. Es ist der Fehler, den Sie durch Messungen an Ihren historischen Daten erhalten.

Doch woran wir wirklich interessiert sind, wird als realer Fehler bezeichnet. Der reale Fehler wird definiert als der Fehler Ihres Prognosemodells auf den Daten, die Sie nicht haben, das heißt: zukünftige Daten.

Obwohl diese Definition wie ein vollständiges Paradoxon aussieht: Wie können Sie überhaupt etwas messen, wenn Sie die Daten nicht haben!

Seit dem 19. Jahrhundert haben Statistiker dieses Problem unter dem Begriff Bias-Varianz-Tradeoff untersucht.

Wenn wir uns die drei Modelle anschauen, die wir haben, können wir sagen, dass das lineare Modell eine hohe Verzerrung aufweist: Egal welches lineare Modell wir wählen, es wird nie gelingen, die Daten wirklich anzupassen, es sei denn, natürlich, die Daten selbst sind linear verteilt; aber in den meisten Situationen wird das lineare Modell nur die Datenverteilung annähern.

Dann hat das lineare Modell eine geringe Varianz: Intuitiv wird das Hinzufügen oder Entfernen eines Punktes in der Zeitreihe das resultierende Modell nicht wesentlich beeinflussen. Dieses Modell ist ziemlich stabil.

Am anderen Extrem hat das Modell auf der rechten Seite eine sehr geringe Verzerrung: Es passt, tatsächlich überpasst es, die meisten Punkte der Zeitreihe. Die Varianz ist jedoch sehr hoch: Das Hinzufügen oder Entfernen eines einzelnen Punktes kann zu erheblichen Veränderungen in diesem Modell führen. Es gibt überhaupt keine Stabilität.

In der Mitte haben wir ein Modell, das sowohl Verzerrung als auch Varianz ausbalanciert; und das scheint genau der richtige Weg zu sein.

Das Hauptproblem beim Bias-Varianz-Ansatz ist jedoch, dass wir immer noch keine Ahnung haben, was mit dem realen Fehler passiert, das heißt dem Fehler auf den Daten, die wir nicht haben.

Dieser Trade-off ist häufig mehr eine Heuristik als ein echtes statistisches Kriterium.

Seit Ende der neunziger Jahre hat das Gebiet des statistischen Lernens, eine breitere Theorie, die auch die statistische Prognose umfasst, sowohl auf theoretischer als auch auf praktischer Ebene einen bedeutenden Durchbruch erzielt.

Diese Theorie ist komplex, aber eine einfache Gleichung gibt uns wichtige Einblicke in die Ergebnisse. Diese Theorie besagt, dass der reale Fehler durch die Summe des empirischen Fehlers und eines anderen Wertes namens strukturelles Risiko nach oben begrenzt ist.

Wie wir zuvor gesehen haben, ist der empirische Fehler einfach der Fehler, der anhand der historischen Daten gemessen wird.

Das strukturelle Risiko ist ein theoretisches Kriterium, das für bestimmte Klassen von Modellen explizit berechnet werden kann und für die meisten anderen Klassen geschätzt werden kann.

Zurück zu unserem ursprünglichen Beispiel können wir sehen, dass das strukturelle Risiko mit der Modellkomplexität zunimmt.

Wenn wir diese strukturellen Risiken quantifizieren, erhalten wir folgenden Ausblick.

Wir kennen immer noch nicht den realen Fehler - dieser Wert kann sowieso nicht direkt gemessen werden - aber wir sehen, dass das Modell in der Mitte die niedrigste obere Grenze für den realen Fehler hat.

Die Theorie des statistischen Lernens gibt uns nicht den Wert des realen Fehlers, sondern eine obere Grenze; und der ganze Punkt besteht darin, das Modell zu wählen, das die niedrigste obere Grenze erreicht.

Diese obere Grenze fungiert als maximaler Wert für den realen Fehler.

Im Vergleich zum Bias-Varianz-Trade-off sehen wir, dass die Theorie des statistischen Lernens uns eine quantitative Schätzung des realen Fehlers liefert.

Das strukturelle Risiko ist in der Praxis schwer zu schätzen. Dennoch ist es derzeit die beste bekannte Lösung, um Überanpassung zu vermeiden.

Wir haben zuvor gesehen, dass eine offensichtliche Möglichkeit, Probleme mit Überanpassung zu bekommen, darin besteht, die Modellkomplexität zu erhöhen.

Es gibt jedoch auch einen anderen, subtileren Weg, um Probleme mit Überanpassung zu bekommen: Dies kann geschehen, indem man die Komplexität der Daten erhöht.

Das Hinzufügen zusätzlicher Punkte zu den Daten reduziert in der Regel Probleme mit Überanpassung, aber wenn Sie zusätzliche Dimensionen zu den Daten hinzufügen, werden Sie wahrscheinlich Probleme mit Überanpassung bekommen, selbst wenn die Modelle selbst unverändert bleiben.

In unserer Erfahrung bei Lokad trifft diese Situation häufig auf Organisationen zu, die ihre eigenen Prognosemodelle Jahr für Jahr mit immer mehr Dateninputs verfeinern, ohne sich explizit um das strukturelle Risiko zu kümmern, das in ihren Modellen lauert.

In hohen Dimensionen sind selbst lineare Modelle anfällig für Probleme mit Überanpassung.

Damit endet diese kurze Präsentation über Überanpassung. Wenn Sie sich an eine Sache erinnern müssen, dann daran, dass Ihre Messung des Prognosefehlers ohne Berücksichtigung des strukturellen Risikos wahrscheinlich sehr irreführend ist; und je größer Ihr Unternehmen ist, desto mehr Geld wird es Sie kosten.

Vielen Dank für Ihr Interesse. Wir beantworten gerne Ihre Fragen in unseren Foren.


Leserkommentare (9)

Interessante Präsentation vor 3 Jahren | Mark


Wow, was für ein großartiges Video, vielen Dank, dass Sie mir geholfen haben, Überanpassung zu verstehen. vor 4 Jahren | Melford McRae


Übrigens habe ich versucht, die Diashow in mehreren Browsern anzusehen, aber es hat nicht funktioniert. Sie scheint sich nie zu laden. Kann jemand bei Lokad das überprüfen und sehen, woran das Problem liegen könnte? vor 4 Jahren | Shaun Snapp


Ich habe gerade ein aktualisiertes Video gepostet, das funktioniert. vor 4 Jahren | Joannes Vermorel


Es scheint, dass SlideShare ihre Sachen im Laufe der Jahre nicht gepflegt hat :-( Hier sind die Audiodatei https://media.lokad.com/videos/2009-04-21-overfitting/overfitting.mp3 und die PowerPoint-Datei https://media.lokad.com/videos/2009-04-21-overfitting/overfitting.pptx Ich werde diese beiden als YouTube-Video zusammenführen. vor 4 Jahren | Joannes Vermorel


Dies ist ein ziemlich kniffliges Problem. Es gibt keine andere Möglichkeit, ein Prognosemodell zu messen, als es anhand seiner historischen Leistung zu überprüfen, aber es besteht die Tendenz, sich zu überanpassen, um “die beste Genauigkeit” zu erreichen. Dies wäre ein größeres Problem, wenn ein höherer Prozentsatz der Unternehmen tatsächlich ihr Best-Fit-Verfahren in den von ihnen gekauften Prognosesystemen verwenden oder die Modelle wirklich optimieren würde. Ich wäre an einer Diskussion darüber interessiert, wie man Überanpassung verhindern kann, wenn man ein Best-Fit-Verfahren verwendet. vor 4 Jahren | Shaun Snapp


Ich habe eine Antwort unter https://blog.lokad.com/journal/2014/5/20/how-to-mitigate-overfitting-when-forecasting-demand gepostet. Hoffentlich hilft es! vor 4 Jahren | Joannes Vermorel


Vielen Dank für die Diashow. Sie hat mir geholfen, Überanpassung zu verstehen, ohne in die mathematischen Details einzusteigen. vor 8 Jahren | Shyam Prasad Murarka


Danke für die Diashow. vor 8 Jahren | Abhishek