00:00:00 Einführung ins Interview
00:00:47 Nikos Kourentzes’ Hintergrund und Arbeit
00:03:25 Verständnis der Vorhersagekongruenz
00:04:44 Grenzen der Genauigkeit in der Prognose
00:06:14 Kongruenz in Zeitreihenprognosen
00:08:02 Überlegungen zur Bestandsmodellierung in der supply chain
00:09:03 Kongruenz und Prognosenkonsistenz
00:10:29 Mathematische Kennzahlen in der Produktion
00:12:08 Überlegungen zum Bestand bei Luxusuhrenherstellern
00:14:47 Aufwärtsschwankungen, die die Produktion auslösen
00:16:03 Optimierung des Modells für die Nachfrage einer SKU
00:17:41 Forschung zu Schrumpfungsschätzern und zeitlichen Hierarchien
00:19:05 Beste Modelle für alle Zeiträume
00:21:32 Kontroverse um die Vorhersagekongruenz
00:24:05 Kalibrierung von Bestandsrichtlinien
00:26:27 Ausbalancieren von Genauigkeit und Kongruenz
00:31:14 Tricks der zeitlichen Aggregation glätten Prognosen
00:32:54 Bedeutung von Gradienten in der Optimierung
00:35:28 Korrelationen in der supply chain
00:38:10 Über die Zeitreihenprognose hinaus
00:40:27 Ehrlichkeit probabilistischer Prognosen
00:42:32 Ähnlichkeiten zwischen Kongruenz und Bullwhip-Verhältnis
00:45:18 Bedeutung der Analyse sequentieller Entscheidungsfindung
00:47:27 Vorteile der getrennten Behandlung von Stufen
00:49:34 Menschliche Interaktion mit Modellen
00:52:05 Beibehaltung des menschlichen Elements in der Prognose
00:54:35 Vertrauen in Experten und Analysten
00:57:28 Realistische Situation der Verwaltung von Millionen von SKUs
01:00:01 Modellanpassungen auf hoher Ebene
01:02:13 Entscheidungen, die von der Wahrscheinlichkeit seltener Ereignisse gesteuert werden
01:04:44 Nikos’ Sicht auf Anpassungen
01:07:14 Zeitverschwendung bei geringfügigen Anpassungen
01:09:08 Gegen manuelle tägliche Anpassungen
01:11:43 Unternehmensweite Vorteile durch Codeanpassungen
01:13:33 Rolle des Data Science Teams
01:15:35 Probabilistische Prognosen schrecken manuelle Eingriffe ab
01:18:12 Die Millionen-Dollar-Frage zur KI
01:21:11 Bedeutung des Verständnisses von KI-Modellen
01:24:35 Wert und Kosten von KI-Modellen
01:26:02 Lösungsansätze für Probleme im Bestand
Über den Gast
Nikolaos Kourentzes ist Professor für prädiktive Analytik und KI am University of Skövde AI Lab in Schweden. Seine Forschungsinteressen liegen im time series Forecasting, mit aktuellen Arbeiten in der Modellierung von uncertainty, zeitlichen Hierarchien und hierarchischen Prognosemodellen. Sein Forschungsfokus liegt darauf, Prognosen in Entscheidungen und Handlungen umzusetzen, in Bereichen wie inventory management, Liquiditätsmodellierung für monetäre Operationen und im Gesundheitswesen. Er verfügt über umfangreiche Erfahrung sowohl in der Industrie als auch im öffentlichen Sektor und ist Autor verschiedener Open-Source-Bibliotheken, die den Einsatz fortschrittlicher forecasting methods in der Praxis unterstützen.
Zusammenfassung
In einem aktuellen LokadTV-Interview diskutierten Nikos Kourentzes, Professor an der Universität Skövde, und Joannes Vermorel, CEO von Lokad, die Vorhersagekongruenz in der supply chain Entscheidungsfindung. Sie betonten die Wichtigkeit, Prognosen mit Entscheidungen in Einklang zu bringen, und räumten ein, dass Modelle fehlerhaft spezifiziert sein können. Sie unterschieden zwischen Prognosegenauigkeit und Kongruenz, und argumentierten, dass die genaueste Prognose möglicherweise nicht die beste für die Entscheidungsfindung ist, wenn sie nicht mit dem Ziel der Entscheidung übereinstimmt. Außerdem erörterten sie die praktische Anwendung der Vorhersagekongruenz in der Bestandsentscheidung und ihr Potenzial, den Bullwhip-Effekt zu mildern. Auch die Rolle von KI und menschlicher Beteiligung bei der Vorhersagekongruenz wurde diskutiert.
Erweiterte Zusammenfassung
In einem aktuellen Interview, moderiert von Conor Doherty, Leiter der Kommunikation bei Lokad, diskutierten Nikos Kourentzes, Professor an der Universität Skövde, und Joannes Vermorel, CEO und Gründer von Lokad, das Konzept der Vorhersagekongruenz im Kontext der supply chain Entscheidungsfindung.
Kourentzes, der ein Team leitet, das sich auf KI-Forschung an der Universität Skövde konzentriert, erklärte, dass sich seine Arbeit hauptsächlich um Modellrisiken und Modellspezifikation dreht. Er betonte die Wichtigkeit, Prognosen mit den Entscheidungen, die sie unterstützen, in Einklang zu bringen – ein Konzept, das er als Vorhersagekongruenz bezeichnet. Dieser Ansatz zielt darauf ab, die Genauigkeit zu verbessern, indem anerkannt wird, dass Modelle fehlerhaft spezifiziert sein können.
Kourentzes unterschied weiter zwischen Prognosegenauigkeit und Vorhersagekongruenz. Während Genauigkeit ein Maß für das Ausmaß der Prognosefehler ist, beschreibt Kongruenz die Konsistenz der Prognosen über die Zeit. Er argumentierte, dass die genaueste Prognose nicht zwangsläufig die beste für die Entscheidungsfindung ist, wenn sie nicht mit der Zielvorgabe der Entscheidung übereinstimmt.
Vermorel, der Kourentzes zustimmte, stellte fest, dass mathematische Kennzahlen in der Praxis oft nicht ausreichen. Er nannte Beispiele dafür, wie unterschiedliche Entscheidungen diverse asymmetrische Kosten verursachen können, etwa beim Verkauf von verderblichen Gütern im Vergleich zu Luxusartikeln. Vermorel erörterte zudem den Ratscheneffekt im supply chain management, bei dem Schwankungen in den Nachfrageprognosen zu unumkehrbaren Entscheidungen führen können.
Kourentzes berichtete von seinem Wechsel, sich nicht nur auf Genauigkeit zu konzentrieren, sondern auch andere Faktoren in der Prognose zu berücksichtigen. Er betonte die Bedeutung, die zugrundeliegenden Mechanismen der Modelle und deren Annahmen zu verstehen. Er schlug vor, dass, sobald eine Sammlung genauer Prognosen vorliegt, die kongruenteste ausgewählt werden sollte.
Vermorel hingegen erklärte, dass man bei Lokad direkt auf finanzielle Ergebnisse optimiert, anstatt sich auf mathematische Kennzahlen zu konzentrieren. Er erläuterte, dass Gradienten für die Optimierung entscheidend sind, da sie die Richtung vorgeben, in der Parameter angepasst werden sollten, um Fehler zu minimieren. Zudem erörterte er die Bedeutung probabilistischer Prognosen, die alle möglichen Zukunftsszenarien berücksichtigen – nicht nur für die Nachfrage, sondern auch für unterschiedliche Durchlaufzeiten und Unsicherheiten.
Anschließend ging die Diskussion auf die praktische Anwendung der Vorhersagekongruenz in der Bestandsentscheidung über und ihr Potenzial, den Bullwhip-Effekt zu mildern. Kourentzes erläuterte, dass Kongruenz und das Bullwhip-Verhältnis viele Gemeinsamkeiten aufweisen und dass die Gestaltung von Prognosen im Hinblick auf Kongruenz dazu beitragen kann, den Bullwhip-Effekt zu reduzieren.
Auch die Rolle menschlicher Beteiligung an der Vorhersagekongruenz wurde diskutiert. Kourentzes ist der Ansicht, dass menschliche Eingriffe nicht abgeschafft, sondern vielmehr gezielt zur Wertschöpfung eingesetzt werden sollten. Vermorel hingegen berichtete, dass Lokad keine manuellen Anpassungen der Prognosen mehr zulässt, da dies zu besseren Ergebnissen führte.
Das Gespräch endete mit einer Diskussion über die Rolle von KI in der Vorhersagekongruenz und Entscheidungsfindung in supply chains. Sowohl Kourentzes als auch Vermorel waren sich einig, dass, obwohl KI eine wichtige Rolle bei der Bewältigung von Prognoseherausforderungen spielt, sie nicht alle bestehenden Methoden ersetzen sollte und das Verständnis des Prozesses entscheidend ist.
In seinen abschließenden Bemerkungen forderte Kourentzes einen Wandel weg von traditionellen Prognosemethoden hin zu einem integrierteren Ansatz in der Entscheidungsfindung. Er betonte die Notwendigkeit, unsere Denkweise, Software und Lehrbücher zu aktualisieren, und begrüßte die Einbeziehung von Menschen aus verschiedenen Fachgebieten in das Prognosefeld. Abschließend unterstrich er die Bedeutung von Zusammenarbeit und vielfältigen Perspektiven bei der Bewältigung dieser Herausforderungen.
Gesamtes Transkript
Conor Doherty: Willkommen zurück. Üblicherweise drehen sich Diskussionen über Prognosen um die Idee der Genauigkeit. Unser heutiger Gast, Nikos Kourentzes, hat eine andere Perspektive. Er ist Professor am Artificial Intelligence Lab der Universität Skövde. Heute wird er mit Joannes Vermorel und mir über das Konzept der Vorhersagekongruenz sprechen. Nikos, kannst du bitte vor der Kamera bestätigen, dass ich Skövde korrekt ausgesprochen habe?
Nikos Kourentzes: Das ist das Beste, was ich auch kann.
Conor Doherty: Nun, dann habe ich keine weiteren Fragen. Vielen Dank, dass du dabei warst.
Nikos Kourentzes: Es ist mir ein Vergnügen.
Conor Doherty: Im Ernst, ich arbeite an der Universität Skövde, im Artificial Intelligence Lab. Das klingt sehr beeindruckend. Was genau machst du und was ist dein Hintergrund im Allgemeinen?
Nikos Kourentzes: Also, lass mich zunächst ein wenig über das Lab vorstellen und dann auf meinen Hintergrund eingehen. Wir sind ein vielfältiges Team von Akademikern, das sich für KI-Forschung interessiert. Der Schwerpunkt liegt hauptsächlich auf data science, aber der Anwendungsbereich ist ziemlich breit gefächert. Zum Beispiel, wie du bereits erwähnt hast, werde ich wahrscheinlich über Prognosen und Zeitreihenmodellierung sprechen. Aber andere Kollegen interessieren sich beispielsweise für Themen wie Informationsfusion, Visual Analytics, selbstfahrende Autos und kognitive Aspekte der KI. Das ist das Tolle an unserem Team, denn wir haben eine Polyphonie der Forschung und wenn man dann diskutiert, erhält man eine Vielzahl unterschiedlicher Ideen, die über die übliche Literatur hinausgehen. Zumindest finde ich es einen sehr schönen Bereich.
Die Universität ist – wie ich meinen Kollegen oft sage, da ich selbst kein Schwede bin – wenn man schwedische Namen international verwendet, kann es alles Mögliche sein. Daher wäre es wohl hilfreich zu sagen, dass die Universität im Bereich data science und KI eine beachtliche Tradition hat, auch wenn ihr Name nicht weit verbreitet ist. Ich bin jedenfalls sehr glücklich, dem Team beigetreten zu sein. Was mich betrifft, so arbeite ich seit mehr oder weniger 20 Jahren im Bereich der Prognose und Zeitreihenmodellierung – sei es mit Statistik, Ökonometrie oder KI. Ich habe an der Lancaster University meinen Doktortitel in künstlicher Intelligenz in der Business School gemacht. Ursprünglich liegt mein Hintergrund im Management. Aber irgendwann sagte ich: Okay, das ist ganz nett. Ich weiß, welche Fragen zu stellen sind, aber ich weiß nicht, wie man sie löst. Also begann ich, in der Operations Research zu arbeiten, was zu meinen supply chain Interessen führte, und schließlich zu meinem PhD in künstlicher Intelligenz. Danach interessierte ich mich mehr für Ökonometrie. So habe ich es geschafft, mir ein breiteres Verständnis der Zeitreihen anzueignen.
Conor Doherty: Danke, Nikos. Und tatsächlich, wie Joannes und ich zum ersten Mal auf dein Profil aufmerksam wurden – zunächst bin ich darauf gestoßen, weil ein Supply Chain Scientist, der einige deiner Arbeiten auf LinkedIn verfolgt, mir einen Artikel geschickt hat, in dem du über Vorhersagekongruenz geschrieben hattest und einen Link zu deinem Arbeitspapier zu diesem Thema enthalten war. Der Fokus der heutigen Unterhaltung wird auf Prognosen und deren Anwendung in der supply chain liegen. Aber bevor wir auf die Details eingehen, könntest du etwas Hintergrund dazu geben, was Vorhersagekongruenz ist und wie dieses Forschungsgebiet für dich entstanden ist?
Nikos Kourentzes: Ein wesentlicher Teil meiner Arbeit dreht sich um Modellrisiken und Modellspezifikation. Oft identifizieren wir in der Zeitreihenprognose ein Modell und sagen: In Ordnung, das nehmen wir. Aber wir erkennen nicht wirklich, dass jedes Modell in gewisser Weise falsch sein wird. Es ist ja das übliche Mantra in der Prognose: Alle Modelle sind falsch, einige sind nützlich. Aber ich glaube, wir können darüber hinausgehen, weil wir anfangen können zu quantifizieren, wie falsch die Modelle sind. Ein weiterer Aspekt ist, dass in der Literatur oft nicht so weit gegangen wird – und das ändert sich, ich muss sagen, dass sich das ändert; nicht nur ich sage das, viele Kollegen sind der Meinung, dass wir die Prognose mit der Entscheidung, die unterstützt werden soll, verbinden müssen.
Nikos Kourentzes: Also entstand die Kongruenz aus diesen beiden Ideen. Ich habe mit meinem Kollegen an der Lancaster University, Kandrika Pritularga, zusammengearbeitet, der ebenfalls Co-Autor des von dir erwähnten Papers ist. Und wir waren sehr daran interessiert zu sagen, dass, wenn wir beide die Auffassung vertreten, dass Modelle in gewisser Weise falsch spezifiziert sind – wir nähern also lediglich die Nachfrage oder den Absatz, je nachdem, wie man es betrachtet, an –, was dann die tatsächlichen Kosten sind. Und die Vorhersagekongruenz geht im Wesentlichen in die Richtung, zu fragen: Können wir etwas Besseres als die Genauigkeit erreichen? Denn Genauigkeit setzt in vielerlei Hinsicht voraus, dass man bei der Annäherung an seine Daten gute Arbeit leistet.
Nikos Kourentzes: Und weißt du, ja, wir bemühen uns wirklich darum, aber vielleicht verwenden wir einfach nicht das richtige Modell. Zum Beispiel könnte es eine Software geben, die dir eine Auswahl von X Modellen bietet, aber die korrekte Annäherung wäre ein Modell, das in deinem Modellpool fehlt. Genau hier liegt dann die Motivation, die Prognose mit einer Entscheidung zu verknüpfen, sobald wir erkennen, dass unsere Modelle wahrscheinlich falsch spezifiziert sind. Das ist also der Hintergrund.
Wenn ich es wissenschaftlicher angehen will, sollte ich sagen, dass wir mit meinen Kollegen unsere Forschungsthemen normalerweise mit einer etwas alberneren Idee beginnen. Also, weißt du, wir machen etwas Anderes und sagen: “Oh, hier gibt es einen interessanten Aufhänger, den wir etwas weiter erkunden sollten.” Und oft, wenn man das tut, landet man bei etwas, das eine nützliche Idee sein kann. Warum ich das erwähne, liegt daran, dass ich denke, dass Forecasting Congruence, was es an den Tisch bringt, ein etwas anderes Denken darstellt. Und deshalb finde ich es von Anfang an schön, weil es, wenn auch gewissermaßen als Scherz begonnen, uns ermöglicht hat, den gesamten Punkt aus einer anderen Perspektive zu betrachten.
Conor Doherty: Joannes, ich komme gleich auf dich zu, aber könntest du das ein wenig weiter ausführen? Wieder: Wenn du von Forecasting Accuracy sprichst, hat jeder mehr oder weniger eine Vorstellung davon, was das bedeutet. Aber wenn du sagst, dass Congruence oder Forecasting Congruence den Menschen hilft, Dinge aus einer anderen Perspektive zu sehen, könntest du diesen Unterschied etwas genauer erläutern, damit die Leute genau verstehen, was du im Kontext von Zeitreihenprognosen mit Congruence meinst?
Nikos Kourentzes: Also, zunächst einmal ist der Name nicht gerade selbsterklärend, und das hat seinen Grund. Was wir mit dieser Forecasting Congruence beschreiben wollen, ist im Wesentlichen, wie ähnlich Prognosen über die Zeit sind. Das ist zwar eine einfachere Art, es auszudrücken, aber hier gibt es ein paar Probleme. Viele der Wörter, die man dafür verwenden könnte – zum Beispiel Stabilität – werden bereits in der statistischen Prognose benutzt, sodass wir keine Verwirrung stiften wollen.
Und das andere Problem ist, dass, wie wahrscheinlich später noch etwas in der Diskussion erläutert wird, technische Schwierigkeiten bestehen, zu messen, wie ähnlich Prognosen über die Zeit sind. Denn zum Beispiel, wenn man an eine saisonale Zeitreihe und eine nicht-saisonale Zeitreihe denkt, impliziert das etwas sehr Unterschiedliches, da die Saisonalität selbst eine Differenz in der Prognose über die Zeit erzwingt. Das ist das Muster, das dort gemanagt werden muss. Es geht also nicht um jene Art von Nicht-Ähnlichkeit, die uns interessiert. Und genau das erfordert, wenn man so will, ein bisschen mathematische Akrobatik, um die Congruence zu definieren. Aber hier liegt der Unterschied zur Accuracy. Accuracy verstehen wir in der Regel – unabhängig davon, welche Metrik man verwendet – als eine Zusammenfassung des Ausmaßes deiner Prognosefehler.
Nun nehmen wir natürlich an, dass, wenn wir die genaueste Prognose erhalten, das bedeuten würde, dass wir die beste Information für die unterstützten Entscheidungen liefern. Das setzt jedoch voraus, dass die unterstützten Entscheidungen dieselbe Art von Zielfunktion haben wie die genaueste Prognose, sagen wir, die Minimierung der quadrierten Fehler. Aber das ist nicht der Fall. Ich meine, wenn du an ein supply chain inventory modeling denkst, müssen wir an Kosten aufgrund von Order Batching denken, an Über- und Unterbestandskosten, die deine Position gegenüber der, sagen wir, genauesten Prognose verändern könnten. Wir müssen auch an andere Aspekte denken, wie etwa Einschränkungen seitens unserer Lieferanten oder an weitere Kapazitätsbeschränkungen in den Produktionslinien oder in unserer Lagerhaltung. Wenn man also an die wahren Lagerhaltungskosten oder allgemein an die supply chain denkt, sieht man plötzlich, dass die genaueste Prognose nicht notwendigerweise diejenige ist, die besser mit der Entscheidung in Einklang steht. Und das ist wirklich der interessantere Punkt der Congruence.
Also, einerseits gibt es eine Forschungsrichtung, und meine Mitautoren und ich haben in dieser Hinsicht schon einiges veröffentlicht, was belegt, dass die meisten Genauigkeitsmetriken nicht gut mit guten Entscheidungen korrelieren. Das bedeutet nicht, dass sie nutzlos sind oder so, es heißt einfach, dass sie nicht die ganze Geschichte erzählen. Das drängt ein wenig in Richtung Congruence. Congruence versucht andererseits zu sagen: Wenn die Prognosen über die Zeit hinweg nicht allzu stark schwanken, dann ist wahrscheinlich einerseits ein gewisses Vertrauen in die Prognosen vorhanden. Andererseits handelt es sich auch um Prognosen, auf denen man mit einiger Konsistenz planen kann. Ich muss meine gesamte Planung nicht in jedem Prognosezyklus aktualisieren, weil die Prognose ziemlich ähnlich bleibt. Selbst wenn sie nicht die genauesten Prognosen sind, scheitern sie auf eine vorhersehbare Weise, die die Entscheidungsfindung erleichtert. Und genau das finden wir auch in unserer Arbeit. Wir stellen fest, dass die Entscheidungen, die durch kongruentere Prognosen unterstützt werden, auch solche sind, die über die Zeit konsistenter getroffen werden. Dadurch ist weniger Aufwand nötig, um diese Entscheidungen zu treffen.
Conor Doherty: Nun, danke, Nikos. Und Joannes, ich wende mich jetzt an dich. Ich habe das Gefühl, dass einiges davon bei dir sicherlich Anklang findet. Genauere Prognosen führen nicht zwangsläufig zu besseren Entscheidungen in der Lagerhaltung.
Joannes Vermorel: Ja, genau. Unsere heutige allgemeine Perspektive ist, dass so ziemlich alle mathematischen Metriken – in dem Sinne, dass man eine Formel wählt und sagt: “Das ist eine mathematische Formel, die deine Metrik charakterisiert und die du zu optimieren versuchst” – wenn diese Formel im Grunde aus der Luft gegriffen oder einfach erfunden ist, selbst wenn sie mit guter Absicht kommt, sagen wir, Norm eins, Norm zwei, etwas, dem gewisse mathematische Eigenschaften zugeschrieben werden, in der Produktion aus verschiedenen Gründen meist enttäuschen.
Vor mehr als einem Jahrzehnt begann Lokad damit, die Idee zu verbreiten, dass die Leute nicht das tun sollten, was wir heute naked forecasts nennen. Grundsätzlich unterstütze ich Nikos’ Vorschlag, dass eine Prognose ein Instrument für eine Entscheidung ist und dass man die Gültigkeit der Prognose nur durch die Brille der Gültigkeit der Entscheidungen beurteilen kann.
Und das ist irgendwie seltsam, denn wenn du 10 verschiedene Entscheidungen hast, könntest du am Ende inkonsistente Prognosen zur Unterstützung dieser Entscheidungen erhalten. Das erscheint bizarr, aber in Wirklichkeit ist es in Ordnung, auch wenn es kontraintuitiv ist. Und warum ist das in Ordnung? Nun, weil du einen Satz von Entscheidungen hast, die sehr unterschiedliche asymmetrische Kosten in Bezug auf Überschuss oder Fehlmengen mit sich bringen.
Und somit, wenn du eine Entscheidung triffst, bei der ein Überschuss eine Katastrophe bedeutet – nehmen wir zum Beispiel an, du verkaufst Erdbeeren. Bei Erdbeeren wirfst du am Ende des Tages so ziemlich alles weg, was du nicht verkaufst. Daher ist ein Überschuss katastrophal, da er einen sofortigen, garantierten Verlust oder eine Inventarabschreibung bedeutet.
Im Gegensatz dazu, wenn du ein Luxusuhrenhersteller bist und deine Artikel aus Gold, Platin und anderen edlen Metallen und Steinen bestehen, veralten die Bestände nicht, wenn du sie nicht verkaufst. Selbst wenn das, was du herstellst und in Produkte umwandelst, aus der Mode kommt, kannst du die Materialien immer zurückgewinnen und etwas neu formen, das besser auf den aktuellen Marktbedarf abgestimmt ist.
Grundsätzlich, wenn du Schmuck herstellst, gibt es niemals Inventarabschreibungen. Es könnten zwar Kosten anfallen, um deine Produkte umzugestalten, aber das ist ein ganz, ganz anderes Spiel.
Eines der grundlegenden Probleme, das in supply chain Lehrbüchern so gut wie nie erwähnt wird, ist der Ratschet-Effekt. Nehmen wir an, du betreibst ein Bestands-replenishment-Spiel. Jeden Tag hast du eine SKU, du hast eine Nachfrageprognose, und wenn die Nachfrage einen bestimmten Schwellenwert übersteigt, löst du eine Nachbestellung aus.
Aber es stellt sich heraus, dass, wenn deine Prognose ein wenig schwankt, das bedeutet, dass dein Inventar immer so eingestellt wird, dass es den höchsten Punkt dieser Schwankung erfasst. Ich meine, wenn man beispielsweise einen Monat betrachtet – und wenn dein typischer Nachbestellzyklus etwa einen Monat beträgt – schwankt deine Prognose im Laufe dieses Monats. Und nehmen wir an, jeden einzelnen Tag – also an 30, 31 Tagen im Monat – führst du einfach die Prognose-Logik erneut aus und erstellst unweigerlich einen Bestellauftrag an dem Tag, an dem deine Prognose am höchsten ist.
Es ist ein Ratschet-Effekt, denn sobald deine Prognose nach oben oder unten schwankt – wobei diese Schwankungen aus Genauigkeitssicht durchaus vorteilhaft sein können, da sie die kurzfristige Variation gut erfassen – ist der Preis, den du zahlst, dass du, sobald du eine Entscheidung auslöst, an diese Entscheidung gebunden bist.
Und wenn du diese Schwankungen hast, passiert typischerweise, dass du die Aufwärtsschwankung erfasst. Die Abwärtsschwankung ist nicht so schlimm, du verschiebst einfach etwas um einen weiteren Tag, aber die Aufwärtsschwankung löst die Produktionscharge, die Bestandsauffüllung, die Lagerallokation und den Preisnachlass aus.
Denn nochmals: Wenn du deinen Preis senkst und daraufhin ein Nachfrageanstieg eintritt, der durch diese Preissenkung verursacht wurde, aber du die Nachfrage unterschätzt hast und jetzt denkst, dass du zu viel Lagerbestand hast – während das in Wirklichkeit gar nicht der Fall war – dann bringst du dich, nachdem du den Preis gesenkt hast, versehentlich in eine erzeugte Fehlbestand-Situation.
Das sind all die Arten von Dingen, bei denen du diese Ratschet-Effekte siehst: Wenn du diese Schwankungen hast, wirst du handeln, und die Leistung deines Unternehmens wird die Art der extremen Variation deines statistischen, prädiktiven Modells widerspiegeln. Das ist nicht gut, weil du, was Entscheidungen angeht, das Rauschen des prädiktiven Modells einfängst.
Nikos Kourentzes: Darf ich etwas hinzufügen? Zunächst einmal stimme ich völlig zu. Aber es könnte helfen, denselben Argumentationsgang auch aus der Perspektive eines Zeitreihen-Experten wie mir zu betrachten, der darauf erzogen wurde, in Accuracy zu denken.
Wo ich schließlich meine Meinung änderte, liegt darin, dass nehmen wir an, du hast eine gewisse Nachfrage für eine Stock Keeping Unit, eine SKU, und dann findest du dein bestes Modell und optimierst dieses Modell bezüglich etwas wie einer Likelihood oder der Minimierung deines mittleren quadratischen Fehlers.
Die Annahme dahinter ist, dass du eine gute Näherung des Modells vorgenommen hast und typischerweise dein Fehler eine Ein-Schritt-Voraussage ist. Das ist es, was wir üblicherweise tun – zumindest minimieren wir den In-Sample-Fehler.
Wenn dein Modell nicht das korrekte Modell ist – wobei das korrekte Modell implizieren würde, dass du irgendwie den Daten-Generierungsprozess kennst, was nie der Fall ist – dann wäre, wenn du diesen Fehler minimieren würdest, deine Prognose für alle Prognosehorizonte perfekt. Aber das ist nicht so, denn dein Modell ist nur eine Annäherung.
Angenommen, du minimierst deinen Fehler für eine Ein-Schritt-Voraussage, wie wir es normalerweise tun, dann könnte dein Modell tatsächlich sehr gut für diese Ein-Schritt-Voraussage funktionieren, jedoch nicht über die gesamte Lieferzeit. Die Lieferzeit erfordert weitere Schritte in die Zukunft.
Wenn du dann sagst: “Oh, ich kann mein Modell so optimieren, dass es in vielleicht 3 Monaten, sagen wir drei Schritte voraus, sehr gut funktioniert”, landest du am Ende im gegenteiligen Effekt. Dein Modell ist sehr gut darauf abgestimmt, auf diesen Prognosehorizont optimiert zu sein, aber nicht auf den kürzeren Prognosehorizont. Somit verpasst du wiederum Informationen bezüglich der Lieferzeit.
Was ich damit sagen möchte, ist, dass die traditionelle Denkweise, wie wir Modelle optimieren, unweigerlich zu effektiv ungenauen Prognosen führt – insofern, als dass sie immer für den Fehler kalibriert werden, den der Optimierer betrachtet, und nicht für die eigentliche Entscheidung, die wir unterstützen wollen. Es ist ein anderer Horizont.
Hier kommen zum Beispiel viele Forschungen zu Shrinkage-Schätzern oder die Arbeit, die meine Kollegen und ich an zeitlichen Hierarchien geleistet haben, ins Spiel, denn diese Techniken denken stets: “Lass uns nicht zu sehr an die Daten anpassen. Lass uns nicht besessen davon sein, irgendeine Fehlerstatistik zu minimieren.”
Also, weißt du, was Joannes beschrieben hat, kann man im Wesentlichen aus zwei Perspektiven sehen. Eine ist die Auswirkung auf die supply chain, und die andere ist die statistische Grundlage, warum das zwangsläufig so ist.
Joannes Vermorel: Ja, in der Tat. Bei Lokad ist es heute gängige Praxis – und das ist schon seit einiger Zeit Teil des die Quantitative Supply Chain-Frameworks – eine rein finanzielle Optimierung durchzuführen. Wir optimieren also direkt in Euro oder Dollar.
Und in der Tat, diese Metriken werden entdeckt. Wir haben sogar eine spezifische Methodik dafür, die experimentelle Optimierung genannt wird, bei der – weil die supply chain Systeme so undurchsichtig und komplex sind und die Metrik also nicht gegeben ist – es ein ganz eigenes Thema ist, dies zu entdecken.
Nun, das Interessante sind die Prognosehorizonte und wie sich die Prognose damit verändert. Ich habe schon lange in diese Richtung gedacht, aber im Wesentlichen haben die neuesten Forecasting-Wettbewerbe von Makridakis, M4, M5, M6 bewiesen, dass so ziemlich die besten Modelle für alle Horizonte die besten sind, unabhängig davon, welchen man wählt.
Bei Lokad haben wir 2020 den ersten Platz auf SKU-Ebene für Walmart erreicht, und wir waren die Besten für eine Prognose einen Tag voraus, sieben Tage voraus, alles. Lange Zeit habe ich mit der Möglichkeit gearbeitet, dass man Modelle haben könnte, die bei bestimmten Horizonten besser performen.
Aber wenn man sich die modernen Modelle anschaut, wie zum Beispiel differentiable programming, diese modernen Klassen von Prognosemodellen, ist es mittlerweile ziemlich einheitlich. Heutzutage ist es sehr selten, dass wir Modelle haben, die für eine Ein-Schritt-Voraussage besser abschneiden als für eine Prognose sechs Monate voraus.
Und im Wesentlichen gibt es Modelle, die einen unbegrenzten Horizont haben, die bis ans Ende der Zeit prognostizieren, und man stoppt einfach, um Rechenressourcen zu sparen, weil das sonst Verschwendung wäre. Dennoch bleibt der Punkt, dass man im Allgemeinen nicht davon ausgehen sollte, dass die zu optimierende Metrik bekannt ist.
Man sollte nicht davon ausgehen, dass es sich dabei um eine der eleganten mathematischen Metriken handelt – wie etwa Log-Likelihood, wenn man bayesianisch vorgehen will, oder den mittleren quadratischen Fehler oder ähnliches. Das ist zwar schön, wenn man Theoreme in wissenschaftlichen Arbeiten beweisen möchte, aber Theoreme und Modelleigenschaften übersetzen sich nicht in operationelle Ergebnisse.
Das kann zu vielen subtilen Fehlern im Verhalten führen, die aus mathematischer Sicht nicht sofort erkennbar sind.
Conor Doherty: Nun, vielen Dank. Nikos, um auf etwas zurückzukommen, das du vorhin erwähnt hast, und um weiterzumachen: Du hast gesagt, dass du dich selbst als “Time series guy” bezeichnest und dass du dich früher auf die Genauigkeit konzentriert hast – und dann sagtest du: “Oh, ich habe meine Meinung geändert und bin über die Genauigkeit oder das isolierte Fokussieren auf Genauigkeit hinausgegangen.” Könntest du diesen Prozess näher beschreiben? Denn wann immer ich über Forecasting spreche, ist es ziemlich schwierig, die Leute davon zu überzeugen, dass die Prognosegenauigkeit nicht das Endziel an sich ist. Ich erinnere mich, dass du sogar in deinem Artikel sagtest: “Das Ziel des Forecastings ist nicht Genauigkeit.” Diese Aussage ist ziemlich kontrovers, je nachdem, wem man sie sagt. Wie genau bist du diesen Weg gegangen?
Nikos Kourentzes: Ja, ich meine, es ist kontrovers – du hast völlig recht. Aber ich denke, es ist ein Argument, das Personen aus der Welt der Zeitreihen eher akzeptieren als Forecast-Nutzer, wenn ich das so ausdrücken darf. Lass mich damit beginnen, etwas aufzugreifen, das du gerade bezüglich der Forecast-Horizonte erwähnt hast.
Ich denke, dass das Verständnis, dass die Modelle in der Lage sind, für alle Horizonte gute Prognosen zu liefern, davon abhängt, wie wir die Modelle miteinander vergleichen. Du weißt schon, man greift wieder die M-Wettbewerbe auf, die du erwähnt hast. Das ist eine nützliche Interpretation der M-Wettbewerbe, aber all diese Modelle werden auf ähnliche Weise optimiert. Selbst wenn du ein einfaches exponentielles Glätten verwendest und deine Zielfunktion änderst, also wie du deine Parameter schätzt, kannst du es tatsächlich so beeinflussen, dass es bei unterschiedlichen Zielsetzungen oder Horizonten viel besser oder viel schlechter abschneidet.
Das war für mich auch der Ausgangspunkt, um zu sagen: Vielleicht steckt hier wirklich etwas dahinter. Und genau hier bin ich beispielsweise etwas kritisch gegenüber der bloßen Verwendung von Standard-… lass mich das anders formulieren. Wenn ich mit Doktoranden oder Masterstudenten an Dissertationen arbeite, bitte ich sie manchmal, die Implementierung auf den schwierigen Weg zu gehen, anstatt nur eine Bibliothek zu verwenden, weil ich möchte, dass sie verstehen, was wirklich unter dem Modell vor sich geht. Und erst dann entdeckt man einige der Details und kann sich fragen: Macht das Sinn?
Eines der bereits erwähnten Dinge ist, dass wir Formeln und Ausdrücke mögen, die mathematisch leicht zu handhaben sind. Ich meine “leicht” in Anführungszeichen, denn manchmal sind sie durchaus komplex, aber ja – sie sind dennoch so gestaltet, dass man mit den richtigen Annahmen die Mathematik noch beherrschen kann. Aber hier liegt für mich genau das Problem: Dabei gewinnen wir zwar ein gutes Verständnis dafür, was unter den Annahmen vor sich geht, und das ist sehr nützlich. Doch oft vergessen wir dann zu hinterfragen: Was, wenn diese Annahme jetzt verletzt wird? Was, wenn wir eine falsche Modellspezifikation haben?
Für mich ist diese Modellspezifikation der Ausgangspunkt. Sobald du sie einführst, werden viele dieser Ausdrücke problematisch. Ich sollte hier vorsichtig sein – und als Akademiker macht das diese Forschung keineswegs nutzlos – aber es ist ein Zwischenschritt. Wir müssen alle Eigenschaften verstehen und dann sagen: Jetzt führen wir die Modellspezifikation ein.
Ich habe einige Kollegen aus Spanien, mit denen ich an der Kalibrierung von Bestandsrichtlinien gearbeitet habe. Und bei einem Papier, das wir zur Begutachtung einreichen wollen – was für Akademiker immer ein komplizierter Aspekt ist – geht es genau darum. Es geht darum zu sagen: Angenommen, wir haben eine sehr einfache Richtlinie, wie eine Order up to Policy; das wäre das Ergebnis, wenn wir davon ausgehen, dass das Modell in Ordnung ist, und das wäre das Ergebnis, wenn wir sagen: Nein, das Modell ist falsch spezifiziert. Denn man sieht, dass es zusätzliche Risiken in der supply chain gibt, zusätzliche Risiken bei der Festlegung des Bestands.
Für mich zeigt sich der Moment, in dem man sagt, dass Genauigkeit nicht ausreicht, dann, wenn ich anfange zu denken: Das Modell ist falsch spezifiziert – was bedeutet dieses zusätzliche Risiko? Wenn man an stochastische Bestandsrichtlinien denkt, sagen wir: Oh, es gibt ein stochastisches Risiko, das aus dem Nachfrageprozess stammt, in Ordnung. Aber das ist nicht das einzige Risiko. Und ich behaupte keineswegs, dass ich alle Risiken in der Art und Weise, wie ich darüber nachdenke, erfasse, aber zumindest besagt die Logik, dass es mehr als nur ein Ziel der Genauigkeit geben muss.
Das heißt nicht, dass wir dieses Ziel vollständig verwerfen sollten; es muss nämlich, selbst wenn wir es vernachlässigen, immer eine gewisse Korrelation zwischen diesem und anderen Zielen geben. Denn wenn du eine präzise Vorhersage im weiteren Sinne vollständig ignorierst, dann wirst du deine Arbeit nicht gut machen – zumindest nach meiner Erfahrung.
Man könnte das Ziel auch komplett wechseln; so stellen wir theoretisch fest, dass es einen Zusammenhang zwischen Kongruenz und Genauigkeit gibt. Es ist nicht ein 100%iger Zusammenhang, aber es gibt einen schwachen Zusammenhang. Das heißt für mich aber nicht, dass wir die Genauigkeit über Bord werfen. Es ist sicherlich nicht das Ende der Diskussion. Wenn du sie mit einer besseren Metrik ersetzen kannst, die dennoch ähnliche Eigenschaften aufweist – oder mit einer Sammlung von Metriken –, wunderbar. Mir ist es egal, ob wir die Metrik so oder so nennen, ob es meine Metrik oder jemand anderes Metrik ist. Aber ich glaube wirklich, dass wir, wenn wir die Modellspezifikation einführen und die damit verbundenen Risiken berücksichtigen, nicht bei den traditionellen Metriken bleiben können.
Conor Doherty: Danke, Nikos. Und Joannes, ich komme gleich wieder auf dich zu, aber ich möchte einen Punkt – eigentlich zwei Punkte – unterstreichen. Zum einen: Ich glaube, ich habe mich vergriffen. Ich hätte sagen sollen, dass Genauigkeit nicht das Ziel des Forecastings ist. Ich glaube, ich habe es andersherum ausgedrückt. Zum anderen: Um auf einen Punkt einzugehen, den du gerade genannt hast – und das ist ein Schlüsselaspekt des Papiers – plädierst du nicht dafür, direkt die kongruenteste Vorhersage zu verfolgen, wenn ich das richtig verstehe, oder? Es handelt sich also um eine Mischung aus Genauigkeit und Kongruenz. Ist das eine faire Interpretation? Und falls ja, könntest du das bitte für jemanden, der vielleicht nicht versteht, wie man diese beiden Metriken kombiniert, näher erläutern?
Nikos Kourentzes: Zunächst sollte ich betonen, dass dies laufende Arbeit ist, sodass ich darauf noch nicht die endgültige Antwort habe. Aber es scheint, dass eine einfache Heuristik etwa so aussehen könnte: Sobald du deine Sammlung genauer Prognosen identifiziert hast, wählst du daraus diejenige aus, die am kongruentesten ist. Wähle nicht direkt die kongruenteste Vorhersage, denn das könnte eine sehr ungenaue Vorhersage sein – wenn das Sinn macht.
Ich sehe diese beiden Ziele – wenn ich es anders ausdrücke – in einem Bereich, in dem beide gleichzeitig besser werden, und dann entsteht ein Trade-off. Sobald du diesen Trade-off erreichst, solltest du dann stärker auf die kongruente Seite setzen.
Conor Doherty: Nun, das wäre dann wieder die Frage. Du verwendest den Begriff Trade-off, und darauf konzentrieren wir uns ja oft – wieder auf die Trade-offs. Wie misst du – und ich verstehe, dass dies laufende Arbeit ist – wie misst du oder wie misst ein Unternehmen diese Trade-offs, also Genauigkeit versus Kongruenz? Ich weiß, du versuchst auch, die Fluktuationen, das Hin und Her zwischen den kongruenten Vorhersagen zu reduzieren. Aber selbst wenn dem so ist: Prognosegenauigkeit ist einfach. Wir können zustimmen, dass sie fehlerhaft sein mag, aber sie ist leicht zu verstehen. Ich will einfach mehr Genauigkeit, ich will, dass die Zahl steigt. Aber jetzt führen wir eine weitere Dimension ein. Also, wie gewichtet ein Unternehmen das – das meine ich ganz konkret.
Nikos Kourentzes: Ja, ich tue mich hier schwer, eine klare Antwort zu geben, weil ich noch keine endgültige Antwort habe. Aber vielleicht kann ich ein Beispiel zur Logik geben.
Ich habe vorhin den Punkt zu saisonalen Zeitreihen angesprochen. Wenn es also darum geht, Kongruenz als Metrik zu definieren – und das ist eine Diskussion, die ich mit einigen Kollegen geführt habe, die sagen: “Oh, du könntest dies oder das machen” –, dann dreht es sich im Wesentlichen um die Idee des bedingten Mittels der Vorhersage. Was bedeutet das? Angenommen, die Nachfrage ist tatsächlich saisonal, sodass eine zugrunde liegende Struktur existiert. Diese unbekannte zugrunde liegende Struktur entspricht dann dem bedingten Mittel.
Wenn ich sagen würde, ich möchte die stabilste Vorhersage – oder, wie wir es nennen, die kongruenteste – dann wäre das prinzipiell eine Gerade, also eine flache Linie. Diese flache Linie würde keine Informationen über die Saisonalität enthalten. Die kongruenteste Vorhersage wäre also effektiv eine deterministische Vorhersage, die keinerlei Stochastizität, keine Struktur in der Zeitreihe annimmt – so etwas eben nicht. Das ist eindeutig eine schlechte Vorhersage.
Der Balanceakt besteht also darin, dass wir die kongruenteste Vorhersage in Bezug auf dieses bedingte Mittel wünschen. Wir wollen, dass sie versucht, saisonale Muster zu erfassen, dass sie dieser zugrunde liegenden Struktur folgt. Aber wir werden sie nicht so stark zwingen, dass sie versucht, jedes einzelne Detail zu übernehmen. Man könnte also sagen, dass eine Verbindung zu Overfitting und Underfitting besteht, aber es ist nicht zu 100 % diese Verbindung, denn wir sind uns alle einig, dass Overfitting etwas Schlechtes ist.
Wenn wir denselben Aspekt allerdings im Hinblick auf Überkongruenz und Unterkongruenz betrachten, zeigt sich leicht, dass Unterkongruenz eine schlechte Sache ist – wie diese flache Linie, die wir zuvor erwähnt haben. Aber Überkongruenz ist nicht zwangsläufig etwas Schlechtes. Und gerade dieses “nicht zwangsläufig” macht die Sache interessant und kompliziert. Das “nicht zwangsläufig” verbindet sich stark mit den Punkten, die Joannes zuvor angesprochen hat, nämlich dass es im Bestandsmanagement in der supply chain noch andere Aspekte gibt, die uns interessieren. Indem wir also diese zusätzliche Kongruenz in den Vorhersagen einführen, erleichtern wir praktisch den Entscheidungsträgern später ihr Leben. Aus statistischer Sicht wird dies nicht die präziseste Prognose sein, aber sie liefert dem Entscheidungsträger ausreichend Informationen, um handeln zu können – sodass die folgenden Entscheidungen, sei es finanziell oder anhand einer anderen Bestandsmetrik, wie etwa weniger Verschwendung oder Ähnliches, leichter zu realisieren sind.
Ich bin hier etwas vage, weil ich momentan nichts Besseres als die bereits erwähnte Heuristik vorweisen kann. Das ist, wie gesagt, laufende Arbeit – hoffentlich wird das nächste Papier den vollständigen mathematischen Ausdruck liefern, um zu sagen: “Ah, es ist eigentlich ein triviales Problem.” Den habe ich noch nicht. Daher würde ich in der Praxis derzeit den Leuten empfehlen, ihre Sammlung genauer Prognosen zu identifizieren und daraus diejenige auszuwählen, die die maximale Kongruenz aufweist. In gewisser Weise eine zweistufige Auswahl: Zuerst einen Pool genauer Prognosen und dann die kongruenteste auswählen.
Interessant ist, dass sich in den meisten unserer Experimente herausstellt, dass es sich bei diesem Modell entweder um eines handelt, das irgendeine Art von Tricks mit Shrinkage-Schätzern oder mit zeitlicher Aggregierung anwendet – denn diese neigen dazu, Prognosen zu glätten. Ich sollte hier betonen, dass es auch andere Kollegen gibt, die mit ähnlichen Ideen aufgewartet haben. Sie können beispielsweise die Verlustfunktion so modifizieren, dass ein Term eingefügt wird, um auch die Variabilität der Prognose zu minimieren, und so weiter. Wo ich denke, dass die Kongruenzmetrik ein wenig anders wirkt, liegt darin, dass wir auch die Verbindung zur Genauigkeit aufzeigen wollen – also Ausdrücke bereitstellen, die verdeutlichen, genau wo der Zusammenhang besteht und wo er sich auflöst.
Conor Doherty: Danke, Nikos. Joannes, was denkst du?
Joannes Vermorel: Also, bei Lokad betrachten wir das aus einem etwas anderen Blickwinkel. Wir gehen einen radikalen Weg, bei dem buchstäblich Dollar an Fehlern, Euro an Fehlern zählen, und wir gehen davon aus, dass die Metriken entdeckt werden – also völlig willkürlich sind. Es ist so brutal, etwas zu optimieren, bei dem die Metrik beliebig sein kann. Wie gehen wir das an? Nun, es hat sich herausgestellt, dass, wenn die Metrik beliebig ist, sie effektiv ein Programm ist – also ein Computerprogramm. Man könnte Metriken haben, die sich nicht einmal als Computerprogramme darstellen lassen; in der Mathematik kann man Dinge erfinden, die sogar Computern entgehen. Aber um die Diskussion zu erden, nehmen wir an, dass wir nicht in super bizarre, hyperabstrakte mathematische Räume abtauchen. Also haben wir etwas, das zumindest berechnet werden kann. Es ist also ein Programm, ein beliebiges Programm.
Das Gute ist, wenn du irgendetwas optimieren möchtest, brauchst du im Grunde nur Gradienten. Sobald du Gradienten hast, kannst du steuern. Für das Publikum: Sobald du die Steigung kennst, bedeutet das, dass du deine Parameter in die richtige Richtung lenken kannst, um das zu minimieren, was du minimieren möchtest. Wann immer du etwas optimieren willst, etwas höher oder niedriger haben willst mit einem bestimmten Ziel, geben dir die Gradienten die Richtung vor, in die du gehen solltest – das hilft enorm.
Genau hier hilft Differentiable Programming wirklich, denn Differentiable Programming ist buchstäblich ein Programmierparadigma, das bei Lokad extensiv eingesetzt wird. Es ermöglicht dir, jedes beliebige Programm zu nehmen und die Gradienten daraus zu berechnen – und das ist super mächtig. Typischerweise verbinden wir so diese finanzielle Perspektive. Wir werden diese finanziellen Elemente entdecken. Es wird ein chaotischer, sehr zufälliger Prozess sein, und am Ende wird das Programm seltsame Eigenheiten und Besonderheiten der supply chain widerspiegeln.
Wir können jedes Programm differenzieren, also differenzieren wir es und können darauf basierend irgendein Modell optimieren, vorausgesetzt, das Modell selbst ist differenzierbar. Das schränkt unseren Ansatz zwar auf Modelle mit differenzierbarer Struktur ein, aber siehe da – es ist tatsächlich die Mehrheit. In diesem Wettbewerb, dem M5, also im Walmart-Wettbewerb, haben wir es im Grunde genommen auf SKU-Ebene mit einem differenzierbaren Modell auf Rang 1 geschafft.
Also, die Forderung nach Differenzierbarkeit hindert dich nicht daran, state-of-the-art Ergebnisse zu erzielen. Schnell vorweg: Das fasst im Wesentlichen zusammen, was passiert, wenn du deine Metriken aufgibst, denn typischerweise müssen wir eine Vielzahl von Dingen ausbalancieren.
Ein weiterer Punkt ist das probabilistische Forecasting, also die Idee, dass wir alle möglichen Zukünfte betrachten – und das nicht nur für die Nachfrage. Zum Beispiel hattest du Lieferzeiten mit verschiedenen Horizonten erwähnt und dergleichen, aber in Wirklichkeit variieren die Lieferzeiten; auch hier besteht Unsicherheit.
Schlimmer noch, die beobachtete Lieferzeit ist gekoppelt an die bestellte Menge. Wenn du zum Beispiel 100 Einheiten bestellst, könnte es schneller gehen als wenn du 1000 Einheiten bestellst, einfach weil die Fabrik, die die Sachen produziert, mehr Zeit benötigt.
So landen Sie mit Unmengen von Korrelationen, die die Unsicherheit formen und strukturieren. Somit ist die eindimensionale Perspektive auf die Zeitreihen unzureichend, selbst wenn wir nur über eine einzige SKU sprechen, denn wir müssen zusätzliche Unsicherheitsebenen hinzufügen, zumindest bei den Lieferzeiten, zumindest bei den Rücksendungen im E-Commerce und so weiter.
Ich werde den Begriff Kongruenz locker verwenden, da Sie ihn gerade eingeführt haben, aber unsere praktische Beobachtung, als wir zu probabilistischen Modellen wechselten, war, dass diese Modelle, zahlenmäßig gesprochen, weitaus stabiler waren.
Das war sehr interessant, denn die meisten dieser Instabilitäten, Inkongruenzen oder wie auch immer, spiegeln einfach wider, dass man eine Menge Umgebungsunsicherheit hat. Und es gibt Bereiche mit relativ flachen Wahrscheinlichkeiten. Also, gemäß nahezu jeder Metrik, solange man eine Punktprognose hat, kann das Modell stark schwanken.
Und in Bezug auf die Metriken wird im Grunde jede Metrik, die Sie wählen, ziemlich ähnlich ausfallen. Somit erhalten Sie die bizarre Eigenschaft, dass, wenn Sie auf Punktprognosen angewiesen sind und in einer Situation hoher Unsicherheit, hoher Umgebungsunsicherheit, Sie am Ende mit Problemen konfrontiert werden, bei denen Sie sehr, sehr unterschiedliche Prognosen haben können, die nach Ihren Metriken quasi dieselben sind.
Und so endet man mit diesem Zittern und Ähnlichem. Und wenn man zu diesen probabilistischen Prognosen übergeht, betritt man einen Bereich, in dem – nun ja – das gute Modell einfach eines ist, das diese Streuung ausdrückt, das diese hohe Umgebungsunsicherheit widerspiegelt. Und das an sich ist viel, würde ich sagen, konstanter.
Das ist sehr merkwürdig, aber man landet in Situationen, in denen wir unzählige Fälle hatten, in denen wir uns so sehr abmühten, um ein wenig numerische Stabilität zu erlangen, und dann, wenn man in den Bereich der probabilistischen Prognosen übergeht, hat man von vornherein etwas, das weitaus stabiler ist, wobei die Probleme, die wirklich schmerzten, in den Hintergrund treten.
Das ist also irgendwie interessant. Und dann können wir all das mit anderen Dingen verknüpfen. Wenn wir über Zeitreihenprognosen hinausgehen – das haben wir hier auf diesem Kanal ein wenig diskutiert, aber das wäre eine Abschweifung – resultiert der Großteil der supply chain Probleme aus einem starken Zusammenwirken zwischen SKUs, aus der Kopplung zwischen Produkten.
Daher müssen wir sehr häufig auf eine nicht-zeitreihenbasierte Perspektive, eine stärker hochdimensionale Perspektive, umstellen. Aber nochmals, das ist eine Abschweifung über Abschweifungen.
Nikos Kourentzes: Ich stimme vollkommen zu. Probabilistische Prognosen sind absolut notwendig. Ich bin an den Punkt gekommen, an dem ich, wenn ich mir einige der unfertigen Papiere anschaue, die seit ein paar Jahren auf der Strecke geblieben sind und in denen keine probabilistische Prognose enthalten ist, denke: Ich muss das Ganze überarbeiten. Es muss probabilistische Prognosen enthalten, es ist jetzt 2024. Aber folgendes: Ich mag probabilistische Prognosen, insbesondere so, wie Joannes sie erklärt hat, weil es mir einen weiteren Weg gibt, den Punkt bezüglich der Modell-Spezifikation zu verdeutlichen.
Wenn man sich die Unsicherheit um seine Prognose anschaut, nehmen wir typischerweise an, dass diese Unsicherheit auf die Stochastizität der Zeitreihe zurückzuführen ist. Aber ein großer Teil dieser Unsicherheit resultiert aus der Unsicherheit des Modells. Es gibt die Unsicherheit, die von den Daten kommt, die Unsicherheit, die aus Ihrer Schätzung stammt, und die Unsicherheit des Modells selbst. Es könnten einige Terme fehlen, oder es könnten mehr Terme vorhanden sein, oder es könnte einfach völlig daneben liegen. Die Aufteilung dieser Unsicherheit bleibt ein großes Problem.
Wenn Sie diese Unsicherheit nicht aufteilen, werden Sie tatsächlich oft feststellen, dass viele verschiedene Modelle – sofern sie nicht grundlegend unterschiedlich sind – am Ende die Unsicherheit durch ihre Modellunsicherheit überdecken. Sie werden Ihnen empirisch gesehen zumindest eine höhere Unsicherheit liefern, und ein großer Teil dieser Unsicherheit wird so aussehen, als ob sie gleich wäre, weil sie Ihnen sagen will, dass all diese Modelle problematisch sind.
Damit gelangen Sie nicht zur wirklichen Tiefe, die diese Unsicherheit aufgrund der stochastischen Elemente der Nachfrage mit sich bringt. Ich habe immer noch keine gute Lösung dafür gefunden und in der Literatur auch noch nichts Derartiges gesehen. Aber zumindest ist die probabilistische Prognose ehrlich in der Aussage, nun, das ist Ihre Unsicherheit. Sie ist ein wenig größer, als wir dachten, wenn man von der Punktprognose ausgeht. Das ist ein guter Schritt in Richtung Lösung.
Conor Doherty: Danke an euch beide. Mir fällt auf, dass ich hier sowohl zwei Akademiker als auch zwei Praktiker habe. Ich denke, an diesem Punkt sollte ich es in die praktische Richtung lenken. Der gesamte Ansatz dessen, was Lokad macht, aber sicherlich auch Ihr Papier und Ihre Forschung im Allgemeinen, Nikos, wendet es auf die Bestandsentscheidungen an. In diesem Zusammenhang, Joannes, als Sie über die Eigenheiten und Besonderheiten der supply chain, schwankende Lieferzeiten und den Bullwhip-Effekt sprachen, lautete Ihre Position, Nikos, in dem Arbeitspapier, über das wir sprechen, dass das Verfolgen von Forecasting-Kongruenz dazu beitragen kann, die Auswirkungen des Bullwhip-Effekts zu bewältigen oder abzumildern. Könnten Sie das für die Zuhörer skizzieren, damit sie verstehen, wie diese Idee dabei helfen kann, mit dem ernsten Problem des Bullwhip-Effekts umzugehen?
Nikos Kourentzes: Ich nehme an, Ihr Publikum ist sich dessen durchaus bewusst. Das Problem, das ich mit vielen Studien zum Bullwhip-Effekt habe, ist, dass es mehr darum geht, diesen zu beschreiben, als tatsächlich Maßnahmen zu seiner Behebung bereitzustellen. Zumal, insbesondere aus der Sicht der Zeitreihen, wo wir sagen: “Oh, schau, hier ist dein Bullwhip-Verhältnis.” Aber das ist in vielerlei Hinsicht nur eine Beschreibung des Problems. Es sagt Ihnen nicht, wie Sie damit umgehen, sobald Sie es gemessen haben.
Hier sage ich also: Nun gut, wenn ich die Prognose mit der Entscheidung verbinden möchte, anstatt sie getrennt zu halten, dann benötige ich zwangsläufig etwas, das mir sagt, dass, wenn Sie in diese Richtung gehen, Sie Ihren Bullwhip reduzieren werden. Es stellt sich heraus, dass ohne dieses Verständnis von Anfang an, wenn man die Gleichungen durchrechnet, die Kongruenz und das Bullwhip-Verhältnis zumindest viele Gemeinsamkeiten aufweisen. Diese auferlegte Ähnlichkeit über die Zeiträume – oder, wie wir es einfach sagen, Kongruenz – scheint stark mit der Idee übereinzustimmen, dass Ihre Prognosen einen niedrigen Bullwhip erzeugen. Natürlich gibt es viele andere Gründe, weshalb es zu einem Bullwhip kommen kann.
Wenn wir also eine kongruente Metrik oder etwas Ähnliches verwenden, um Ihre Prognosemodelle auszuwählen oder zu spezifizieren, können Sie bereits eine Lösung anvisieren, die hinsichtlich des Bullwhip vorteilhafter ist. Hier muss ich zumindest, da ich im Bereich der Prognosen arbeite, anerkennen, dass der Bullwhip deutlich umfassender ist als nur die Prognose. Prognosen sind nur ein Teil davon. Es gibt so viele andere Elemente, die ins Spiel kommen. Aber zumindest für die Prognosen können Sie, wenn Sie über Kongruenz und ähnliche Denkansätze nachdenken, Prognosen entwerfen, die zumindest zugunsten dessen wirken.
Joannes Vermorel: Wenn wir den Bullwhip-Effekt thematisieren, als ich sagte, wir betrachten die Entscheidung und optimieren Euro und Dollar, vereinfachte ich eigentlich. Denn in Wirklichkeit betrachten wir den sequentiellen Entscheidungsfindungsprozess. Und hier berühren wir im Wesentlichen die stochastische Optimierung sequentieller Entscheidungsprozesse, welches ein Thema war, das mit Professor Warren Powell diskutiert wurde.
Wir optimieren nicht nur die nächste Entscheidung, sondern all die Folgenden, die danach kommen. Wir müssen einen Mechanismus haben, um all diese Informationen aus der Zukunft zurückzuholen, in der wir die zukünftigen Entscheidungen, die durch diese Prognosen entstehen werden, durchgespielt haben, in die Gegenwart. Hier glänzt das differenzierbare Programmieren, denn im Grunde haben Sie ein Programm, das – wenn Sie möchten – die Entscheidungen der Zukunft durchspielt oder simuliert, und Sie müssen in der Lage sein, den Gradienten zurückzuführen, damit Sie diese zukünftigen finanziellen Ergebnisse in die Gestaltung Ihrer gegenwärtigen Prognose einfließen lassen können.
Die übliche Betrachtungsweise ist, dass, wenn wir auf den Bullwhip zurückkommen, man vom Bullwhip nicht überrascht sein sollte. Es gibt nichts in Ihrem Optimierungsrahmen, das auch nur die Euro-Kosten anerkennt, die er im Laufe der Zeit erzeugen wird. Es gibt nichts, das diese sequentielle Entscheidungsanalyse durchführt, bei der die Entscheidung über die Zeit hinweg wiederholt wird, um zu sehen, ob Probleme mit dem Bullwhip auftreten.
Die Lösung ist nicht so kompliziert. Es geht einfach darum, nicht nur die nächste Entscheidung, die wir betrachten, zu optimieren, sondern alles, was darauf folgt. Implizit optimieren wir sozusagen die Policy. Aber typischerweise betrachten viele die Policy-Optimierung als völlig unabhängig von der Prognose. Sie würden eine Policy-Optimierung haben, die einfach die Prognose verarbeitet. Wie Lokad das sieht, ist jedoch, dass diese Dinge tatsächlich miteinander verknüpft sind.
Die überlegene Prognose geht Hand in Hand mit der überlegenen Policy. Die beiden sind sehr miteinander verbunden. Es gibt sogar ein aktuelles Papier von Amazon, “Deep Inventory Optimization”, in dem sie die Unterscheidung vollständig über Bord werfen. Sie haben direkt etwas, das den prädiktiven Modellierungsansatz und den aus der operativen Forschung stammenden Ansatz, der typischerweise getrennt wird, vereint. Sie sagen: Nein, wir werden beide Dinge gleichzeitig erledigen, und sie verfügen über ein prädiktives Optimierungsmodell auf einmal durch deep learning.
Das ist sehr interessant, denn das heißt buchstäblich, dass die Entscheidung prädiktiv optimiert wird, die Prognose selbst jedoch völlig latent wird. Das ist nur ein weiterer Blickwinkel auf das Problem, aber er ist sehr futuristisch und schafft andere Probleme. Aber man muss eingestehen, dass wir immer noch den prädiktiven Modellierungsteil und den stochastischen Optimierungsteil als zwei Phasen haben, zwei Phasen, die stark miteinander gekoppelt sind und zwischen denen viel hin und her gehen wird.
Nikos Kourentzes: Ich denke tatsächlich, dass das Getrennthalten der Phasen seine Vorteile hat. Sie sollten jedoch nicht isoliert voneinander betrachtet werden, und dafür gibt es einen Grund. Ich bin voll und ganz damit einverstanden, dass das Eine das Andere führen sollte. In der Vergangenheit habe ich mit der Idee gearbeitet, eine gemeinsame Optimierung sowohl für inventory policy als auch für die Prognosen durchzuführen. Das Papier ist erschienen, sodass die Details für alle, die sehen wollen, was passiert, dort nachzulesen sind. Meine Sorge bei dieser Arbeit war, dass ich sie nicht skalierbar machen konnte. Ich hatte keinen Weg, die Optimierung so zu gestalten, dass ich eine große Anzahl von SKUs handhaben könnte. Das könnte auf meine Beschränkungen in der Optimierung zurückzuführen sein, nicht auf das Setup selbst.
Ich denke, dass das getrennte Beibehalten der beiden Schritte zur mehr Transparenz im Prozess beiträgt. Wenn ich eine gemeinsame Lösung habe und dann plötzlich sage, dass Ihr Bestand für Ihre Bestellungen in der nächsten Periode 10 betragen sollte und jemand meint, es sollte 12 sein, ist es sehr schwierig zu rechtfertigen, warum 10 mehr Gewicht hat als 12. Wenn Sie die Prognose und die von der Prognose abgeleitete Policy verstehen, können Sie eine transparentere Diskussion führen. “Gut, hier ist meine Prognose, das sind die Details der Prognose, hier ist meine, von einer guten Prognose abgeleitete Policy – oder möglicherweise sogar angepasst aufgrund der Prognoseoptionen, die mir zur Verfügung stehen –” können Sie sagen: “Wenn ich mit diesen Policies feststecke, sollten vielleicht nur diese Arten von Prognoseoptionen zum Einsatz kommen.” Aber dann bewahren Sie die Transparenz und können sagen: “Ich sehe hier Elemente problematischer Prognosen, ich sehe hier Elemente problematischer Bestellungen.”
Und ein weiteres Element, bei dem ich Einwände gegen einen vollkommen undurchsichtigen Ansatz in der Optimierung oder Prognose habe, bei dem man ein sehr großes Vertrauen auf deep learning setzt – egal, wie wir das Modellieren angehen – irgendwann werden Menschen mit dem Modell und den Ergebnissen interagieren. Forschung und meine Erfahrung deuten darauf hin, dass, wenn die Leute verstehen, was passiert, ihre Interaktionen mit dem Modell und den Zahlen sowie ihre Anpassungen, um kontextuelle Informationen einzubeziehen, erfolgreicher sein werden.
Wenn es sich um eine sehr undurchsichtige Zahl handelt, diese Black Box, neigen viele dazu zu sagen, dass die Menschen entweder nicht wissen, was sie mit der Zahl anfangen sollen, oder sie werden destruktiv mit der Zahl interagieren. Ich ziehe es vor, die Trennung beizubehalten, weil sie zur Transparenz beiträgt. Sie setzt sich aus dem Problem zusammen und zeigt, dass dies der Beitrag von hier ist, jener Beitrag von dort. Daher bin ich geneigt, dem Ansatz zuzustimmen, den Johannes beschreibt. Wir müssen die Aufgaben irgendwie verknüpfen, sodass das Eine das Andere leitet, aber wir müssen auch in der Lage sein, zu beschreiben, was jeder Schritt bewirkt.
Conor Doherty: Danke, Nikos. Ich komme später noch auf Sie zurück, aber ich möchte an einem Punkt anknüpfen. Sie haben mehrmals die menschliche Beteiligung und Overrides erwähnt. Welche Rolle spielt die menschliche Beteiligung im Hinblick auf die Forecasting-Kongruenz? Oftmals besteht die Tendenz, wenn man nur die Genauigkeit misst, zu sagen: “Das Modell ist falsch, ich weiß es besser, ich werde eingreifen.” Und natürlich erhöht man damit in vielen Fällen nur das Rauschen. Wie geht das Konzept der Forecasting-Kongruenz damit um? Beinhaltet es viele Overrides oder nicht?
Nikos Kourentzes: Diese verhaltensorientierte Prognose oder judgementale Anpassungen, wie sie in der Literatur unterschiedlich genannt werden, denke ich, dass wir immer noch nicht genug darüber wissen, obwohl es ein sehr aktives Forschungsgebiet ist. Einige Arbeiten argumentieren, dass wir diese Anpassungen eliminieren sollten, weil sie kontraproduktiv oder gar zerstörerisch in Bezug auf die Genauigkeit oder das Endergebnis sind. Das Problem bei diesem Denken ist, dass man eine Metrik haben muss. Wenn ich den Mean Absolute Percentage Error verwende, erhalte ich eine Antwort. Wenn ich den Mean Square Error verwende, bekomme ich eine andere Antwort. Wenn ich dagegen Kongruenz verwende, erhalte ich eine weitere Antwort.
Die Frage, die sich mir dann stellt, geht zurück zu unserem allerersten Punkt der Diskussion, nämlich: Warum halte ich mich nicht einfach an die Genauigkeit? Ich meine, bei euch ist das ja auch nicht der einzige Maßstab. Solange wir anerkennen, dass dies wichtig ist, müssen wir natürlich auch die verhaltensbezogenen Aspekte des Prognoseprozesses oder des Bestandsprozesses mit einer Metrik bewerten, die über die reine Genauigkeit hinaus sensibler ist. Ich denke nicht, dass wir auf die menschliche Intervention verzichten sollten. Es gibt genügend Belege dafür, dass, wenn die kontextuellen Informationen, die sie nutzen können, reichhaltig sind, sie besser abschneiden als die meisten Modelle. Allerdings können sie nicht konsequent Mehrwert liefern. Es gibt viele Fälle, in denen sie einfach das Gefühl haben, etwas tun zu müssen oder möglicherweise überreagieren auf Hype oder auf Informationen, bei denen es sehr schwer nachzuvollziehen ist, wie sich dies auf Ihren Bestand auswirken würde. In diesen Fällen handelt es sich um eine destruktive Interaktion mit dem Modell oder den Prognosen.
Wir müssen das menschliche Element beibehalten, da es Mehrwert bieten kann, aber wir müssen steuern, wann es diesen Mehrwert liefern soll. Es ist ein zeitaufwendiger Prozess. Wenn ich den Analysten sagen kann, bestimmte Aufgaben der vollständigen Automatisierung zu überlassen und ihren Fokus auf spezielle Maßnahmen zu richten, dann kann ich auch ihre Arbeit effektiver gestalten. Sie können mehr Zeit und Ressourcen dafür aufwenden, das zu verbessern, worin sie gut sind. Kongruenz spielt hierbei eine Rolle, indem wir sagen, wenn wir über reine Genauigkeit hinausgehen müssen, hilft es bei der Bewertung, welche Schritte Mehrwert liefern – etwa beim Einstellen des Inventars oder allgemein bei der Entscheidungsfindung.
Eine ähnliche Diskussion würde ich bezüglich der Bestellungen führen. Modelle oder Richtlinien liefern Ihnen möglicherweise eine gute Ausgangsbasis, wenn Sie als Analyst Ihre Arbeit gut machen. Allerdings kann ich mir nicht vorstellen, dass dies universell die informativste Zahl darstellt. Es wird immer gewisse Elemente geben, einige Disruption, die beispielsweise heute Morgen in der supply chain passiert sind und die schwer einzuschätzen sind. Dabei stellt sich nicht die Frage, ob sie gut altern oder nicht. In der Welt finden ständig Konflikte statt. Typischerweise gibt es immer wieder Konflikte. Manchmal wird es Ihre supply chain betreffen, und manchmal wird es sie nicht betreffen. Gelegentlich sorgt es, sagen wir, für Inflationsdruck, sodass Ihre Verbraucher ihr Verhalten ändern. Das sind Dinge, die äußerst schwer zu modellieren sind.
Hier setze ich also auf Experten und Analysten, die die Zeit haben, ihre Arbeit ordnungsgemäß zu erledigen. Und vielleicht kann ich damit abschließen, was die Anpassungen angeht, indem ich sage, dass die Forschung nahelegt, dass es sinnvoll ist, Ihre Anpassungen aufzuschlüsseln – das heißt, wenn Sie sagen: “Okay, ich werde die Zahl um 100 verfeinern” und dann erläutern: “Warum 100? Weil 20 aus diesem Grund und 80 aus jenem Grund” – das stimmt sehr gut mit dem überein, was wir zuvor gesagt haben, nämlich entweder aufzuschlüsseln oder die beiden Schritte der Vorhersage und der Inventur getrennt, aber nicht isoliert zu halten.
Denn wenn Sie sagen: “In Ordnung, ich werde meine Bestellung um x% ändern”, und wir die Person, die das vornimmt, fragen: “Können Sie bitte erklären, welcher Anteil davon auf Ihrem Risikoverständnis aus dem Prognosemodell oder aus den Realitäten der supply chain beruht?”, dann können sie möglicherweise eine bessere Anpassung vornehmen.
Conor Doherty: Danke, Nikos. Johannes, ich wende mich an Sie. Sie sind ein großer Befürworter der menschlichen Übersteuerung, oder?
Joannes Vermorel: Nein, während der ersten fünf Jahre bei Lokad ließen wir die Leute die Prognoseanpassungen vornehmen – und das war ein schrecklicher Fehler. In dem Moment, als wir ein wenig dogmatisch wurden und dies vollständig unterbanden, verbesserten sich die Ergebnisse dramatisch. Deshalb erlauben wir das so gut wie gar nicht mehr.
Betrachten wir also zunächst die Rolle der Menschen. Man könnte denken, eine SKU sei repräsentativ – aber das ist nicht typisch. Eine typische supply chain besteht aus Millionen von SKUs. Und wenn die Leute sagen, sie wollen Anpassungen vornehmen, dann microverwalten sie tatsächlich ein unglaublich komplexes System. Es ist, als würden Sie in den zufälligen Speicher Ihres Computers eingreifen und versuchen, die Art und Weise neu anzuordnen, wie Dinge in einem System mit Gigabytes an Speicher und Festplatten abgelegt sind. Sie wählen einfach einige Dinge aus, die Ihre Aufmerksamkeit erregt haben, und das ist keine sinnvolle Nutzung Ihrer Zeit.
Und egal, wie viele Informationen Sie auch erhalten – diese Informationen bekommen Sie fast nie auf SKU-Ebene. Also, ja, es passiert etwas in der Welt, aber liegt es auch auf SKU-Ebene? Denn wenn Ihre Interaktion mit einem System darin besteht, eine SKU anzupassen, auf welcher Grundlage hätten Sie diese hochrangigen Informationen, dass sie in etwas übersetzt werden, das auch nur annähernd relevant auf SKU-Ebene ist? Wir haben hier also eine gewaltige Diskrepanz.
Die Leute würden denken, dass – wenn man ein Spielzeugbeispiel nimmt, bei dem man an 10 Millionen SKUs denkt, was für ein Unternehmen, das nicht einmal super groß ist, eine Basis darstellt – das mein Hauptkritikpunkt ist. Und genau hier bei Lokad haben wir gesehen, dass sich die Situation massenhaft verbessert hat, weil es im Grunde meist Unsinn ist. Sie wählen einfach 0,5% der SKUs aus, um etwas zu erledigen, was keinen Sinn ergibt und in der Regel zu vielen Problemen führt. Darüber hinaus entsteht eine Menge Code, weil die Leute nicht begreifen, dass die Zulassung von Interaktionen bedeutet, dass man viel Code schreiben muss, der zudem fehleranfällig sein kann. Das ist das Problem von Enterprise-Software.
Und wenn Sie ein großes Unternehmen haben, möchten Sie menschliche Interaktion zulassen – Sie benötigen Workflows, Genehmigungen, Prüfungen, Auditierbarkeit. So endet man mit so vielen Funktionen, dass man im Grunde mit einem Modell beginnt, das etwa tausend Codezeilen umfasst – das statistische Modell, wenn Sie so wollen – und schließlich mit einem Workflow, der etwa eine Million Codezeilen hat, nur um alles durchzusetzen.
Ja, die Intention ist grundsätzlich gut, und ich glaube, dass es einen Wert in der menschlichen Interaktion gibt – aber keinesfalls in der typischen Art und Weise, wie sie umgesetzt wird. Der übliche Ansatz von Lokad bei der menschlichen Interaktion besteht darin zu sagen: “Okay, es passiert etwas in der Welt.” Gehen wir nun die Struktur des Modells noch einmal durch. Es geht wieder um das prädiktive Modell und die Optimierung. Die klassische Haltung in der Literatur besagt, dass Modelle als etwas Vorgegebenes betrachtet werden – Sie haben ein Paper, es ist veröffentlicht, und so operieren Sie damit. Bei Lokad machen wir das nicht. Wir nähern uns der prädiktiven Modellierung und Optimierung allein durch Programmierparadigmen. Bei Lokad gibt es also keine feststehenden Modelle, wir verfügen lediglich über eine lange Reihe von Programmierparadigmen. Im Grunde ist alles stets maßgeschneidert und wird ad hoc zusammengebaut.
Im Wesentlichen ist es also Code, unterstützt durch passende Programmierparadigmen. Und wenn dann etwas geschieht, erlauben Ihnen diese Paradigmen, Ihre prädiktiven oder Optimierungsmodelle auf eine sehr präzise, schlanke und prägnante Weise auszudrücken. Es ist buchstäblich so, dass man diese 1.000 Zeilen Code auf 20 reduzieren kann – mit entsprechender Notation, wenn man möchte.
Dann können Sie zu Ihrem Code zurückkehren und feststellen: “Okay, ich habe etwas vorliegen, und ich muss eingreifen.” Dies geschieht nicht auf SKU-Ebene – es ist äußerst selten, dass Sie Informationen auf dieser Ebene erhalten. Die Informationen, die Sie aus der Außenwelt bekommen, sind typischerweise viel allgemeiner. So nehmen Sie in der Regel einen hochrangigen Aspekt Ihres Modells in Angriff. Und genau darin liegt der Reiz: Sie müssen nicht zwangsläufig über sehr präzise Informationen verfügen.
Beispielsweise, wenn Sie in der Halbleiterindustrie tätig sind und sich Sorgen darüber machen, dass sich China und Taiwan zuspitzen, würden Sie sagen: “Ich nehme einfach die Lieferzeiten und füge einen Zusatz hinzu, bei dem ich beispielsweise eine 5%ige Wahrscheinlichkeit annehme, dass sich die Lieferzeiten verdoppeln.” Normalerweise sind die Lieferzeiten in der Halbleiterindustrie sehr lang – etwa 18 Monate –, aber hier fügen Sie aus dem Nichts einen Aspekt hinzu, sagen wir eine 5%ige jährliche Wahrscheinlichkeit, dass sich die Lieferzeiten aus welchen Gründen auch immer verdoppeln.
Sie müssen nicht präzise sein – letztlich kann es ein Konflikt sein, eine Reihe von Lockdowns, eine Grippe, die Häfen schließt, oder irgendein anderes Ereignis. Aber das Schöne an diesem probabilistischen Ansatz ist, dass er, kombiniert mit Programmierparadigmen, es Ihnen ermöglicht, einen hochrangigen Intent direkt in die Struktur Ihrer Modelle einzuspeisen. Es mag zwar grob sein, aber es ermöglicht Ihnen dennoch, in die gewünschte Richtung zu steuern, anstatt die Überschreibungen auf SKU-Ebene mikromanagen zu müssen.
Und das Interessante ist, dass, wenn ich zu dem Beispiel zurückkehre, in dem wir diese 5%ige Wahrscheinlichkeit der Lieferzeitverdopplung hinzufügen, Sie diesen Faktor buchstäblich benennen können. Sie würden sagen: “Das ist unser Fear Factor.” Und das war’s auch schon. Sie sagen einfach: “Okay, das ist mein Fear Factor für all das, was Schlimmes passieren könnte”, und das ist in Ordnung. Das Schöne daran ist, dass, sobald Sie das haben, all Ihre Entscheidungen behutsam in Richtung dieser zusätzlichen Wahrscheinlichkeit eines seltenen Ereignisses gelenkt werden – und Sie müssen nicht SKU für SKU mikromanagen und allerlei Dinge tun, die nicht zukunftsfähig sind.
Und wenn Sie sechs Monate später feststellen, dass Ihre Befürchtung unbegründet war, dann lässt sich das sehr leicht rückgängig machen. Warum? Weil Sie Code haben, in dem dieser Fear Factor enthalten ist und ein Kommentar steht, der besagt, dass dies Ihr Begriff für den Fear Factor ist. So sehen Sie, was die Dokumentation, Traceability, und Reversibilität angeht: Wenn man ein Problem durch Programmierparadigmen angeht, erhält man etwas, das äußerst wartbar ist. Denn das war auch ein Problem, das wir in der Vergangenheit hatten, als manuelle Interventionen vorgenommen wurden – und der Großteil der Kosten lag eben an der mangelhaften Wartung der Overrides.
Manchmal haben die Leute – nicht immer, aber manchmal – eine gute Idee, nehmen ein Override vor und vergessen es dann. Und so bleibt es bestehen und wird im Laufe der Zeit radikal schlecht. Genau das ist das Problem: Sobald Sie ein Override einführen, fragen andere: “Warum haben Sie das denn?” Das Problem bei Overrides ist nämlich, dass, wenn Sie ein Softwareanbieter wie Lokad sind, Sie Ihre Prognose jeden einzelnen Tag regenerieren. Die Leute können also Ihre Prognose nicht dauerhaft überschreiben, denn morgen wird alles neu berechnet.
Und so müssen sie das Override irgendwie dauerhaft speichern. Das Problem ist, dass Sie dann eine persistente Einstellung haben, die bestehen bleibt – und wer ist dafür verantwortlich, diese zu pflegen? Am Ende führt das zu einem noch komplexeren Workflow, um die Overrides zu warten, sie schrittweise auszublenden etc. Und all diese Aspekte werden in der Literatur nie diskutiert. Es ist sehr interessant, aber aus Sicht eines Softwareanbieters im Enterprise-Bereich ist es einfach eine sehr schmerzhafte Situation, bei der Sie am Ende mit 20- oder sogar 100-mal mehr Codezeilen konfrontiert sind, als es bei der grundlegenderen prädiktiven Optimierung der Fall ist.
Nikos Kourentzes: Grundsätzlich ist die Position, die Joannes vertritt, eine Position, der – denke ich – nur wenige widersprechen würden, zumindest diejenigen, die beide Seiten erlebt haben. Meiner Meinung nach müssen Anpassungen nicht auf diese Weise erfolgen. Ich habe dafür noch keine Lösung, da es ein sehr aktives Forschungsfeld ist. Wie gesagt, ich weiß, dass viele daran gearbeitet haben, zu entscheiden, ob wir diese Art von Anpassungen oder jene Art von Anpassungen eliminieren sollten.
Man könnte das Problem auch auf ganz andere Weise betrachten. Lassen Sie mich versuchen, in gewisser Weise zu antworten, indem ich eine analoge Forschung mit einem meiner Kollegen, Ive Sager, heranziehe. Er ist in Belgien. Wir haben intensiv daran gearbeitet herauszufinden, wie wir Informationen, die auf strategischer oder Unternehmensebene existieren, auf die SKU-Ebene übertragen können.
Das könnte potenziell einen Weg aufzeigen, bei dem Sie sagen: “Schauen Sie, ich werde nicht jede SKU anpassen.” Ich stimme vollkommen zu, dass Mikromanagement – sei es auf SKU-Ebene oder generell – keine gute Idee ist. Aber das ist eine andere Diskussion. Wenn Sie die Leute mit ihren Anpassungen völlig frei agieren lassen, werden sie aufgrund menschlicher Vorurteile, Eigentumsverhältnissen und dergleichen meist Zeit verschwenden. Ob sie dabei destruktiv oder konstruktiv vorgehen, bleibt abzuwarten – sie werden aber mit Sicherheit Zeit verschwenden.
Was die von Joannes erwähnte Softwareseite angeht, muss ich Ihre Meinung so hinnehmen, wie sie ist. Ich bin in diesem Bereich nicht tätig, auch wenn ich zugeben muss, dass Bugs überall sind – mein Code ist da sicher keine Ausnahme. Aber ich sehe, dass es einen anderen Ansatz gibt, wie man Anpassungen als Gesamtablauf betrachten könnte.
Ich denke nicht, dass es wertvoll ist zu sagen: “Wissen Sie, ich muss jetzt eine bestimmte Anzahl von Zeitreihen verwalten.” Vielmehr handelt es sich um strategische Richtungsänderungen – etwa, weil unser Konkurrent etwas Bestimmtes getan hat. Diese Maßnahmen sind nur schwer quantifizierbar, sodass es vielleicht immer noch besser ist zu sagen, Untätigkeit sei besser, als zufällig zu quantifizieren.
Ich sehe aber auch, dass diese Informationen nicht in den Modellen enthalten sind. Wenn ich dem Modell also ein zusätzliches Risiko hinzufügte, das der Benutzer kalibrieren kann, oder wenn ich den Benutzer fragen würde: “Können Sie sich eine andere Möglichkeit einfallen lassen, Ihre Ausgabe anzupassen?”, bliebe letztlich immer ein beurteilender Aspekt bestehen. Was der beste Weg ist, diesen beurteilenden Aspekt einzubringen, ist – so denke ich – eine offene Frage.
Ich betrachte die übliche Art der Anpassung nicht als produktiven Ansatz. Es geht dabei nicht nur um die von Joannes angesprochene Komplizierung des Prozesses, sondern auch darum, dass die Leute dabei oft ihre Zeit verschwenden. Sie verfallen dem Gedanken, dass ihre Aufgabe darin besteht, ins Büro zu kommen und jede Zeitreihe einzeln zu überprüfen, die Zahlen oder Grafiken zu analysieren. Das ist nicht die Aufgabe eines Analysten.
Gerade in Zeiten, in denen Unternehmen Data-Science-Teams aufbauen und es Experten sowie gut ausgebildete Fachkräfte auf dem Markt gibt, sollten wir deren Zeit nicht mit solchen Tätigkeiten verschwenden – wir sollten sie einsetzen, um den Prozess zu verbessern. Deshalb denke ich, dass es Raum für Anpassungen gibt, aber nicht in der herkömmlichen Art und Weise. Die Forschung ist ziemlich eindeutig dahingehend, dass man im Durchschnitt aufgrund von Inkonsistenzen und Vorurteilen nicht den gewünschten Nutzen erzielt.
Conor Doherty: Es gibt nichts daran, die Forecasting-Kongruenz als Metrik zu verfolgen, das die Möglichkeit zur Automatisierung ausschließt. Automatisierung könnte also trotzdem ein Teil des Prognoseprozesses im Streben nach Kongruenz sein, oder? Oder habe ich das missverstanden?
Nikos Kourentzes: In gewisser Weise haben Sie recht. Mein Verständnis von Kongruenz, so wie es definiert ist und wie wir es empirisch in Unternehmensdaten gesehen haben, würde den Benutzer tatsächlich dazu bewegen, alle kleineren Anpassungen zu eliminieren. Denn diese Anpassungen würden zusätzliche Schwankungen verursachen, die inkongruent sind. Naturgemäß tendiert das also dazu, viele Anpassungen zu vermeiden.
Aber ich bin etwas skeptisch, denn wir müssten verstehen, wo wir zu kongruent werden und wo die Informationen der Experten kritisch werden. Das ist immer noch eine offene Frage. Betrachtet man den üblichen Prozess, den sowohl Joannes als auch ich kritisiert haben, helfen Kongruenzmetriken dabei, das Problem zu erkennen.
Conor Doherty: Also, keiner von euch ist der Meinung, dass es eine manuelle tägliche Übernahme jeder einzelnen SKU und deren Anpassung geben sollte. Das wäre einfach eine törichte Geldverschwendung. Also, da besteht völlige Übereinstimmung.
Joannes Vermorel: Aber das ist tatsächlich die Praxis der meisten Unternehmen. Ich stimme zu, wenn du sagst, dass man die strategische Intention übersetzen will. Ich stimme vollkommen zu. Und wenn ich das Wort Programmierparadigmen benutze, beziehe ich mich lediglich auf die Art von Instrumenten, die es einem ermöglichen, dies zu tun. Also, du möchtest im Grunde, dass die Leute nicht im Mikromanagement der SKUs steckenbleiben, du möchtest nicht, dass irgendjemand im Data Science-Team, der versucht, die strategische Intention zu übersetzen, in das Schreiben von langatmigem, unelegantem Code verstrickt wird, der vermutlich mehr Bugs und Probleme enthält als die meisten.
Zum Beispiel, du hast eine Wahrscheinlichkeitsverteilung für die Nachfrage, du hast eine Wahrscheinlichkeitsverteilung für die Lieferzeiten, und du möchtest die beiden einfach kombinieren. Hast du einen Operator, der das tut? Falls du einen Operator hast – Lokad hat einen – kannst du buchstäblich einen Einzeiler haben, der dir die lead demand liefert. Das ist die Nachfrage, integriert über eine variable Lieferzeit. Falls nicht, kannst du dich per Monte Carlo aus der Situation herausmanövrieren, kein Problem. Es ist nicht sehr schwierig. Du weißt, mit Monte Carlo würdest du deine Nachfrage abtasten, du würdest deine Lieferzeiten abtasten, und siehe da, das klappt, kein Problem. Aber anstatt etwas zu haben, das eine Zeile benötigt, braucht es Zeit, und du hast eine Schleife. Und wenn du eine Schleife hast, dann bedeutet das, dass du Index-außer-Reichweite-Ausnahmen, Off-by-One-Ausnahmen und allerlei andere Probleme haben kannst. Natürlich kannst du das durch Pair Programming, Unit Tests und dergleichen beheben, aber es fügt Code hinzu.
Also, mein Punkt war – und ich verstehe dich wirklich – ich denke, hier, siehst du, das ist der Kern dessen, was du erwähnt hast. Sie haben ein Data Science-Team. Es geht darum, die Fehlerbehebung zu verlagern, und ich stimme dir vollkommen zu, nämlich von „Ich justiere eine Zahl“ zu „Ich justiere ein Stück Code“ überzugehen. Und ich denke, das ist genau – ich denke, in diesen Punkten sind wir irgendwie auf einer Linie. Wenn wir die menschliche Intervention im Wesentlichen von „Ich justiere eine Zahl und wähle einen bestimmten konstanten Wert in meinem System aus und passe diesen an“ zu „Okay, ich werde mich mit dem Code befassen, ein wenig darüber nachdenken, was die Intention ist, und diese Anpassung vornehmen“ verlagern, dann kann ich zustimmen – und das funktioniert.
Mein Punkt war, die Fehlerbehebung von der Anpassung einer Zahl auf die Anpassung eines Stücks Code zu verlagern. Wenn wir die menschliche Intervention von der Anpassung einer Zahl darauf verlagern, sich mit Code zu befassen und ein wenig darüber nachzudenken, was die Intention ist, und diese Anpassung vorzunehmen, dann kann ich zustimmen – und das funktioniert.
Und in der Tat, wenn wir auf die Zeitverschwendung zurückkommen: Das Interessante ist, dass wenn du den Code anpasst, ja, es dauert viel länger, eine Zeile Code zu ändern. Es könnte etwa eine Stunde dauern, während die Änderung einer Zahl nur ungefähr eine Minute in Anspruch nimmt. Aber diese Stunde wird sich dann auf das gesamte Unternehmen auswirken. Weißt du, wenn es auf der richtigen Ebene durchgeführt wird, bedeutet das, dass du diese eine Stunde Code hast, die dir einen unternehmensweiten Nutzen bringt, im Gegensatz zu dieser einen Minute an einer SKU, die dir möglicherweise einen Nutzen bringt, aber nur für die SKU.
Conor Doherty: Also sprichst du über den Unterschied zwischen der manuellen Anpassung eines Outputs – also dem, was die Prognose angibt – versus der Anpassung des numerischen Rezepts, das die Prognose erzeugt?
Joannes Vermorel: Genau, es gibt Informationen in dieser Welt, und die grundlegende Annahme, denke ich, ist, dass es Informationen gibt, die in den Nachrichten stehen oder vielleicht private Informationen, auf die du über das Netzwerk des Unternehmens zugreifen kannst. Also hast du ein zusätzliches Informationsstück, das nicht im Modell enthalten ist, das nicht in den historischen Daten vorkommt.
Also stimme ich der Aussage zu, und ich stimme der Idee zu, dass ja, wir haben noch keine Superintelligenz, noch allgemeine Intelligenz. Wir können nicht einfach ChatGPT alle E-Mails des Unternehmens verarbeiten lassen und das für uns erledigen. Also steht uns dieses Maß an Intelligenz nicht zur Verfügung. Es müssen also menschliche Köpfe diesen Sortierprozess durchführen. Und ich stimme zu, dass es einen Wert hat, Menschen zu haben, die kritisch über diese Informationen nachdenken und versuchen, sie genau in der supply chain widerzuspiegeln.
Und ich folge Nikos wirklich in dem Sinne, dass er sagt – und dann Data Science –, denn ja, letztlich sollte es die Aufgabe des Data Science-Teams sein, jeden einzelnen Tag zu sagen: „Ich habe ein Modell. Ist es wirklich treu zur strategischen Intention meines Unternehmens?“ Was eine sehr übergeordnete Frage ist – ob ich tatsächlich die Strategie widerspiegle, so wie sie von demjenigen formuliert wird, der in der Firma die Strategie entwickelt, was ein qualitatives Problem ist, kein quantitatives.
Nikos Kourentzes: Lass mich hier noch etwas hinzufügen, weil ich denke, dass Joannes etwas gesagt hat, das sehr hilfreich ist, um zu verstehen, warum wir an den traditionellen Anpassungen kritisch sind. Er erwähnte, dass es nicht um die Punktschätzung geht, sondern um deren probabilistische Ausprägung. Menschen passen Punktschätzungen an – was in Bezug auf das Inventar keinen Sinn ergibt. Uns interessieren die Wahrscheinlichkeiten der gesamten Verteilung.
Also, wenn das jemand tun könnte, dann könnte das tatsächlich etwas bewirken. Aber niemand macht das, und weißt du, ich arbeite – wie gesagt – seit über 20 Jahren mit Statistik. Ich kann das nicht einfach auf unkomplizierte Weise tun. Und weißt du, meine Unfähigkeit bedeutet nicht, dass andere es nicht tun könnten, aber was ich sagen möchte, ist, dass, wenn man in probabilistischem Sinne denkt, die Informationen so abstrakt sind, dass es sehr schwierig für jemanden ist, manuell zu sagen: „Ja, passe das einfach um 10 Einheiten an.“ Das ist ein sehr schwieriger Prozess. In gewisser Weise nehmen viele Menschen all diese Anpassungen ohnehin an der falschen Größe vor.
Joannes Vermorel: Ich stimme vollkommen zu. Als ich bei Lokad sagte, dass wir vor einem Jahrzehnt aufgehört haben, Anpassungen vorzunehmen, war das genau der Zeitpunkt, als wir probabilistisch wurden. Die Leute sagten, wir müssten Anpassungen vornehmen, und dann zeigten wir ihnen die Histogramme der Wahrscheinlichkeitsverteilung.
Wir sagten: „Bitte, macht nur“, und dann traten die Leute zurück und sagten: „Nein, das werden wir nicht tun.“ Es war in der Tat ein Mechanismus, um zu verhindern, dass Menschen auf der falschen Ebene eingreifen. Als sie die Wahrscheinlichkeitsverteilungen sahen, erkannten sie, dass dort viel Tiefe steckt. Ich meine, die Leute würden diese Paritätsverteilungen für eine supply chain als sanfte Glockenkurven ansehen, weißt du, gaußsche Kurven und dergleichen. Das ist jedoch nicht der Fall.
Zum Beispiel, nehmen wir an, du hast einen do-it-yourself DIY-Laden. Die Leute würden bestimmte Produkte nur in Vielfachen von vier, acht oder zwölf kaufen, weil darin eine Logik steckt. Also ist dein Histogramm nicht wie eine Glockenkurve – es hat Spitzen, bei denen die Leute entweder eins kaufen, weil sie einen Ersatz benötigen, oder sie kaufen vier oder acht, und dazwischen passiert nichts. Wenn du also darüber nachdenkst: „Okay, sollte ich den Durchschnitt von 2,5 auf 3,5 verschieben?“ und du schaust dir das Histogramm an, dann siehst du drei Spitzen: eine Einheit, vier Einheiten, acht Einheiten.
Plötzlich sagen die Leute, es macht für mich keinen wirklichen Sinn, diese Dinge zu verschieben. Ich werde die Wahrscheinlichkeit, die derzeit den vier Einheiten zugeordnet ist, nicht auf fünf verschieben, weil das nicht geschieht. Was ich wahrscheinlich tun möchte, wenn ich den Mittelwert erhöhen will, ist die Wahrscheinlichkeit von Null zu verringern und die Wahrscheinlichkeit aller anderen Vorkommnisse zu erhöhen.
Die Leute erkennen, dass in diesen Wahrscheinlichkeitsverteilungen viel Tiefe steckt. Es gibt allerlei Spielereien – um nur diese Art von magischen Vielfachen zu nennen, die existieren. Das war unsere Beobachtung. Wir sind voll und ganz einverstanden, dass, wenn die Leute diese Wahrscheinlichkeitsverteilungen sehen, sie erkennen, dass sie dieses Histogramm nicht manuell, Eimer für Eimer, anpassen werden. Diese Reaktion der Unpraktikabilität ist also real.
Conor Doherty: Nun, nochmals, ich bin mir bewusst, dass wir tatsächlich schon ziemlich viel deiner Zeit in Anspruch genommen haben, Nikos. Aber ich habe noch eine letzte Frage. Du arbeitest in einem Labor für künstliche Intelligenz, und es wäre fahrlässig, dich nicht zu fragen, wie KI in den gesamten Kontext dessen, worüber wir künftig sprechen, passen könnte. Sei es die Automatisierung der Forecasting-Kongruenz oder KI, die die Übersteuerungen vornimmt – ich weiß nicht, skizziere bitte, was du als Zukunft siehst.
Nikos Kourentzes: Das ist eine Frage im Wert von einer Million Dollar. Ich kann darauf in derselben Weise antworten wie einer der Gutachter, der sich das Papier angesehen hat und Bedenken hatte. Die Frage lautete: „Na schön, und was? Weißt du, hier ist eine weitere Metrik – und was nun?“
Und ich sagte: „Schau, wenn du ein statistisches Modell hast, das ziemlich unkompliziert ist, kannst du alles durch Berechnungen ermitteln, du kannst alles analytisch herausfinden – in Ordnung. Wenn du jedoch in das maschinelle Lernen und insbesondere in die massiven KI-Modelle übergehst, die wir jetzt verwenden, ist das eine sehr schwierige Aufgabe. Daher ist es sehr hilfreich, wenn wir einige Messlatten haben, so etwas, das es tatsächlich ein wenig einfacher macht, herauszufinden, was diese Modelle tun.“
Wenn ich beispielsweise ein massives KI-Modell habe und wir sagen können: „Schau, dieses Modell bringt die Prognose in Richtung erhöhter Kongruenz“, dann hätte ich vielleicht eine Möglichkeit, dieses Modell auf eine einfachere Weise zu betrachten. Diese einfachere Weise besteht nicht darin, die Komplexität des Modells in irgendeiner Weise zu reduzieren, sondern vielmehr darin, zu verstehen, wie sich das auf mein Inventar auswirkt, wie sich das auf meinen Entscheidungsprozess auswirkt, wie sich das auf meine zuvor erwähnte Bullwhip-Annahme im laufenden Prozess auswirkt.
Genau so beenden wir eigentlich das Arbeitspapier. Wir sagen, dass der Nutzen dieser Metrik darin besteht, zu verstehen, wie sich Modelle, die als Black Boxes fungieren, verhalten können. Ich glaube nicht, dass wir künftig Modelle sehen werden, die in irgendeiner Weise nicht von KI inspiriert sind. Ich bin etwas skeptisch, wenn Leute alles durch KI ersetzen wollen, denn manche Dinge können einfach nur einfacher, effizienter sein. Meine Sorge rührt nicht unbedingt von der Mathematik des Problems oder gar von der Datenfülle her – das sind Probleme, die wir lösen können. Meine Sorge kommt vielmehr von einem sehr einfachen prozessualen Aspekt und der Nachhaltigkeit des Problems.
Wenn ich ein massives KI-Modell laufen habe, das letztlich – sobald ich alles hochskaliere – eine Menge Cloud Computing und viel Strom verbraucht, muss ich das alles tun, wenn ich nur einen Unterschied von 1% gegenüber einem exponentiellen Glätten habe? Manchmal werde ich einen viel größeren Unterschied als 1% haben – dann nur zu. Aber manchmal brauche ich all diese Komplikation nicht. Ich kann etwas Einfacheres verwenden, das auch für die Nicht-KI-Experten transparenter ist.
KI ist ein Weg nach vorn für viele der Probleme, die wir haben. Ich denke, in vielen Fällen sind die Herausforderungen der Prognose und insbesondere die Entscheidungen, die wir mit diesen Prognosen unterstützen, ein sehr guter Boden für KI-Anwendungen. Aber das heißt nicht pauschal: „Vergessen wir alles, was wir wussten, und steigen auf KI um.“ Das spiegelt sich auch ein wenig im Papier wider. Denn wie ich bereits erwähnt habe, ist es nicht das erste Papier, das sagt: „Oh, lasst uns das Ziel etwas modifizieren, damit es nicht nur auf Genauigkeit hinausläuft.“ Auch andere Kollegen haben das gemacht. Der Unterschied ist, dass wir ein wenig die Algebra dazu nutzen, um zu zeigen: „Nun, das ist wirklich das, was passiert, sobald wir das tun.“ Ich mag es, wenn wir in der Lage sind, diese Art von Interpretation vorzunehmen oder ein Gespür für diese Aktion zu entwickeln.
KI ist ein Weg nach vorn für viele Fragestellungen, aber wir dürfen nicht vergessen, dass es nützlich für uns ist zu verstehen, was zur Hölle wir eigentlich tun. Wir sollten nicht blind vertrauen und einfach hoffen, dass das KI-Modell genau das macht, was ich mir erhoffe. Ich möchte nicht sagen, dass KI-Modelle keine wirklich guten Leistungen erbringen können. Ich sage nur: „Lass uns nicht einfach darauf vertrauen oder hoffen, dass es funktioniert – es sollte besser sein, als dass ich nur hoffe.“
Conor Doherty: Deine Gedanken dazu?
Joannes Vermorel: Ich denke, Nikos hat absolut recht. Genau wie ich sagte, dass bei Anpassungen die Menge an Codezeilen berücksichtigt werden muss. Der Overhead von Deep-Learning-Modellen ist absolut riesig und verkompliziert alles. Nur wenige Menschen realisieren, dass es bei vielen GPU-Karten nicht einmal klar ist, wie man Berechnungen deterministisch gestaltet. Es gibt viele Situationen, in denen du buchstäblich den Compute zweimal ausführst und zwei unterschiedliche Ergebnisse erhältst, weil die Hardware selbst nicht deterministisch ist.
Heißt das, dass man mit den Heisenbugs endet? Weißt du, Heisenbugs bedeuten, dass du einen Bug hast, den du zu reproduzieren versuchst, und er verschwindet. Irgendwann hörst du dann auf, dem Bug nachzujagen, weil du sagst: „Ich habe versucht, den Fall zu reproduzieren – es passiert nichts, also muss es funktionieren.“ Und dann setzt du es wieder in Produktion, und der Bug tritt erneut auf, und du kannst ihn nicht reproduzieren.
Also stimme ich voll und ganz zu. Einfachheit macht alles irgendwie besser, wenn es überhaupt im gleichen Leistungsbereich liegt. Wenn du etwas hast, das massiv einfacher ist, gewinnt das Einfachere in der Praxis immer. Ich habe noch nie eine Situation gesehen, in der ein Modell, das ein anderes um ein paar Prozentpunkte übertrifft – laut irgendeiner Metrik – in der realen Welt besser abschneidet.
Es ist alternativ, wenn die Alternative um eine Größenordnung einfacher ist, um in etwa dasselbe Ergebnis im gleichen Bereich zu erzielen, selbst wenn die Metrik jene sogenannten Dollar oder Euro betrifft, die Lokad zu optimieren versucht hat. Der Grund ist etwas seltsam, aber er ist, dass supply chains sich ändern – wie wir erwähnt haben – durch menschliches Eingreifen.
Wenn du eingreifen möchtest, ist Zeit von entscheidender Bedeutung. Wenn du ein Programm hast, ein komplexes Modell, tausende von Zeilen, bedeutet das allein in der Logistik – zum Beispiel hatten wir vor ein paar Jahren bei Lokad Dutzende von Kunden, die von dem Evergreen-Schiff betroffen waren, das den Suezkanal blockiert hatte. Wir hatten im Wesentlichen 24 Stunden, um alle Lieferzeiten für nahezu alle unsere europäischen Kunden, die aus Asien importieren, anzupassen.
Dort ist es entscheidend, in der Lage zu sein, innerhalb weniger Stunden zu reagieren, anstatt eine Woche zu benötigen, nur weil mein Modell sehr kompliziert ist. Wenn du möchtest, dass ich dir die Lösung liefere, ohne dabei so viele Bugs einzuführen, die untergraben, was ich tue, brauchst du ein einfacheres Modell. Ich stimme völlig zu, dass es sowohl einen Wert als auch Kosten gibt. Für die Unternehmen, die begonnen haben, mit GPT4 zu experimentieren, sind die Kosten sehr hoch.
Conor Doherty: Nun, Nikos, ich habe keine weiteren Fragen, aber es ist üblich, dem Gast das letzte Wort zu überlassen. Also, bitte, eine Aufforderung zum Handeln oder etwas, das du mit den Zuschauern teilen möchtest?
Nikos Kourentzes: Meine Aufforderung zum Handeln ist, dass wir von den traditionellen Ansichten der Prognose, die isoliert von der Entscheidungsfindung betrachtet werden, abrücken müssen. In unserem Diskussionskontext – das Inventar und so weiter – müssen wir versuchen, diese Dinge in einem stärker vernetzten Zusammenhang zu sehen.
Ich bin Akademiker, andere Kollegen werden andere Meinungen haben, Lokad hat ebenfalls seine Perspektive. Ich denke, dass all diese Perspektiven wertvoll sind, weil sie alle in dieselbe Richtung weisen. Wir müssen das, was wir vor einigen Jahrzehnten getan haben, hinter uns lassen, unsere Denkweise aktualisieren, unsere Software aktualisieren, unsere Lehrbücher aktualisieren. Das hat seinen Wert. Es geht nicht nur darum, unsere Software oder so zu ändern, sondern es wird tatsächlich zu anderen Entscheidungen führen.
Ich begrüße, dass im Prognosebereich viele Menschen aus der Informatik, dem Deep Learning, der Programmierung und dem Bereich der Bestandsführung einbezogen werden, denn nun ist der Punkt gekommen, an dem wir diese Probleme wirklich in Angriff nehmen können. Ich möchte nicht den Eindruck erwecken, dass dadurch der Wert der Prognosewelt als Forschungsfeld geschmälert wird. Ich gehöre zu dieser Welt, und deshalb möchte ich auch sagen, dass wir nicht einfach eine Reihe von Bibliotheken zusammenstellen, ein paar Codes ausführen und behaupten können, dass alles in Ordnung ist.
Oftmals, wenn ich mit der Industrie oder Instituten arbeite, liegt der Wert darin, den richtigen Prozess zu etablieren und die fehlerhafte Methodik anzugehen – all das, was der Prognosebereich bieten kann. Mir gefällt die Idee, die einzelnen Schritte im Prozess beizubehalten, aber wir müssen zusammenarbeiten, um eine gemeinsame Lösung zu finden. Das ist ein guter Bereich.
Zurück zum allerersten Teil der Frage, in dem ich sagte, dass ich die Zusammenarbeit mit dem Team an der Universität genieße. Es herrscht Polyphonie, es gibt viele Ideen. Ich bringe meine Prognosefrage ein und andere sagen: “Wie wäre es mit diesem Ansatz? Hast du diese Perspektive in Betracht gezogen?” Und ich antworte: “Schau, daran hatte ich nie gedacht.”
Conor Doherty: Danke, Nikos. Ich habe keine weiteren Fragen. Joannes, danke für deine Zeit. Und nochmals, Nikos, vielen Dank, dass du bei uns warst, und euch allen vielen Dank fürs Zuschauen. Wir sehen uns beim nächsten Mal.