00:00:08 Einführung und Hintergrund von Rob Hyndman in der Prognose.
00:01:31 Nachhaltigkeit von Prognosetechniken und -software in der realen Welt.
00:04:08 Anwendung von Prognosetechniken in verschiedenen Bereichen mit reichlich Daten.
00:05:43 Herausforderungen bei der Bedienung verschiedener Branchen in der Supply Chain.
00:07:30 Navigation durch die Komplexität von Unternehmenssoftware und Datensammlung.
00:08:00 Zeitreihenprognose und alternative Ansätze.
00:09:05 Herausforderungen, denen Lokad bei der Vorhersageanalyse gegenübersteht.
00:11:29 Langlebigkeit und Motivation bei der Entwicklung von akademischer Software.
00:13:12 Wechsel von der Punktprognose zur probabilistischen Prognose.
00:15:00 Schwächen in akademischen Methoden und deren Umsetzung in der realen Welt.
00:16:01 Leistung eines einfachen Modells in einem Wettbewerb.
00:16:56 Die Bedeutung eleganter und präziser Methoden.
00:18:48 Ausgewogenheit von Genauigkeit, Komplexität und Kosten in Modellen.
00:19:25 Robustheit und Geschwindigkeit in R-Paketen für Prognosen.
00:20:31 Ausgewogenheit von Robustheit, Genauigkeit und Implementierungskosten im Geschäftsbereich.
00:21:35 Bedeutung problembezogener Methoden in der Prognose.
00:23:00 Vorhersage der Langlebigkeit von Prognosetechniken und -bibliotheken.
00:25:29 Robs Engagement für die Pflege seiner Prognosebibliotheken.
00:26:12 Einführung von Fable und dessen Anwendung in der Zeitreihenprognose.
00:27:03 Wertschätzung der Open-Source-Welt und ihrer Auswirkungen auf Prognosewerkzeuge.

Zusammenfassung

In einem Interview mit Kieran Chandler diskutieren Joannes Vermorel, Gründer von Lokad, und Rob Hyndman, Professor für Statistik an der Monash University, die Nachhaltigkeit von Prognosetechniken in der realen Welt. Hyndmans Open-Source-Prognosesoftware, die von Millionen von Benutzern heruntergeladen wurde, besteht den Test der Zeit und ist in der Lage, etwa 90% der Prognoseprobleme von Unternehmen zu lösen. Die Gäste betonen die Herausforderungen bei der Bedienung eines breiten Publikums mit unterschiedlichen Bedürfnissen in der Supply Chain-Branche und die Bedeutung der Entwicklung benutzerfreundlicher Software, die effektiv und zugänglich ist. Sie betonen auch die Bedeutung von Open-Source-Software und Zusammenarbeit bei der Entwicklung hochwertiger Prognosemethoden.

Erweiterte Zusammenfassung

In diesem Interview diskutiert Kieran Chandler mit Joannes Vermorel, Gründer von Lokad, und Rob Hyndman, Professor für Statistik an der Monash University, die Nachhaltigkeit von Prognosetechniken in der realen Welt. Hyndmans Open-Source-Prognosesoftware wurde von Millionen von Benutzern heruntergeladen und besteht im Gegensatz zu vielen anderen Softwaretools den Test der Zeit.

Vermorel schätzt Hyndmans Arbeit, weil er über typische akademische Software hinausgeht und eine umfassende Sammlung von Bibliotheken erstellt, in die viele seiner eigenen Ergebnisse eingebettet sind und die auf der beliebten R-Sprache für statistische Analysen basiert. Vermorel glaubt, dass es nur wenige Beispiele für wissenschaftliche Software gibt, die eine solche Langlebigkeit und Publikum haben.

Hyndmans akademische Forschung beschränkt sich nicht nur auf die Prognose von Lieferketten; er interessiert sich auch für die Anwendung von Prognosetechniken in Bereichen mit großen Datenmengen. Zu seinen Arbeiten gehören die Prognose des Stromverbrauchs, der Sterberaten, der Bevölkerung, der Touristenzahlen und in jüngerer Zeit der COVID-19-Fälle für die australische Regierung. Neben der Prognosearbeit beschäftigt er sich auch mit der Anomalieerkennung und der explorativen Datenanalyse.

Bei der Diskussion der Herausforderungen, die sich aus der Betreuung eines breiten Publikums mit unterschiedlichen Bedürfnissen in der Lieferkettenbranche ergeben, erklärt Vermorel, dass die Art und Weise, wie Daten von Unternehmenssoftware (ERPs, MRPs, WMS) wahrgenommen und erfasst werden, oft halb zufällig ist.

Sie gehen auf die Komplikationen ein, die sich aus der Verwendung von Daten ergeben, die nicht primär für Prognosezwecke gesammelt wurden, und den Übergang von einem Enterprise Resource Planning (ERP)-System zu einem anderen. Sie diskutieren auch die Notwendigkeit von Prognosetechniken, die sich an verschiedene IT-Landschaften und historische Zufälle bei der Bereitstellung von Unternehmenssoftware anpassen können.

Vermorel betont die Bedeutung von Prognosen in Kontexten, die sich nicht für die Analyse von Zeitreihen eignen, wie zum Beispiel die Modebranche, in der die Nachfragesteuerung und die Einführung neuer Produkte das Prognoseproblem beeinflussen. Er betont die Notwendigkeit, dass prädiktive Modelle Rückkopplungsschleifen und auf Prognosen basierende Maßnahmen berücksichtigen, sowie die Kontrolle verschiedener Faktoren wie Produktsortiment und Promotionstrategien. Dieser vielschichtige Ansatz ist für Lokad entscheidend, um den komplexen Herausforderungen der prädiktiven Analytik gerecht zu werden.

Hyndman erklärt, dass seine Zeitreihensoftware in der Lage ist, etwa 90% der Prognoseprobleme von Unternehmen zu lösen, während die verbleibenden 10% andere Ansätze erfordern. Er geht auch auf das Problem kurzlebiger akademischer Software ein und führt dies auf den Fokus auf das Veröffentlichen von Papieren und das Fehlen von Belohnungen für die langfristige Wartung von Software zurück. Dies führt dazu, dass die Zusammenarbeit mit Praktikern und die Sicherstellung, dass Methoden gut dokumentiert und langlebig sind, vernachlässigt werden.

Das Interview verdeutlicht die Herausforderungen und Komplexitäten der Optimierung und Prognose von Lieferketten, einschließlich der Notwendigkeit von anpassungsfähigen Techniken, der Berücksichtigung von Kontexten außerhalb von Zeitreihen und des Einflusses von Rückkopplungsschleifen und Entscheidungsfindung auf prädiktive Modelle. Darüber hinaus unterstreicht es die Diskrepanz zwischen akademischer Forschung und praktischer Anwendung im Bereich der Prognose.

Beide Gäste betonen die Bedeutung der Schaffung benutzerfreundlicher Software, die sowohl effektiv als auch zugänglich ist, um einen Unterschied in der Welt zu machen.

Hyndman erwähnt den Wandel von Punktprognosen zu probabilistischen Prognosen in der akademischen Literatur in den letzten 15 Jahren. Lokad war eines der ersten Unternehmen für Lieferkettenprognosen, das diese Veränderung in seine Software integriert hat. Da Hyndmans ursprüngliche Software sich auf Punktprognosen konzentrierte, haben seine neueren Pakete probabilistische Prognosen priorisiert.

Vermorel weist auf versteckte Mängel in vielen wissenschaftlichen Veröffentlichungen hin, wie z.B. numerische Instabilität, übermäßige Rechenzeit oder komplexe Implementierung. Er betont auch die Bedeutung des Ausgleichs von Genauigkeit und Einfachheit, da überkomplizierte Modelle möglicherweise nicht praktisch oder notwendig sind. Vermorel gibt ein Beispiel aus dem M5-Wettbewerb, bei dem Lokad mit einem relativ einfachen Modell hohe Genauigkeit erreicht hat.

Hyndman stimmt zu, dass es wichtig ist, die Kosten für die Erstellung von Software, Berechnungen und Genauigkeit auszugleichen. Beide Gäste schätzen prägnante, elegante Prognosemethoden mit breiter Anwendbarkeit, wie sie in Hyndmans Bibliotheken zu finden sind.

Das Gespräch wirft Fragen nach den Abwägungen zwischen Genauigkeit und Komplexität bei Prognosemodellen auf. Vermorel stellt die Weisheit in Frage, eine geringfügige Verbesserung der Genauigkeit auf Kosten einer viel höheren Komplexität anzustreben, wie es bei Deep-Learning-Modellen der Fall ist. Sowohl Vermorel als auch Hyndman betonen die Bedeutung, sich auf das Wesentliche guter Prognosen zu konzentrieren, ohne sich in kleinen Verbesserungen zu verlieren, die die zusätzliche Komplexität nicht rechtfertigen.

Hyndman betont die Bedeutung, sowohl die Genauigkeit als auch die Berechnungskosten bei der Entwicklung von Prognosemethoden zu berücksichtigen. Er führt die Robustheit seiner Prognosepakete auf deren Ursprung in Beratungsprojekten zurück, bei denen sie schnell, zuverlässig und auf verschiedene Kontexte anwendbar sein mussten.

Vermorel betont die Bedeutung, den Mehrwert einer Prognosemethode für ein Problem zu berücksichtigen. Er stellt einfache parametrische Modelle den komplexeren Methoden wie Gradient Boosting Trees gegenüber und stellt fest, dass in einigen Fällen einfachere Modelle ausreichend sein können. Vermorel diskutiert auch die besonderen Herausforderungen der Prognose in Branchen wie Mode und Automobil-Ersatzteile, in denen Substitutions- und Kompatibilitätsfaktoren eine bedeutende Rolle spielen.

Die Interviewpartner betonen die Bedeutung, sich nicht von Raffinesse ablenken zu lassen, da dies nicht zwangsläufig zu besseren wissenschaftlichen oder genauen Ergebnissen führt. Vermorel prognostiziert, dass grundlegende Zeitreihenprognosetechniken auch in 20 Jahren noch relevant sein werden, während komplexe Methoden, die auf aktueller Hardware beruhen, veraltet werden können.

Rob Hyndman spricht über seine Arbeit in der Prognose, insbesondere über die Entwicklung der Open-Source-Software “Fable”, die den Prognoseprozess für Tausende von Zeitreihen gleichzeitig vereinfacht. Er betont sein Engagement, das Paket mindestens 10 Jahre lang zu pflegen, und hebt die Vorteile von Open-Source-Software hervor, einschließlich Zusammenarbeit und Zugänglichkeit.

Sowohl Vermorel als auch Hyndman betonen die Bedeutung von Open-Source-Software in ihrer Arbeit und das Potenzial für Zusammenarbeit bei der Entwicklung hochwertiger Prognosemethoden. Hyndman erwähnt auch sein Engagement für die Pflege öffentlicher Bibliotheken, die seit 2005 existieren, und die Rolle, die sie bei der Zugänglichkeit von Datenanalyse für die Öffentlichkeit spielen.

Insgesamt verdeutlicht das Interview die Herausforderungen der Prognose in einer komplexen und sich schnell verändernden Welt sowie die Bedeutung von Software und Zusammenarbeit bei der Entwicklung effektiver Lösungen. Der Fokus auf Open-Source-Software und öffentlichen Zugang unterstreicht den Wert der Bereitstellung von Datenanalyse und Prognose für ein breiteres Publikum.

Beide Interviewpartner schätzen die Open-Source-Natur ihrer Arbeit, die eine weitreichende Zugänglichkeit und Zusammenarbeit bei der Entwicklung hochwertiger Prognosemethoden ermöglicht.

Vollständiges Transkript

Kieran Chandler: Prognose ist eine alte Praxis, die sich ständig weiterentwickelt, und daher scheitern viele Softwarelösungen daran, den Test der Zeit zu bestehen. Eine Person, die diesem Trend entgegenwirkt, ist unser heutiger Gast Rob Hyndman, der Open-Source-Software implementiert hat, die von Millionen von Benutzern heruntergeladen wurde. Heute werden wir daher mit ihm über die Nachhaltigkeit von Prognosetechniken in der realen Welt diskutieren. Also, Rob, vielen Dank, dass du live aus Australien dabei bist. Ich weiß, es ist bei dir schon etwas spät am Tag. Wie immer möchten wir gerne damit beginnen, ein wenig über unsere Gäste zu erfahren. Vielleicht könntest du also einfach damit beginnen, uns ein wenig über dich zu erzählen.

Rob Hyndman: Danke, Kieran, und schön, dabei zu sein. Ja, es ist 20 Uhr hier in Australien, also nicht so spät. Ich bin Professor für Statistik und Leiter des Fachbereichs für Ökonometrie und Wirtschaftsstatistik an der Monash University. Ich bin seit 26 Jahren dort. In den meisten dieser Jahre war ich auch Chefredakteur des International Journal of Forecasting und Direktor des International Institute of Forecasters von 2005 bis 2018. Ich bin Wissenschaftler; ich schreibe viele Artikel und habe ein paar Bücher geschrieben, darunter drei über Prognosen. Wenn ich das nicht tue, spiele ich normalerweise Tennis.

Kieran Chandler: Schön, ich spiele im Sommer auch gerne Tennis. Vielleicht können wir uns eines Tages zu einem Spiel treffen. Joannes, heute geht es um die Nachhaltigkeit von Prognosetechniken in der realen Welt und die Idee, dass eine Software nachhaltig ist und eine lange Lebensdauer hat. Was steckt dahinter?

Joannes Vermorel: Die meisten Softwarelösungen neigen dazu, im Laufe der Zeit zu verfallen, aus verschiedenen Gründen. Wenn es um wissenschaftliche Software geht, muss man darüber nachdenken, wie diese Software entsteht. Normalerweise wird sie erstellt, um die Veröffentlichung eines Artikels zu unterstützen, also ist sie im Grunde Wegwerfsoftware. Was ich an Professor Hyndmans Arbeit sehr bemerkenswert finde, ist, dass er über das hinausgegangen ist, was in akademischen Kreisen üblicherweise getan wird, nämlich Wegwerfsoftware zu produzieren, den Artikel zu veröffentlichen, fertig zu sein und zum nächsten Artikel überzugehen. Er hat tatsächlich eine umfangreiche Sammlung von Bibliotheken aufgebaut, die nicht nur viele seiner eigenen Ergebnisse und die Ergebnisse seiner Kollegen enthält, sondern auch einen sehr konsistenten Rahmen bietet, der auf einer sehr beliebten Sprache basiert, nämlich R, einer Umgebung für statistische Analysen. Dies hat sich über mehrere Jahrzehnte hinweg bewährt, und das ist eine beachtliche Leistung. Die meisten Softwarelösungen, die wir heute sehen, sind alt, mit sehr wenigen Grundlagen, die aus Unix und anspruchsvolleren Dingen stammen. Im Bereich der Datenwissenschaft gibt es nicht viele Beispiele für Dinge, die den Test der Zeit bestehen, abgesehen von grundlegenden Bausteinen für lineare Algebra und ähnliche Bereiche.

Kieran Chandler: … Analyse, aber wenn man wirklich darüber nachdenkt, könnte ich wahrscheinlich ein Dutzend Beispiele für Software finden, die eine solche Reichweite und Haltbarkeit erreicht hat. Allerdings gibt es tatsächlich nicht so viele. Ich glaube, dass hier etwas ganz Besonderes ist, das über das hinausgeht, was in der akademischen Forschung normalerweise getan wird. Rob, lassen Sie uns ein wenig mehr über Ihre akademische Forschung sprechen. Sie konzentrieren sich offensichtlich nicht nur auf die Welt der Supply Chain wie wir hier. Welche anderen Bereiche interessieren Sie sich für die Anwendung von Prognosetechniken?

Rob Hyndman: Ich interessiere mich für alles, wo ich viele Daten bekommen kann. Ich mache zum Beispiel Prognosen zur Stromverbrauchsentwicklung, wo es seit Jahrzehnten viele gute Daten gibt. Ich prognostiziere Sterberaten, Bevölkerungszahlen und in letzter Zeit arbeite ich an Touristenzahlen, was inmitten einer Pandemie ziemlich schwierig ist. Ich habe der australischen Regierung dabei geholfen, darüber nachzudenken, wie das funktioniert. Eine andere Aufgabe, die ich für die australische Regierung erledige, ist die Prognose von COVID-19-Fällen. Es ist mein erster Versuch, etwas in der epidemiologischen Welt zu tun, und ich musste ziemlich viel über den epidemiologischen Ansatz zum Modellieren lernen und das in einige Prognoseensembles einbauen. Das war interessant. Im Grunde genommen bin ich daran interessiert, es zu modellieren, wenn es genügend Daten gibt. Ich mache auch Dinge wie Anomalieerkennung und explorative Datenanalyse, wo es große Datensammlungen gibt. Ich habe mit vielen Unternehmen und Regierungsorganisationen zusammengearbeitet, und wenn sie mit einem Problem auf mich zukommen, das eine ziemlich große Menge an Daten beinhaltet, interessiere ich mich dafür, wie man eine bessere Prognose erstellen kann als das, was derzeit geschieht.

Kieran Chandler: Großartig, ich kann mir vorstellen, dass die Tourismusbranche im Moment ziemlich interessant ist. Aus Sicht von Lokad liegt unser Fokus natürlich auf der Supply Chain-Branche, aber die Idee ist, dass wir uns nicht nur auf eine Branche innerhalb dieser konzentrieren. Wir richten uns an ein sehr breites Publikum. Welche Herausforderungen können Sie haben, wenn Sie versuchen, so vielen verschiedenen Menschen mit so unterschiedlichen Bedürfnissen gerecht zu werden?

Joannes Vermorel: Zunächst einmal ist es die Art und Weise, wie wir die Welt wahrnehmen. Wir haben nichts, was einer wissenschaftlichen Messung ähnelt, wie beispielsweise für Sterblichkeitsraten oder andere Dinge etablierte Statistiken. Was Sie haben, sind Unternehmenssoftware wie ERP, MRP und WMS, die Daten fast auf halb zufällige Weise erzeugen oder aufzeichnen. Die Datenerfassung war nicht der Grund, warum all diese Software implementiert wurden, daher haben Sie Aufzeichnungen, aber diese wurden nicht als Werkzeuge zur Durchführung von Messungen im Laufe der Zeit entwickelt, die man prognostizieren könnte. Es handelt sich um ein nahezu zufälliges Nebenprodukt, und das schafft viele Komplikationen. Eine der Herausforderungen besteht darin, ob Sie in Bezug auf Prognosetechniken und fokussierte Forschung etwas tun können, das den Übergang von einem ERP zum nächsten überlebt. Wenn Sie das System ändern, das sehr unordentlich und zufällig ist, müssen Sie berücksichtigen, wie sich das auf den Prognoseprozess auswirken wird.

Kieran Chandler: Also, das nächste Thema, über das ich sprechen möchte, sind die unterschiedlichen IT-Landschaften und historischen Zufälle im Hinblick auf die Implementierung verschiedener Unternehmenssoftwaretools. Wenn Sie die Methode komplett ändern müssen, bauen Sie offensichtlich kein Wissen oder keine Techniken auf. Eine der Herausforderungen besteht darin, ob Sie in diesem Bereich etwas tun können. Und aus unserer Sicht bei Lokad sind die Arten von Prognosen, die uns am meisten interessieren, typischerweise Dinge, die sich nicht natürlicherweise als Zeitreihen präsentieren. Was ist, wenn Sie ein Problem haben, das sich nicht bequem als Zeitreihe darstellen lässt? Sie benötigen immer noch etwas, das einer Prognose ähnelt, aber es präsentiert sich auf sehr unterschiedliche Weise. Rob, was denken Sie über die Verwendung von Alternativen zu Zeitreihenprognosen?

Rob Hyndman: Nun, es hängt sehr von den Daten ab, wie Joannes sagte, um festzustellen, welche Art von Modell für dieses bestimmte Problem erforderlich ist. Meine Zeitreihensoftware löst viele Probleme, aber nicht alle. Einige Unternehmen haben einen Datensatz so aufgebaut oder erfasst, dass sie ihn ändern oder eine andere Lösung finden müssen. Die von mir geschriebene Software, die am beliebtesten ist, löst 90% der Prognoseprobleme von Unternehmen; bei den anderen 10% müssen Sie andere Dinge tun.

Kieran Chandler: Wie oft würden Sie sagen, dass es diese Art von 10% in Ihrer Erfahrung gibt, Joannes?

Joannes Vermorel: Es handelt sich um ein sehr subtilles Problem. Meine eigene Reise durch die Welt der Prognosen bei Lokad hat mir gezeigt, wie viel Tiefe es gibt. Zuerst gingen wir von punktweisen Prognosen zu probabilistischen Prognosen über, was die Art und Weise, wie wir das Problem betrachten, veränderte. Aber es ist noch viel grundlegender als das. Wenn wir uns zum Beispiel die Mode anschauen, besteht das Problem darin, die Nachfrage vorherzusagen, um zu wissen, was produziert werden soll. Wenn Sie jedoch entscheiden, was Sie produzieren möchten, haben Sie die Flexibilität, mehr oder weniger Produkte einzuführen. Die Tatsache, dass Sie in Ihrem Sortiment ein weiteres Produkt einführen, ist also Teil Ihres Vorhersageproblems. Sie möchten nicht nur die Nachfrage prognostizieren, sondern auch die Nachfrage steuern. Auf unserer Reise haben wir festgestellt, dass wir unvermeidbare Unsicherheiten haben, die uns einen Blickwinkel bieten, der vollständig orthogonal zur klassischen punktweisen Prognoseperspektive ist. Aber wir müssen uns auch mit allen Rückkopplungsschleifen befassen.

Kieran Chandler: Joannes, können Sie uns sagen, wie sich prädiktive Modelle auf die Optimierung der Lieferkette auswirken?

Joannes Vermorel: Wenn wir eine Prognose erstellen, treffen wir eine besser informierte Entscheidung. Das hat einen tiefgreifenden Einfluss darauf, wie wir unsere prädiktiven Modelle aufbauen möchten. Dann können wir weitere Variablen hinzufügen, wie die Kontrolle des Produktumfangs, der Preisgestaltung, der Botschaft und sogar der Produktwerbung. Wenn ich weiterhin das Beispiel der Mode verwende, prognostizieren Sie die Mengen, die Sie haben möchten, und entscheiden dann, dass in Ihren Geschäften einige Produkte viel dauerhafter platziert werden als andere. Das hat einen tiefgreifenden Einfluss auf das, was Sie beobachten werden. Die Herausforderung, der sich Lokad in Bezug auf die prädiktive Analytik gestellt hat, bestand darin, Probleme anzugehen und die zahlreichen Blickwinkel zu betrachten, die sich präsentieren und die die reine Zeitreihenperspektive komplizieren.

Kieran Chandler: Okay, Rob, lassen Sie uns vielleicht jetzt die Dinge aus akademischer Sicht betrachten. Viele Menschen erstellen Softwarestücke nur für ein Papier und dann wird es fast schon weggeworfen. Warum glauben Sie, dass einigen der erstellten Softwarestücke nicht genug Langlebigkeit innewohnt?

Rob Hyndman: Nun, man muss über die Motivation der meisten Akademiker nachdenken. Sie werden dafür bezahlt, Artikel zu schreiben und Kurse zu unterrichten. Sobald der Artikel geschrieben ist, gibt es vielleicht einige Anreize, Software zur Implementierung bereitzustellen. Aber es gibt keine wirkliche Belohnung für die meisten Akademiker, dies zu tun, und es gibt sicherlich keine Belohnung dafür, diese Software über einen längeren Zeitraum zu pflegen. Jeder, der es tut, tut es, weil es ihm am Herzen liegt oder weil es eine Herzensangelegenheit ist. Es ist nicht wirklich das, wofür sie bezahlt werden. Es ist nicht ihr Kerngeschäft. Ich denke, das ist ein Problem in der akademischen Welt. Es wird so viel Wert darauf gelegt, neue Methoden herauszubringen und sie zu veröffentlichen, und es wird nicht genug Wert auf die Verbindung mit der Praktikergemeinschaft und die Sicherstellung gelegt, dass Ihre Methoden gut dokumentiert sind und über benutzerfreundliche Software verfügen, die langfristig verfügbar ist. Es ist ein Motivationsproblem in der akademischen Welt. Meine Motivation besteht darin, dass, wenn ich eine neue Methodik entwickle, ich möchte, dass die Menschen sie nutzen. Ich möchte nicht nur einen Artikel veröffentlichen und möchte, dass ihn ein Dutzend oder vielleicht 100 Personen lesen, wenn ich Glück habe. Ich möchte tatsächlich, dass meine Methoden einen Unterschied in der Welt machen. Abgesehen davon, wofür ich bezahlt werde, tue ich das, weil es mir viel Zufriedenheit bereitet, meine Methoden tatsächlich in der Praxis eingesetzt zu sehen.

Joannes Vermorel: Prädiktive Modelle sind komplexer geworden, und es ist nicht einfach, sie robust zu machen. Bei Lokad müssen wir viel alten Code warten, um unsere Modelle am Laufen zu halten. Die Herausforderung besteht darin, dass Sie nicht einfach ein ausgeklügeltes Modell entwickeln und es dabei belassen können. Sie müssen eine Möglichkeit haben, zu erklären, was das Modell tut und warum es das tut. Sie müssen sicherstellen, dass das Modell gut dokumentiert ist und dass die Menschen es in der Praxis nutzen können. Das ist keine einfache Aufgabe, aber es ist wichtig, wenn Sie möchten, dass Ihre Modelle übernommen werden.

Rob Hyndman: Ich finde es auch interessant, dass sich im Laufe der Zeit neue Methoden entwickelt haben und dass daher neue Software oder neue Tools bereitgestellt werden müssen, die die Entwicklungen in der Prognose berücksichtigen. Eine Methode, die Joannes erwähnt hat, ist der Wechsel von der Punktprognose zur probabilistischen Prognose, der in der wissenschaftlichen Literatur in den letzten 15 Jahren stattgefunden hat, und Lokad war sehr schnell dabei, probabilistische Prognosen zu erstellen. Ich denke, dass Lokad wahrscheinlich eines der ersten Unternehmen für Prognosen in der Supply Chain war, das das gemacht hat. Meine ursprüngliche Software hat zwar probabilistische Prognosen erstellt, aber der Schwerpunkt lag immer auf den Punktprognosen.

Kieran Chandler: In den letzten Jahren hat sich der Schwerpunkt umgekehrt. Zuerst werden probabilistische Prognosen erstellt und dann erst Punktprognosen.

Joannes Vermorel: Eine meiner eigenen Kritiken an vielen wissenschaftlichen Veröffentlichungen ist, dass in den Methoden oft versteckte Mängel auftreten. Sie haben eine Methode, von der Sie wissen, dass sie in den Benchmarks gut abschneidet, aber wenn Sie sie in einer tatsächlichen Implementierung verwenden möchten, werden Sie feststellen, dass sie zum Beispiel numerisch sehr instabil ist oder dass die Berechnungszeiten lächerlich lang sind, sodass bereits bei Verwendung eines Spielzeugdatensatzes Tage für die Berechnung benötigt werden. Und wenn Sie einen Datensatz aus der realen Welt haben möchten, würde das Jahre an Berechnungen bedeuten.

Und es können alle möglichen Probleme auftreten, wie zum Beispiel, dass die Methode teuflisch kompliziert zu implementieren ist und selbst wenn Sie sie theoretisch richtig machen können, werden Sie in der Praxis immer einen dummen Fehler haben, der Sie daran hindert, etwas zu erreichen. Oder vielleicht hat die Methode unglaublich subtile Abhängigkeiten von einer langen Reihe von Metaparametern, sodass es ein bisschen wie eine dunkle Kunst ist, sie zum Laufen zu bringen, weil Sie etwa 20 obskure Parameter haben, die Sie auf völlig undokumentierte Weise anpassen müssen und die normalerweise nur im Kopf der Forscher vorhanden sind, die die Methode entwickelt haben.

Rob Hyndman: Das ist sehr interessant, denn wenn ich mir Methoden anschaue, die sich im Laufe der Zeit bewährt haben, liefern viele superklassische Methoden, die Sie beispielsweise für Hyndman entwickelt haben, überraschend gute Ergebnisse im Vergleich zu sehr ausgefeilten Methoden. Bei dem M5-Wettbewerb im letzten Jahr landete Lokad beispielsweise mit einer Modellgenauigkeit von Punktprognosen auf dem sechsten Platz von 909 Teams. Aber wir haben das mit einem Modell gemacht, das super einfach war, fast das parametrische Prognosemodell aus dem Lehrbuch, und wir haben einen kleinen Trick mit ETS-Modellierung verwendet, um den Schrotflinteneffekt und die probabilistische Verteilung zu erhalten.

Aber alles in allem war es wahrscheinlich ein Modell, das wir auf einer Seite mit ein paar Koeffizienten für die Saisonalitäten, den Wochentag, die Woche des Monats, die Woche des Jahres zusammenfassen konnten, und das war es. Also, im wahrsten Sinne des Wortes, sind wir ein Prozent von dem genauesten Modell entfernt, das Gradient Boosted Trees verwendet hat, und ich vermute, dass es in Bezug auf Codekomplexität, Modellkomplexität und insgesamt Opazität um zwei Größenordnungen, wenn nicht sogar drei, komplexer ist.

Joannes Vermorel: Das ist etwas, woran ich glaube, wenn es um den Erfolg Ihrer Bibliotheken geht. Was mir an den Methoden wirklich gefällt, ist, dass die meisten von ihnen eine elegante Implementierung haben und prägnant sind. In Bezug auf die Anwendbarkeit gibt es also etwas, das zutiefst wahr und gültig ist, nämlich dass Sie die Genauigkeit mit minimalem Aufwand und Ärger erhalten im Gegensatz zu, würde ich sagen, auf der anderen Seite des Lagers, dem Deep Learning-Lager. Ich habe nichts gegen Deep Learning, wenn Sie unglaublich schwierige Probleme angehen möchten, wie zum Beispiel…

Kieran Chandler: Willkommen zur Episode. Heute haben wir Joannes Vermorel, den Gründer von Lokad, und Rob Hyndman, Professor für Statistik und Leiter des Fachbereichs Ökonometrie und Wirtschaftsstatistik an der Monash University. Lassen Sie uns über maschinelle Übersetzung und Modellgenauigkeit diskutieren.

Joannes Vermorel: Ich hinterfrage die Weisheit, ein Modell zu haben, das ein Prozent genauer ist, aber Millionen von Parametern benötigt und unglaublich komplex und undurchsichtig ist. Ist es aus wissenschaftlicher Sicht wirklich besser? Vielleicht sollten wir uns nicht von der Erreichung eines Prozentpunkts mehr Genauigkeit ablenken lassen, wenn dies auf Kosten von etwas geschieht, das tausendmal komplexer ist. Es besteht die Gefahr, völlig verloren zu gehen. Gute Wissenschaft, insbesondere in der Prognose, sollte sich auf das Wesentliche konzentrieren, was eine gute Prognose ausmacht, und Ablenkungen beiseite legen, die eine geringfügige Genauigkeitssteigerung bringen, aber möglicherweise mit einer großen Menge zusätzlicher Verwirrung einhergehen.

Rob Hyndman: Man muss die beiden Kosten, die Kosten für die Softwareentwicklung und die tatsächliche Berechnung, abwägen und die Genauigkeitskosten berücksichtigen. In der akademischen Welt liegt der Fokus normalerweise auf der Genauigkeit, ohne die Kosten für Berechnung oder Codeentwicklung zu berücksichtigen. Ich stimme Ihnen, Joannes, zu, dass wir beides berücksichtigen müssen. Manchmal möchten Sie nicht unbedingt die genaueste Methode, wenn es zu viel Zeit kostet, sowohl den Code zu pflegen als auch die Berechnung durchzuführen. Meine Prognosepakete sind robust, weil sie im Rahmen von Beratungsprojekten entwickelt wurden. Diese Funktionen wurden in verschiedenen Kontexten angewendet, daher mussten sie relativ robust sein. Ich wollte nicht, dass Unternehmen zu mir zurückkommen und sagen, dass es kaputt ist oder nicht mit ihren Daten funktioniert. Die Tatsache, dass ich viel Beratung gemacht habe, bedeutet, dass diese Funktionen viele Daten gesehen haben, bevor sie der Allgemeinheit zur Verfügung gestellt wurden. Sie müssen auch relativ schnell sein, weil die meisten Unternehmen nicht Tage auf eine MCMC-Berechnung warten möchten, die auf einem ausgeklügelten Bayes-Modell durchgeführt wird. Sie möchten die Prognose in angemessener Zeit haben.

Kieran Chandler: Wie balancieren Sie Robustheit, Genauigkeit und die Kosten für die Implementierung des Modells aus geschäftlicher Sicht, Joannes?

Joannes Vermorel: Es kommt wirklich darauf an, was Sie zum Tisch bringen. Wenn wir zum Beispiel ein super vereinfachtes parametrisches Modell wie dasjenige verwenden, das wir für den M5-Wettbewerb verwendet haben, und wir ein Prozent der Genauigkeit einer sehr ausgeklügelten Gradient-Booster-Tree-Methode erreichen, die der Gewinner war, ist der zusätzliche Komplexität wert? Die Gewinnermethode verwendete Gradient-Booster-Bäume mit einem sehr ausgeklügelten Datenaugmentierungsschema, das im Grunde genommen eine Möglichkeit war, Ihren Datensatz stark aufzublähen.

Kieran Chandler: Das ist ziemlich groß und jetzt haben Sie einen Datensatz, der etwa 20-mal größer ist. Und dann wenden Sie ein super schweres und komplexes Modell darauf an. Die Frage ist also, bringen Sie etwas grundlegend Neues und Tiefgründiges auf den Tisch? Und wie balancieren Sie das?

Joannes Vermorel: Die Art und Weise, wie ich das ausbalanciere, besteht darin, darüber nachzudenken, ob ich einen Elefanten im Raum übersehe, den ich wirklich berücksichtigen muss. Wenn ich zum Beispiel über Mode spreche, sind Kannibalisierung und Substitution offensichtlich sehr stark. Die Leute gehen nicht in ein Modegeschäft und denken, dass sie diesen bestimmten Barcode wollen. Das ist nicht einmal die richtige Art, das Problem anzugehen. Kannibalisierung und Substitution sind überall präsent, und Sie benötigen etwas, das diese Vision umfasst. Wenn ich mich zum Beispiel mit dem Automobilbereich befasse und mir den Automobil-Ersatzteilmarkt anschaue, besteht das Problem darin, dass die Leute keine Autoteile kaufen, weil sie Autoteile mögen. Sie kaufen Autoteile, weil ihr Fahrzeug ein Problem hat und sie es reparieren möchten, Ende der Geschichte. Es stellt sich heraus, dass es eine super komplexe Kompatibilitätsmatrix zwischen Fahrzeugen und Autoteilen gibt. In Europa gibt es über 1 Million verschiedene Autoteile und über 100.000 verschiedene Fahrzeuge. Und in der Regel gibt es für jedes Problem, das Sie haben, etwa ein Dutzend verschiedene kompatible Autoteile, sodass es Substitution gibt, aber im Gegensatz zur Mode präsentiert sie sich in einer völlig deterministischen Art und Weise. Die Substitutionen sind fast perfekt bekannt und perfekt strukturiert, und Sie möchten eine Methode haben, die wirklich von der Tatsache profitiert, dass es keine Unsicherheit gibt.

So, Problem für Problem, der Weg, wie ich das ausbalanciere, besteht darin, sicherzustellen, dass es sich wirklich lohnt, für zusätzliche Raffinesse zu bezahlen. Wenn ich zum Beispiel die Bibliotheken von Professor Hyndman mit TensorFlow vergleiche, nur um eine Vorstellung zu geben, reden wir bei den meisten Modellen wahrscheinlich von Kilobytes an Code. Wenn wir uns TensorFlow anschauen, ist allein eine kompilierte Bibliothek 800 Megabyte groß, und sobald Sie TensorFlow Version eins einschließen, schließen Sie fast Milliarden Zeilen Code ein.

Manchmal denken die Leute vielleicht, dass wir über etwas diskutieren, das nur eine Frage von Grautönen ist und es keine richtige oder falsche Antwort gibt. Es ist nur eine Frage des Geschmacks, ob es etwas einfacher oder etwas komplizierter sein kann. Aber die Realität dessen, was ich beobachtet habe, ist, dass es normalerweise nicht nur Grautöne sind. Wir sprechen von Methoden mit mehreren Größenordnungen der Komplexität. Und so, wenn ich zum Beispiel eine Prognose meiner eigenen machen möchte, wie hoch ist die Wahrscheinlichkeit, dass die Bibliotheken von Professor Hyndman noch in 20 Jahren existieren, und wie hoch ist die Wahrscheinlichkeit, dass TensorFlow Version eins noch in 20 Jahren existiert? Ich würde ziemlich viel Geld darauf wetten, dass grundlegende Zeitreihenmethoden immer noch relevant sein werden.

Kieran Chandler: Glauben Sie, dass die Prognosetechnik noch in 20 Jahren existieren wird?

Joannes Vermorel: Dinge, die buchstäblich Milliarden von Zeilen zufälliger Komplexität über die Besonderheiten der Grafikkarten enthalten, die in den letzten fünf Jahren hergestellt wurden, werden verschwinden. Ich leugne nicht die Tatsache, dass es einige absolut beeindruckende Durchbrüche im Bereich des Deep Learning gegeben hat. Was ich sage, ist, dass wir den Mehrwert wirklich verstehen müssen, der je nach den Problemen, mit denen wir uns befassen, sehr unterschiedlich ist. Wir sollten uns nicht von Raffinesse ablenken lassen. Nur weil etwas raffiniert ist, bedeutet das nicht, dass es per se wissenschaftlicher, genauer oder gültiger ist. Es mag beeindruckender und TED-talk-mäßiger sein, aber wir müssen sehr vorsichtig sein.

Kieran Chandler: Rob, ich überlasse Ihnen die letzte Frage. In Bezug auf das, worüber Joannes gesprochen hat, dass Dinge noch in 10 bis 20 Jahren existieren, können Sie sich vorstellen, dass Ihre Bibliotheken noch vorhanden sind? Woran arbeiten Sie heute, von dem Sie denken, dass es in den kommenden Jahren nützlich sein wird?

Rob Hyndman: Meine erste öffentliche Bibliothek gab es etwa 2005, also haben sie bisher 15 Jahre gehalten. Ich bin auf jeden Fall entschlossen, alle von ihnen zu pflegen, auch diejenigen, die ich als von anderen abgelöst betrachte. Das erfordert nicht viel Aufwand. An den neueren Paketen, an denen ich arbeite, befindet sich ein Paket namens Fable, das die meisten der gleichen Techniken implementiert, jedoch auf eine andere Weise, um es Benutzern zu erleichtern, Tausende von Zeitreihen gleichzeitig vorherzusagen. Fable und einige zugehörige Pakete sind seit ein paar Jahren verfügbar, und mein neuestes Lehrbuch verwendet sie. Ich erwarte, dass sie mindestens 10 Jahre lang weit verbreitet genutzt werden, und solange ich dazu in der Lage bin, werde ich sie pflegen und sicherstellen, dass sie verfügbar sind. Ich habe das Glück, einen sehr guten Assistenten zu haben, der mir bei der Paketwartung hilft. Auch er ist dem Open-Source-Bereich verpflichtet und engagiert sich für die Veröffentlichung von hochwertiger Software in der Open-Source-Entwicklung.

Kieran Chandler: Das ist großartig, und die Open-Source-Welt ermöglicht es jedem, darauf zuzugreifen. Vielen Dank euch beiden für eure Zeit. Wir müssen es hier beenden, und danke fürs Einschalten. Wir sehen uns in der nächsten Folge.