予測整合性とサプライチェーンの意思決定（ニコラオス・クーレンテスとの対談） - Ep 161

5月 16, 2024

guest speakers

00:00:00 インタビューの紹介
00:00:47 ニコス・クーレンテスの経歴と業績
00:03:25 予測整合性の理解
00:04:44 予測における精度の限界
00:06:14 時系列予測における整合性
00:08:02 サプライチェーン在庫モデリングの考慮点
00:09:03 整合性と予測の一貫性
00:10:29 生産における数学的指標
00:12:08 高級時計メーカーの在庫に関する考慮点
00:14:47 生産を促す上昇変動
00:16:03 単一SKUの需要に対するモデル最適化
00:17:41 縮小推定量と時間階層に関する研究
00:19:05 全ホライゾンに対する最良のモデル
00:21:32 予測整合性を巡る論争
00:24:05 在庫ポリシーのキャリブレーション
00:26:27 精度と整合性のバランス
00:31:14 時系列集約のテクニックが予測を平滑化
00:32:54 最適化における勾配の重要性
00:35:28 サプライチェーン内の相関関係
00:38:10 時系列予測を超えて
00:40:27 確率的予測の正直さ
00:42:32 整合性とブルウィップ比率の類似性
00:45:18 逐次的意思決定分析の重要性
00:47:27 各段階を分離した状態を保つ利点
00:49:34 モデルとの人間の相互作用
00:52:05 予測における人間要素の保持
00:54:35 専門家とアナリストへの信頼
00:57:28 数百万SKUの管理という現実的な状況
01:00:01 高レベルのモデル調整
01:02:13 稀なイベントの確率が導く意思決定
01:04:44 ニコスの調整に関する見解
01:07:14 些細な調整に時間を浪費すること
01:09:08 日々の手動調整に反対して
01:11:43 コード微調整による全社的な利益
01:13:33 データサイエンスチームの役割
01:15:35 確率的予測が手動介入を抑止する
01:18:12 AIに関する百万ドルの疑問
01:21:11 AIモデルの理解の重要性
01:24:35 AIモデルの価値とコスト
01:26:02 在庫の問題への対処

ゲストについて

Nikolaos Kourentzesは、スウェーデンのスコーヴデ大学AIラボにおいて、予測分析とAIの教授を務めています。彼の研究関心は時系列予測にあり、近年は不確実性のモデリング、時間階層、階層型予測モデルに取り組んでいます。彼の研究は、在庫管理や金融オペレーションのための流動性モデリング、医療分野などにおいて、予測を意思決定や行動に変換することに焦点を当てています。また、彼は産業界と公共部門の双方で豊富な経験を有し、先進的な予測方法の実践を支援する各種オープンソースライブラリの著者でもあります。

要約

最近のLokadTVのインタビューで、スコーヴデ大学の教授であるニコス・クーレンテスとLokadのCEOであるジョアネス・ヴェルモレルは、サプライチェーンの決定-駆動-最適化における予測整合性について議論しました。彼らは、予測と意思決定を一致させる重要性を強調し、モデルが誤った仕様である可能性を認めました。予測-精度-定義と整合性を区別し、最も正確な予測が意思決定の目的と合致しなければ最善とはならないと論じました。また、在庫意思決定における予測整合性の実用的適用と、ブルウィップ効果の緩和の可能性についても議論され、AIと人間の関与の役割にも触れられました。

詳細な要約

Lokadの広報責任者であるConor Dohertyが司会を務めた最近のインタビューで、スコーヴデ大学の教授ニコス・クーレンテスと、LokadのCEOで創業者のジョアネス・ヴェルモレルが、サプライチェーン意思決定の文脈における予測整合性の概念について議論しました。

スコーヴデ大学でAI研究チームを率いるクーレンテスは、自身の研究が主にモデルリスクとモデルの仕様に焦点を当てていると説明しました。彼は、予測が支援する意思決定と調和させる重要性、すなわち「予測整合性」という概念を強調し、モデルが誤った仕様である可能性を認めることで精度向上を図ると述べました。

さらにクーレンテスは、予測精度と予測整合性の違いを明確にしました。精度が予測誤差の大きさを測る指標であるのに対し、整合性は時間を通じた予測の一貫性を表します。彼は、最も正確な予測が意思決定の目的関数と合致しなければ、必ずしも最良の選択とはならないと主張しました。

クーレンテスと同意見のヴェルモレルは、数学的指標が実際の運用ではしばしば不十分であると指摘しました。例えば、生鮮品と高級商品の販売では、意思決定ごとに非対称なコストが生じることや、需要予測の変動が取り返しのつかない決定を招くサプライチェーン管理のラチェット効果の例を挙げました。

クーレンテスは、これまで精度のみを重視していたアプローチから、予測に影響を与える他の要因も考慮するようシフトしたことを共有しました。彼は、モデルの基本的な仕組みやその前提条件を理解する重要性を強調し、正確な予測群が得られた場合、最も整合性の高い予測を選ぶべきだと提案しました。

一方、ヴェルモレルは、Lokadでは数学的指標に頼るのではなく、直接的に財務成果を最適化していると語りました。彼は、最適化においては勾配が極めて重要であり、パラメータ調整の方向性を示すと説明しました。また、需要だけでなく、変動するリードタイムや不確実性をも考慮する確率的予測の重要性についても議論しました。

その後、在庫意思決定における予測整合性の実践的な適用と、ブルウィップ効果の緩和への可能性について議論が移りました。クーレンテスは、整合性とブルウィップ比率には多くの類似点があり、整合性を念頭に置いた予測設計がブルウィップ効果の低減に寄与すると説明しました。

また、予測整合性における人間の関与の役割も議論されました。クーレンテスは、人間の介入は排除すべきではなく、付加価値をもたらすように導くべきだと考えています。一方、ヴェルモレルは、Lokadでは人による予測調整がすでに廃止され、結果が改善されたと述べました。

会話は、サプライチェーンにおける予測整合性と意思決定におけるAIの役割についての議論で締めくくられました。クーレンテスとヴェルモレルは、AIが予測の課題に対処する上で一役買うものの、既存の全ての手法に取って代わるべきではなく、そのプロセスを理解することが極めて重要だと合意しました。

最終的な発言で、クーレンテスは従来の予測手法から脱却し、意思決定と統合されたアプローチへの転換を呼びかけました。彼は、考え方、ソフトウェア、教科書をアップデートする必要性を強調するとともに、様々な分野の人々を予測領域に迎え入れることを歓迎しました。そして、これらの課題に対処する上で、協力と多様な視点の重要性を訴えました.

完全な文字起こし

Conor Doherty: おかえりなさい。通常、予測に関する議論は精度の概念に集中します。今日のゲスト、ニコス・クーレンテスは異なる視点を持っています。彼はスコーヴデ大学のArtificial Intelligenceラボの教授です。今日は、ジョアネス・ヴェルモレルと私とで予測整合性の概念について話します。さて、ニコス、スコーヴデの発音が正しかったか、カメラの前で確認していただけますか？

Nikos Kourentzes: 私も同じです。

Conor Doherty: では、これ以上の質問はありません。本日はご参加いただきありがとうございました。

Nikos Kourentzes: こちらこそ、光栄です。

Conor Doherty: 実のところ、私もスコーヴデ大学、すなわちArtificial Intelligence Labで働いています。それは非常に印象的ですね。具体的にどのようなお仕事をされているのか、そしてご自身のご経歴についてお聞かせいただけますか？

Nikos Kourentzes: では、まずラボについて簡単に紹介し、その後で私自身の経歴に少し触れさせていただきます。私たちはAI研究に関心を持つ多様な学者のチームであり、主にdata scienceを中心に活動していますが、応用分野は非常に多岐に渡ります。たとえば、すでにご紹介の通り、私は主に予測や時系列モデリングについて話すことになるでしょう。しかし、他の同僚は情報融合、ビジュアルアナリティクス、自動運転車、AIの認知的側面などのテーマにも関心を寄せています。チームの素晴らしい点は、多様な研究が共存しており、議論を重ねることで通常の文献を超えた多くの斬新なアイデアが生まれることです。少なくとも、私はこの環境が大変魅力的だと感じています。

大学については、私が同僚にいつも言うのですが、私自身スウェーデン人ではないため、国際的にスウェーデンの名前を使うときにはどんな名前でもよく見えます。ですので、大学はデータサイエンスとAIの分野でかなりの伝統を持っているものの、名前自体は広く知られていないということを付け加えておきます。ですが、チームに加われたことをとても嬉しく思っています。私自身は、統計、計量経済学、またはAIを用いた予測や時系列モデリングに、ここ20年近く取り組んできました。ランカスター大学で人工知能を専攻し、博士号を取得しましたが、当時はビジネススクールで学んでいました。もともとの経歴は経営学にありましたが、ある時「どんな質問をすればいいかは分かるが、解決方法が分からない」と気付き、運用研究に進み、サプライチェーンへの関心につながりました。その後、人工知能の分野で博士号を取り、さらに計量経済学にも興味を持つようになりました。結果として、時系列の理解において多角的な知識を得ることができたのです。

Conor Doherty: ありがとうございます、ニコス。実は、私とジョアネスが初めてあなたのプロフィールに出会ったのは、私がLinkedInであなたのいくつかの研究をフォローしていたサプライチェーンサイエンティストから、予測整合性に関するあなたの記事と、そのテーマに関するワーキングペーパーへのリンク付きの記事を送られてきたことがきっかけでした。本日の議論は、予測とそのサプライチェーンへの応用を中心に進めていきますが、具体的な話に入る前に、予測整合性とは何か、そしてそれがどのようにしてあなたの研究領域として出現したのか、少し背景をお聞かせいただけますか？

Nikos Kourentzes: 私の研究の大部分は、モデルリスクとモデルの仕様に関するものです。時系列予測において、しばしばあるモデルを特定し「よし、これで進めよう」としますが、実際はどのモデルも何らかの点で間違っているという事実を見落としがちです。予測の世界では「すべてのモデルは間違っているが、いくつかは有用だ」というのが常套句ですが、私はそれ以上に進むべきだと考えています。つまり、モデルがどれほど間違っているのかを定量化することが可能だという点です。そして、文献ではあまり踏み込まれてこなかったもう一つの側面、すなわち予測が支援する意思決定と結びつける必要性にも焦点を当てるべきだということです。

そこで整合性という概念は、これら二つの考えから生まれました。私は、ランカスター大学の同僚であり、先ほどご紹介した論文の共著者でもあるKandrika Pritularga氏と共に、モデルがある意味で誤仕様であり、我々が直面する需要や売上を単に近似しているに過ぎないとする観点から、実際のコストはどのようなものかを考察しました。予測整合性は、単に精度に頼るのではなく、より良いアプローチが可能かどうかを問いかけるものです。なぜなら、精度は多くの場合、データの近似がうまく行われているという前提に立っているからです。

そして実際、私たちは全力でその実現に努めているものの、もしかすると正しいモデルを使用していないだけかもしれません。例えば、あるソフトウェアがX種類のモデルを提供していたとしても、実際の近似にはそのモデルプールに存在しないモデルが最適である可能性があります。こうした背景から、モデルが誤仕様であると認識した上で、予測と意思決定を結びつけるという動機付けが生まれたのです。これが予測整合性の背景です。

より科学的に話すならば、私たちは通常、同僚と共に少々ふざけたアイデアから研究テーマを始めることが多いという点を付け加えたいと思います。何か別のことをしている中で、「あ、面白い着眼点がある、もう少し掘り下げてみよう」ということがあり、結果として有用なアイデアにたどり着くのです。私がこれを述べるのは、予測整合性が提供するものは従来とは異なる考え方であり、冗談のように始まったことが、最終的には全く違った視点から物事を見るきっかけとなったからです。

Conor Doherty: Joannes、すぐにこの件であなたのところに伺いますが、もう少し詳しく説明していただけますか？改めて、予測精度というと誰もが大体その意味を理解していると思います。しかし、「コンルージェンス（調和性）」または「予測コンルージェンス」と言うと、人々は全く異なる視点から物事を見ることができるという意味になります。時系列予測の文脈でのコンルージェンスが具体的に何を意味するのか、その区別についてもう少し詳細に説明していただけませんか？

Nikos Kourentzes: そうですね、まず第一に、その名称は必ずしも直感的ではなく、理由があります。ここで述べようとしている予測コンルージェンスとは、本質的に予測が時間を通じてどれだけ類似しているかということを表しています。言い換えれば簡単な表現ですが、いくつか問題があります。そのために使える言葉、例えば「安定性」などは既に統計的予測で使われているため、混乱を招かないようにする必要があるのです。

そしてもう一つの問題は、後ほど議論されるであろう点ですが、予測が時間を通じてどれだけ類似しているかを測定する技術的な困難さがあるということです。例えば、季節性のある時系列と季節性のない時系列を考えると、seasonality自体が時間を通じた予測の違いをもたらすため、全く異なる意味合いになります。そこには管理すべきパターンがあるわけです。つまり、私たちが興味を持っているのは、そのような本質的な非類似性ではなく、それを定義するために多少の数学的体操が必要になるということです。しかし、ここで精度との違いが生じるのです。一般に精度とは、使用する指標に関わらず、予測誤差の大きさの概要として理解しているものです。

もちろん、最も精度の高い予測を得られれば、それはサポートされる意思決定に最良の情報を提供しているということになると仮定するでしょう。しかし、それはサポートされる意思決定が、例えば二乗誤差の最小化のような最も精度の高い予測と同じ種の目的関数を持っていることを意味します。しかし実際はそうではありません。例えば、サプライチェーンの在庫モデリングを考えると、注文バッチのコスト、または過剰・不足によるコストといった要素を考慮しなければならず、最も精度の高い予測とは異なる判断を迫られる可能性があります。さらに、サプライヤーからの制約や、生産ラインや倉庫のキャパシティ制限といった他の側面も考慮する必要があり、実際のcost of inventoryや一般的なサプライチェーンのコストを考えると、最も精度の高い予測が必ずしも意思決定と整合しているわけではないということが見えてくるのです。これこそが、コンルージェンスのより興味深い点です。

一方で、私や共著者たちがこの方向でかなりの研究を発表しており、ほとんどの精度指標が良い意思決定と十分に相関していないことを示しています。これはこれらの指標が役に立たないという意味ではなく、完全な物語を提供していないということです。そういった意味で、コンルージェンスに注目する必要が出てくるのです。一方で、コンルージェンスは予測があまり大きく変動しなければ、ひとつには予測にある程度の信頼があることを示し、もうひとつには、計画をある程度一貫して立てられる予測であると主張しています。つまり、毎回の予測サイクルごとに全ての計画を更新する必要がなく、予測がかなり似通っているため、もし最も精度の高い予測でなくても、その失敗パターンは予測可能であり、意思決定を容易にする可能性があるのです。実際の研究でも、よりコンルージェントな予測に支えられる意思決定は時間を通じて一貫性があり、そのためそれらの意思決定を行うための労力が少なくなるということが確認されています。

Conor Doherty: では、ありがとう、Nikos。そしてJoannes、次はあなたにお任せします。これらの点はあなたにもかなり共鳴するのではないかと思います。より精度の高い予測が必ずしもより良い在庫意思決定に直結するわけではありませんからね。

Joannes Vermorel: そうですね、まさにその通りです。我々の現在の一般的な見解としては、ほぼ全ての数学的指標、つまり特定の数式を選び、それがあなたの最適化しようとする指標を特徴づける数学的数式だとするアプローチは、その数式が突然天から降ってきたかのように作り出されたものであっても、善意であっても、例えばノルム1、ノルム2など、何らかの数学的性質が伴っていても、実運用においては様々な理由で非常に期待外れになるということです。

十年以上前、Lokadは、人々が現在我々が呼んでいるnaked forecasts、つまり「裸の予測」を行うべきではないという考えを布教し始めました。本質的には、私は予測は意思決定のための手段であり、その予測の妥当性は意思決定の妥当性というレンズを通してのみ評価できるというNikosの提案を支持しています。

そして、それは少し奇妙な点でもあります。なぜなら、もし10種類の異なる意思決定がある場合、それぞれをサポートするために一貫性のない予測に頼る可能性が出てくるからです。不思議に感じられるかもしれませんが、直感に反しても現実にはそれで構わないのです。なぜなら、オーバーシュートやアンダーシュートに関する非対称なコストが非常に多様な意思決定のセットが存在するからです。

そのため、もし例えばオーバーシュートすると大惨事になる意思決定があったとしましょう。例えば、イチゴを販売している場合を考えてみてください。イチゴは、結局売れ残った分はほぼ廃棄されるため、オーバーシュートすると直ちに確実な損失や在庫の帳消しという大惨事につながります。

逆に、もしあなたが高級時計メーカーで、商品が金、プラチナ、その他の高級な金属や宝石で作られている場合、売れなかったとしても在庫は賞味期限切れにはなりません。例え、流行遅れになった製品を作ってしまったとしても、常に素材を回収して市場の現在のニーズに合わせたものに再加工することが可能です。

つまり、基本的に宝飾品を扱っている場合、在庫の帳消しは発生しません。製品を再加工するためのコストはかかるかもしれませんが、全く異なるゲームとなるのです。

サプライチェーンの教科書ではほとんど触れられない基本的な問題の一つに「ラチェット効果」があります。たとえば、在庫replenishmentのシステムを運用しているとしましょう。毎日、各SKUごとに需要予測があり、その需要がある閾値を超えると再注文が行われます。

しかし、予測がある程度変動している場合、在庫は常にその変動の最高点を基準に設定されることになります。例えば、再注文サイクルが1か月であるとすると、その1か月の間に予測が変動し、例えば毎日予測ロジックを再実行し、必ず最高の予測値が出た日に発注してしまうのです。

これはラチェット効果と呼ばれます。なぜなら、予測が上昇または下降して変動すると、精度的にはその変動をうまく捉えて短期間の変動を正確に表現できても、意思決定を下す際にはその都度、その決定に縛られてしまうからです。

そして、そのような変動が生じると、通常は上昇変動が捕捉され、下降変動は大して問題にならず、単に１日遅らせるだけで済むのに、上昇変動は生産バッチ、在庫補充、在庫割り当て、価格の引き下げなどを引き起こしてしまいます。

なぜなら、同じような現象が起こるからです。価格を下げた結果、需要が急増し、需要を過小評価していたために在庫過剰と思われた場合、本当はそうでなかったのに、価格を下げたことにより、結果的に意図的なstock-outの状況に追い込まれてしまうのです。

これらはすべて、ラチェット効果と呼ばれる現象の一例で、予測が変動すれば行動が引き起こされ、その結果、企業の業績が統計モデル、もしくは予測統計モデルといったものの極端な変動を反映してしまうのです。つまり、意思決定においては、予測モデルのノイズを取り込んでしまっているということになり、望ましい状況ではありません。

Nikos Kourentzes: ちょっと補足してもいいですか？まず、完全に同意します。しかし、精度を重視して育った私のような時系列の専門家の視点からも同じ議論を見渡すと、少し分かりやすくなるかもしれません。

最終的に私が考えを改めた理由は、例えば1つのSKUの需要があると仮定し、最適なモデルを見つけ、そのモデルを尤度の最大化や平均二乗誤差の最小化などで最適化するというやり方をとっていたからです。

この手法の前提は、モデルの良い近似ができており、通常は誤差は1ステップ先の予測であるということです。これが、少なくともサンプル内誤差に関しては私たちが最小化しているものです。

しかし、もしあなたのモデルが正しいモデル、つまり何らかの形でデータ生成プロセスを知っているという前提でなければ（これは決して真ではありません）、その誤差を最小化しても全ての予測時点において完璧な予測ができるわけではないのです。なぜなら、あなたのモデルはあくまで近似に過ぎないからです。

つまり、通常通り1ステップ先の誤差を最小化すると、確かに1ステップ先の予測では非常に良いパフォーマンスを発揮するかもしれませんが、リードタイム全体においてはうまく機能しない可能性があるのです。リードタイムはさらに先のステップを必要とします。

もし「では、3か月先、つまり3ステップ先の予測にモデルを合わせられるように調整しよう」とすると、逆の効果が生じてしまいます。つまり、ある予測時点では非常に良いパフォーマンスを示しても、短い期間の予測時点ではそうではなく、リードタイムにおける情報が欠落してしまうのです。

ここで言いたいのは、従来のモデル最適化の考え方は、最適化器が注目する誤差に合わせて常にキャリブレーションされるため、実際にサポートしようとしている意思決定に対しては、結果として不正確な予測になってしまうということです。予測する対象の時点が異なるのです。

ここで、例えば収縮推定量に関する多くの研究や、同僚と私が行っている時間的階層に関する研究が一助となっているのは、これらの手法が常に「データに過剰適合してはいけない。何らかの誤差統計にとらわれすぎるな」という視点で考えられているからです。

ですから、Joannesが述べたことは本質的には二つの視点から見ることができる、ということです。一つはサプライチェーンへの影響、もう一つはなぜ統計的裏付けとしてこのような結果になるのかという点です。

Joannes Vermorel: その通りです。Lokadでは、現在、そして長い間quantitative supply chainのフレームワークの一環として、純粋な財務最適化、つまりユーロやドルの最適化を直接行っています。

そして、実際にこれらの指標は発見されるものです。サプライチェーンシステムが非常に不透明で複雑であるため、指標というものは既定のものではなく、実験的最適化と呼ばれる特定の手法を用いて、その発見自体が一つのテーマとなっています。

さて、興味深いのは、予測時点およびその予測がどう変動するかという点です。私は長い間この観点から考えてきましたが、実際、Makridakisの最新の予測コンペティション（M4、M5、M6）では、ほとんどの予測時点において最良のモデルがベストであるという結果が示されています。

Lokadは2020年にウォルマートのSKUレベルで1位となり、1日先、7日先、といったあらゆる時点で最高のパフォーマンスを示しました。かつては、特定の予測時点でより良いパフォーマンスを発揮するモデルが存在する可能性に取り組んでいましたが、

しかし、現代のモデル、例えばdifferentiable programmingのような最新の予測モデル群を見ると、ほとんど均一な性能を示しています。今日では、1ステップ先の予測が6か月先よりも優れているということは非常に稀です。

そして本質的には、無期限に予測を行い、計算資源を節約するために途中で止める、といったモデルも存在します。しかし、それにもかかわらず、最適化される指標が既知のものだと仮定してはならない、という点は変わらないのです。

つまり、ベイジアン的なアプローチであれば対数尤度、または平均二乗誤差などの洗練された数学的指標のいずれかだと仮定すべきではありません。論文で定理を証明するには非常に素晴らしいものですが、定理やモデルの性質の証明は実際の運用結果に直結しないのです。

その結果、数学的な観点からは容易に明らかにならない微妙な不具合がシステムの挙動に多く生じる可能性があります。

Conor Doherty: では、ありがとうございました。Nikos、先ほどの話に戻ってさらに掘り下げますが、あなたは自分自身を「時系列の人間」と呼び、以前は精度に注目していたけれど、後に「精度だけに固執するのは違う」と考え方を転換されたと言っていました。そのプロセスについて具体的に説明していただけますか？なぜなら、予測について話をする際、予測精度そのものを最終目標と見なさないように説得するのは非常に難しい問題だからです。あなたの論文でも「予測の目的は精度ではない」と述べていたことを覚えています。その発言は、相手によっては非常に議論を呼ぶものですが、具体的にどのようにその転換を実現されたのか教えていただけますか？

Nikos Kourentzes: はい、確かに議論を呼ぶ点ではあります。私自身も精度を重視する時系列の世界にいた者として、精度のユーザーよりもむしろ私たち専門家がこの点を受け入れやすいのだと思います。では、まず先ほどあなたが述べた予測時点の話題から始めさせてください。

I think this understanding that the models are able to produce good forecasts for all horizons comes in how we compare the models themselves. Like you know, picking up again on the M competitions that you mentioned. This is a useful reading of the M competitions, but all these models are optimized in similar ways. Even if you take a simple exponential smoothing and you change your objective function, how you estimate your parameters, you can actually make it perform much better or much worse on different objectives or different horizons.

私にとって、これが「何かが起こっているのではないか」という出発点でもありました。そして、例えば、博士課程や修士課程の学生と論文に取り組む際、ライブラリを使って済ませるのではなく、敢えて手作業で実装させるようにしているのは、モデルのもとで実際に何が起こっているのかを理解してほしいからです。その過程で、いくつかの詳細に気付き、「これは意味があるのだろうか？」と問い直すことができるのです。

すでに述べたように、私たちは数学的に扱いやすい式や表現を好みます。たとえ「扱いやすい」と言っても、時にはかなり複雑なものもありますが、適切な仮定があれば数学的に解明することが可能です。しかし、私にとって問題はここにあります。なぜなら、その仮定の下では何が起こっているのかを十分に理解できるのは有益ですが、その仮定が破られた場合、あるいはモデルの仕様が異なった場合はどうなるのかを、私たちはしばしば忘れてしまうからです。

このモデルの仕様が、私にとっての出発点です。一度それを導入すると、多くの式が問題を抱えるようになります。ここで注意しておきたいのは、私自身が学者であるからといって、この研究が全く無意味になるわけではないということです。ただし、これはあくまで踏み台であり、すべての性質を理解してから、初めて「さあ、今度はモデルの仕様を導入しよう」と言えるのです。

スペインの同僚と在庫ポリシーのキャリブレーションに取り組んだ際のことですが、私たちがレビューを進めようとしている論文において、この点は常に学者にとって複雑な側面となっています。つまり、モデルが正しいと仮定した場合に得られる結果と、モデルが誤指定されていると仮定した場合に得られる結果、たとえば単純な注文補充ポリシーにおいて、その違いを示すことで、供給チェーンや在庫設定における追加のリスクが存在することを示そうとしているのです。

だから、私にとって「精度だけでは不十分だ」という考えに至る瞬間は、モデルが誤指定された場合に、この追加リスクが何を意味するのかを考え始めたときです。確率的在庫ポリシーにおいては、需要プロセスからくる確率的リスクが存在すると言っていますが、それだけではなく、私が考える限り、精度という目的は一つだけではなく、複数の目的が絡むはずなのです。

それは、その目的自体を廃棄するという意味ではなく、たとえその目的が無視されたとしても、他の目的との間には何らかの相関関係が存在するはずだということです。なぜなら、広義の意味で正確な予測を完全に無視してしまえば、少なくとも私の経験では、仕事がうまくいかなくなるからです。

あなたは目的を完全に切り替えるかもしれません。たとえば、整合性については、理論上も精度と関係があると示されているのです。100％の関連性ではありませんが、弱い関連性は存在します。だからと言って、私にとって「だから精度を完全に捨て去る」ということにはならないのです。しかし、議論はそこで終わりません。もし、同様の性質を持つより良いメトリックや、複数のメトリックに置き換えられるのならば、それで構いません。メトリックの名前がどうであれ、私のものであれ他人のものであれ、重要なのは、モデルの仕様とそのリスクを考慮に入れる以上、従来のメトリックに固執できないということです。

Conor Doherty: ありがとう、Nikos。そしてJoannes、少し後で戻りますが、強調したい点が二つあります。一つは、私が誤って「予測の目的は精度である」と言ってしまったことです。実際には逆で、精度は予測の目的ではありません。もう一つは、あなたが先ほど言った重要な点、つまりあなたは最も整合性のある予測そのものを求めているのではなく、正確さと整合性のミックスを追求しているということではないかという点です。これについて、もし誤解でなければ、両者のミックスをどのように追求するのか、理解していない人のために詳しく説明していただけますか？

Nikos Kourentzes: まず強調しておくのは、これはまだ進行中の作業であり、完全な答えは持っていないということです。しかし、単純なヒューリスティックとしては、正確な予測の集合をまず見つけ、その中から最も整合性のあるものを選ぶ、といったアプローチが考えられるようです。直接、最も整合性のある予測を選んでしまうと、それが非常に不正確な予測になってしまう可能性があるからです。

この二つの目的を別の言い方で表現すると、両者が同時に改善する領域が存在し、その後でトレードオフが生じる。トレードオフに達したときには、整合性の側面により重点を置くということです。

Conor Doherty: では、もう一度質問します。あなたは「トレードオフ」という用語を使われましたが、これは我々が非常に注目している点です。作業中であることは理解していますが、企業はどのようにして、正確性と整合性というトレードオフを評価するのでしょうか。具体的には、例えばリードタイムなどの要素も考慮に入れた上で、どのように重み付けするのでしょうか。

Nikos Kourentzes: はい、明確な答えを提示するのは難しいのですが、私自身まだ明確な答えを持っていないからです。ただ、論理的な例を一つ挙げることはできるかもしれません。

先ほど、季節性のある時系列について触れました。整合性をメトリックとして定義する難しさと、「条件付き平均としての予測」という考え方について、他の同僚とも議論したことがあります。それはどういうことでしょうか。需要が実際に季節性を持っている場合、その未知の基礎構造が条件付き平均となるのです。

もし、最も安定した予測、すなわち我々が「整合性がある」と呼ぶ予測を求めるなら、原理的にはそれは直線、つまりフラットな線になるでしょう。そのフラットな線は季節性に関する情報を全く持たないため、実質的には確定的な予測となり、確率的な構造は一切反映されません。したがって、これは明らかに悪い予測です。

そこで、求めるべきは条件付き平均において最も整合性のある予測です。つまり、季節性のパターンを捉えつつ、すべての細部に過剰にこだわらない、バランスの取れた予測を目指すべきなのです。これはoverfittingとアンダーフィッティングとの関係にも似ていますが、完全に一致するわけではありません。誰もが過剰適合が悪いことに同意できるように。

しかし、整合性が不足している（under congruence）ことは先ほど述べたフラットな線のように悪いことだと容易に示せます。一方、過度の整合性（over congruence）は必ずしも悪いことではありません。そして「必ずしも」という曖昧さこそが、Joannesが以前に指摘した他の在庫管理や供給チェーンに関する問題点と多く結びついているのです。予測における追加の整合性により、意思決定者の後の判断が実質的に容易になるのです。統計的には、それが最も正確な予測ではないかもしれませんが、意思決定者が行動を起こすために十分な情報を提供するのです。

今のところ、私が現実的に提案できるのは、まず正確な予測の集合を特定し、その中から整合性を最大化する予測を選ぶ、という二段階の選択プロセスです。

興味深いことに、私たちの実験のほとんどでは、その結果、シュリンケージ推定量の工夫や時系列の集約といったトリックを用いたモデルが、予測を平滑化するために選ばれる傾向が見られました。ここで強調しておきたいのは、他の同僚たちも同様のアイデアを提案しているということです。彼らは、損失関数を修正して、例えば予測の変動をも最小化する項を加えるなどの方法を取っています。ですが、整合性メトリックの独自性は、精度との関連性も明示しようとする点にあるのです。どこで両者が連動し、どこで分岐するのかという数式を提供しようとしているのです。

Conor Doherty: ありがとう、Nikos。Joannes、あなたの意見は？

Joannes Vermorel: ええ、Lokadではこれを少し異なる角度から捉えています。私たちは、誤差を金額（ドルやユーロ）で直接計算し、メトリックは発見されるものであり完全に任意であると仮定するという、非常に過激なアプローチを採用しています。メトリックが何でもありというのは、最適化対象が任意のものになってしまうという、非常に衝撃的な事実です。では、どう対処するかというと、結局のところ、メトリックがどのようなものであっても、それは一種のプログラム、つまりコンピュータプログラムとして表現できるものでなければならないと仮定しているのです。数学では、コンピュータで表現できないようなものを考案することも可能ですが、ここでは、極端に抽象的な数学空間に踏み込むことはしません。

要するに、何かを最適化したいのであれば、必要なのは勾配が得られることです。勾配さえ得られれば、目的に合わせてパラメータを適切な方向に調整する道筋が得られるのです。

ここでDifferentiable Programming（微分可能プログラミング）が大いに役立ちます。Differentiable Programmingは、Lokadが広範に活用しているプログラミングパラダイムであり、任意のプログラムから勾配を取得できるため、非常に強力なのです。これが、金融的な視点と結びつく典型例です。最終的には、供給チェーンの特有の癖や奇妙な点を反映したプログラムへと発展していくのです。

私たちは、どんなプログラムでも微分することができます。そして、モデル自体が微分可能であるならば、そのモデルに基づいた最適化が可能となります。これにより、私たちのアプローチは微分可能な構造を持つモデルに限定されますが、実際には大多数のモデルがこれに該当します。WalmartのM5コンペティションでは、SKUレベルで微分可能なモデルを用い、ほぼナンバーワンの成績を収めたのです。

したがって、微分可能性を強制することが、最先端の結果を得る上での障壁になるわけではありません。さて、話を進めると、これは単にメトリックを放棄した際に起こる現象の要点にすぎません。結局、私たちは多くの要素をバランスさせなければならないのです。

もう一つのポイントは、確率的予測です。これは、需要だけでなく、すべての可能な未来を考慮に入れるという考え方です。例えば、あなたがリードタイムやその他の予測期間について言及したように、実際にはリードタイムにも変動があり、不確実性が伴います。

さらに悪いことに、実際に観測されるリードタイムは、発注する数量とも連動しています。例えば、100ユニットを発注すると早く届くかもしれませんが、1000ユニットの場合、製造工場がより多くの時間を必要とするため、到着が遅くなる可能性があります。

このように、多くの相関関係が不確実性の形状や構造を決定付けるのです。たとえ1つのSKUについて語っている場合でも、時系列のみの一面的な視点では不十分であり、少なくともリードタイム、あるいはEコマースにおける返品など、追加の不確実性の層を組み入れる必要があります。

「整合性」という用語は曖昧に使っていますが、私たちが確率的モデルに移行した際の実務上の観察として、数値的にはそれらのモデルが非常に安定しているという結果が得られました。

これは非常に興味深いもので、ほとんどの不安定性や整合性の不足は、単に周囲の不確実性が大きいことを反映しているに過ぎません。そして、確率分布が比較的平坦な領域を形成しているのです。

また、どのメトリックを選んでも、結果はほぼ同じになるという奇妙な性質を持ちます。つまり、点予測に固執していると、不確実性が高い状況下では、非常に幅広い予測値が得られるにもかかわらず、選択したメトリック上ではほぼ同一と見なされてしまうのです。

そして、こうして、ジッターなどが発生するわけです。そして、確率的予測の領域に足を踏み入れると、良いモデルとはこのばらつきや非常に高い周囲の不確実性を表現するものになるのです。それ自体が、むしろ、はるかに一貫していると言えるでしょう。

それは非常に奇妙ですが、数値的な安定性を少しでも得ようと苦労していた多くの状況がありましたが、確率的予測の領域に入ると、初期状態から非常に安定したものが得られ、深刻な問題は二次的なものになってしまいます。

これはかなり興味深いですね。そして、それらを他の事柄と結びつけることができます。時系列予測を超えると、以前このチャンネルで少しは議論しましたが、ほとんどのサプライチェーンの問題はSKU間や製品間の多くの結合が起因しているという側面があります。

そのため、非常に頻繁に時系列にとらわれない、より高次元的な視点へと移行する必要があります。しかし、これはさらに話が逸れるという意味でもあります。

Nikos Kourentzes: 全く同感です。確率的予測は絶対に必要です。数年前から棚上げされていた未完成の論文を見ていて、確率的予測がなければ、全体を作り直さなくてはならないと感じるほどです。確率的予測を必ず取り入れるべきです、もう2024年ですから。しかし、私が確率的予測を好む理由は、特にJoannesが説明した方法が、モデルの仕様について別の視点を提供してくれるからです。

予測の不確実性を見ると、通常はその不確実性が時系列の確率性によるものだと仮定します。しかし、その不確実性の大部分はモデル自体の不確実性に起因しています。データ由来の不確実性、推定由来の不確実性、そしてモデル自体の不確実性があります。項が欠けているかもしれないし、余分な項があるかもしれないし、全くずれている可能性もあります。その不確実性を分割することは依然として大きな問題です。

もしその不確実性を分割しなければ、実際、多くの異なるモデルは、本質的に大きく異ならない限り、モデルの不確実性によって全体の不確実性を覆い隠してしまいます。少なくとも実証的には、より高い不確実性を示し、その不確実性の大部分は、すべてのモデルが問題を抱えていることを示唆しているかのように見えるのです.

需要の確率的要素による不確実性そのものの深みには到達できていません。いまだにその解決策を見出せず、文献にも十分な記述がありません。しかし、少なくとも確率的予測は「これがあなたの不確実性です。点推定から得たものよりも若干大きい」と正直に示すことで、解決への良い一歩となっています.

Conor Doherty: ありがとうございます。ここには学者も実務家も二人ずついらっしゃることに気づきました。ここは実践的な話に向けるべきかと思います。Lokadの全体の取り組み、そして確かにNikos、あなたの論文や研究全般は在庫意思決定に応用されています。そういう意味で、Joannes、あなたがサプライチェーンの癖や奇妙な点、リードタイムの変動、そしてブルウィップ効果について語ったとき、我々が議論している作業用論文におけるNikosの立場は、予測の一貫性を追求することでブルウィップ効果に対処またはその影響を緩和できるというものでした。この考え方が、深刻な問題であるブルウィップ効果にどのように対抗できるのか、その概要を説明していただけますか?

Nikos Kourentzes: 聴衆の皆さんはその点を十分にご存知だと思います。ブルウィップ効果に関する多くの研究で問題なのは、実際に対策を提供するというよりも、単にそれを記述している点にあります。特に、時系列の観点から「さあ、これがあなたのブルウィップ比です」と示す場合、その多くは問題の記述に過ぎず、測定後の対策については何も示していません.

ここで私が言いたいのは、予測を意思決定に結びつけ、別々に扱うのではなく、一緒に扱う必要があるということです。つまり、もしその方向に進むなら、ブルウィップが軽減されることを示してくれる何かが必要なのです。最初からそれを理解していなければ、方程式を解いた結果、一貫性とブルウィップ比には多くの類似点が見受けられるのです。この期間を通じた類似性の適用、すなわち単に一貫性と言うもので、予測から低いブルウィップを実現する考えと大いに合致しているようです。もちろん、ブルウィップが生じる理由は他にもたくさんあります.

ですから、もし一貫性のあるメトリック、あるいはそれに類するものを用いて予測モデルを選定または仕様決定するのであれば、ブルウィップに関してより有利な解決策をすでに狙い撃ちにできるのです。ここでは、少なくとも私が予測分野で働いている限り、ブルウィップは単なる予測以上に広い問題であると認識しなければなりません。予測はその一部分に過ぎず、関与する他の要素が非常に多く存在します。しかし、予測に関しては、一貫性やそれに類する考え方を採用することで、少なくとも有利な予測を設計することができるのです.

Joannes Vermorel: ブルウィップに触れるとき、私が「意思決定を見て、ユーロやドルを最適化する」と述べたのは、実際には単純化した表現でした。なぜなら、現実には連続的な意思決定プロセスを見ているからです。そして、ここで基本的に取り扱っているのは、連続的な意思決定プロセスの確率的最適化であり、これはウォーレン・パウエル教授と議論したトピックでもあります.

我々は、次に来る一つの意思決定だけでなく、その後に続くすべての意思決定を最適化しています。未来でロールプレイされた予測から生成される意思決定の情報を、現在に引き戻す仕組みが必要です。ここで差分可能プログラミングが輝きを放ちます。要するに、未来の意思決定をシミュレーションするプログラムがあり、それを逆伝播させることで、未来の財務成果を現在の予測エンジニアリングに再注入する必要があるのです.

通常、これを考える際に、ブルウィップに戻ると、ブルウィップに驚かないようにする、という見方があります。あなたの最適化フレームワークには、時間とともに生じるコスト（例えばユーロ）を認識する仕組みが全くありません。また、ただ意思決定を繰り返し、その過程でブルウィップの問題が生じるかを解析する連続的な意思決定分析も存在しません.

解決策はそれほど複雑ではありません。次の一つの意思決定だけでなく、その後に続くすべてを最適化すればよいのです。暗黙のうちに我々が最適化しているのは、一種のポリシーです。しかし、通常、人々はポリシーの最適化を予測とは完全に独立したものと考え、ただ予測を利用するだけの最適化を行います。Lokadの見解では、そうではなく、実際にはそれらは密接に絡み合っているのです.

優れた予測は、優れたポリシーと手を携えてやってきます。この二つは非常に密接に関連しているのです。実際、Amazonから出た最近の論文「Deep Inventory Optimization」では、その区別を完全に撤廃しています。彼らは、通常は分離される予測モデリングとオペレーショナルリサーチを統合するものを直接採用し、「いや、両方を同時に行う」とし、ディープ・ラーニングを通じて予測最適化モデルを一度に実現しているのです.

これは非常に興味深いです。なぜなら、意思決定が予測に基づいて最適化される一方で、予測自体が完全に潜在化してしまうと文字通り示しているからです。ただ、それは問題を見る別の方法にすぎませんが、非常に未来的で他の問題も引き起こします。しかし、考えてみれば、私たちは依然として予測モデリング部分と確率的最適化部分を二段階として扱っているのですが、この二段階は非常に密接に連携しており、多くの往復が存在するのです.

Nikos Kourentzes: 実際、段階を分けておくことには利点があると考えています。しかし、決してそれらを完全に孤立させるべきではなく、その理由が存在します。どちらかが他方をリードすべきだという点には完全に同意します。私は過去、在庫ポリシーと予測の双方を統合して最適化するアイデアに取り組んだことがあります。論文も発表しており、詳細は興味のある方に確認していただけます。私が懸念したのは、これを大規模に展開できなかったという点です。すなわち、非常に多くのSKUを扱えるような最適化手法を構築できなかったのです。これは、セットアップそのものではなく、むしろ私の最適化における限界が原因かもしれません.

私は、二つのステップを分離しておくことがプロセスの透明性を高めると確信しています。もし統合された解決策があった場合、次の期間の注文在庫を「10」であると宣言し、誰かが「12であるべきだ」と主張したら、なぜ「10」が「12」より優れているのかを正当化するのは非常に困難です。予測とその予測に基づくポリシーを理解することで、より透明な議論が可能になります。「さて、これが私の予測です。予測の詳細はこちらです。これは良い予測に基づいて策定されたポリシー、または私が持つ予測の選択肢によって調整されたものです」とか、「もしこのポリシーに縛られているなら、これらの種類の予測オプションだけが検討されるべきだ」といった議論ができるのです。しかしながら、「ここに問題のある予測の要素が見受けられる、ここに問題のある発注の要素が見受けられる」といった透明性は依然として保たれるべきです.

そして、私が懸念しているもう一つの点は、深層学習に大きく依存し、全く不可解な最適化や予測に没入してしまうことです。どんなにモデリングを行ったとしても、最終的には人間がモデルやその出力と相互作用するのは避けられません。研究や私自身の経験から、状況を理解できれば、モデルや数値との相互作用、そして文脈情報を取り入れるための調整が、ほとんどのモデルよりも効果的に働くことが示唆されています.

もし非常に曖昧な数字、すなわちブラックボックス的な出力であれば、多くの人々はその数字の扱い方が分からなくなるか、逆に破壊的な方法でその数字と相互作用してしまう傾向にあります。私は、透明性を助けるためにも、各プロセスを分離しておく方が良いと考えています。これにより、問題を分解して「こちらからの寄与と、こちらからの寄与がある」と説明できるのです。だからこそ、Johannesが提案するアプローチにかなり賛同しており、どちらか一方がもう一方をリードしつつも、各ステップで何が行われているのかを記述できる必要があると考えています.

Conor Doherty: ありがとう、Nikos。戻ってきますが、そこで一つ追及したい点があります。人間の介在や上書きについて何度か触れられましたが、予測の一貫性における人間の関与の役割は何でしょうか？多くの場合、単に精度だけを測っていると「モデルが間違っている、私の方が分かっている、介入させてください」と言い、結果としてノイズを増加させてしまいます。予測の一貫性という概念は、これにどのように対処しているのでしょうか？上書きが多く含まれるのでしょうか、それともそうではないのでしょうか?

Nikos Kourentzes: 行動予測あるいは判断に基づく調整（文献では様々な名称で呼ばれています）については、非常に活発な研究分野ではあるものの、まだ十分に理解されていないと思います。いくつかの論文は、これらの調整が精度や最終的な結果において逆効果であり、あるいは破壊的であるため、排除すべきだと主張しています。この考え方の問題は、メトリック（尺度）が必要になることです。平均絶対パーセンテージ誤差を使えばある答えが出るし、平均二乗誤差を使えばまた別の答え、そして一貫性を使えばさらに別の答えが得られるのです.

しかし、私が改めて最初の議論に戻ると、「なぜ単に精度に固執しないのか？」という疑問が生じます。皆さんも精度だけに頼っているわけではありません。これが重要であると認識している限り、当然ながら、予測プロセスや在庫プロセスの行動面を、単なる精度以上の指標で調整または評価する必要があるのです。私は、人間の介在を排除すべきではないと考えています。文脈情報が十分に豊かであれば、人間はほとんどのモデルよりも良いパフォーマンスを発揮できるという十分な証拠があるからです。しかし、常に一貫して価値を加えられるわけではなく、何かをしなければならないと感じたり、ハイプや在庫に与える影響が理解しにくい情報に過剰反応してしまう場合も多々あり、その場合はモデルや予測との破壊的な相互作用となってしまいます.

人間の要素は価値を付加できるため維持すべきですが、いつ価値を付加すべきかを指導する必要があります。それは時間のかかるプロセスです。もし、特定のタスクは完全自動化に任せ、アナリストには特定のアクションに集中させることができれば、彼らの業務効率は向上するでしょう。彼らは自分の得意分野に、より多くの時間とリソースを注げるのです。一貫性の概念は、精度を超えてどのステップが価値を追加しているかを評価する際に、在庫設定やより一般的な意思決定の場面で、その差別化に役立つのです.

注文に関しても同様の議論が成立します。優秀なアナリストであれば、モデルやポリシーはおそらく良い基準値を提供してくれるでしょう。しかし、これが普遍的に最も情報量の多い数字になるとは考えにくいのです。例えば、今朝サプライチェーンで実際に起こった何らかの事象や、評価が難しいディスラプションなど、常に何かしらの要素が存在します。これは、長期的にうまく機能するかどうかの問題ではありません。世界では常に何らかの争いが起こっており、時にはそれがサプライチェーンに影響を与え、時には影響を与えないこともあります。場合によっては、例えばインフレへの圧力などが生じ、消費者の行動が変わるかもしれません。これらは非常にモデリングが難しい事象です.

ここでは、この仕事をきちんと行う時間のある専門家やアナリストを信頼しているという話です。そして、調整に関して締めくくるなら、「数値を100調整する」と言うのではなく、「なぜ100か？この理由で20、あの理由で80」と分解して考えるべきだという研究結果を踏まえており、これは以前に述べた、予測と在庫管理の二段階を分離しつつも独立させないというアプローチと大いに一致しています。

なぜなら、たとえば「注文をx%変更する」と言った場合、その担当者に「その変更のどの部分が予測モデルのリスク理解によるもので、どの部分がサプライチェーンの現実によるものか説明してもらえますか？」と尋ねれば、より良い調整案が出せる可能性があるからです。

Conor Doherty: ありがとう、ニコス。ヨハネス、あなたにお話を移します。あなたは人間による上書きの大ファンですよね？

Joannes Vermorel: いいえ、Lokadでの最初の5年間は人々に予測調整を任せていましたが、それは非常に大きな誤りでした。少しでも独断的になり、それを完全に禁止した途端、結果は劇的に改善しました。ですから、今はほとんど許可していません。

まず、人間の役割について考えてみましょう。たとえば、一つのSKUについて考えるかもしれませんが、これは典型的な状況ではありません。通常のサプライチェーンは何百万ものSKUを扱います。ですから、調整を行うということは、実は極めて複雑なシステムをマイクロマネジメントしていることになるのです。それは、たとえば何ギガバイトものメモリやストレージを持つコンピュータのランダムな記憶領域に入り、データの配置を並べ替えようとするようなもので、気になったものだけを選んで操作しても、時間の無駄遣いに過ぎません。

さらに、どれだけ情報を得ても、その情報がほぼSKUレベルで提供されることはありません。確かに、世界では何かが起こっていますが、それがSKUレベルの事象である根拠はどこにあるのでしょうか？システムに対するあなたの操作がSKUの微調整である場合、高レベルな情報がSKUレベルに何らかの関連性を持つ理由はどこにあるのか、大きな乖離が生じるのです。

人々は、おもちゃの例として、例えば1,000万SKU程度のシステム（それはそれほど大きくない企業の基本的な規模です）を想定するかもしれません。これが私の主張であり、Lokadで大幅に改善が見られた理由でもあります。というのも、実際にはSKU全体のうちの0.5%だけを抜き出して操作しているに過ぎず、そもそも意味がなく、通常多くの問題を引き起こすからです。さらに、相互作用を許すということは、それを支えるために多数のコードを書く必要があり、そのコードにはバグが潜む可能性があるという問題もあります。これがenterprise softwareの問題です。人々はこれを単に数学的性質の問題としか見なさないのですが、エンタープライズソフトウェアにはバグがあるのです。残念ながら、Lokadが書くコードですら例外ではありません。

また、大企業では人間の介在が求められ、workflowsや承認、検証、監査可能性が必要となります。結果として、元々千行ほどの統計モデルのコードで始まったものが、すべてを実現するために百万行近いワークフローコードへと膨れ上がってしまうのです。

確かに、意図自体は良く、人間の介在には価値があると考えていますが、決して従来の方法で生み出すべきではありません。Lokadが人間の介在に取り組む方法は、「外部で何かが起きているなら、モデルの構造自体を再検討しよう」というアプローチです。ご覧の通り、予測モデルと最適化の話です。従来の文献ではモデルは既成のものであり、論文が発表されればそのまま運用するのが一般的ですが、Lokadではそうしません。私たちは基本的にプログラミングパラダイムを通じて予測モデリングと最適化に取り組んでいるのです。つまり、Lokadには固定のモデルはなく、長い一連のプログラミングパラダイムだけを持っているのです。結果として、常に現場でカスタムメイドされ、組み立てられているのです。

本質的には、適切なプログラミングパラダイムを用いたコードなのです。そして、何か問題が起こった時、そのパラダイムは予測モデルや最適化モデルを非常に厳密で洗練された、簡潔な形で表現する手段を提供します。文字通り、千行のコードを適切な記法で二十行にまとめようという考え方です。

その後、コードに戻って「何かある、介入が必要だ」と考えることができるのですが、その介入はSKUレベルではなく、実際にそのレベルの情報はほとんど存在しません。外部から得られる情報は通常、もっと高レベルなものなのです。したがって、通常はモデルの高レベルな側面を微調整するにとどまり、細部まで精密な情報を用意する必要はないのです。これが、この確率的なアプローチとプログラミングパラダイムの美点です。

例えば、半導体業界において、中国や台湾の情勢が緊迫することを懸念するなら、「リードタイムに、例えば5%の確率で倍になるという要素を追加する」というアプローチが考えられます。通常、半導体のリードタイムは非常に長く18か月ほどですが、ここで突如として、何らかの理由でリードタイムが年率5%の確率で倍になるという要素を追加するのです。

正確さを求める必要はありません。最終的には、紛争や一連のロックダウン、港湾を閉鎖するインフルエンザなど、あらゆる事態が考えられるのです。しかし、このような確率的アプローチは、プログラミングパラダイムと組み合わせることで、モデルの構造に高レベルな意図を注入することを可能にします。非常に粗削りではあるものの、SKUレベルの個別上書きをミクロ管理するのではなく、望む方向に大まかに導くことができるのです。

さらに興味深いのは、先ほどのリードタイム倍増の5%の例で、その要因に名前を付けることができる点です。例えば、「これを我々のFear Factor（恐怖要因）と呼ぶ」とすれば、単に「これは悪い事態が起こるという私の恐怖要因だ」と宣言するだけで済むのです。そして、その恐怖要因が設定されると、全ての意思決定がその稀な事象の追加確率に沿って穏やかに誘導され、SKUごとに個別にミクロ管理する必要がなくなるのです。

そして、もし半年後にその恐怖が根拠のなかったものであったと判明した場合、容易に元に戻すことができるのです。なぜなら、コード内に「これがFear Factorである」と記されたコメント付きのFear Factorが存在するからです。つまり、ドキュメンテーション、トレーサビリティやリバーシビリティの面でも、プログラミングパラダイムを通して問題に取り組むことで、非常に保守管理しやすいシステムとなるのです。これは、かつて手動介入を行っていた際の大きな問題点であり、その際のコストの大部分が、上書きの保守管理の不備に起因していました。

時には、人々は正しい意図で上書きを行い、その後忘れてしまうことがあります。すると、上書きが残存し、事態が極端に悪化するのです。これが問題なのは、上書きを導入すると「なぜそれがあるのか？」という疑問が生じるからです。Lokadのようなソフトウェアベンダーであれば、予測は毎日再生成されるため、人々は予測を単に上書きするだけでは済まず、翌日にはすべてが再生成されてしまうのです。

したがって、上書きを何らかの形で永続化する必要が生じます。しかし、問題は、その永続化された設定が存在し、誰がそれを管理するのかという点です。結果として、上書きの維持管理や廃止といったために、さらに複雑なワークフローが必要となり、これらの点は文献では一切議論されていません。非常に興味深いテーマではありますが、エンタープライズソフトウェアベンダーの立場からは、極めて苦痛な状況となり、結果的には予測最適化という根本的な側面に取り組む代わりに、20倍あるいは100倍の行数のコードを対処しなければならなくなるのです。

Nikos Kourentzes: 原則として、ヨハネスの立場は、多くの人、少なくとも両側面を経験した人々が反対しないと考えています。私の見解では、調整はこの方法で行う必要はなく、まだ解決策は見つかっていません。なぜなら、これは非常に盛んな研究分野だからです。多くの人が「このタイプの調整、あるいはあのタイプの調整を排除すべきか」と取り組んできたことは周知の通りです。

また、問題を全く異なる観点から考えることも可能です。私の同僚であるIve Sager（ベルギー在住）との類似の研究を例に挙げ、戦略レベルまたは企業レベルに存在する情報をどのようにSKUレベルに転送できるかを模索している点について、ある意味でお答えしてみましょう。

これにより、「すべてのSKUを個別に調整するのではなく」と言える道が開けます。SKUごとに、あるいは一般的にマイクロマネジメントするのは良い考えではないという点には全く同意します。しかし、それは別の議論です。もし人々に調整を自由に任せれば、ほとんどの場合、人間の偏見や所有意識などにより、時間の無駄遣いに終わるでしょう。

ヨハネスが述べたソフトウェア面については、あなたの意見をそのまま受け入れます。私自身は同じ分野ではありませんが、私のコードにも確かにバグは存在します。しかし、調整をプロセス全体としてとらえる別の考え方もあると感じます。

X個の時系列データを管理する必要があると言うよりも、戦略的に方向転換する、または競合他社がXを行ったといった非常に定量化が難しいアクションとして捉えたほうが価値があると考えます。無作為に数値化するより、何もしないほうがよい場合もあるのです。

しかし、この情報はモデル内に存在しないとも考えられます。もしユーザーが校正可能な追加リスクをモデルに加えるか、あるいは「出力の調整を別の方法で行ってみませんか？」と問いかけたとしても、結局は判断の要素が残るのです。その判断要素をどのように導入するのが最善かは、依然として未解決の問題です。

従来の調整方法は生産的だとは思えません。ヨハネスが指摘しているプロセスの複雑化だけでなく、人々がそのために時間を浪費するという問題もあるからです。彼らはオフィスに上がり、各時系列データを一つ一つチェックして数値やグラフを眺めることに没頭してしまいます。これは本来、アナリストがするべきことではありません。

特に、近年企業がデータサイエンスチームを持ち、専門知識や高度に訓練された人材が市場に溢れている現状では、彼らの時間をそんな無駄なことに使うべきではなく、プロセスの改善に注力すべきです。ですから、調整自体には余地があると考えますが、従来の方法ではなく新たなアプローチが求められるのです。研究結果からも、一貫性の欠如やバイアスにより、平均して利益は得られないと結論づけられています。

Conor Doherty: 予測の整合性を指標とすることが、自動化の可能性を排除するものではありません。整合性を追求する予測プロセスにおいても、自動化は一部として取り入れられるはずですが、私の理解は間違っていますか？

Nikos Kourentzes: ある意味で、あなたの指摘は正しいです。私の整合性の理解や、企業データで実証された結果からすれば、小さな調整はすべて排除すべきだとユーザーに示唆するものです。なぜなら、そのような調整は整合性を損なう追加の変動を引き起こすからです。自然と、多くの調整を排除する方向へと導かれるのです。

しかし、どこで整合性が過剰になるのか、そして専門家が持つ情報がどこで重要になるのかを理解する必要があるため、私は多少懐疑的です。これは依然として未解決の問題です。しかし、ヨハネスと私が批判した従来のプロセスを考えれば、整合性指標は問題を明らかにしてくれるでしょう。

Conor Doherty: ですから、両者ともに、すべてのSKUを毎日手動で調整するべきだとは考えていないということですね。それは単なる無意味な金銭の浪費に過ぎません。その点では全く一致しています。

Joannes Vermorel: しかし、これは実際のところほとんどの企業で行われている慣例なのです。戦略的意図を反映させたいという点には全く同意します。そして、私が「プログラミングパラダイム」という言葉を使うのは、その目的を実現するための手段を指しているに過ぎません。つまり、人々がSKUのミクロ管理にとらわれず、データサイエンスチームの誰もが戦略的意図を反映させるために、長く不格好なコードを書いてさらに多くのバグや問題を招くことを望んでいないということです.

例えば、需要の確率分布があり、リードタイムの確率分布もあるとしましょう。そして、その両者を組み合わせたいとします。それを行うための演算子はありますか？もし演算子があれば、Lokadにはその演算子があり、文字通りワンライナーでリード需要を取得できます。これは変動するリードタイムにわたって統合された需要を意味します。もし演算子がなければ、モンテカルロ法を使って問題を解決することもできます。それほど難しいことではありません。つまり、モンテカルロ法では、需要をサンプルし、リードタイムをサンプルすれば、あっという間に解決できるのです。しかし、一行で済む処理が、ループを伴うと時間がかかります。ループがあると、範囲外のインデックス例外や、オフ・バイ・ワン例外など、あらゆる問題が発生し得ます。もちろん、それはペアプログラミングやユニットテストなどで修正できるものの、コード量は増えてしまいます。

つまり、私の主張は、あなたの意見に本当に共感しており、ここであなたが言及していた要点こそが重要だということです。彼らにはデータサイエンスチームがあり、「数値を微調整する」修正から「コードを微調整する」修正へとシフトさせるために存在しています。そして、まさにその点で、私たちはある程度同調しているのです。もし、人間の介入をシステム内の定数を選び出して調整する作業から、「コードに向き合い、その意図を再考して調整する」という方法に移行できれば、私はその方法を承認でき、それでうまくいくのです。

私の主張は、修正作業を数値の微調整からコードの微調整へと移行することでした。もし、人間の介入を数値の微調整から、コードに向き合い、その意図を再考して調整する方法に変えられれば、私はその方法に賛成でき、うまく機能するのです。

そして実際、時間の無駄という観点に立ち返ると、コードを微調整する場合、一行を修正するのに確かにかなりの時間がかかります。ある場合にはその修正に1時間かかるかもしれませんが、数値の変更なら1分程度で済むかもしれません。しかし、この1時間の投資は、SKUごとの1分の修正がもたらすかもしれない効果とは異なり、会社全体に利益をもたらすのです。

Conor Doherty: つまり、予測が示す出力を手動で微調整することと、予測を生成する数値的レシピを微調整することの違いについて話しているのですか？

Joannes Vermorel: その通りです。この世界には情報が存在し、基本的な前提として、ニュースなどの公開情報や企業内ネットワークを通じてアクセスできるプライベートな情報があるのです。つまり、モデルや過去のデータには含まれていない、付加的な情報が存在するのです。

ですから、その発言にも同意しますし、また、我々がまだスーパーインテリジェンスや汎用人工知能を持っていないという考えにも同意します。ChatGPTが企業のすべてのメールを処理してくれるわけにはいかないのです。つまり、我々にはその程度の知能が備わっていないということです。だからこそ、このふるい分けは人間の知性によって行われなければならず、この情報に対して批判的に考え、サプライチェーンに正確に反映しようとする人々の存在に価値があるのです。

そして、私はニコスの考え方に非常に共感しています。彼はまた、データサイエンスの役割についても言及しており、最終的にはデータサイエンスチームの毎日の業務は、「我々にはモデルがある。それは本当に我が社の戦略的意図に忠実か？」という非常に高次の問い、つまり戦略を策定する者が述べた戦略が適切に反映されているかどうかを検証することであるべきだと考えています。これは定量的な問題ではなく、定性的な問題です。

Nikos Kourentzes: ここで一点付け加えさせてください。Joannesが非常に示唆に富む発言をしてくれたので、なぜ我々が従来の調整手法に批判的であるかを理解するのに役立ちます。彼は、注目すべきは点予測ではなく、その確率的表現であると述べました。人々は点予測を調整しますが、在庫管理の観点からは全く意味がありません。重要なのは、分布全体の確率なのです。

ですから、もし誰かがそれをうまく行えたとしたら、実際に何か効果を上げるかもしれません。しかし、そんな方法を取る人はおらず、私も以前述べた通り、20年以上統計学に携わってきましたが、容易に実行できるものではありません。もちろん、私ができないからといって他の人ができないわけではありませんが、要するに、確率的な視点で考えると、情報は非常に抽象的であり、手作業で「10単位だけ調整してみろ」と言うのは非常に困難なプロセスなのです。つまり、多くの人はそもそも間違った量に対して調整を行っているのです。

Joannes Vermorel: 全くその通りです。Lokadで私たちが10年前に調整作業を停止したと言ったのは、まさに確率論的アプローチに移行した時期と一致しています。人々は調整が必要だと言っていましたが、我々は彼らに確率分布のヒストグラムを見せたのです。

我々は「どうぞ、お試しあれ」と言うと、人々は考え直して「いや、そんなことはしない」と退いていったのです。これは、誤ったレベルでの介入を防ぐための仕組みとして機能しました。確率分布が示されると、その奥深さに人々は気づきます。つまり、サプライチェーンにおけるパリティ分布を、穏やかなベルカーブ、すなわちガウス分布のように考える人が多かったのですが、実際はそうではなかったのです。

例えば、あなたがDIY（自分でやる）ストアを経営しているとしましょう。何らかの論理により、人々は特定の商品を4個、8個、または12個単位でしか購入しないのです。ですから、ヒストグラムは通常のベルカーブのようにはならず、代わりに、予備として1個購入する場合や、4個や8個で購入する場合にピークが現れ、間に何もないのです。だから、「では、平均を2.5から3.5に移すべきか？」と考え始めても、ヒストグラムを見ると、まるで1個、4個、8個の3つのピークしかないのです。

突然、人々は「そのような調整は本質的に意味をなさない」と言います。つまり、現在4に割り当てられている確率を5に移動させることは現実的ではないのです。むしろ、平均を上げたいのであれば、0の確率を減らし、他のすべての発生確率を増やす必要があると考えるでしょう。

人々は、これらの確率分布には非常に多くの奥行きがあることに気づくのです。存在する魔法のような倍数など、さまざまなトリックもあります。これが我々の観察結果です。確率分布を目の当たりにすると、バケツごとに手動で調整することは現実的でないと皆が完全に同意するのです。したがって、その非現実的な反応は実際のところ現実的なのです。

Conor Doherty: さて、ニコス、改めてですが、すでにかなりお時間をいただいておりますが、最後の質問です。あなたは人工知能研究所で働いておられますので、今後我々が議論している文脈の中でAIがどのように役割を果たすかについて、予測の自動化やAIによる上書きなど、未来像を描いていただけますか？

Nikos Kourentzes: それは百万ドルの価値がある質問です。論文をチェックしていたレビュアーの一人が懸念を示したのと同じようにお答えします。その質問は「ではどうするのか？別の指標があるというが、それで何が変わるのか？」というものでした。

そして私はこう言いました。「見てください、もし非常に単純な統計モデルがあれば、計算を通じてすべてを解析的に求めることができます。しかし、機械学習、特に現在使用している巨大なAIモデルに踏み込むと、これは非常に困難な作業になります。だからこそ、これらのモデルが何をしているのかを理解するための計測基準のようなものがあれば、少しは簡単に把握できるというわけです。」

例えば、巨大なAIモデルがあり、「見てください、これが予測をより高い整合性に導いている」と言えるのであれば、そのモデルをよりシンプルに考慮する手がかりになるかもしれません。そのシンプルさとは、モデルの複雑さを削減することではなく、むしろそれがどのように在庫に影響し、意思決定プロセスや先に述べたブルウィップ効果にどう影響するかを理解することにあります。

これが事実上、ワーキングペーパーを締めくくる方法です。我々が言いたいのは、この指標の利点はブラックボックスであるモデルがどのように振る舞うかを理解するためにある、ということです。そして、今後AIに触発されていないモデルが登場するとは考えにくいのです。すべてをAIに置き換えたいという考えにはやや懐疑的です。なぜなら、いくつかの物事はもっとシンプルで効率的な方法で解決できるからです。私の懸念は、必ずしも問題の数学的側面やデータの豊富さから来るものではなく、よりシンプルなプロセスと、その持続可能性に起因するものなのです。

もし巨大なAIモデルを稼働させ、すべてをそのモデルに合わせてスケールアップした結果、膨大なクラウドコンピューティングや多くの電力を消費することになり、しかも指数平滑法との差がたった1％であれば、そんな複雑さに見合う必要があるのでしょうか？場合によっては1％以上の差が出るかもしれませんが、時にはこの複雑さが全く必要ないのです。非AI専門家にとってもより透明性の高い、もっとシンプルな手法を採用することが可能なのです。

AIは、我々が抱える多くの問題にとって前進の一手となり得ます。多くの場合、我々が直面している予測の課題、特にその予測に基づく意思決定の場面は、AI応用の非常に良い土台であると思います。しかし、それは我々がこれまで知っていたすべてを捨て去り、無条件にAIに移行しようというものではありません。この点は論文にも少し反映されています。なぜなら、以前にも「目的を精度だけではなく少し修正しよう」とする論文は存在していました。他の同僚も同様のことを行っています。違いは、我々はその結果として「本当に何が起こっているのか」を代数的に示そうとしている点にあります。だからこそ、このような解釈や直感を得ることができるのが望ましいのです.

AIは多くの疑問に対して前進の一手となり得ますが、我々が一体何をしているのかを理解することの重要性も忘れてはなりません。単に盲目的に信頼し、「AIモデルが自動的に期待通りに動作する」と考えてはいけないのです。決してAIモデルが優れた成果を上げられないとは言っているのではなく、「うまくいくことをただ期待するのではなく、もっと確実なものにすべきだ」ということを主張しているのです.

Conor Doherty: その点について、あなたのご意見は？

Joannes Vermorel: ニコスの指摘は全くその通りだと思います。調整に際しては、コード行数という観点も考慮しなければなりません。ディープラーニングモデルのオーバーヘッドは非常に大きく、すべてを複雑にしてしまいます。多くの人は、GPUカードにおいて計算を完全に決定論的に行う方法が明確でないことに気づいていません。実際、ハードウェア自体が決定論的でないために、計算を二度実行すると全く異なる結果が得られる場合が多いのです.

つまり、結果的にハイゼンバグに悩まされるということです。ご存知の通り、ハイゼンバグとは、バグが発生し、一度再現しようとすると消えてしまう現象です。そのため、再現を試みても現れず、「うまくいっている」と判断してしまい、再び本番環境に戻すと再びバグが発生し、再現できないという現象に繋がるのです.

したがって、私は完全に同意します。性能が同程度であれば、シンプルであることは全体的に優位です。大幅にシンプルなシステムであれば、実際のところシンプルなものが常に勝利するのです。どんな指標で測っても、ほんの数パーセントだけ他のモデルを上回るモデルが実世界で真に優れている状況は見たことがありません.

もし、同程度の結果が得られるのであれば、桁違いにシンプルな代替手段があれば、それが常に有利なのです。たとえ指標が、Lokadが最適化を試みた「ドル」や「ユーロ」といったものであったとしても同じです。理由は少し奇妙ですが、先に述べたように、サプライチェーンは変化し、人間の介入があるからです.

変化に介入する際には、時間が何よりも重要です。もし数千行に及ぶ複雑なプログラムがあると、例えば数年前、Lokadではスエズ運河を塞いだエバーグリーン号の影響で、アジアから輸入しているほぼ全てのヨーロッパのクライアントに対して、リードタイムを調整するために実質24時間しかなかったという物流上の問題に直面しました.

そのため、モデルがあまり複雑であるがゆえに1週間もかかるのではなく、数時間で対応できることが極めて重要なのです。もし、プロセス中に多くのバグを生み出してしまい、自分のやっていることを台無しにするような修正を求めるのであれば、よりシンプルなモデルが必要です。価値とコストの両面が存在することには完全に同意します。GPT4を使い始めた企業にとって、そのコストは非常に高いものとなっています.

Conor Doherty: さて、ニコス、これ以上質問はありませんが、通常ゲストに最後の発言をお願いします。視聴者の皆さんに向けた呼びかけや、共有したいことはありますか？

Nikos Kourentzes: 私からの呼びかけは、予測を意思決定から切り離して考える従来の見方から、一歩踏み出す必要があるということです。我々の議論の文脈、つまり在庫なども含め、これらの事柄をより一体的に捉える努力をすべきです.

私は学者ですが、他の同僚は異なる意見を持っていますし、Lokadにも独自の視点があります。しかし、これら全ての視点には価値があり、皆が同じ方向を向いているのが分かります。我々は数十年前に行っていたことを捨て、思考法、ソフトウェア、教科書を更新する必要があります。それには大きな価値があるのです。それは単にソフトウェアを変更するということだけでなく、実際に異なる意思決定へとつながるのです.

コンピュータサイエンス、ディープラーニング、プログラミング、在庫管理などの分野から多くの方々が予測の分野に参入することを私は歓迎します。今こそ、これらの問題に本気で取り組む時期に来ているのです。これは、予測学の研究分野としての価値を損なうものではないという印象を与えたくありません。私自身もその世界に属していますので、単に一連のライブラリを使い、いくつかのコードを回して「これで十分だ」と言うだけではいけないと考えています.

多くの場合、産業界や研究機関と協力すると、正しいプロセスの確立や誤った方法論への対処に価値があることが分かります。これが予測分野が提供する全てのものです。プロセス内のステップを維持するという考え方は好きですが、共同で解決策を見出すために協力しなければなりません。良い領域だと思います。

質問の冒頭に戻ると、私は大学のチームと一緒に仕事をするのが楽しいと言いました。そこには多声性があり、たくさんのアイデアが飛び交います。私が自分の予測に関する質問を提示すると、他の人々は「これはどうですか？この視点を考えたことはありますか？」と言い、私は「見てください、そんな考えは思いつかなかった」となります。

Conor Doherty: ありがとう、Nikos。これ以上質問はありません。Joannes、貴重なお時間をありがとうございました。そして再び、Nikos、本当に参加していただきありがとうございました。そして皆さん、ご視聴ありがとうございました。次回お会いしましょう。

Lokad TVに戻る ›

PREVIOUS EPISODES