00:00:07 サプライチェーン業界における機械学習のトピックの紹介。
00:00:46 ゲストである、IKEAのデータ&アナリティクス責任者アレクサンダー・バックアスの紹介。
00:02:20 自己成就予言の概念の説明。
00:03:03 自己成就予言が、ビジネスターゲットや需要と供給の影響など、サプライチェーンにどのように影響するかの議論。
00:07:14 サプライチェーン内のフィードバックループが世界をより複雑にし、特定の製品の過剰在庫がその売上にどのように影響するかの説明。
00:08:53 サプライチェーンにおけるフィードバックループと、それに対する人間の行動の影響についての議論。
00:10:41 需要予測における売上データの利用と、単純なアプローチを採用した場合の潜在的な結果。
00:13:08 機械学習システムにおけるゼロ予測問題とブルウィップ効果。
00:15:17 在庫切れバイアスの説明と、それに対処する手法。
00:17:22 在庫切れの多発と、在庫切れバイアスに対処する方法の効果についての議論。
00:18:15 顧客の製品に対する認識が需要にどのように影響し、在庫水準が売上に与える影響の説明。
00:20:17 ロスマスキングの説明とその目的。
00:20:26 モデルに在庫水準へのアクセスを与えることで、在庫変動が売上に与える影響を理解するのに役立つ理由の説明。
00:22:14 機械学習モデルを因果推論に使用する際の限界と、交絡変数の影響についての議論。
00:25:54 利用可能な情報の「曖昧さ」を認めることで、ゼロ予測の影響を軽減できる確率的予測の説明。
00:27:04 確率的予測モデルを使用する利点の説明。
00:28:44 ポイント予測に比べた場合の、確率的予測モデルを使用する利点。
00:30:42 フィードバックループと、それが予測にどのように影響するか。
00:34:35 価格が予測にどのように影響するか。
00:36:32 部分的な観測性と、サプライチェーン管理のためのモデル作成におけるその課題の説明。
00:37:04 バンディットフィードバックの概念との比較と、eコマースの推薦システムへのその有名な応用。
00:37:17 サプライチェーン管理における意思決定の影響を予測する際の教師あり学習の限界についての議論。
00:38:01 方策ベースの強化学習アルゴリズムの説明。
00:41:06 強化学習アルゴリズムを実世界のサプライチェーン管理に適用する際の課題と、過去のデータからのオフライン学習で始めるという解決策についての議論。
00:44:55 習慣や過去の実績が企業の価格変動にどのように影響するかについての議論。
00:46:41 強化学習における搾取と探索の説明。
00:50:57 予測においてフィードバックループを認識することがパラダイムシフトとして必要であるということ。
00:52:45 AIをビジネスプロセスに組み込む際の技術的および文化的課題。
00:53:57 サプライチェーン業界におけるモデリングと意思決定の課題に関する議論。
00:54:55 サプライチェーンプロセスにおけるフィードバックループの存在を認める。
00:55:06 予測ベースではなく、意思決定ベースのアプローチへと移行する。
00:57:27 サプライチェーン業界、特に大手eコマース企業におけるトレンド。
01:01:03 IKEAでサプライチェーンの課題に取り組む新規採用者に求められる資質とは何か。

要約

ニコール・ジントが進行役を務めるインタビューで、Lokadの創設者ジョアンネス・ヴェルモレルとIKEAのデータ&アナリティクスリーダーであるアレクサンダー・バックアスが、machine learningとAIのサプライチェーン業界への適用について議論しています。このインタビューでは、自己成就予言とフィードバックループが供給チェーン管理に与える影響と、機械学習モデルを用いた予測における課題が強調されています。また、確率的予測などのゼロ予測問題を回避するためのアプローチや、サプライチェーン予測における不確実性の認識の重要性についても探求されています。パネリストは、不確実性を受け入れ、意思決定モデルへの移行と段階的な変革の実施が、サプライチェーン管理の改善に必要であると強調しています。

詳細な要約

このインタビューでは、ニコール・ジントが進行役を務め、Lokadの創設者ジョアンネス・ヴェルモレルとIKEAのデータ&アナリティクスリーダーであるアレクサンダー・バックアスが、サプライチェーン業界における機械学習とAIの適用について議論します。彼らは、自己成就予言の概念とそれがサプライチェーンに与える潜在的影響、フィードバックループの役割、そして機械学習モデルを用いた予測の課題について論じています。

自己成就予言とは、信念と行動の間のフィードバックによって、直接的または間接的に自らを現実のものとする予測のことです。サプライチェーン管理では、予測が意思決定プロセスに影響を与え、最終的に未来を変える可能性があります。ヴェルモレルは、自己成就予言は本質的に良いわけでも悪いわけでもなく、単に状況をより複雑にするものだと指摘しています。

フィードバックループはサプライチェーン全体に広く見られます。なぜなら、人々が予測に反応し、その反応が次の予測に影響を与えるからです。ヴェルモレルは、これらのループが、在庫レベルに基づいた価格調整や商品配置など、さまざまな形で現れることを強調しています。また、競合他社が企業の予測に応じて戦略を変更することで、さらなるフィードバックループが生じることにも言及しています。

バックアスは、売上データが機械学習モデルによる予測の主要な入力である一方、売上そのものは需要と同じではないと説明します。売上データは供給やその他の要因によって影響を受ける可能性がありますが、需要は推測すべき未観測の量です。彼は、これらを区別し、その相互作用を予測プロセスで考慮する重要性を強調しています。

機械学習モデルは、フィードバックループや自己成就予言を考慮せずに設計されている場合、サプライチェーン予測において問題を引き起こす可能性があります。バックアスは、サプライチェーン内の小さなずれがシステムによって増幅される「ブルウィップ効果」に言及しています。これにより、売上の暴走や不正確な予測といった有害な結果がもたらされる可能性があります。彼は、人間の行動に影響されない天気予報と、複雑なフィードバックループの影響を受けるビジネス結果の予測とを対比させています。

フィードバックループや自己成就予言がもたらす課題を軽減するため、ヴェルモレルは企業がサプライチェーンシステムの複雑性を受け入れ、ポイント予測だけでは不十分であると認識すべきだと提案しています。代わりに、予測が人間の行動や意思決定に与える潜在的な影響を理解し、先んじて対策を講じる必要があると述べています。

要するに、このインタビューはサプライチェーン管理における機械学習とAIの活用の複雑さを探求し、予測精度と意思決定を改善するために、自己成就予言とフィードバックループを理解する重要性を強調しています。

ゼロ予測問題とは、需要の低下を認識してシステムが在庫を減らし、その結果、需要がさらに低下して注文が継続的に減少する現象を指します。この問題を回避するため、ヴェルモレルは、予測モデルで用いる指標を変更してストックアウトバイアスを除去することを提案しています。一つの方法として、在庫切れの日の測定値をゼロにするアプローチがあります。この方法は在庫切れが比較的稀な場合には効果的ですが、在庫切れ率が高い業界では効果が薄れます。

別のアプローチは、機械学習モデルに過去および将来の在庫水準データへのアクセスを提供し、在庫変動が将来の売上や需要に与える影響を学習させる方法です。この手法では、プロモーションや価格、キャパシティ、倉庫の制約、市場の力学など、需要に影響を与えるあらゆる意思決定や要因を予測モデルに組み込む必要があります。

しかし、バックアスは、必要な情報がすべて揃っていない標準的な機械学習モデルを使用すると、在庫水準の変動と需要の変動の因果関係を混同するなどの誤りを引き起こす可能性があると警告しています。これらの問題を回避するため、彼は、利用可能な情報の曖昧さを認め、需要がゼロであるという絶対的な確信に収束しない確率的予測の使用を提案しています。

確率的予測は、多くの値にわたって確率を分散させるため、需要がゼロであるという絶対的な確信に収束するのを防ぎます。この手法は、将来の需要に対して非ゼロの確率を見積もることで、在庫がゼロで固定される状況を回避します。また、顧客にサービスを提供することと、追加の日数分の余剰在庫を保持することとの非対称性を考慮し、より高いサービスレベルを促します。

その利点にもかかわらず、確率的予測は完璧な解決策ではありません。繰り返し在庫切れが発生する場合、将来の需要を過小評価する可能性があります。しかし、それでも在庫管理やゼロ予測問題の回避において、より堅牢な手法を提供します。

結論として、機械学習技術と確率的予測の採用は、サプライチェーンの専門家が需要をより正確に予測し、在庫管理水準を向上させるのに役立ちます。需要に影響を与えるさまざまな要因を考慮し、利用可能なデータの不確実性を踏まえることで、企業はより情報に基づいた意思決定を行い、サプライチェーンのパフォーマンスを改善することができます。

ジョアンネス・ヴェルモレルは、将来の出来事を完璧にモデル化することが非現実的であるため、サプライチェーン予測において不確実性を認める重要性を強調しました。彼は、サプライチェーンに固有の不確実性を反映する確率的予測の概念と、それがポイント予測とどのように異なるかについて議論しました。確率的予測は確率分布を伴うため、未来が過去とは大きく異なる様相を呈するのです。また、フィードバックループを加えることで予測を動的かつ将来の行動に依存させ、予測に新たな次元を付与することにも触れました。

アレクサンダー・バックアスはヴェルモレルの見解に同意し、価格設定などの過去の意思決定へのアクセスをモデルに提供することで予測の問題が緩和される方法について詳述しました。彼は、反実仮想を知らずに意思決定の効果のみを観測するという、部分的観測性の概念を紹介しました。意思決定の影響をより正確に予測するために、バックアスは、機械学習の問題を将来の予測ではなく最適な意思決定を出力するように再構築する、いわゆる強化学習というアプローチを提案しました。

この会話は、フィードバックループ、限られたデータ、そして非ランダムな意思決定が原因で発生するサプライチェーン管理における予測と意思決定の課題を中心に展開されています。彼らは、これらのフィードバックループを受け入れ、予測ではなく意思決定を出力するモデルへの移行が必要であると強調しています。AmazonやAlibabaのような技術志向の企業のトレンドは、完璧な予測の概念を手放し、意思決定に注力することにあります。既存の課題にもかかわらず、パネリストは、業界が段階的にこれらの変革を取り入れ、サプライチェーン管理を改善すべきだと一致しています。

ヴェルモレルは、人間、機械、プロセスから成るサプライチェーンの不確実性と解消不可能な複雑性を受け入れることの重要性を強調しています。彼は、完全に間違うよりも概ね正しいことが大切だと主張します。一方、バックアスは、IKEAのような大企業内の課題に対応するためには、優秀なデータサイエンスの人材が必要であること、そしてグローバルな影響力と現状への挑戦の重要性を強調しました。

完全な書き起こし

Nicole Zint: 本日、オフィスにお越しいただいたアレクサンダー・バックアスを歓迎します。バックアスはこの分野のエキスパートであり、IKEAのデータ&アナリティクスリーダーです。では、例に漏れず、まずはゲストの自己紹介から始めさせてください。アレクサンダー、どうぞ自己紹介をお願いします。 Alexander Backus: ありがとう、Nicole。お招きいただき感謝します。パリであなたと共にここにいられるのは素晴らしいことです。私の名前はAlexander Backusで、IKEA Inka Group Digitalの在庫および物流オペレーション部門でデータ解析を統括しています。私は、在庫物流の計画を最適化することをミッションとするクロスファンクショナルな製品チームで働くデータサイエンティスト、データエンジニア、データアナリストのグループを管理しています。データサイエンスのバックグラウンドを持ち、KLM航空、ハイネケン、Vodafone Ziggo、ING Bankなど、大手企業のコンサルタントとしても活動してきました。認知神経科学のPGDを修了した後、データサイエンティストとしてサプライチェーン分野で働くことは、データサイエンスにとって好条件が揃っている非常に魅力的な分野だと感じました。多くのデータが存在し、現実の意思決定に影響を与えるため、目に見える成果をもたらすだけでなく、サプライチェーンにおける浪費を削減することで、より持続可能な世界の実現にも貢献できます。そうして、私はこちらにたどり着いたのです。 Nicole Zint: これらのトピックに入る前に、まず議論対象となる概念について説明しましょう。まずは、自己成就予言とは何かということから始めます。

Alexander Backus: その考えは、あなたがビジネスプロセスの最適化のために行う予測が、実際には特定の意思決定プロセスに影響を与えるというものです。少なくとも、あなたが望むのは、予測に基づいて何かしらの決定が下されることです。その結果、予測自体が未来を変え、次回の予測に使用されるデータも変化させるのです。これは一定の課題を引き起こす可能性があります。本質的には、自己成就予言とは、予言されたためにその予言が現実となる現象のことです。つまり、あなたがある未来をこうなると考えたために、実際に未来に影響を与えるのです。さらに、予測が真実となる現実を作り出すことにもなり、これが様々な形で起こり得ます。例えば、ビジネスや売上の予測が、その後のビジネスの目標になる場合などです。

Nicole Zint: つまり、マーケティング担当者は、「現状が少し低いので、この目標に到達すべきだ」と判断し、もっと販売するためにプロモーションを実施するなどの意思決定を下すのです。実際、あなたが行った予測が目標となり、その目標が途中での意思決定を導き、結果としてこの例では最終的な売上に影響を与えるのです。そして、それは様々な形で起こり得ます。別の例として、ある予測が原因で、あなたが倉庫内で一定の配送能力やピッキング能力を確保することになり、それがリードタイムに影響を与える場合があります。つまり、顧客があなたのeコマースサイトを見た時、リードタイムが非常に長いまたは非常に短いと感じれば、そのことが顧客の需要に影響するのです。

Alexander Backus: まさにその通りです。需要は供給に影響を与え、供給は需要に影響を与えます。どちらの方向にも働き、これはジョアネスが示唆している効果そのものです。ビジネスの目標となる予測の場合、これがビジネス自体にどのような影響を及ぼすとお考えですか?予測が実際のサプライチェーンのパフォーマンスの分析ではなく、あえて達成すべき目標になる場合、どのような欠点があるのでしょうか?

Joannes Vermorel: 本質的には欠点というよりも、サプライチェーンがそのように機能しているという事実の表れです。フィードバックループはあちこちに存在します。私たちは基本的に人間の活動を扱っているため、多くの工学系の学校や企業で見られる、惑星の運行予測のように、過去の観測に基づいて未来の位置を正確に予想できるという枠組みとは異なるのです。しかし、あなたが予測者であっても、観測対象である惑星に全く影響を与えることはないのです。

Nicole Zint: つまり、自己成就予言は必ずしも良いとも悪いともいえず、ただ存在しているということでしょうか?

Joannes Vermorel: その通りです。影響を及ぼさないわけではありませんが、状況は確かにより複雑で難解になります。そして、興味深いのは、多くの企業が一点予測、つまり「これが未来だ」とする予測に固執してしまう点です。つまり、過去の観測に対して完全に対称的な、過去と同じように明快で整然とした未来を望むのです。

Nicole Zint: そうですね。過去については非常に明確なビジョンが持てますし、未来についても同様に明確なビジョンを持とうとするわけです。ちなみに、惑星の運行の場合、何百万年先を見ない限り、今から一世紀後の惑星の位置を完全に予測できるのです。

Joannes Vermorel: しかし、サプライチェーンの場合は、フィードバックループがいたるところにあります。例えば、大量に購入して製品にコミットすると、期待が生まれ、人々はその製品を売る必要があると感じ、企業が大量の在庫を抱え込まないよう、あらゆる手段を講じるのです。彼らは、その大量の供給を大量の売上に変えようと自らを調整します。また、在庫量に応じて価格を調整する、といったより日常的な対応も行われます。もし店舗が存在すれば…

Nicole Zint: 少し違う観点から言えば、こうしたフィードバックループはあらゆるところに見受けられます。それ自体は悪いものではなく、単に存在しているだけです。そして根本的な理由は、中央に人間が存在し、未来に関するこれらの示唆に基づいて行動するからです。つまり、人間が関与すれば、未来に関するどんな声明にも必ず反応があり、そのためサプライチェーンは非常に複雑になり、反応も様々な形で現れるのです。しかし、すべてのサプライチェーンに共通しているのは、多くの人が関与している点です。例えば、フィードバックループが品不足の告知という形をとる場合、情報を受けた人々がその商品を急いで購入しに行くため、心理的効果により人為的な品不足が発生することもあります。

Joannes Vermorel: その通りです。そして、もし品不足を発表すれば、おそらく実際に品不足を引き起こすというのは新しい発想ではありません。相対的に予測可能な現象ですが、それでもなお、すべてのシグナルを完璧に予測するのは困難です。突然、完璧なモデルを作らなければならなくなるのですから。つまり、サプライチェーンの中心にいる人々の心理を、いかにモデル化するかが問題となるのです。

Nicole Zint: ジョアネス、あなたはフィードバックループについて何度も言及されています。アレクサンダー、実際にこれらのシステムにどのようなデータがフィードバックされるのか、視聴者が理解できるように教えていただけますか?つまり、サプライチェーンのどの段階でデータが戻されるのでしょうか?

Alexander Backus: 良い質問です。あらゆる予測を行う上で非常に重要な情報源は売上データであり、これこそが先ほど話した影響を受ける主要なデータなのです。ジョアネスが説明したように、需要予測もしくは一般的なビジネス予測におけるナイーブなアプローチは、教師あり機械学習モデルを用いて、単純な回帰問題として扱うものです。つまり、「過去のデータに基づいて将来の数量を予測する」というものです。そして、このモデルが未来の売上を予測するために訓練されたとき、先ほど触れたフィードバックループの例を思い起こせば、有害または劣化したケースに陥る可能性があります。例えば、モデルが低い需要または低い売上を予測するとしましょう(混同しないよう注意すべきですが、売上と需要は同一ではありません)。

そして、その結果、低い売上が予測され、低い生産能力計画が立てられ、さらに少ない販売につながり、最終的にはゼロに至る状況に陥ります。つまり、モデルは需要が低下していると学習し始めるのです。そして、逆の方向、すなわち上向きに螺旋上昇することもあり得ます。

Joannes Vermorel: そうですね、もし機械学習モデルが過去から学習して単純に未来を予測するように使われると、全く間違った方向に進んでしまうという有害な副作用が現れるのです。

Nicole Zint: これは、一種のブルウィップ効果のように思えます。サプライチェーンでのミスや通常からの逸脱がシステムによって増幅されるというものです。また、売上が必ずしも需要を反映していない、という点も、たとえば在庫が50個しか売れなくても、実際の需要は100個かもしれないという、問題の根幹に関係しています。

Alexander Backus: その通りです。需要自体は、もちろん、直接観測できない量です。測定できないので、推定する必要があります。売上データはその最も近い代理指標ですが、それだけでは全てを把握できないのです。

Nicole Zint: つまり、予測が需要と売上に影響を与え、フィードバックループを生み出すという話ですね。天気予報とビジネス予測の違い、すなわち天気予報は実際の天気に影響を与えないのに対し、ビジネス予測は実際にビジネスに影響を及ぼすという点についても触れられていました。アレクサンダー、このフィードバックループについて詳しく説明していただけますか?また、先ほど触れたゼロ予測問題はどのように回避するのでしょうか?

Alexander Backus: もちろんです。機械学習モデルが自身の出力データから学習すると、通常の状態からの逸脱が増幅される可能性があります。例えば、何らかの理由で需要が少し下がった場合、モデルはシステムに対してより少ない発注を指示するかもしれません。その結果、発注量が減ることで需要はさらに下がり、モデルはさらに少ない発注を推奨するというループに陥り、ゼロ予測問題へとつながるのです。この問題は特に時系列の予測で顕著です。ジョアネス、機械学習システムでこの問題をどのように回避すべきだと思いますか?

Joannes Vermorel: ゼロ予測とは、品切れバイアスを取り除かない場合に発生する現象であり、そのバイアスは非常に強力になり得ます。在庫がなくなれば売上はゼロと観測されますが、それは需要がゼロであることを意味しません。Lokadでは、品切れバイアスに対処するため、少なくとも3つの技法を実運用しています。一つのアプローチは、予測モデルの最適化対象となる指標を変更するというものです。時間全体にわたって一律に指標を適用するのではなく、品切れが発生した日の測定値をゼロにするのです。これは荒削りな方法ですが、効果を発揮します。

Nicole Zint: 最初に通常用いられている指標とは何で、そこから何を変更するよう提案しているのですか?

Joannes Vermorel: 指標は何千も存在しますが、最もシンプルなものはL1、L2、またはMAPEです。問題は、それらを時間全体に一律に適用するかどうかです。通常は、一律に適用せず、品切れがあった日の測定値をゼロにするのが望ましいのです。

Nicole Zint: つまり、「ゼロにする」とは、品切れがあった日のデータの寄与を除外するということですね?

Joannes Vermorel: はい、その通りです。信号が著しく歪んでいると分かっている日の寄与を取り除くのです。それで問題なく信号をカットアウトできますが、かなり粗い方法でもあります。

Nicole Zint: もし品切れが非常に頻繁に発生する場合、この方法は通用しません。多くのビジネスでは、統計的に見て品切れは比較的稀な現象であり、95%以上のサービスレベルが保たれているため、品切れが例外的な場合、つまりまるで自然の災害のように非常に稀に発生する場合、この手法は有効です。

Joannes Vermorel: いや、たとえば一般的な雑貨店、つまりスーパーマーケットであれば、毎日95%以上のサービスレベルが維持されており問題ありません。しかし、ハードラグジュアリーの店舗の場合、例としてカタログが5,000点の商品中500点しか取り扱われていないとすると、定義上、常に90%以上が品切れ状態になります。この場合では、意味があまりありません。ですから、業界によって状況は大きく異なるのです。例えば、食品業界など、非常に高いサービスレベルが求められる分野では、あなたが必要とする商品が確実に揃っているはずです。例えば、スーパーマーケットでソーダのパックが通常販売されているなら、店に入ればその商品が見つかるという信頼感があるでしょう。時には見つからないこともありますが、そのような事態は稀です。つまり、業界ごとに異なるということです。

Nicole Zint: 了解しました。そして、基本的に売上が需要に対して誤ったシグナルを発する可能性がある、というお話ですね。売上がゼロならば、すぐに需要もゼロと誤解されがちですが、実際には在庫不足のためかもしれず、実際は非常に高い需要が存在している場合もあります。また、逆の場合もあり、例えば代替商品の品切れが発生すると、ある商品の売上が急増する現象が見られますが、これは単に代替商品の在庫不足を反映しているにすぎません。しかし、顧客の認識としては、サービスが低下していると捉えられるかもしれません。

Joannes Vermorel: その通りです。顧客は代替品を受け入れるかもしれませんが、それでもなお、それが劣った選択肢だと感じる可能性があります。ですから、重要なのは、顧客というエージェントとその心理を考慮に入れ、需要のモデル化をその基本的な思考プロセスに合わせて調整することなのです。

Nicole Zint: では、どのようにしてこのゼロ予測問題を回避し、ゼロの売上が必ずしもゼロの需要と見なされないようにするのでしょうか?

Alexander Backus: ジランは、その信号をそもそも考慮せず、その日のデータを単に除外する、と述べています。技術的には、これをロスマスキングと呼びます。

Joannes Vermorel: ええ、基本的にはそのデータポイントの寄与を取り除くのです。さらに単純な手法として、過去の在庫レベルや将来の在庫予測をモデルに与えることで、売上が在庫レベルにどのように影響されているかを理解させる方法があります。

Alexander Backus: その結果、モデルは一定の在庫レベルの変動が将来の売上や需要に与える影響、すなわち意思決定の効果を学習することができるのです。

Joannes Vermorel: ええ、それこそが皆が目指すところです。すなわち、以前の予測に基づいて行われたすべての意思決定を、入力として予測モデルに反映させるということです。

Nicole Zint: 訓練時には、在庫に関する決定だけでなく、マーケティング上の決定、たとえばビジネス運営側が設定した「これだけ売る」という目標も、売上に影響を与えるのです。それ自体が一つの意思決定であり、市場の力が働いているからです。

Alexander Backus: はい、市場の力です。プロモーション、価格データ、さらには生産能力など、すべての要素を予測の入力として組み込みます。生産能力も需要に影響を与えます。例えば、リードタイムが急上昇すれば、人々は代替品を探しに行くのです。本質的には、ビジネス、倉庫、そして需要に影響を与えるあらゆる制約が、モデルへの入力シグナルとして機能します。そして、モデルは過去のデータからこれらのシグナルが需要にどのような影響を与えるかを学習し、それに応じて補正を行うのです。

これはモデリングにおける第二段階のようなもので、多くの点に注意を払う必要があります。興味深い点として、ビジネスユーザーは技術的には「因果推論」と呼ばれる手法であなたのモデルを活用したいと考えています。彼らは「もしこのプロモーションを行ったら、あるいは在庫レベルを下げたらどうなるのか?需要はどう変化するのか?」といった調整を望んでいます。それは一種のシミュレーションのようなものです.

これを実現するためには、モデリングにおいてさらに細心の注意を払う必要があります。私が説明した方法で行うと、実際の原因であるマーケティングキャンペーンにより在庫が減少し、需要が増加する結果、単に「在庫が少ないと需要が高い」という効果をモデルが容易に学習してしまう恐れがあります。これにより概念が混乱してしまいます。これは交絡因子または逆因果関係と呼ばれるものです。必要な情報が十分に与えられていない標準的な機械学習モデルは、この種の誤りを犯すでしょう.

典型的な例として、暑い天気になるかどうかを予測する場合が挙げられます。アイスクリームの販売数でそれを予測することができます。もちろん、これは典型的な逆因果関係の例です。しかし、実際には価格を下げたことや在庫切れが原因である可能性もあります。可能性は他にも多々あります.

しかし注意が必要です。これは、モデルに対して下された意思決定に関する情報をより多く与え、それらの関係性を学習させるための手法の一つです。しかし、データが欠落している中間の多くのステップが存在する場合、モデル自体がこれらの関係性を学習するのは依然として非常に困難です。予測結果を示しても、それを用いてビジネスの担当者が直接意思決定を下すわけではなく、プランナーによって情報が追加・変更されるため、その影響を完全には把握できないのです。結果として、問題は再び複雑になります.

これらの新たな課題にどのように対処するかについて掘り下げる前に…

Nicole Zint: 機械学習は、意思決定を出力しながら学習する、より賢明なモデルです。Alexander、各意思決定がビジネスにどのような影響を及ぼすのか、そしてそれらをどう比較してどのような意思決定をすべきかを見出すのでしょうか?私たちは単に予測を行うのではなく、中間のステップも理解したいと思っています。しかしその前に、Joannes、先ほど少し触れたゼロ予測モデル、これはこの機械学習モデルにおける重要な概念です。Lokadで採用している予測アプローチの違いとは何でしょうか?確率的予測はゼロ予測の問題を解決し、前述の通り、標準からの逸脱を拡大する(つまり大きな誤差へと)ことを防ぐのに役立つのでしょうか?確率的予測はどのようにそれを変えるのでしょうか?

Joannes Vermorel: 確率的予測は、この点およびフィードバックループ全般において非常に興味深いものです。この背景には全く異なる2つの理由があります。1つ目は、不確かさという概念を導入することで、完全に間違うよりは少なくとも概ね正しい状態を目指すという考え方です.

例えば、ゼロ予測の状況では、確率的予測を用いることで、得られる情報の品質が非常に曖昧であることを認識します。何が起こっているのかを完璧に把握しているわけではないため、数値的に需要が本当にゼロであるという絶対的な確信に収束するのは遥かに難しくなります。つまり、確率的予測モデルが特別優れているのではなく、単に予測が分散され、ゼロという状態に固執しないようになっているのです。それは多数の値にわたる全ての確率を考慮し、通常、提供可能な単位を単に供給する場合と追加の1単位を在庫として1日保持する場合との間には強い非対称性が存在するため、多くの状況下で、在庫切れのリスクを冒すよりも1単位余分に保持する方が好まれるという結果になります。トレードオフは、より高いサービスレベルを重視しています.

したがって、確率的予測から得られるのは、確率が分散した状況です。未来に関する数値的な予測が一気に収束して、将来の需要がゼロであると断定されることはありません。もちろん、問題は発生しますので、在庫切れが繰り返される場合、確率的予測が魔法の解決策になるわけではなく、実際の将来需要を過小評価する可能性が高いです。しかし、需要が1、2、3単位と非ゼロである確率が依然として推定されるため、在庫がゼロに固定されるのは避けられるでしょう。これが最初の議論であり、一方向への拡大を防いでいます.

Alexander Backus: はい、特にフィードバックループが存在する場合、状況を完全に制御するのは非常に困難であるという点も考慮すべきです。Joannesが指摘したように、一方向に増幅しない何かを持つ方が良いのです.

Nicole Zint: まるですべてを完全に把握しているかのように振る舞いなさい。再度言いますが、ここで議論しているのは惑星の運動のようなものではありません。30~60パーセントの不正確さが、特に驚くべきことではない現象が存在するのです.

Joannes Vermorel: つまり、未来についての数値的な記述には非常に大きな不正確さが伴うということです。確率的予測は、私たちが抱える膨大な環境的不確実性をそのまま反映した何かを少なくとも提供してくれます。繰り返しになりますが、私たちは反応可能な人間、つまり行動を変える人々をモデル化しようとしているのです。これは非常に非常に困難であり、まず認識すべきは、あなたがすべてをコントロールしているわけではないという現実です。つまり、顧客、供給者、競合相手は賢明であり、各々が自分たちの戦略を実行しているため、起こりうることを完全にモデル化できると主張するのは、少々驕り高ぶった発言になってしまいます。これは、アシモフのSF小説で描かれるような、大規模文明の未来を完璧に統計的にモデル化するという前提に等しいのです。極めて困難であり、ほとんど非現実的です.

Joannes Vermorel: 確率的予測は、全く異なる理由からも非常に興味深いものです。2つ目の理由は、点予測では過去と未来の間に完全な対称性があるのに対し―点予測ではSKUごとに1日1回の測定値、たとえば売上または需要しか得られず、未来に同様の測定値が予測される―予測は過去の観察と非常に対称的になるという点です。しかし、確率的予測の領域に入ると、突然、あなたが目にするのは確率分布、あるいは一連の確率分布となります。結果として、過去と未来との間に非常に強い非対称性が生じ、未来は突然、過去とは全く異なるものとなります。過去には観測値があり、それらは唯一無二で、不確実性は存在しないか、存在するとしても測定そのものの不確実性に過ぎません。例えば、販売記録に事務的な誤りがあるかもしれませんが、桁数の観点ではごく小さなものです。供給チェーンの中では、未来の不確実性が膨大であるのに対して、過去はほぼ不確実性がないと近似できます.

Joannes Vermorel: そして非常に興味深い点として、フィードバックループはさらにもう一つの次元を追加します。これは、予測をより堅牢にするためにその内容を豊かにする手段ですが、確率的予測が確率の導入であるのに対し、フィードバックループは予測自体を高次の関数に変えるものです。つまり、根本的に、あなたの予測はもはや単なる結果や確率分布ではなく、ポリシー、つまりある種のリアクションを注入できるメカニズムとなり、それによって異なる結果が導かれるのです。誰かが行動すれば―その「誰か」はある意味であなた自身であっても―予測に影響が及ぶことが分かるのです.

Nicole Zint: したがって、フィードバックループの領域に入ると、状況はより動的かつ包括的になります。これが予測にどのような影響を及ぼし、どのように捉えにくくなるのか、説明していただけますか?

Joannes Vermorel: フィードバックループの領域に入ると、中心にポリシーのような機能的要素を必要とする動的なものと関わることになります。このポリシーは、在庫や価格、その他予測を表すさまざまな要因に対してどのように反応するかを決定します。そのため、予測はもはや単純な対象ではなく、これらのフィードバックループの影響を受け、一層捉えにくいものとなります。そして、人々が「予測」といえば通常は一点予測を思い浮かべますが、ポリシー予測という領域に入ると、人々の想像の幅を大きく超えてしまいます。確率分布で表現されるとなれば、視覚的に把握するのはさらに困難になります.

例えば、供給チェーンにおける商品の流れを維持するために価格が変動するという事実が挙げられます。もし企業が大規模な品不足に直面しようとしている場合、最も自然な対応は不足を緩和するために徐々に価格を引き上げることです。逆に、大量の在庫過剰に陥りかねない状況では、需要を喚起し在庫を解消するために価格を引き下げるのが自然な反応です。これらの例において、あなたが未来について持つ予測は、まさにあなたの価格政策に依存しているのです。フィードバックループを考慮に入れると、予測はある程度あなたの管理下にあるポリシーを反映した条件付きのものとなります.

Nicole Zint: Alexander、Joannesが先ほど述べた確率的予測アプローチと時系列予測との強みや相違点について、同意されますか?

Alexander Backus: はい、価格設定などの過去の意思決定にモデルがアクセスできるようにすることで、この問題は緩和されます。Joannesはその点で時系列と確率的予測について言及していました。しかし、私たちは未来の意思決定へ影響を与える予測やトレーニングデータの効果だけでなく、部分的観測性と呼ばれる概念も抱えています。つまり、実際に行われた意思決定の効果しか観測できず、もしもっと設備や在庫があった場合に何が起こったかは分かりません。これは反事実的な状況です。すべての意思決定の影響を正確に予測できる十分なモデルの構築が課題となります.

この現象は、eコマースのレコメンデーションシステムではよく知られており、供給チェーンではやや知られていないかもしれません。これをバンディットフィードバックと呼びます。この用語は、カジノのスロットマシンにおけるマルチアームド・バンディットから来ており、スロットマシンから得られる報酬や、どのアームを引くかだけが観測される仕組みを指します.

Nicole Zint: そして、同じ効果はレコメンデーションシステムにも見られます。なぜなら、特定の広告を表示した場合、顧客に別の広告を表示していたらどうなっていたかは分からないからです。これに適した特定のモデリング手法が存在し、私が最初に話した単純な教師あり学習の設定ではその点で不足が出るのです。つまり、これは行動の効果を予測するのに適していません。むしろ、機械学習の問題設定自体を再構築し、モデルは未来の予測を出力するのではなく、最適な意思決定を出力すべきなのです。そして、これはJoannesがほのめかしたポリシーと呼ばれるもので、すなわち何をすべきかを示すモデルを学習するのです。これが、表示すべき広告であったり、供給チェーンの文脈では、AからBへ移動すべき在庫、確保すべき容量の量であったりします。つまり、機械がどの意思決定を下したかを知らなくても、供給チェーンに直接影響を与える実際の要素に基づいて、あなた自身が意思決定を行うのです。理論上、予測自体を完全に省略し、「これをすべきだ」とだけ示すことも可能です.

Alexander Backus: 特定の機械学習アルゴリズムが存在し、その広い範疇は実際には強化学習と呼ばれます。これは、現実世界で行動を起こし、その効果を観測し、報酬、特に金銭的報酬という観点で評価するものです。そして、そのフィードバックを受けてモデルを更新するのです。あなたが言及した財務的報酬の例で言えば、例えば、ある在庫量を注文するという意思決定を行い、その後、供給チェーンのパフォーマンスや口座に入る金額を観測し、その結果がシステムにフィードバックされ、「この意思決定を下したときの出力はこれであった」と理解させるという流れです.

Joannes Vermorel: そうですね、そのような財務的強化や財務目標は、保管コストや機会損失などを考慮すると更に複雑になります。ここで詳しく説明することもできますし、この程度に留めることも可能です。これが、強化学習アルゴリズムで最適化する対象なのです。そうすることで、直接的にポリシー、すなわち出力すべき意思決定を学習することになります。結果的に、我々が最初に議論を始めた際に避けようとしていた自己成就予言を、むしろ受け入れる形になるのです。良いとか悪いとかの問題ではなく、無視できない現実なのです。そして、これが、以前の意思決定の影響から学び、より良い意思決定を創出するモデルを持つための一つの方法なのです.

Alexander Backus: その意味するところについて少し考察する必要があります。なぜなら、それは実験も可能でなければならないということを意味するからです。そしてこのセットアップでは、モデルがAまたはBを実行した場合に何が起こるかを学習しなければならないため、当然ながら非常に困難です.

Nicole Zint: では、なぜこれまで本質的に適用されてこなかったのでしょうか、あるいはどこでも採用されていないのでしょうか?

Alexander Backus: ええ、これが理由の一つです。さらに、典型的な強化学習アルゴリズムはオンライン方式で学習する、すなわち行動を起こしてその報酬フィードバックから学ぶため、多くのリスクが伴う実世界の状況では問題となりますし、また、

Nicole Zint: 最初にこのアルゴリズムで意味のある出力を得るための何か、つまり出発点が必要です。初期はランダムに始まります。もしくは、非常に優れたシミュレーション環境が必要で、これはGoogle DeepMindのAlphaZeroがチェスを学習する際など、他の強化学習の設定でよく見られるものです。彼らはシミュレーション、つまりこの強化学習アルゴリズムが試行錯誤できるコンピュータシミュレーション環境を持っているので、他人のサプライチェーンを犠牲にする必要は本質的にありません。

Alexander Backus: その通りです、試行対象となるだけの実験材料は望ましくありません。しかし、我々の場合これはいわゆる卵が先か鶏が先かの問題です。というのも、非常に正確な現実のモデルが必要になるからです。そしてもしそれが既に存在するなら、問題はすでに解決されたことになります。つまり、最初からサプライチェーンが必要となり、それを犠牲にしたくはないわけです。サプライチェーンのモデルさえあれば、訓練する必要もなく、すでに機会を見出すことができるのです。結局、最初に戻るということになります。

ええ、しかし近年、過去のデータから学ぶという有望な方向性が出てきています。これをオフライン強化学習と呼び、実際に下された過去の意思決定から学習するのです。たとえ、望むほどバラエティに富んでいなくとも、過去に収集された実世界のデータに基づいてアルゴリズムを訓練することは可能です。

Nicole Zint: 出発点という感じでしょうか?

Alexander Backus: ええ、出発点という感じです。そしてそこから、供給を犠牲にせずにオンライン設定に移行するか、バッチでリリースする前にオフラインで訓練するかの選択ができます。選択肢はいくつかありますが、それぞれに固有の課題があります。ジョアネス、アレクサンダーが説明した「オフラインから始め、過去のデータから学習し、マシンがこの卵と鶏の問題を回避して実際のサプライチェーンに適用できるほどに成長し、より実世界のデータを得て先に進む」というプロセスについて、あなたはどう考えますか?

Joannes Vermorel: サプライチェーンにおけるあらゆる種類の機械学習アルゴリズムにとって、データ効率は常に懸念事項です。少なくとも、意思決定を行うために必要な粒度で膨大なデータを持つという贅沢はありません。サプライチェーンの意思決定は通常SKUレベルで行われる必要があり、バッチ処理が行われるため、例えば店舗内のSKUでも1日に数百万単位にはならず、工場のSKUなら大きなバッチで、例えば1万単位ごとに処理されますが、それでも1日に何百万ものバッチができるわけではありません。つまり、関連する観測数は依然として限られています。

これは強化学習における常に課題となる側面の一つです。なぜなら、十分なデータがないからです。シミュレーターは非常に興味深いですが、これも私が講義で簡単に触れた点です。基本的に、確率的予測とシミュレーターの間には二重性があります。確率的予測があれば、常に観測値をサンプリングでき、そこからシミュレーターを構築できます。そして、シミュレーターがあれば、多数のシミュレーションを実行して各確率を算出し、再び確率的予測に戻るのです。つまり、非常に強い二重性が存在します。

そうですね、それは興味深いですが、非常に正確な確率的予測が前提となっており、これは非常に難しいのです。

Nicole Zint: 部分的な可観測性は特に難解な問題です。例えば、価格変動を調査するためのデータセットを考えてみましょう。企業は過去10年間、価格変動をランダムに行うのではなく、非常に強い習慣に基づいて運営していたかもしれません。場合によっては、その習慣があまりにも強固で、実際の原因を区別する際に問題が生じることもあります。

Joannes Vermorel: 仮に、企業が毎年1月末に年初セールを実施するとしましょう。彼らは1月末に多種多様な商品で大幅な割引を行う慣行があり、結果として月末に需要の急増が見られます。しかし、季節性の効果はどうなのでしょうか? 割引がなくても月末に需要の急増が見られるでしょうか? また、割引だけが原因である影響の割合はどの程度なのでしょうか?

Alexander Backus: まさにそれが問題です。意思決定はランダムに行われたわけではないので、観察される現象は通常の慣行を色濃く反映しています。強化学習でこれに対処する一つの方法は、探索と活用の組み合わせを取り入れることです。活用とは、観察された情報に基づいて最善を尽くすことであり、探索とは新たな試みを行うことで、その結果、部分的なランダム性によって一時的に劣ると予期するものです。

Joannes Vermorel: では、なぜ劣るとわかっているものに挑戦するのでしょうか? 答えは、最終的に優れた結果を発見する唯一の方法だからです。つまり、犠牲を払う、すなわち研究開発への投資としての意味があるのです。そして、それは必ずしも平凡な形を取るものではありません。例えば、あなたが店舗でキャンドルを販売しているとしましょう。

Alexander Backus: そして、考えてみてください。同じキャンドルを4倍高い価格で、または4倍低い価格で販売しようとしたらどうなるかを。どちらの選択肢も有効かもしれません。例えば、サプライヤーから大口注文を取って数量を大幅に増やせば、基本製品の価格を劇的に下げることが可能になるかもしれません。あえてキャンドルを例に挙げたのですが、その場合、非常に低い価格が実現でき、観察された需要が10倍になる可能性すらあります。

Joannes Vermorel: それは価値あるトレードオフと言えるでしょう。あるいは、全く別の道を選び、高級感を追求して、風味や香り、その他の魅力的なパッケージを加え、価格を4倍にするといった選択肢もあります。すると、以前の需要の10分の1になったとしても、半分の需要が高価格の製品で成り立つ可能性があります。

Alexander Backus: しかし、歴史を振り返ると、実際に観察された変動は基準値と比べてほんの僅かなものであった可能性が高いです。我々の過去のデータには、より極端なシナリオは含まれていません。

Joannes Vermorel: そうですね。また、例えば、ある製品に対して「5種類の異なる色のバリエーションを導入する」といった場合も考えられます。

Nicole Zint: つまり、どの程度の自社製品間のカニバリゼーションが起こるのか、あるいは新市場に進出できるのかという問題ですね。キャンドルの場合、複数の色を導入する際に、それらがどの程度互いに需要を奪い合い、どの程度全く新しい需要を取り込むのかが問題となります。

Joannes Vermorel: 正直なところ、はっきりとは分かりませんし、この録音が何かの手がかりをくれるかもしれません。しかし、一般的に企業が機械的なランダム性を導入し始めても、実際にはランダム性はほとんどなく、むしろ習慣パターンに依存しているのです。そしてそれはまた、企業の運営方法にも起因します。例えば価格設定の決定では、単に一人の発想ではなく、一定の方法論に基づいて行われます。「この状況では通常の慣行に従って値引きを行うべきだ」と訓練されているため、歴史的データに見られるほとんどの価格変動は、限られたパターン、すなわち確立された方法論に従っているのです。

Alexander Backus: それでも、依然として良い出発点ではないでしょうか。おっしゃる通り、供給チェーンを犠牲にするか、優れたシミュレーションを作成するかの選択が迫られますが、どちらにせよ良質なデータが前提となっています。しかし、オフライン方式で既存の販売履歴やデータを見た場合、通常の範囲から大きく逸脱した現象が観察できないという欠点があっても、それは依然として正しい出発点だと言えるのでしょうか、あなたのご意見は?

Joannes Vermorel: 私は、正しい出発点は少し異なると考えています。正しい出発点とは、フィードバックループが存在することをまず認識することです。もしそのフィードバックループが実在し、対処すべきものであると認めるなら、それは予測手法自体のパラダイムシフトを意味します。これこそが本当の出発点です。あとは技術的な問題であり、モデルは数多く存在します。最も単純な強化学習モデルであるバンディットのようなものは非常にシンプルであったり、極めて複雑であったりしますが、それは技術的な側面にすぎません。私が実際のサプライチェーンで観察したのは、フィードバックループというシンプルな概念を受け入れる上での最大の課題は、それが予測自体に深刻な影響を及ぼすという事実を認識することにあるという点です。予測は決して以前と同じにはならず、単に数量で測れるものではなく、パラダイムという観点からも同じものとして見ることはできなくなるのです。これはもはや同じ対象ではなく、全く性質の異なるものとなり、そのため「予測の精度は向上するのか?」という問い自体が、フィードバックループを取り入れるとどう測定すべきかという全く別の問題を提起するのです。非常に困難な問題です。

Alexander Backus: ええ、それに関連して、私たちは技術的な課題やデータの利用可能性の問題について議論してきました。しかし、ジョアネスが述べたように、企業でこれが適用または採用されていない主な理由は、ビジネスプロセスに大きな影響を与えるからだという点に完全に同意します。つまり、このような理論的な設定においては…

Nicole Zint: では、eコマース業界で最も技術志向のプレイヤーは誰だと思いますか?

Joannes Vermorel: 私が考えるに、非常に攻撃的な技術志向のプレイヤーとしては、dd.com、Amazon.com、Alibaba.comが挙げられます。要するに、業界の先頭に立っているeコマース企業です。彼らは本当にその分野でトップを走っており、非常に効果的です。

Alexander Backus: 全くその通りだと思います。これらの企業は、技術と革新の面で間違いなく業界のリーダーです。

Nicole Zint: 時代とともに世界は大きく変わりました。ジョアネス、今日の世界についてどうお考えですか?

Joannes Vermorel: ええ、以前ほど単純ではありません。世界は依然として進化していますが、ここ数年で多くの驚きがありました。全てが予測可能な歴史の終焉にいるわけではなく、世界は混沌としており、人間、機械、サプライチェーンのプロセスにおける不確実性と複雑性を受け入れなければなりません。完全な制御は不可能ですから、私のアプローチは、全てを正確に捉えるのではなく、大まかに正しい状態を目指すことです。

Nicole Zint: それは非常に興味深い見解です。では、アレクサンダーさんはどうですか? 新しいメンバーをチームに迎える際、どのような才能を求めていますか?

Alexander Backus: IKEAでは、大企業の課題を解決するために優れたデータサイエンスの才能を常に探しています。大量のデータと世界規模での影響力があるため、現状に挑戦する必要があるのです。

Nicole Zint: 本日はお二人の見識をお聞かせいただき、ありがとうございました。大変光栄でした。

Joannes Vermorel: ええ、ありがとうございました。

Alexander Backus: お招きいただき、ありがとうございました。