00:00:08 マーケティングとサプライチェーンにおけるA/Bテストおよびその応用
00:01:47 マーケティングとサプライチェーンにおけるA/Bテストの例
00:03:41 サプライチェーンにおけるA/Bテストの問題点と問題の転嫁方法
00:06:02 サプライチェーンにおける転嫁問題と相互連関性
00:07:45 相互連結されたシステムとしてのサプライチェーンとA/Bテストの課題
00:09:58 サプライチェーン管理におけるA/Bテストの限界
00:11:45 サプライチェーンへの強化学習の応用
00:13:22 意思決定における探索と活用のバランス調整
00:15:01 より良いサプライチェーン洞察のためのランダム性
00:17:08 代替サプライヤーや市場を探索する企業
00:19:39 ビジネス意思決定における知識の価値の定量化
00:20:52 Lokadが二次効果を考慮してビジネス意思決定を最適化する方法
00:23:42 企業にとっての探索の将来の重要性とその価値の定量化

概要

このインタビューで、キアラン・チャンドラーはLokadの創設者であるヨアネス・ヴェルモレルに、A/Bテストとサプライチェーン最適化におけるその限界について話を聞きます。彼らは、マーケティングでは人気があるものの供給チェーン管理ではあまり用いられていないA/Bテストの歴史と応用について議論します。ヴェルモレルは、サプライチェーンの相互連関性と限られた学習効果のために、A/Bテストはサプライチェーン最適化に不十分であると主張します。その代わりに、機械学習のアプローチを採用し、意思決定にランダム性を導入することを提案しています。代替オプションを継続的に探索し知識を定量化することで、最先端の企業はサプライチェーンプロセスを強化し、時間とともに最適化と改善を推進できるとヴェルモレルは考えています。

詳細な概要

このインタビューで、キアラン・チャンドラーはサプライチェーン最適化に特化したソフトウェア企業Lokadの創設者、ヨアネス・ヴェルモレルと共に、A/Bテストとそのサプライチェーン最適化への応用について議論します。彼らはまず、A/Bテストとは何か、その歴史について説明し、その後、応用例、限界、代替手法について掘り下げます。

A/Bテストは実験計画法の一部であり、2つのバリアントを互いに比較してその効果を測定する手法です。この手法は、おそらく19世紀後半に起源を持ちますが、その直感的な性質のために記録は不明瞭です。A/Bテストは科学的方法の一部であり、実験計画法という広い分野の中で、あらゆる主張や仮説に関する真実の断片を得るための科学的手法です。

A/Bテストは、特にマーケティング分野で人気があり、ニュースレターや広告などのプロモーション資料の効果を評価するために使用されます。マーケティングにおけるA/Bテストの例として、顧客データベースをランダムに2つのグループに分割し、第一のグループにニュースレターのバージョンA、第二のグループにバージョンBを送付して、その結果を測定する方法があります。

2000年代初頭、Googleは検索エンジンの結果ページに表示する最適な検索結果の数を決定するために一連のA/Bテストを実施しました。これらのテストにより、ページの読み込み速度とユーザーの満足度のバランスが図られ、最終的に1ページあたり約10件の表示という結論に至りました。

サプライチェーン管理においてはA/Bテストはそれほど普及していませんが、Lokadはクライアントから明示的または暗黙的にA/Bテストの実施を求められることがよくあります。サプライチェーンの文脈では、A/Bテストは通常、Lokadの在庫最適化システムで管理される一群の店舗と、クライアントの既存システムで管理される同等の店舗群のパフォーマンスを比較する形となります。この比較は例えば3か月間にわたって行われ、ベンチマークやパイロットと呼ばれることもあります。

ヴェルモレルは、A/Bテストは2つの手法を比較するための合理的なアプローチのように見えるかもしれないが、サプライチェーンの相互連関性のためにサプライチェーン最適化には問題があると主張しています。

ヴェルモレルは、サプライチェーンでは問題が解決されるのではなく、しばしば転嫁されると説明します。2つの異なる最適化手法のパフォーマンスを比較する際、これらは同じリソースを巡って競合するため独立していない場合があります。これにより、一方の手法の最適化が他方の犠牲の上で行われる状況が生じます。また、サプライチェーンの相互連関性により、ある部分が影響を受けると他の部分にも波及し、単一の変数の影響を切り離して測定することが難しくなります。

サプライチェーンの文脈におけるA/Bテストのもう一つの問題点は、学習効果が非常に限定的であることです。A/Bテストは一度に1つの仮説のみを検証するため、得られる情報がごくわずかになります。これは、絶対的な確証を求める場合には十分かもしれませんが、サプライチェーンは絶えず変化しており、A/Bテストのペースでは進化するニーズに追いつかない可能性があります。

ヴェルモレルはまた、A/Bテストの有効性に影響を与える季節性の問題にも言及しています。これを考慮すると、テストは12か月間実施する必要があるかもしれませんが、そうするとどのシステムが優れているかについての情報がほんの一つしか得られなくなってしまいます。さらに、システムによっては製品の種類や状況に応じて適切なものが異なり、A/Bテストの有用性がさらに制限されるのです。

ヴェルモレルは、A/Bテストに頼るのではなく、機械学習の視点から問題に取り組むことを提案しています。このアプローチは、データから積極的に情報を抽出することに焦点を当てており、サプライチェーンのような複雑で相互連関したシステムを理解するのにより効果的です。意思決定が観察結果にどのように影響するかを考慮することで、需要についてより深く学び、サプライチェーンの最適化を行うことが可能となります。

ヴェルモレルは、企業は現状のプロセスの最適化と同時に代替案の探索とのバランスを取るべきだと説明します。これは、意思決定にランダム性を導入することを意味し、局所的な最適解に陥ることを防ぐのに役立ちます。つまり、最良の解決策を見つけたと思っていても、現行のアプローチから逸脱すればより良い解決策が存在するかもしれない、という状況を回避するのです。

ランダム性を導入する一つの方法として、異なる製品やサプライヤーを試験的に導入することが挙げられます。例えば、小売ネットワークでは、各店舗の品揃えにランダムな数点の製品を追加したり、代替サプライヤーの信頼性や製品提供内容を評価するためにテストを行ったりすることが可能です。自動車アフターマーケット業界の企業は、初めは最良の条件を提示しないサプライヤーに一部の注文を委託することで、このアプローチを実践しています。

企業がこのようなランダム性をプロセスに取り入れるのは直感に反するように思えるかもしれませんが、ヴェルモレルはこのアプローチが長期的には収益性の向上につながると主張します。市場について継続的に学ぶことで、企業は業績に大きな影響を与える新たな知見を発見できる可能性があります。例えば、販売に影響を与えることなく価格を上下できることが判明すれば、収益の増加や規模の経済が実現するかもしれません。

意思決定にランダム性を取り入れることにより、企業は代替市場、サプライヤー、価格帯、さらにはサプライチェーン組織の構造さえもテストすることが可能になります。この探索への投資は、業務により適した微妙なバリエーションを発見し、成長を促進し全体的なパフォーマンスの向上につながります。

Lokadの創設者ヨアネス・ヴェルモレルは、企業内での知識の探索とその定量化の重要性について論じます。彼は10年以上前に発表した論文を引用し、その中で探索のコストと報酬を定量化するのに役立つ「poker price of knowledge and estimated reward」と呼ばれるアルゴリズムを紹介しています。ヴェルモレルは、企業は恣意的な目標ではなく、ドルなどの実際の利益を最適化すべきだと強調しています。彼は、最先端の企業が今後ますますサプライチェーンプロセスに探索とランダム性を導入し、最適化と改善を促進していくと予測しています。

完全なトランスクリプト

Kieran Chandler: 今日は、この手法がなぜ非常に弱いのか、そしてサプライチェーンをより効果的にテストするために利用できる代替手法について検討しましょう。では、ヨアネス、いつものように、まずA/Bテストが何であるかについて少し詳しく教えていただけますか。

Joannes Vermorel: A/Bテストは、ある仮説が正しいかどうかを検証する手法で、通常は2つのグループを比較しますが、場合によっては2つ以上になることもあります。その発明時期は曖昧ですが、おそらく19世紀後半に発明されたと推測されます。しかし、記録が不明瞭であり、直感的な手法であったため、実際にはもっと早くから考案されていた可能性があり、必ずしも「A/Bテスト」と呼ばれていたわけではありません。興味深いのは、これは実験計画法の一部であり、あらゆる主張に関する真実の断片を科学的に得るための方法であるという点です。どの主張が真実かを証明するものではなく、仮説が正しいか否かについて科学的な回答を提供することができます。

Kieran Chandler: それでは、具体的にはどのような実験について議論しているのですか?

Joannes Vermorel: A/Bテストはマーケティングで非常に人気がありますが、サプライチェーンではそれほど普及していません。マーケティングでは、プロモーション用ニュースレターなどに多用されます。例えば、ある製品を先に、別の製品を後に広告する場合、顧客データベースをランダムに2つのグループに分け、第一のグループにはニュースレターのバージョンA、第二のグループにはバージョンBを送付し、その結果を測定します。これはA/Bテストを行う上で非常に効率的な方法です。

Kieran Chandler: つまり、2つのものを送ってどちらがより良いパフォーマンスを発揮するかを見るということですか?

Joannes Vermorel: その通りです。仮説をテストしているのです。例えばGoogleは、2000年代初頭に検索結果の最適な表示件数を決定するために一連のA/Bテストを実施し、当時は約10件というバランスを見出しました。

Kieran Chandler: では、なぜLokadにとってこれが関心の対象となるのでしょうか?これは我々の顧客が本当に求めているものですか?

Joannes Vermorel: サプライチェーンでは、明示的または暗黙的にA/Bテストの実施を求められることが多いです。サプライチェーンでは、A/Bテストは別の形をとります。例えば、「Lokadの在庫最適化システムで10店舗を管理し、同じく10店舗を従来のシステムで管理して、3か月間運用して結果を比較しよう」という提案がなされることがあります。これをベンチマークと呼ぶかもしれませんが、実際にはA/Bテストなのです。

Kieran Chandler: ある意味でA/Bテストが行われており、合理的に思えます。2つの異なるアプローチを比較する方法が必要なように思えますが、実際の現場ではどう機能するのですか?

Joannes Vermorel: 問題の核心は、一見明らかで合理的に思える点にあります。例えば、在庫管理を行うソフトウェアという一変数のみを変更し、実験が代表的であることを確認するとします。統計的有意性を確保するために複数の店舗と3か月という長期間を取るのは一見合理的です。しかし、ここで「しかし」があります ― 実際はそれほど単純ではありません。私が抱くこれらのベンチマークに対する問題は、率直な合理主義の例と言えます。一見非常に科学的に見えますが、実際にはそれほど科学的でも合理的でもなく、見た目だけのものなのです。

サプライチェーン管理における問題は、問題を解決するのではなく、むしろ転嫁してしまう傾向があることです。例えば、テスト対象の20店舗があったとしましょう。一見非常に合理的に見えます。しかし、問題はそれらの店舗すべてが同じ流通センターの在庫を競い合っている点にあります。もし私がLokadのソフトウェアとして不正を働こうとすれば、大量の在庫を消費して自分の結果を向上させ、他の店舗のパフォーマンスを犠牲にすることが可能です。そして、もし「その10店舗のパフォーマンスを最大化する」というベンチマークがあるなら、数学的最適化は他の店舗を犠牲にして実施されるでしょう。つまり、これらの店舗は同じ流通センターを介して同じ在庫を争っているため、フィードバックループが存在するのです。これはサプライチェーンでは常に起こる現象であり、システムとして設計上、相互連関しています。

サプライチェーンは、効率性、信頼性、コスト、規模の経済の面で大きな効果をもたらします。しかし、その反面、一つのシステムであるため、一部分に手を加えると他の部分に影響を及ぼす傾向があります。

Kieran Chandler: では、より良いアプローチとは何でしょうか?20店舗で6か月間ある手法を試し、その後に別の手法を6か月間試すべきなのでしょうか?

Joannes Vermorel: この種のベンチマークに関するもう一つの問題は、システムについてほとんど学べない点です。A/Bテストは一度に1つの仮説だけを検証するため、得られる情報がごくわずかです。情報量としては、ほんの一ビット、つまり0か1の程度で、バイトにも満たず、しかも完全なビットとも言えません。結果に対する信頼度だけが得られるため、学べるのは極めて微小な情報なのです。A/Bテストの主な批判は、システムについてほとんど何も学べないという点にあります。

Kieran Chandler: テストは、何かについて非常に強い確信を持ちたい場合に有用です。例えば、A/Bテストを実施して自分が正しいという最終確認を得ることができますが、その問題はすでに真実を知っていると仮定している点にあります。だからこそ、科学分野では非常にうまく機能するのです。科学的方法では、人々は非常に間接的な方法で手がかりを集め、莫大な量の手がかりを得た後、より直接的に仮説を確認するためにA/Bテストを行います。しかし、それは非常に高価で時間がかかり、それが最終確認となり、決定的な結論を与えて事案を永遠に締めくくることになるのです。

Joannes Vermorel: サプライチェーンの問題は、物事が常に変化しているところにあります。あなたのネットワークは、絶えず変化する獣のようなものです。サプライチェーン最適化のためにA/Bテストを行おうとすると、季節性の影響で3ヶ月ではなく12ヶ月必要になるかもしれません。しかし、どちらのシステムが最適かについての一片の情報を得るためだけに、誰が12ヶ月も費やせるでしょうか?市場には他にも多くの選択肢があり、試行できる回数にも限りがあります。システムAは低速の動きに適しているかもしれませんし、システムBは高速の動きに適しているかもしれません。一片の情報だけでは非常に弱く、最適な選択肢に関する洞察を与えることはできません。

The problem with A/B testing is that you’re only testing two possible paths, and in a supply chain, there are millions of possible paths. How can we possibly generate information on all those possibilities?

Kieran Chandler: つまり、サプライチェーンでは何百万もの可能な経路が存在します。どうやってそれらすべての可能性についての情報を生み出すことができるのでしょうか?

Joannes Vermorel: それは非常に興味深い質問です。そして、この事例に対するより現代的な視点としては強化学習が挙げられます。学習エンジンがどのように機能するかを考えるとき、データが流れ込むのを受動的に学習する方法や、あなたの行動が観察結果に影響を与える能動的な方法があり、これがサプライチェーン管理の場合に当てはまります。例えば、店舗で製品をセールに出さないと決めた場合、その店舗でその製品の需要を決して観察することはできません。

A/B testing is a way to acquire knowledge, but it’s incredibly sluggish. If you had to learn as a baby to walk through A/B tests, it would take a million years to learn walking. It’s very powerful for scientific certainty, but it cannot be the process that drives a journey to the truth.

In supply chain management, a more modern perspective is reinforcement learning, where you think about a trade-off between exploration and exploitation. You have a guess of what the good thing is, but you’re not completely convinced it’s always the best, so you want to do what is called exploration. You randomize your actions a bit to learn more about the system.

Kieran Chandler: あなたは、指定された指標に従って最適化を試みるプロセス、つまり自分の測定に基づいた最適解に導くアルゴリズムを持っています。しかし、その問題は、その方法に固執してしまう可能性があるという点です。数学的に言えば、それは局所最小値と呼ばれるもので、コスト関数を最小化しようとして、見た目は良い局所最小値の領域に囚われてしまうのです。この点から逸脱すると、一見最適に見えるかもしれませんが、実際にはもっと良いものを得るためには、新たな方向に進む必要があるのです。

Joannes Vermorel: 基本的には、決定の一定割合、つまり実際には正しくないかもしれず、最適化と合致しないかもしれない要素を導入することについて話しているわけです。しかし、これは基本的に、何がうまくいくかをもっと知るために、潜在的な誤差の一定割合を意図的に導入するということです。もちろん、これは実験に関することで、極端なことはしたくありませんが、たとえば大規模な小売ネットワークをお持ちの場合、品揃えを変更するというアイデアがあります。各店舗で、普段の品揃えには含まれないいくつかの製品をほぼランダムに導入する、と決めるのです。当然ながら、都市の中心部に位置する店舗で高価なガーデニングマシンなどの非常に高価な商品でそれを試すことはありません。全くありえないことはしませんが、少しのランダム性を取り入れることで、通常はそのエリアに不向きだと考えていた製品が、予想外に大きな支持を得るかどうかを試すのです。そして、もしかすると実際には適しているかもしれないのです。つまり、何らかのランダム化を導入したいのです。

It can be done in supply chain, for example, just sometimes try other suppliers to test the water in terms of lead times. You have your routine supplier, and you just pass a few orders to competitors just to see how it goes. And I’ve even seen companies, in the automotive aftermarket, for example, have that in place automatically, where a certain fraction of the orders passed to suppliers are not initially passed to the suppliers that offer the best price and the best condition, but they are just passed to test the water and see if the supplier is super reliable, and if the products meet the expectations in terms of ordering process, meaning that when you order a certain part, it’s really this part that you get and not another one.

Kieran Chandler: 全体的に見れば、企業は通常、利益性や効率性に極めて重きを置いて最終的な利益を最大化しようとしますが、実際には実験のために異なるサプライヤーを導入しているのは驚くべきことです。しかし、それを組み入れるのは難しいのでしょうか?

Joannes Vermorel: それは、単純な合理的アプローチなら「直接最適化すればいい」と言うでしょう。しかし、それは合理主義でも最善の方法でもありません。二次的な効果を考慮に入れると、常に市場について学び続ける必要があるという考え方に行き着きます。代替のサプライヤー、別の市場、異なる価格設定を試すべきなのは、知識には価値があり、価格が付けられるものだからです。そして大きな報酬を得られる可能性があるのです。

You might be stuck, for example, you might realize that you’re selling your product at a certain price point, but actually, you could raise your price, and it would still more or less sell the same. It’s just that you’ve never tried; you didn’t think that people were perceiving your product as valuable as they are.

Kieran Chandler: 実際のところ、通常あなたはこれまで行ってきた方法に固執しているのです。あるいは、時には逆に、製品を実際には高すぎる価格で販売しているという場合もあります。もし価格を下げる試みをすれば、需要は大幅に増加し、その結果、規模の経済が働き、より低価格での生産が可能となり、会社の成長が加速する可能性があるのです。つまり、導入できるこのランダム化は、会社により適した微妙な違いを発見するための投資なのです。これは、価格設定、サプライヤー、さらにはどの倉庫がどの工場に供給するかといったサプライチェーン組織の変動など、さまざまなバリエーションになり得ます。この知識の価値を定量化し、実際に企業にとってどれほどの価値があるかを測定する方法はあるのでしょうか?

Joannes Vermorel: 実際、あります。実は10年以上前に「POKER: Price of Knowledge and Estimated Reward」と題した論文を発表したことがあります。本格的にやりたいのであれば、探索のコストと、ある一定の期間で得られる報酬を文字通り定量化することができるのです。なぜなら、もちろんゲームを繰り返し続けなければならないからです。つまり、何度も同じゲームを繰り返す反復ゲームの考え方です。そして探索を行うと、通常は最適とは言えない行動をとるものの、時には絶妙なポイントに当たり、その後、その発見を活用することができます。しかし、そのためには、特に機械学習の分野で、このデータ内のノイズをうまく活用し、僅かな情報ではなく大量の情報を学習できるアルゴリズムが必要なのです。そして、これは単にあなたの割合などを設定するA/Bテストのようなものではなく、むしろ多くの相互に関連する効果を捉え、非常に高次元な状況においてパフォーマンスを向上させる、はるかにあいまいなパターンを把握できるものなのです。

Kieran Chandler: このアプローチは、ここLokadで私たちが行っていることとどのように結びつくのでしょうか?というのも、ここLokadでは、いつでも可能なビジネス上の意思決定を最適化し、あえて意図的に少し誤った行動を取りながらノイズを導入しているからです。

Joannes Vermorel: ええ、そしてそれは根本的にその考えに反するのです。つまり、私個人の信念ではなく、二次的な効果を真摯に考慮に入れるということです。Lokadでは、非合理主義ではなく、むしろ合理的であろうと努め、厄介なその他の効果も考慮に入れています。Lokadの最初の10年間、圧倒的多数のクライアントは何も最適化していませんでした。彼らは誤差の割合を最適化していましたが、私の考えではそれは最適化とは呼べません。誤差の割合を最適化してしまえば、会社のために何をしているのかが分からなくなってしまいます。ドル単位で最適化する必要があるのです。第一歩は、完全に恣意的な目標を繰り返すのではなく、実際に最適化を試みるプロセスへと移行することです。そして、私たちのもっとも先進的なクライアント、特にeコマース分野では、この最適化プロセスが確立された今、探索の概念が現れ始めています。通常、これは価格設定のようなものから始まります。私の見解では、これはサプライチェーンの範疇に非常に関係しており、そこで需要が生まれるからです。良い価格設定が必要であり、価格は需要の大部分を説明するのです。しかし、探索を行うべき領域は価格設定だけではありません。今後数年間で、企業が最先端を維持するためには、自社のサプライチェーンにおいても最先端であるという野心を持つ必要があると考えています。彼らは、最適化プロセスそのものを推進し、時間とともに改善する結果を生み出すために、探索とランダム化の考え方をますます導入していくでしょう。

Kieran Chandler: 結論として、将来的には、このような探索と、探索によって企業にどれだけの知識がもたらされるかを定量化することの重要性に、はるかに大きな重点が置かれる時代が来ると考えられます。

Joannes Vermorel: まさにその通り、完璧です。

Kieran Chandler: では、本日はここまでにしましょう。お時間いただき、ありがとうございました。

Joannes Vermorel: これで本日の内容はすべてです。ご視聴いただき誠にありがとうございました。また次回お会いしましょう。

Kieran Chandler: ご覧いただきありがとうございました。