00:00:06 最適化プロジェクトにおけるデータの重要性と、データに関する神話の払拭。
00:01:50 偶発的なデータ収集と、異なるシステムからのデータ利用における課題。
00:03:39 時系列データの限界と、取引単位の粒度の重要性。
00:06:18 予測のために、より良く、より関連性の高いデータの必要性。
00:07:26 実例:小売チェーンにおける在庫最適化と取引データの重要性。
00:10:01 過去のデータ収集における取引レイヤーとデータ保管の役割。
00:11:38 ERPシステムの移行と、改善された予測プロセスの必要性。
00:13:37 データクレンジングの欠点と、全スペクトルデータの重要性。
00:15:20 サプライチェーン運営でのコンピュータシステムの利用とデータの正確性。
00:17:31 予測において在庫レベルと返品を考慮する重要性。
00:19:24 ドメイン固有の視点に基づく予測手法の適用。
00:21:46 より良いデータの重要性を理解し、関連データの視野を広げる。
00:24:48 データ生成の仕組みを正確に把握し、より良い予測を実現する。

サマリー

キアラン・チャンドラーがロカドの創設者ジョアンネス・ヴェルモレルに、供給チェーン最適化におけるデータ収集の重要性についてインタビューします。ヴェルモレルは、企業が最適化を意図してではなく偶発的にデータを収集していることが多いが、そのデータも予測および最適化プロセスに有用であると示唆します。彼は、データを時系列データに単純化すると貴重な情報が失われる恐れがあるため、細かい粒度のデータが極めて重要であると強調します。ヴェルモレルは、企業が元の取引データを活用し、自社の供給チェーンの課題にドメイン固有の視点で取り組むべきだと提案します。また、対話では、価格設定、返品、バックオーダー、および在庫移動といった要素を予測プロセスに組み込む重要性にも触れられています。

拡張サマリー

このインタビューでは、ホストのキアラン・チャンドラーがロカドの創設者ジョアンネス・ヴェルモレルと共に、データ収集の重要性とその供給チェーン最適化における役割について議論します。彼らは、データが完璧でなければ機械が扱えないという神話に挑戦し、企業がデータ収集プロセスをどのように改善できるかを探ります。

ヴェルモレルは、ほとんどの企業が最適化目的ではなく、取引システムの副産物として偶発的にデータを収集していると指摘します。ERPsやPOS端末などのシステムは、日常業務を円滑にするために設計されており、包括的な取引履歴の収集を目的としていません。しかし、こうした偶発的なデータ収集も予測や最適化プロセスの基盤となり得ます。

チャンドラーは、企業内部に未活用の膨大なデータが存在している可能性について疑問を呈します。ヴェルモレルは、企業システムで生成されるデータは、業務プロセスの現実よりもITシステム内部の動作を反映しているため、非常に複雑で解釈が難しいと説明します。企業が予測プロセスを導入しようとすると、日次や週次の売上といった簡略化されたデータに落とし込むことが多いですが、その簡略化はビジネスおよび業務運営に関する重要な情報を失う原因となります。

データの粒度は非常に重要です。なぜなら、集約されたデータでは効果的な予測や最適化に必要な十分な洞察が得られない可能性があるからです。ヴェルモレルは、企業が元のデータを簡略化することで、供給チェーン最適化にとって価値のある膨大な情報を失ってしまうと主張します。

このインタビューでは、供給チェーン最適化におけるデータ収集の重要性と、企業が偶発的に収集するデータを活用する上で直面する課題が論じられています。対話は、完璧なデータが効果的な予測や最適化の前提条件ではないことを強調するとともに、企業がデータを収集、処理、分析する方法に大きな改善の余地があることを示唆します。

彼らは、より良い供給チェーンを最適化するために、細かい粒度のデータの活用が抱える課題とその重要性について議論します。

ヴェルモレルは、多くの企業がデータを時系列に集約し、1日につき1つの数値に単純化していると説明します。この手法は扱いやすいものの、十分な情報に基づく意思決定には必ずしも適していない可能性があります。彼は、より良い予測と供給チェーン最適化は、取引レベルのデータを活用することで、実際のビジネス運営に関する文脈と洞察が得られるために達成できると主張します。

このインタビューでは、集約データを用いる際の落とし穴が指摘されています。集約データは誤解を招き、企業が重要なシナリオを見落とす原因となる可能性があります。例えば、小売チェーンの事例では、データの集約により流通センターでの需要が誤って解釈されるとヴェルモレルは説明します。データを時系列に処理することで曖昧さは排除されますが、それが有利に働く場合もあれば、不利に働く場合もあり、結果として企業がビジネス運営に関して誤った前提を持つ危険性があります。

また、対話では歴史的データの扱いと、企業が異なるERPシステム間の移行時に貴重な情報を失ってしまう現状にも触れています。過去、ERPシステムは企業の業務を円滑に運営するために活用され、データの保存は優先事項ではありませんでした。さらに、かつてはデータ保管が高価であったため、さまざまな方法でデータ削除のヒューリスティックが導入されていました。しかし、現在ではデータ保管費用が比較的低いため、データの保存がより実現可能となっています。

ヴェルモレルは、ロカドが企業と協力する際、既存の予測プロセスが供給チェーン最適化の適切な出発点とはならないことが多いと強調します。これは、取引データを時系列に単純化するという粗雑な投影によって、関連情報の多くが失われてしまっているためです。代わりに、企業は元の取引データを用いて供給チェーンプロセスの最適化に注力すべきだと彼は提案します。

最後に、インタビューではデータクレンジングの話題にも触れられます。ヴェルモレルは、元の取引データは彼らの目的に対してすでに十分クリーンであり、「データクレンジング」という概念は、多くの場合、データを時系列に過度に単純化することを意味し、企業の実態を正確に把握する上で必ずしも有用ではないと主張します。

ヴェルモレルは、企業がもし自社のデータを限定的な視点、たとえば緑の濃淡だけで見るなら、世界の理解が狭くなってしまうと説明し始めます。より正確な全体像を得るためには、データはその全色相で捉えられるべきだと強調します。また、データ自体は本質的に誤っているのではなく、企業のプロセスを反映しているに過ぎないと指摘します。企業は自社のデータをありのままに認識し、より良い予測を行うために活用する必要があります。

ヴェルモレルはさらに、企業は自社システムがデータ生成のためではなく供給チェーン運営のために設計されたものであったことを認識すべきだと述べます。請求書、支払い、その他の書類が存在するという事実は、企業のデータが概ね正確である証です。しかし、予測においては、企業が価格設定、返品、および在庫レベルといった重要な要素を見落としがちです。

価格設定は需要と供給チェーンに大きな影響を及ぼします。企業が予測プロセスを見直すと、通常、価格が欠如していることに気づきます。これは氷山の一角に過ぎず、返品や在庫レベルなどの要素もまた欠落している場合が多いのです。ヴェルモレルは、在庫がなければ売上も発生しないため、在庫レベルの把握が不可欠であると説明します。同様に、バックオーダーは通常の需要とは異なる独自の需要を示すものです。

ヴェルモレルは、企業が供給チェーンの課題にドメイン固有の視点で取り組むべきだと助言します。各業界に最も関連性のある要素を検討し、それに注力すべきです。例えば、航空宇宙業界では投資の最適化により地上待機(AOG)事象を最小限に抑えることが目標となる一方、生鮮食品小売では、製品の在庫確保と新鮮さの維持により、長期的な顧客のロイヤルティを最大化することが求められます。

彼らは、過去のデータを完璧に集約することに固執するのではなく、価格、返品、バックオーダー、在庫移動といった日常的な要素を考慮することで、関連データの視野を拡げるべきだとヴェルモレルは示唆します。彼は、「ゴミが入ればゴミが出る」という状況を避けるために、データがどのように生成されるかを理解する重要性を強調します。また、より良い予測は割合ベースの指標に頼るのではなく、ドル単位で評価され、より良い意思決定に結びつけられるべきだと主張します。

完全な書き起こし

キアラン・チャンドラー: 今日は、企業がすでにデータを収集している場合、どのように改善できるか、またデータが完璧でなければ機械が扱えないという神話にどう対処すべきかを議論します。では、ジョアンネス、企業がすでにデータを収集しているなら、さらにどれだけ改善できるのでしょうか?

ジョアンネス・ヴェルモレル: はい、まず理解していただきたいのは、ほとんどの企業がデータを収集しているとはいえ、その収集は全く偶発的な方法で行われているという点です。データを収集すること自体が目的ではなく、あくまで業務を遂行するための手段でした。例えば、ERPはデータ収集のために設計されたものではなく、企業内で常時行われる日常業務を集中管理されたITシステムのサポートの下で実施するために設計されています。まるで店舗のレジが支払いを迅速に処理するために存在するのと同じです。これらのシステムは、すべてのレシートの完全な取引履歴を収集するためにエンジニアリングされたわけではありません。結果として、長い年月をかけて多くのデータが蓄積されるものの、そのデータは最適化のために本来設計されたものではないのです。つまり、膨大なデータが存在しているにもかかわらず、改善の余地は極めて大きいのです。

キアラン・チャンドラー: 企業が創業当初、データ収集を意図していなかったとすれば、保管されたまま誰も手を付けられていない膨大なデータが存在するということでしょうか?

ジョアンネス・ヴェルモレル: 問題は、通常、データは意図的に収集されるものではなく、取引システムの副産物として現れるに過ぎないということです。決して乱雑というわけではなく、典型的な企業システムで生成されるデータは、非常に異質なものとして映ります。それは現実世界を模しているのではなく、むしろITシステム内部の配管作業に近いものです。その結果、大企業が新たにERPなどのプロセスを開始し、何らかの予測機能を導入しようとすると、非常に奇妙で異質なデータが手に入り、予測の課題とは無関係な偶発的な複雑性が多数発生してしまいます。通常、企業はこのデータの非常に簡略化されたバージョン、すなわち日次または週次の売上データを抽出し、それを基に予測を組み立てます。しかし、その際、抽出されたデータは多くの重要な情報を失ってしまうのです。これは非常にロスの大きい変換で、一見シンプルかつ合理的に見えても、実際にはビジネスで何が起こっているのかという膨大な情報を失ってしまいます。

キアラン・チャンドラー: しかし、そのデータはどの程度の粒度が必要なのでしょうか? 20年以上にわたりデータを収集してきた企業では、データを集約することで管理が格段に容易になるのではないでしょうか? 集約とは、データを再フォーマットして時系列データの形に整えることです。そして、確かに時系列データは非常に扱いやすく、1日につき1つの数値という形で表現できます。それを未来に拡大していく、というのは非常にシンプルな手法です。この種のデータを扱える優れたモデルは数多く存在し、移動平均など基本的なものから、さらに洗練されたものまであります。しかし、容易であるからといって、実際に企業にとって有効であるとは限らないのです。つまり、この方法が非常に簡単にできるからといって、企業にとって本当に関連性があるわけではないのです。

ジョアンネス・ヴェルモレル: それこそが危険なのです。多くの人々は「もっと細分化されたデータが必要だから、月次から週次、または週次から日次にすればいい」と考えますが、それは単に集約の時間枠を変えているに過ぎません。「もっと改良すれば、時間単位まで細分化できる」と言うかもしれませんが、問題はそこではありません。時系列データという枠組みで物事を考えると、既にシステム内に実際存在するデータとは全く異なる次元で問題を捉えてしまっているのです。企業システム内には時系列という概念はなく、重要なのは取引単位の粒度でデータを保持することです。より良い予測を実現するためには、企業のITシステムに近い形でデータを扱う必要があるのです。

キアラン・チャンドラー: つまり、関連情報が失われ、結果として見ているデータが多少誤解を招く可能性があるということですね。どのようなシナリオを見逃してしまう可能性があるのでしょうか?

Joannes Vermorel: 通常、それは非常に日常的な事柄であり、人々はすっかり忘れてしまうものです。例えば、食料品のような小売チェーンを見てみましょう。複数の流通センターがあり、それぞれがたとえば20のスーパーマーケットなどにサービスを提供していると想像してください。どのような状態かというと、流通センターの在庫を最適化する立場に立った場合、毎日店舗が流通センターに注文を出すのです。そして、例えばスーパーマーケット向けに100単位の注文を出すと、流通センターで起こりうるのは、注文を履行して通常翌日に100単位を出荷するか、もしくは履行せず何も送らないかのどちらかです。つまり、店舗が100単位を注文して流通センターが何も送らず、翌日に同じ店舗がさらに150単位を注文するという状況になります。

さて、ここでの疑問は、もしこの二日間の流通センターでの需要を認識しようとするならば、その需要は何単位になるのでしょうか?100単位と150単位の合計でしょうか?しかし、それは正しくないように思えます。なぜなら、二日目に店舗が150単位の注文を出すのは、前日の100単位の注文が履行されなかったために、その未履行分と翌日の需要を合わせてカバーする必要があったからです。ですから、注文数が増えるものの、需要が250単位だと考えるのは誤りです。実際の総需要は、最初の100単位を完全に捨て去って150単位だけであるべきかもしれません。しかし、現実は複雑な場合が多いのです。

Kieran Chandler: タイムシリーズの生成を始めると、こうした情報は失われ、多くのあいまいさが存在していることに気づきます。あらゆるあいまいさが除去されると、一見すると良いことのように思えます。突然、私のdata scientistsがあいまいさのないデータで作業できるようになるのです。しかし、そうすると同時に、ビジネス運営に関するある前提が既に決定されており、その前提が極めて誤っている可能性もあるのです。

Joannes Vermorel: 企業が古いデータを集約する理由の一つは、古いERPシステムから新しいシステムへ移行する可能性があるからです。では、膨大な歴史的情報を新たなERPシステムに再インポートすることは本当に有用なのでしょうか?初期、つまり今日で言う「ヤッピー」、ルーチン業務を管理するトランザクションレイヤーのシステムが登場した当初、その目的は歴史データの収集ではありませんでした。すべてが始まったのは、例えば70年代後半か80年代で、当時はデータを保存することではなく、企業がより円滑に運営できるようにすることが目的だったのです。

当時、computing hardwareは現在と比べ非常に高価であり、特にデータストレージもまた高価でした。そのため、多くのsoftware vendorsは当時、正しい判断をし、各種ヒューリスティックツールを実装して様々な方法でデータを削減していました。現代の話ではありませんが、ほとんどのヒューリスティックやシステムは、データストレージがすでに極めて安価になった今では意味をなさなくなっています。

Kieran Chandler: それでは、これらの企業はどこかで何らかのデータクレンジングを実施すべきなのでしょうか?それとも、生データをそのままにしておくべきだとお考えですか?

Joannes Vermorel: データ自体はすでにクリーンです。問題は「データクレンジング」とは何を意味するのかという点です。もし私が、問題は世界の正確な全体像を掴むためであり、何らかの理由で世界の見方を「緑の濃淡だけ」で捉えると決めたとします。すると、緑の濃淡のみを反映する画像ができ、緑以外はすべて黒くなってしまいます。全く見えなくなるのです。そして、ある程度緑である物体については、濃淡としての緑だけが表現され、これがあなたの世界の見方となるのです。

明らかに、あなたは「データクレンジングをすべきだ、この画像は正確ではない、何とか改善する必要がある」と言うでしょう。しかし、実際には全色域の情報が必要なのです。問題は緑の濃淡ではなく、そもそもクレンジングという行為自体が存在しない点にあります。あなたの描く画像は、あるがままのものに過ぎません。より正確な世界像を得たいのであれば、全色域の情報が必要となるのです。

Kieran Chandler: したがって、より良い予測を行うためには、まず現状の企業をそのまま見ることから始めるべきです。データが不正確なのではなく、単に現在の状態を示しているに過ぎません。言い換えれば、データ生成自体がシステムの第一目的ではなかったのです。あなたのシステムは、サプライチェーンが機能し、製造、流通、販売が可能となるために設置されたものです。従って、全ての層はそれらのプロセスの反映にすぎず、それで十分なのです。実際に機能しており、請求書や支払いなどが存在することは、このデータが大部分正確であることの証明です。そうでなければ、何を請求すべきか、仕入先にいくら支払うべきかも分からなかったはずです。

ですから、今日では、少なくとも何十年もコンピューターシステムを利用しているほとんどの企業においては、ヨーロッパ、北米、そして現在のアジアの多くの地域において、システムが既に整備され堅固な基盤が築かれています。しかし、予測を単純に考えると、単に売上だけの問題ではないのです。返品についてであったり、または、例えば非常に基本的なこととして、どのように予測精度を向上させるかという問題にも関わってきます。

Joannes Vermorel: 通常、時系列データを見ると、「価格すら分からない」という状況に気づきます。企業と共に予測の改善に取り組む際、予測を生成しているdata pipelineを確認すると、どうしても価格情報が欠落していることが明らかになります。もちろん、価格はサプライチェーンに非常に大きな影響を与えます。もし全商品の価格を突然50%引き下げたら、需要は爆発的に増加し、利益率も消失するかもしれません。それでも、価格は通常、需要やサプライチェーンに大きな影響を及ぼすのです。多くの場合、S&OPや予測プロセスを見ると、価格情報は欠如しており、これは単なる氷山の一角に過ぎません。

Kieran Chandler: 以前にも触れましたが、人々は需要にばかり注目しており、価格はもちろん重要な要素の一つですが、もしかすると、他にどのような点が関心を引くのか、再度確認する価値があるかもしれません。

Joannes Vermorel: 通常、返品情報は欠如し、在庫水準も把握されていません。なぜ在庫水準が必要かと言えば、stock outが発生すれば、販売すべき商品が存在しないため、何も売れないからです。バックオーダーが発生する可能性はありますが、それは非常に特定のパターンです。では、バックオーダーを通常の販売と同じものと数えられるのでしょうか?約束が必要になるのです。バックオーダーとは基本的に、商品が存在しない場合に、後日出荷するためにベンダーに依頼する注文であり、顧客は大幅な遅延を受け入れる覚悟があるということです。つまり、これは需要ですが、通常の需要とは性質が異なるのです。したがって、バックオーダーの1単位を通常販売と全く同じと見なすのは、実際にはそうではありません。

特に一例を挙げるならば、何らかの理由で、B2Bなどにおいて、あなたが抱える需要の大部分が、より良い価格が得られるならバックオーダーや長い納期を受け入れる顧客で構成されている場合、予測の観点からは非常に好都合な状況となります。というのも、予測する必要が全くなくなるからです。

Kieran Chandler: 需要とバックオーダーについて詳しくお話しいただけますか?

Joannes Vermorel: バックオーダー、つまり後日出荷される注文についてですが、顧客としては大幅な遅延を受け入れる覚悟があります。再び、これは需要ですが、通常の需要とは性質が全く異なります。したがって、バックオーダーの1単位を通常の販売と同じと見なすのは適切ではありません。特に例を挙げると、例えばB2Bにおいて、多くの需要が、より良い価格が得られるならバックオーダーや長い納期を受け入れる顧客から成り立っている場合、予測の観点では非常に有利です。なぜなら、バックオーダーとして既に把握できるため、期待される納期に合わせてサプライチェーンを調整し、商品を準備すれば良いのです。つまり、この需要は既に前もって注文されているため、予測する必要は必ずしもないのです。

Kieran Chandler: 現在お持ちのデータを最大限に活用するためには、企業にどのようなアドバイスをされますか?

Joannes Vermorel: まず第一に、問題を非常にドメイン固有の視点から捉える必要があります。つまり、「私はサプライチェーンを持っている。何が本当に重要なのか?」と自問する必要があるのです。そして、その答えは「状況次第」です。運営しているサプライチェーンの種類によって大きく異なります。例えば、航空宇宙産業であれば、「サプライチェーンに投資する1ドルごとに、部品不足で航空機が地上に取り残される(AOG)インシデントをどのように回避できるか?」という問題に集約されるでしょう。つまり、航空宇宙分野では「投資1ドルあたりに最大限、AOGの発生を防ぐにはどうすればよいか?」という視点が求められます。一方、生鮮食品の場合は全く異なり、「食品はリピートビジネスが核心であるため、顧客の長期的な忠誠心をいかに最大化するか?」という問題になります。したがって、単一製品のservice levelだけにこだわるのは意味がありません。なぜなら、代替品が数多く存在するからです。重要なのは、店舗に来店する忠実な顧客が、単一の商品ではなく、バスケット全体を購入する際に非常に優れた体験を得られるようにすることです。もし何かが欠けていれば、常に代替品があり、全体の在庫状況や商品の鮮度においても顧客が満足できる状態を維持できるのです。結局のところ、投資1ドルあたりでどのように最適化できるかという問いに帰着します。この判断は完全にドメイン専門知識に依存し、高度なデータサイエンススキルを要求するものではなく、むしろドメインに関する直接的な理解が、何があっても重要であるか、または全く致命的な判断ミスを避けるために不可欠なのかを見極めさせるのです。

Kieran Chandler: 今日の核心メッセージは何ですか?

Joannes Vermorel: つまり、本エピソードの目的は「どのようにより良いテールを持った予測を実現するか」ということであり、求めるべきものは通常、皆さんが予想するようなデータとは違うのです。

Kieran Chandler: もちろん、予測業務のためにもっと良いデータを持つことは可能ですが、「より良い」とは具体的に何を意味するのでしょうか?現場での経験では、「より良い」とは一般の人々が想定するものとは全く異なる、非常に具体的な事柄を指します。まず、より良いデータとは、注目すべき全ての事柄の全体像を把握することですが、それはInstagramやソーシャルネットワーク、天気予報のようなものではなく、システム内に既に存在している、はるかに日常的な情報なのです。多くの人、あるいはあなた以前の人々が、そもそも注目する価値がないと判断していたものなのです。

Joannes Vermorel: つまり、我々のメッセージは、これらのデータこそが注目に値するということです。ここで言うデータとは、価格、返品、バックオーダー、在庫動向などあらゆるものを含みます。これらは重要であり、幸いなことに、既にどこかのシステムに存在しています。従って、まずは関連データと何をみなすか、その視野を広げるべきです。次に、いわゆるデータ準備の概念を捨て去る必要があります。なぜなら、データがどのように生成されるのかを理解しなければ、いわゆるゴミ入力、ゴミ出力の状況に陥ってしまうからです。データの理解は、ソフトウェアの内部動作の理解と、それに基づいて動作する人々のプロセスの理解、二つの側面を持つため、非常に困難なのです。

通常、データが持つ意味は二つの部分に分かれます。一つは、そのソフトウェアを操作する人間の頭の中にある理解であり、もう一つは、初めにエンタープライズソフトウェアを設計したソフトウェアエンジニアの頭の中にある理解です。ここで言う「人」とは、残念ながら多くの場合、複数の人物を指し、最悪の場合、彼らの解釈が食い違うこともあります。そうなると、非常に混沌とした状況が生じるのです。ですので、関連データの視野を広げること。特別なことではなく、ビジネスにおける基本的な日常事項、売上だけでなく全体を見なければならないのです。そして、その上でデータの理解が必要となるのです。

最後に、より良い予測を実現したいのであれば、「より良い予測」とは何を意味するのかに帰着します。そこで、多くの人が「平均絶対パーセンテージ誤差(MAPE)が改善されたとか、平均絶対誤差が良くなった」といった各種メトリクスで評価しようとします。しかし、もしそれがパーセンテージで表現されているなら、それは本質的に良くないのです。ドル単位で評価されるべきであり、先のエピソードで意思決定優先について議論したように、最終的には、予測がより良いと見なされるのは、それがより良い意思決定につながる場合に限るのです。

残念ながら、予測がより良いかどうかを判断する方法は、最終的に下す意思決定の観点から評価するしかありません。これは難しいですが、これが正しい方法です。単に「MAPEが改善されたから予測は良くなった」と言うのは全くの誤りであり、その結果、いわゆる国家主義的なミス、またはその種の判断ミスに陥ってしまう可能性があるのです。

Kieran Chandler: そうですね、仕方がないですが、これに対して感謝するITマネージャーも何人かいるでしょう。なぜなら、彼らは今後アーカイブの整理に奔走することになるからです。以上で今週は終わりです。ご視聴ありがとうございました。また次回のエピソードでお会いしましょう。では、さようなら。