Statistical forecasting は非常に直感に反する分野です。一見直感的と思われる仮定の多くが、実際には全く間違っていることがわかります。この投稿では、Lokadの事業の基盤をなす統計的奇妙な事象の中でも、最も問題のあるものを短くまとめました。

1. 先進的な予測システムは誤差から学習しない

予測システムは通常、日次または週次でその予測を更新します。新たな予測バッチが作られるたびに、システムは古い予測と新たに取得したデータを比較し、そこから学習する機会を得ます。そのため、どの予測システムも、人間の専門家が行うように自らの誤差から学習することが理にかなっているように見えます。しかし、実際はそうではありません。先進的な予測システムは誤差から学習しようとはしません。実際、より優れた方法、すなわちバックテストという手法が存在し、これはより優れた統計的性能を提供します。バックテストでは、予測が生成されるたびに、最新のデータの増分だけでなく利用可能な全履歴に対してシステム自体が再検証されます。

2. 最も重要な統計的要因はノイズとランダム性である

実務者に需要に影響を与える主要因について尋ねると、多くの場合、回答は季節性、製品ライフサイクル、市場圧力、事業成長などです。しかし、多くの場合、目に見えない存在、すなわち需要の観測に含まれる統計的ノイズが実は主要な要因となっています。

多くの場合、予測の課題は、十分な努力があれば需要予測が正確に行えるかのように扱われます。しかし、この見解は誤りであり、実際には予測は本質的に不正確です。需要に含まれるランダム性を受け入れることは、このランダム性を排除しようとするよりも通常はより良いビジネス結果をもたらします。

3. 専門家による補正は一般的に予測の満足度を下げる

業界特有の洞察を用いて統計予測を手動で調整するのは合理的に思えますが、我々は多くの場合、この手法が望ましい結果を生まないことを観察してきました。この分野の専門家が手動補正を行った場合でも、根底にある予測システムが本質的に劣っていない限り、全体の精度が低下する傾向があります。補正が予測結果を改善できるのは、この場合に限られます。

これはしばしば、人間の認知が「パターン」の認識に極端に偏っているという事実に起因します。頻繁に、ランダムなビジネスの変動を誤ってトレンドとして認識するため、単なるノイズとして無視するよりもはるかに重大な誤差を生み出してしまいます。

4. 予測誤差はドルで測定すべきである

より正確な予測が必ずしもより良いビジネス結果につながるわけではありません。実際、予測を見るための古典的な方法は、MAPE(平均絶対パーセンテージ誤差)のような指標を最適化するものであり、これは主要なビジネス利益とは弱い相関しか持ちません。このような指標は、予測が完全に正確であればMAPE誤差はゼロになるという、やや幻想的な考え方に基づいているため誤解を招きます。しかし、完全に正確な予測は現実的なシナリオではなく、パフォーマンス指標を使用する目的は、特定のビジネス利益と整合させることにあります。言い換えれば、予測誤差はパーセンテージではなくドルで表されるべきです。日次、週次、月次の予測は一貫性がありません。

もし日次予測と週次予測が両方とも作成される場合、日次予測を週次予測に合算すれば、使用された技術と設定が同じであるため、両者は同じ数値に収束すると考えるのは十分に合理的です。

しかし、残念ながら、これは当てはまらず、両者の予測は分岐します。そして、その背後には確固たる統計的理由があります。つまり、日次(または週次)の予測は、日次(または週次)で表現される指標に対して最適化されているため、統計的にはこれら二つの指標が異なる以上、最適化の結果が一致する理由はありません。

5. SKUレベルの予測はカテゴリレベルの予測と一致しない

同じ予測システムがSKUレベルとカテゴリレベルの両方で需要を予測する場合、両者の予測が一貫していることが期待されます。つまり、特定のカテゴリに属するSKUの予測を合算すれば、カテゴリ自体の予測と同じ数値になると想定しても不自然ではありません。これは前段落で述べた理由と同様です。

さらに驚くべきことに、SKUレベルとカテゴリレベルの予測の間で全く異なるパターンが存在するという非常に奇妙な状況が実際に見受けられます。例えば、すべてのSKU予測が厳密に減少傾向にある一方で、カテゴリレベルの予測は着実に上昇している場合があります。もう一つの典型例は季節性で、カテゴリレベルでは非常に顕著に見られるのに対し、SKUレベルではほとんど顕在化しません。このような状況では、SKUレベルの予測をカテゴリ予測に合わせて補正しようとする誘惑に駆られるかもしれませんが、そのような手法は全体の予測精度を低下させるだけです。

6. 計量単位の変更は重要である

一見すると、需要測定に用いる単位は結果に影響を与えないように思われます。もし需要が在庫単位で計測され、履歴上のすべての数値が10倍されても、追加の影響なく予測も10倍されると期待されるでしょう。しかし、Lokadが開発したような技術では、需要予測のプロセスは少なくとも完全にはその通りに進みません。

実際、先進的な需要予測技術は、小さな数値を用いる様々な工夫を活用しています。数値の1は単なる数値ではありません。例えば、スーパーマーケットやハイパーマーケットのレシートでは、平均して75%以上のラインで数量が1であることが観察されています。これにより、多くの統計的手法が「小さい数値」に依存することになるのです。需要履歴の任意の数値を10倍にすると、先進的な商業予測システムに組み込まれているすべてのヒューリスティックが混乱してしまいます。

7. Best promotion forecasts are frequently generated when promotions are ignored

プロモーションの予測は非常に難しく、実に困難です。小売業では、プロモーションに対する需要の反応が、全く効果が現れない場合から100倍の効果が現れる場合まであり、プロモーションに影響を与える要因は複雑で多岐にわたり、通常はITシステムで正確に追跡されていません。複雑なビジネスの行動と不正確なデータが組み合わさると、「Garbage In, Garbage Out(ゴミが入ればゴミが出る)」の問題に直面することになります。

実際、プロモーションデータを破棄することが、非常に謙虚な初期アプローチとしても、プロモーション需要を予測する上で最も非効率的でない方法であることを、我々は一貫して観察しています。我々は、この手法が非常に満足できるものであるとか最適であると主張しているわけではなく、正確だが不完全な履歴データに基づくネイティブ予測が、より広範だが部分的に不正確なデータに基づく複雑なモデルにしばしば勝ることを示そうとしているにすぎません。

8. 履歴が不規則であればあるほど、予測は「平坦」になる

視覚的には、履歴データに強いパターンがあれば、予測にも同様の強いパターンが現れると期待されます。しかし、履歴データに不規則な変動が見られる場合、その期待は裏切られ、逆に、需要履歴がより不規則であればあるほど、予測はより滑らかになります。

ここでも根本的な原因は、人間の心がパターンを認識するようにできているためです。不規則な変動は統計的な意味でのパターンではなくノイズであり、適切に設計された予測システムはそのノイズをフィルターするように動作します。一度ノイズが除去されると、残るものは単に「平坦な」予測となるのです。

9. 日次、週次、月次の予測は通常、不要である

周期的な予測は、ビジネスニュースから天気予報に至るまであらゆるところで見受けられます。しかし、それらは「実際の」ビジネス課題に対する十分な統計的解答を提供しているとは言えません。これら周期的予測の問題点は、将来の不確実な状況に直接対応するのではなく、その後の意思決定を間接的に構築するために利用される点にあります。

より効果的な戦略は、ビジネスの意思決定自体を予測と捉えることです。そうすることで、例えば前述のように、予測誤差をパーセンテージではなくドルで測定するなど、特定のビジネスニーズや優先順位に予測を合わせることが容易になります。

10. 在庫予測に関する文献の大半はほとんど役に立たない

難しいテーマに直面したとき、科学文献における多様な査読済み資料を調査することから始めるのは合理的です。需要予測や在庫最適化に関しては、何千もの論文や記事が読者に利用可能です。

しかし、我々はそのような文献で分析された手法のほぼ全てが全く機能しないことを発見しました。数学的な正しさがビジネスの知恵に転換されるわけではありません。_不朽の名作_とされる多くのモデルは、単に機能不全なのです。例えば,

  • Safety stocks は正規分布の仮定に基づいているため誤りであり、
  • EOQ(経済的発注量)は、注文ごとの固定料金という全く非現実的な前提に基づいているため不正確であり、
  • Holt-Wintersは、数値的に非常に不安定であり、解析可能なだけの十分な履歴が必要な予測モデルです、
  • ARIMAは、数学的手法に基づく代表例でありながら、結果が乏しすぎるために複雑すぎます、
  • 等々。

需要予測における奇妙な事象は(おそらく)数え切れないほど存在します。どうぞご自身の観察結果を下のコメント欄に投稿してください。