スパース性: 正確性の測定が間違っている場合
3年前、私たちは過学習: 正確性の測定が間違っている場合を公開していましたが、過学習は単純な正確性の測定が非常に誤解を招く状況の唯一の例ではありません。今日は、非常にエラープロンな状況に焦点を当てます。これは通常、店舗レベル(またはEコマース)の販売を見るときに遭遇する間欠的な需要です。
私たちは、この単一の問題だけで、ほとんどの小売業者が店舗レベルでの先進的な予測システムへの移行を阻止していると考えています。ほとんどの予測問題と同様に、それは微妙であり、直感に反するものであり、一部の企業はこの質問に対して貧弱な回答を提供するために多額の料金を請求しています。
販売予測で最も人気のあるエラーメトリックスは平均絶対誤差(MAE)と平均絶対パーセント誤差(MAPE)です。一般的なガイドラインとして、MAEを使用することをお勧めします。MAPEは、時系列がスムーズでない場合、つまり小売業者にとっては常にそうであるため、非常に悪い結果を示します。ただし、MAEもうまく機能しない状況があります。低い販売数量はそのような状況に該当します。
上記のイラストを見てみましょう。3日間で販売されるアイテムがあります。最初の2日間の販売数量はゼロです。3日目には1つの単位が販売されます。実際には需要は3日ごとに正確に1つの単位であると仮定しましょう。技術的には、λ=1/3のポアソン分布です。
以下では、2つの予測モデルを比較します:
- 平均モデル_M_(1/3毎日)(mean)。
- 平均モデル_Z_(毎日ゼロ)。
在庫最適化に関しては、モデルゼロ(Z)はまったく有害です。安全在庫分析を使用して再発注点を計算することが想定されている場合、ゼロの予測は非常に頻繁な在庫切れを引き起こす可能性があります。モデルゼロを他のより「合理的な」予測よりも好む精度メトリックスは、かなり悪い結果を示すでしょう。
MAPE (*)とMAEに基づいて、2つのモデルを見直しましょう。
- _M_のMAPEは44%です。
- _Z_のMAPEは33%です。
- _M_のMAEは0.44です。
- _Z_のMAEは0.33です。
(*) MAPEの古典的な定義では、実際の値がゼロの場合、ゼロで除算が発生します。ここでは、実際の値がゼロの場合には1で置き換えられると仮定しています。また、予測値で除算するか、sMAPEを使用することもできます。これらの変更は何の違いもありません。議論の結論は同じままです。
結論として、ここでは、MAPEとMAEの両方によれば、モデルゼロが優勢です。
ただし、これは単純化された状況であり、実際の店舗の複雑さを反映していないと主張する人もいるかもしれません。これは完全には正しくありません。私たちは数十の小売店でベンチマークを行いましたが、通常、MAEまたはMAPEによると、勝利するモデルは常にゼロのモデルである「モデルゼロ」です。さらに、このモデルは通常、他のすべてのモデルに比べて快適な差で勝利します。
実際には、店舗レベルで予測モデルの品質を評価するためにMAEまたはMAPEに頼ることはトラブルのもとです。この指標はゼロを返すモデルを好む傾向があります。ゼロが多いほど良いです。この結論は、これまでに分析したほとんどの店舗について成り立ちます(この問題を抱えないいくつかの高ボリューム商品を除く)。
精度指標に精通している読者は、モデルゼロを好まないMean Square Error(MSE)を選択することを提案するかもしれません。これは事実ですが、乱れたデータに適用されるMSE(販売は店舗レベルで乱れています)は数値的に安定していません。実際には、販売履歴の外れ値が最終結果を大きく歪めます。この種の問題こそが、統計学者が初めに頑強な統計に取り組んだ理由です。タダ飯はありません。
では、店舗レベルの予測を評価する方法は?
店舗レベルで予測の正確さを定量化する問題について、私たちは非常に長い時間をかけて満足のいく解決策を見つけるのに時間がかかりました。2011年以前、私たちは基本的に不正行為をしていました。販売データが十分に少ない場合、私たちは通常、週次集計(または非常に少ないデータの場合は月次集計)に切り替えていました。より長い集計期間に切り替えることで、販売数量を人工的に増やし、MAEを再利用できるようにしました。
この突破口は、数か月前にクォンタイルを通じて訪れました。本質的には、この啓示は次のようなものでした:予測を忘れて、リオーダーポイントだけが重要です。私たちは、X、Y、またはZのメトリックに対して私たちの古典的な予測を最適化しようとしていましたが、それは間違った問題を解決しようとしていたのです。
待ってください! リオーダーポイントは予測に基づいて計算されるので、予測が無関係だと言えるのでしょうか?
予測と予測の正確さが無関係であると言っているわけではありません。ただし、リオーダーポイント自体の正確さだけが重要であると述べています。予測、またはリオーダーポイントを計算するために使用される他の変数は、単独で評価することはできません。リオーダーポイントの正確さのみを評価する必要があります。
リオーダーポイントを評価するための指標が存在することがわかりました。それがピンボール損失関数です。これは統計学者によって数十年前から知られている関数ですが、数学的な特性ではなく、単純に在庫のトレードオフに適合しているため、非常に優れています:在庫が多すぎるか、ストックアウトが多すぎるか。