希薄性: 精度評価が誤る場合

5月 8, 2012

supply chain science

Joannes Vermorel

3年前、私たちは[過剰適合：精度測定が誤る時](/blog/2009/4/22/overfitting-when-accuracy-measure-goes-wrong/)を公開していましたが、過剰適合は、単純な精度測定が非常に誤解を招く唯一の状況というわけではありません。今日、私たちは非常に誤差が発生しやすい状況、すなわち断続的需要に焦点を当てます。これは通常、店舗レベルの売上（またはEcommerce）で見られる現象です.

私たちは、この一つの問題だけでも、ほとんどの小売業者が店舗レベルでの先進的な予測システムに移行するのを阻んできたと考えています。ほとんどの予測問題と同様、それはsubtle、counterintuitiveであり、some companiesは問題に対して不十分な回答を導くために多額の費用を請求しています.

販売予測において最も一般的な誤差指標は、平均絶対誤差 (MAE) と平均絶対パーセンテージ誤差 (MAPE) です。一般的な指針として、MAPEは時系列が滑らかでない場合、つまり小売業者にとって常にそうであるため非常に悪い挙動を示すため、MAEに固執することを推奨します。しかし、MAEにも悪い挙動を示す状況があります。低い売上高はその一例です.

上記の図を振り返ってみましょう。ここでは、ある商品が3日間で販売されています。最初の2日間の販売単位数はゼロで、3日目に1単位販売されます。実際の需要が正確に3日ごとに1単位であると仮定すると、技術的にはこれはλ=1/3のポアソン分布となります.

以下では、2つの予測モデルを比較します:

毎日1/3の一定モデル M（平均）。
毎日ゼロの一定モデル Z.

在庫最適化の観点から見ると、モデルゼロ (Z) は断固として有害です。安全在庫分析が再注文ポイントの算出に使用されると仮定すると、ゼロの予測は再注文ポイントもゼロになる可能性が非常に高く、頻繁な品切れを引き起こします。より_合理的_な予測よりもモデルゼロを支持する精度指標は、かなり悪い挙動を示します.

MAPE (*) と MAE に対して、我々の2つのモデルを見直してみましょう.

M のMAPEは44%です.
Z のMAPEは33%です.
M のMAEは0.44です.
Z のMAEは0.33です.

(*) MAPEの古典的定義では、実測値がゼロの場合にゼロ除算が発生します。ここでは、実測値がゼロの場合は1に置き換えると仮定しています。あるいは、実測値の代わりに予測値で割るか、またはsMAPEを使用することもできますが、これらの変更は結論に影響を与えません.

結論として、MAPEとMAEの両方において、モデルゼロが優位であると言えます.

しかし、これは単純な状況に過ぎず、実店舗の複雑さを反映していないと主張する人もいるかもしれません。それは必ずしも正しくありません。私たちは数十の小売店でベンチマークを実施しており、通常、MAEまたはMAPEで勝者となるのは、常にゼロを返すモデルゼロです。さらに、このモデルは他のすべてのモデルに対して、通常は十分な差で勝利しています.

実際、店舗レベルで予測モデルの品質を評価する際にMAEまたはMAPEのいずれかに依存することは、問題を招く行為です。この指標はゼロを返すモデルを有利に働かせるため、ゼロが多いほど評価が上がります。この結論は、これまで分析したほぼすべての店舗に当てはまります（ただし、この問題を抱えていない高売上商品を除きます）.

精度指標に詳しい読者は、モデルゼロに有利にならない平均二乗誤差 (MSE) を用いることを提案するかもしれません。これは事実ですが、MSEは店舗レベルの売上のような不規則なデータに適用されると数値的に安定しません。実際、売上履歴のいかなる外れ値も最終結果を大きく歪めてしまいます。この種の問題こそが、統計学者が最初からロバスト統計に取り組んできた理由です。ここではただでは済みません.

では、店舗レベルの予測をどのように評価するのでしょうか？

店舗レベルの予測精度を数値化する問題に対して、長い長い時間をかけて、満足のいく解決策を見出しました。2011年以前は、実質的にごまかしていました。売上データが希薄な場合、日々のデータポイントを見る代わりに、通常は週ごとの集計（または極端に希薄なデータの場合は月ごとの集計）に切り替えていました。集計期間を長くすることで、期間あたりの売上高を人工的に増加させ、MAEを再び使用可能にしていたのです.

画期的な進展は、数か月前に分位数を通じてもたらされました。本質的な啓示は、予測を忘れ、再注文ポイントだけが重要であるということでした。_古典的な_予測をX、YまたはZといった指標に対して最適化しようとする中で、私たちは間違った問題を解決しようとしていたのです.

待って！再注文ポイントは予測に基づいて算出されるのに、どうして予測が無関係だと言えるのですか？

私たちは、予測や予測精度が無関係であると言っているのではありません。しかし、私たちが主張しているのは、再注文ポイント自体の精度のみが重要であるということです。再注文ポイントの算出に用いられる予測やその他の変数自体は、単独で評価することはできません。評価されるべきなのは、再注文ポイントの精度だけなのです.

実は、再注文ポイントを評価するための指標が存在することが判明しました。それがピンボール損失関数であり、これは統計学者に何十年も前から知られている関数です。ピンボール損失は、その数学的性質のためではなく、単に在庫のトレードオフ、すなわち過剰在庫と過度な品切れのバランスに適しているため、非常に優れているのです.

ブログに戻る ›

希薄性: 精度評価が誤る場合

では、店舗レベルの予測をどのように評価するのでしょうか？

その他の投稿