データ分析に関しては、専門家は頻繁に(そして正当に)分析を開始する前にクリーンなデータセットを持つことの重要性を強調します。そうでない場合、ゴミを入れればゴミが出てきます。

その結果、ほとんどの予測ツールキットはデータクリーニング/データ準備をサポートするための幅広い機能を提供していますが、Lokadはデータクリーニングをサポートする明示的な機能を提供していません.

何か重要なことを見逃してしまったのでしょうか?

そうは思いません。短期販売予測のためのデータクリーニングに関しては、いくつかの誤解があります。実際には、現在ではほとんどの小売業者、卸売業者、製造業者の売上はERPまたは会計システムに格納されています。私たちの経験では、2010年時点で売上に関連するトランザクションデータは非常にクリーンです。たとえば、2010年11月1日に記録されたトランザクションが、製品XがY個売れたことを示している場合、この情報が真実である確率は非常に高く、ほとんどの販売プロセスにおいて99.9%以上の信頼性があります。

実際には、企業は自社が何を販売しているかを知らないわけにはいかないのです。その結果、過去20年間で非常に多くの努力が投資され、売上データがある程度信頼性のあるものになるようになりました。私たちは、システムに誤った売上データが一切入力されないわけではないと言っているのではありません。単にその割合は通常無視できるほど小さいと言っているのです。

売上データがクリーンなのであれば、なぜデータクリーニングに努力を注いでいるのでしょうか?

私たちは業界で行われている多くのデータクリーニングの実践を観察してきましたが、実際には「クリーニング」と呼ばれる操作は、0.1%の誤ったトランザクションを見つけるだけではありません。上記の図は、典型的なデータクリーニングフェーズに関与する「実際の」操作についての洞察を提供しています。具体的には、在庫不足時の一部の販売は手動で増加させ、プロモーション/例外的な販売は制限されます。

言うまでもなく、私たちはこのアプローチを信じていません。本物の売上データは、架空の売上データで置き換えるべきではありません。実際には、どれだけの商品が不足がなかった場合に売れたかを100%の確信を持って語ることはできません。一部の販売データは、すでに統計的な推測に依存していない唯一の具体的なデータです。

しかし、「極端な値を平滑化する」実践の興味深い副作用があります。それは、移動平均と同様に振る舞う「素朴な」予測手法の精度を向上させることです。

もし手に持っている唯一のツールがハンマーであるなら、すべてを釘として扱いたくなるものだ。, アブラハム・マズロー, 1966

手元にある唯一の予測モデルに販売データを調整しようとするのは、道具の法則の悪い例です。私たちのアプローチは、それらを回避しようとする代わりに、複雑なパターンに直接取り組むことです。