昨年のTags+Eventsの大規模なアップグレード以来、小売業におけるセールスキャストのプロモーション予測に積極的に取り組んできました。現在、データベースには数千件のプロモーションイベントがあり、これらのイベントの分析から非常に興味深い発見が得られました。

また、以下のことは驚くべきことではありませんが、次のような結果が得られました:

  • 実務家による手動のプロモーション予測は、平均で60%以上の予測誤差が発生することが通常です。個々のケースによって異なるかもしれませんが、小売業における通常の売上予測誤差は通常20%に近いです。
  • タグとイベントを通じてプロモーションデータを組み込むことで、平均予測誤差を約50%削減することができます。ただし、プロモーションイベントに関するデータの量によって結果は異なる場合があります。

直感に反する結果として、ルールベースの手法や線形手法は、一部の専門家やソフトウェアツールによって広く宣伝されているにもかかわらず、過学習に非常に弱く、予測誤差の評価を歪め、プロモーション予測の性能に誤った印象を与えることがあります。

また、この50%の改善は、通常は非常に限られた情報で達成されています。通常、プロモーションごとに2つまたは3つのバイナリディスクリプタがあります。

プロモーションに関する単純なデータでも、予測の改善につながり、作業資本の節約につながります。

プロモーション予測を改善するための最初のステップは、正確なプロモーションデータを収集することです。私たちの経験では、このステップが最も困難で最も費用のかかるものです。自社のプロモーションの正確な記録がない場合、正確な予測を得ることはほとんど望めません。ゴミを入れればゴミが出ると言いますよね。

ただし、私たちは、現在プロモーションされているかどうかを示すバイナリ変数である単一のプロモーションディスクリプタでさえも、予測の改善につながることに気付きました。したがって、記録は正確である必要がありますが、詳細である必要はありません。

したがって、プロモーションのタイミングを正確に記録することをお勧めします。いつ始まったのか?いつ終わったのか?なお、eコマースでは、トップページの表示は製品のプロモーションと同等の効果があることが多いため、トップページの変化を追跡する必要があります。

次に、記事の説明が重要です。実際、私たちの経験では、最も頻繁にプロモーションされる記事でも、市場での寿命においては数十回のプロモーションを超えることはありません。平均して、特定の記事の過去のプロモーションの数は非常に少なく、平均してゼロから1回です。そのため、一度に1つの製品の過去のプロモーションに焦点を当てても、信頼性のある結果は期待できません。

その代わりに、プロモーションを計画している記事と似ている記事に焦点を当てる必要があります。Lokadでは、販売にタグを関連付けることでこれを実現できます。通常、小売業者はカタログを整理するために階層を使用しています。ファミリー、サブファミリー、記事、バリアントなどの記事階層を考えてみてください。

タグによる階層的なカタログの翻訳は、以下の手順に従って簡単に行うことができます(架空のキャンディ販売業者の例を示します):

_中サイズのレモン味のロリポップ_の販売履歴に関連付けられたタグはLOLLIPOPS、LEMON、MEDIUMです

このプロセスにより、カタログの各記事ごとに2〜6つのタグが作成されます。カタログの複雑さに応じて異なります。

ごくわずかなプロモーションに関する情報でも、即座に売上予測の改善に役立つことを述べました。ただし、詳細なプロモーション情報は明らかに予測の精度を向上させます

予測の精度を向上させるために非常に価値のある2つのアイテムを見つけました:

  • 顧客に提供される割引の性質を説明するメカニズム。典型的なメカニズムは定額割引(例:-20%)ですが、他にも無料配送や数量に応じた割引(例:1つ購入して1つ無料)など、さまざまなメカニズムがあります。
  • プロモーションイベントについての顧客への通知方法を説明するコミュニケーション。通常、コミュニケーションにはラジオ、新聞、地元の広告などのマーケティング活動が含まれますが、カスタムパッケージング(ある場合)や販売ポイント内での宣伝された商品の可視性も含まれます。

大規模な流通ネットワークの場合、記事がすべての場所でプロモーションされていない場合は、プロモーションの全体的な可用性も記述する必要があります。このような状況は、販売ポイントのマネージャーがプロモーション活動から外れることができる場合に通常発生します。

プロフェッショナルとの議論の中で、Lokadによって作成される一連のルールが期待されており、これらのルールはプロモーションを説明することが期待されています。例えば、次のようなルールです:

IF TV_ADS AND PERCENT25_DISCOUNT 
THEN PROMO_SALES = 5 * REGULAR_SALES;

基本的に、これらの期待されるルールは常にほぼ同じパターンに従います:

  • ルールの範囲を定義する一連のバイナリ条件。
  • ルールの効果を推定するための一連の線形係数。

ソフトウェア市場には、データ内のこれらのルールを_発見_するのに役立つ多くのツールが存在することがわかりました。これにより、このアプローチが唯一の利用可能な方法であると多くの人々が信じるようになりました。

しかし、私たちの実験によると、ルールベースの手法は最適とは言えません。さらに、これらのルールは過学習に対して非常に弱いです。この弱点は、_推定された_予測の精度と_実際の_予測の精度の間に著しいギャップがある痛ましい状況に頻繁につながります。

過学習は、統計的予測において非常に微妙でありながら非常に重要な現象です。基本的に、予測における中心的な問題は、持っていないデータに対して非常に正確なモデルを構築したいということです。

特に、統計理論は、過去のデータに適用すると非常に正確なモデルであるが、将来を予測する際には非常に不正確なモデルを構築することが可能であることを示しています。問題は、実際には、過学習の問題を事前に注意深く考えない限り、そのようなモデルを構築することは単なる可能性ではなく、プロセスの最もありそうな結果であるということです。

したがって、持っていないデータに対してモデルを最適化する必要があります。しかし、この問題は完全な逆説のように見えます。なぜなら、定義上、対応するデータがない場合は何も測定できないからです。そして、多くのプロフェッショナルがこの問題を諦めたことを見つけました。なぜなら、それはどう考えても取り組みやすい問題ではないからです。

私たちのアドバイスは:諦めないでください

これらのルールの核心的な問題は、過去のデータに対して非常に優れたパフォーマンスを発揮することです。追加するルールごとに、過去のデータで測定される予測誤差が機械的に減少していきます。十分なルールを追加すると、見かけ上ゼロに近い予測誤差になります。しかし、過去のデータで測定される経験的な誤差は、最初にルールを構築するために使用されるプロセスの副産物です。過去のデータでの予測誤差がゼロであっても、将来のプロモーションでの予測誤差がゼロになるわけではありません。実際には、そのようなモデルは将来のプロモーションで非常にパフォーマンスが低い傾向にあります。

ただし、_持っていないデータに対して最適化する_ことは難しいですが、統計学習理論はこの問題に対する理論的な理解と実践的な解決策を提供しています。中心的なアイデアは、経験的な誤差をバランスさせる構造リスク最小化の概念を導入することです。

これについては、後の投稿で議論されますので、お楽しみに。

**(自己紹介)**これらの現代的なソリューションの多く、つまり過学習の問題に注意を払う数学モデルは、Lokadによって実装されていますので、専門家のチームを雇わなくても利益を得ることができます。


リーダーコメント(1)

デマンドシグナルデータの取り扱いは、どの業界でもリアルタイムデータが引き起こす問題と同じです。高いボリュームのデータにアクセスし、過去の情報と一緒にそれを組み合わせて分析する方法です。 9年前 | ビジネスの機会