予測の種類:分類 vs 回帰
予測という言葉は非常に広範なプロセス、技術、さらには市場をカバーしています。過去に、私たちは予測ソフトウェアの世界を紹介し、以下のように区別しました:
- 決定論的シミュレーションソフトウェア
- 専門家の集約ソフトウェア
- 統計的予測ソフトウェア
Lokadは、私たちの技術が純粋に統計的であるため、最後のカテゴリに属しています。しかし、Lokadは統計的スペクトル全体を網羅しているわけではありません。統計的予測には2つの大きなカテゴリが存在します(*):
- 分類予測
- 回帰予測
(*)ここでは、わかりやすさのために過度に簡略化しています。統計的学習の微妙な点は、この控えめなブログ投稿の範囲を超えています。
分類は、オブジェクトをその特性に基づいて分離(または_分類_)することを試みるものです。以下のイラストは、_椅子_を写した画像と_テーブル_を写した画像を分離しようとする分類タスクを示しています。
tombone’s blogからのイラスト
分類の出力はバイナリ(またはより正確には離散的)です。オブジェクトは、より高いまたは低い確率、つまりより高いまたは低い確率で_クラス_に割り当てられます。
一方、回帰は通常、曲線を出力します。以下のイラストは、過去の販売を表す時系列を考慮し、対応する予測を表示しています。
回帰予測はバイナリ(またはバイナリの組み合わせ)の設定ではなく、曲線です。入力は将来に延長されます。
この区別がビジネスにどのような影響を与えるのでしょうか?
実際、Lokadは_2010年初頭の段階では_回帰予測のみを提供しています。そのため、分類問題はLokadでは対処できない興味深い問題がたくさんあります:
- 顧客セグメンテーション:各顧客について、直接マーケティング活動を通じて成功したアップセルの確率を評価したいと考えています。同じ考えに基づいて、離反も予測できるかもしれません。
- 詐欺検出:各トランザクションについて、トランザクションパターンに基づいて、操作が詐欺の試みである確率を評価したいと考えています。
- 取引の優先順位付け:見込み客の特性(予算の有無、業界、会社内の連絡先のランク、興味の程度など)に基づいて、各見込み客から収益性の高い取引を得る可能性を評価し、営業チームの取り組みを優先させたいと考えています。
頻繁に、Lokadが分類予測も提供できるかどうかと尋ねられます。残念ながら、当面の間は否定的な回答になります。同じ数学的理論に基づいているにもかかわらず、分類と回帰は非常に異なる技術を必要とします。そして、Lokadはすべての努力を回帰問題に向けています。
ただし、分類問題については無関心ではありません。それらは確かに注意と努力を必要とします。2010年には、私たちのロードマップに固執していますが、将来的には分類が予測サービスの自然な拡張になる可能性があります。