予測の種類: 分類 vs. 回帰
予測 という言葉は、プロセス、技術、さらには市場 に至るまで、非常に広い範囲を覆っています。以前、私たちは 予測ソフトウェアの世界 を紹介し、次のように分類しました。
- 決定論的シミュレーションソフトウェア
- 専門家集約型ソフトウェア
- 統計的予測ソフトウェア
Lokad は最後のカテゴリに属します。私たちの技術は純粋に統計的 だからです。ただし、Lokad だけで統計的予測の全領域を網羅しているわけではありません。統計的予測には、大きく分けて次の2種類があります (*):
- 分類型予測
- 回帰型予測
(*) ここでは分かりやすさを優先して単純化しています。統計学習の微妙な論点まで踏み込むには、この短い記事の範囲を超えてしまうからです。
分類とは、対象をその特性に応じて分離し、すなわち 分類する 試みです。以下の Tomasz Malisiewicz による図は、椅子 の画像と テーブル の画像を見分ける分類課題を示しています。
図版は tombone のブログより
分類の出力は二値、あるいはより正確には離散的です。対象は、確信度、すなわち高低さまざまな確率付きで クラス に割り当てられます。
一方、回帰は通常 曲線 を出力します。下の図では、過去売上を表す 時系列 を扱い、それに対応する予測を表示しています。
回帰予測は、二値、あるいは二値の組み合わせではなく、連続的な曲線として表現されます。入力は未来へ向けて延長されます。
この違いはビジネスにどう影響するのでしょうか。
2010年初頭の時点で、Lokad が提供しているのは回帰型予測のみです。そのため、次のような興味深い問題の多くは分類問題であり、当時の Lokad ではまだ扱えません。
- 顧客セグメンテーション: 顧客ごとに、ダイレクトマーケティング施策によってアップセルに成功する確率を評価したい。また同じ考え方で、解約率の予測も可能です。
- 不正検知: 各取引について、取引パターンに基づき、その処理が不正行為である確率を評価したい。
- 案件優先順位付け: 見込み客の特性(予算の有無、業界、社内での役職、示された関心度など)に基づき、収益性の高い案件になる可能性を評価し、営業チームの優先順位付けに役立てたい。
Lokad でも分類型予測を提供できないか、とよく尋ねられます。残念ながら、現時点での答えはノーです。同じ数学的基盤に根ざしてはいるものの、分類と回帰では必要となる技術が大きく異なるため、Lokad は回帰問題に注力しています。
とはいえ、分類問題を軽視しているわけではありません。これらは真剣に取り組む価値があります。2010年については ロードマップ に沿って進めますが、その先では分類は私たちの予測サービスの自然な拡張先になり得ます。