予測の種類: 分類 vs. 回帰

4月 6, 2010

technology

Joannes Vermorel

予測という言葉は、プロセス、技術、さらには市場 に至るまで、非常に広い範囲を覆っています。以前、私たちは予測ソフトウェアの世界を紹介し、次のように分類しました。

Lokad は最後のカテゴリに属します。私たちの技術は純粋に統計的 だからです。ただし、Lokad だけで統計的予測の全領域を網羅しているわけではありません。統計的予測には、大きく分けて次の2種類があります (*):

(*) ここでは分かりやすさを優先して単純化しています。統計学習の微妙な論点まで踏み込むには、この短い記事の範囲を超えてしまうからです。

分類とは、対象をその特性に応じて分離し、すなわち 分類する 試みです。以下の Tomasz Malisiewicz による図は、椅子の画像と テーブル の画像を見分ける分類課題を示しています。

図版は tombone のブログより

分類の出力は二値、あるいはより正確には離散的です。対象は、確信度、すなわち高低さまざまな確率付きで クラス に割り当てられます。

一方、回帰は通常曲線を出力します。下の図では、過去売上を表す 時系列 を扱い、それに対応する予測を表示しています。

回帰予測は、二値、あるいは二値の組み合わせではなく、連続的な曲線として表現されます。入力は未来へ向けて延長されます。

この違いはビジネスにどう影響するのでしょうか。

2010年初頭の時点で、Lokad が提供しているのは回帰型予測のみです。そのため、次のような興味深い問題の多くは分類問題であり、当時の Lokad ではまだ扱えません。

顧客セグメンテーション: 顧客ごとに、ダイレクトマーケティング施策によってアップセルに成功する確率を評価したい。また同じ考え方で、解約率の予測も可能です。
不正検知: 各取引について、取引パターンに基づき、その処理が不正行為である確率を評価したい。
案件優先順位付け: 見込み客の特性（予算の有無、業界、社内での役職、示された関心度など）に基づき、収益性の高い案件になる可能性を評価し、営業チームの優先順位付けに役立てたい。

Lokad でも分類型予測を提供できないか、とよく尋ねられます。残念ながら、現時点での答えはノーです。同じ数学的基盤に根ざしてはいるものの、分類と回帰では必要となる技術が大きく異なるため、Lokad は回帰問題に注力しています。

とはいえ、分類問題を軽視しているわけではありません。これらは真剣に取り組む価値があります。2010年についてはロードマップに沿って進めますが、その先では分類は私たちの予測サービスの自然な拡張先になり得ます。

Lokadに質問