カラム型ランダムフォレスト

1月 11, 2019

technology

Joannes Vermorel

多くの供給チェーンの課題は、分類問題または回帰問題として捉えることができます。たとえば、需要予測は回帰として見なすことができ、一方、価格を競合他社の価格帯に合わせることが適切かどうかの判断は分類として見ることができます。

ランダムフォレストは、データからパターンを学習するために使用される機械学習技法であり、通常は分類または回帰のいずれかを実行する目的で用いられます。

ランダムフォレストはもはや最先端の機械学習手法ではなく、ほとんどの場合、ディープラーニングの方が優れているものの、ランダムフォレストには依然として際立った実用的な利点があり、これらは Ahmed El Deeb によるランダムフォレストの驚くべき効果で見事にまとめられています。

実際、Ahmed El Deeb が 「悪いランダムフォレストを作るのは本当に難しい！」 と指摘する際、私も同意しており、これは大きな実用上の利点を示しています。対照的に、ディープラーニングモデルは、少なくとも言うならば 神経質 であり、多くの曖昧なパラメータがパフォーマンスを向上させたり低下させたりする可能性があり、その効果はデータサイエンティストにとって必ずしも明確ではありません。

そのため、ランダムフォレストは現在 Envision に組み込まれています。おまけに、ランダムフォレストの予測は乱数変数として返され、これにより供給チェーン最適化の確率的アプローチと素晴らしい組み合わせになります。

内部では、私たちは独自の高最適化ランダムフォレスト実装を展開しました。xgBoost から多くの洞察を得ています。主な洞察は、以前の tabular アプローチとは異なり、columnar のデータ処理戦略を活用しているという点です。Envision の文脈では、データ自体が既にカラム形式で整理されているため、このアプローチはさらなるパフォーマンス向上をもたらします。また、供給チェーンの文脈では、入力特徴が疎であるか、または低カーディナリティであることが多く（例：動きの遅いアイテム）、カラム型のアプローチによりデータを大幅に圧縮でき、これによりランダムフォレストのさらなる高速化が実現されます。

より高速なランダムフォレストは一見小さな機能のように思えるかもしれませんが、パフォーマンス自体が機能 なのです。最も希少な資源は通常、サプライチェーン-サイエンティスト自身です。数値結果の出力を待つ時間が短縮されれば、実際の供給チェーンの課題について考え、解決策を見出すための時間が増えるということです。

ブログに戻る ›

カラム型ランダムフォレスト

その他の投稿