カラム型ランダムフォレスト

1月 11, 2019

technology

Joannes Vermorel

多くのサプライチェーンの課題は、分類問題または回帰問題として捉えることができます。たとえば、需要予測は回帰として見なすことができ、一方、価格を競合他社の価格帯に合わせることが適切かどうかの判断は分類として見ることができます。

ランダムフォレストは、データからパターンを学習するために使用される機械学習技法であり、通常は分類または回帰のいずれかを実行する目的で用いられます。

ランダムフォレストはもはや最先端の機械学習手法ではなく、ほとんどの場合、ディープラーニングの方が優れているものの、ランダムフォレストには依然として際立った実用的な利点があり、これらは Ahmed El Deeb によるランダムフォレストの驚くべき効果で見事にまとめられています。

実際、Ahmed El Deeb が 「悪いランダムフォレストを作るのは本当に難しい！」 と指摘する際、私も同意しており、これは大きな実用上の利点を示しています。対照的に、ディープラーニングモデルは、少なくとも言うならば 神経質 であり、多くの曖昧なパラメータがパフォーマンスを向上させたり低下させたりする可能性があり、その効果はデータサイエンティストにとって必ずしも明確ではありません。

そのため、ランダムフォレストは現在 Envision に組み込まれています。おまけに、ランダムフォレストの予測は乱数変数として返されるため、サプライチェーン最適化における確率的アプローチと非常に相性が良いのです。

内部では、私たちは独自の高最適化ランダムフォレスト実装を展開しました。xgBoost から多くの洞察を得ています。主な洞察は、従来の tabular アプローチとは異なり、columnar なデータ処理戦略を活用しているという点です。Envision の文脈では、データ自体が既にカラム形式で整理されているため、このアプローチはさらなるパフォーマンス向上をもたらします。また、サプライチェーンの文脈では、入力特徴が疎であるか、または低カーディナリティであることが多く（例: 動きの遅いアイテム）、カラム型のアプローチによりデータを大幅に圧縮でき、これによりランダムフォレストのさらなる高速化が実現されます。

より高速なランダムフォレストは一見小さな機能のように思えるかもしれませんが、パフォーマンス自体が機能 なのです。最も希少な資源は通常、サプライチェーンサイエンティスト自身です。数値結果の出力を待つ時間が短縮されれば、実際のサプライチェーンの課題について考え、解決策を見出すための時間が増えるということです。

カラム型ランダムフォレスト

その他の投稿

Lokadに質問