データの資格付けは重要です
Wikipediaでは、データ分析プロセスには7つのステップがあります。データ要件、データ収集、データ処理、データクリーニング、探索的データ分析、データモデリング、そして最後に生産結果の生成です。Lokadが在庫を予測したり、価格を最適化したり、いかなる種類の商業最適化に取り組む場合でも、私たちのプロセスは上記で説明したものと非常に似ています。しかし、Lokadのチームが通常適用する作業の半分以上を占めるもう1つの重要なステップがありますが、上記のリストには含まれていません。このステップはデータの資格付けです。
「ビッグデータ」という言葉が流行語になった今、無数の企業がデータを活用しようとしています。データの資格付けは、おそらくプロジェクトの失敗の第2の主要な原因です。それは、「問題」から始まるのではなく、「解決策」から始まる場合にいつでも起こります。この神秘的な「データの資格付け」のステップについて明らかにしましょう。
ビジネスアプリの副産物としてのデータ
ほとんどのビジネスソフトウェアは、企業の運営を支援するために設計されています。POSシステムは顧客が支払いを行うためにあります。倉庫管理システムは商品をピックアップして保管するためにあります。Web会議ソフトウェアはオンラインで会議を行うためのものです。このようなソフトウェアはデータを生成することもありますが、データはこのソフトウェアの主な目的の副産物に過ぎません。
上記のシステムは、ビジネスを「運営」するために設計されており、その結果、実践者がより良い運営とより良いデータの選択をしなければならない場合、常に運営が優先されます。たとえば、地元のスーパーマーケットのPOSでバーコードがスキャンされる際にバーコードが失敗した場合、レジ係は必ず同じ価格の商品を選び、2回スキャンします。時には、バーコードのチートシートが紙にまとめられていることさえあります。レジ係は正しいです。最優先事項は、クライアントがどのような状況でも支払いを行えることです。正確な在庫レコードの生成は、クライアントの列にサービスを提供するという緊急のニーズと比較して、即座の目標ではありません。
バーコードスキャンの問題は実際にはデータクリーニングの問題であると主張することもできます。しかし、状況は非常に微妙です。ほとんどの分析にとって、すべての疑わしいレコードを単純にフィルタリングアウトすることは、むしろ害をもたらすことが多いです。
それにもかかわらず、私たちは頻繁に企業(およびソフトウェアベンダー)が、ほとんどすべてのビジネスデータに対してこの基本的なパターンを熱心に無視していることを観察しています。データ処理からデータクリーニングに直接移行しています。
データの資格付けはデータの意味に関連しています
データの資格付けの目的は、データの意味を明確にし、徹底的に文書化することです。Lokadに(大量の)企業が表形式のデータファイルを送信するとき、ファイルに含まれる各列には通常、Excelシートも送信されます。Excelシートでは、各列に短いドキュメント行が割り当てられます。たとえば、「価格:製品の価格」といった具体的な説明があります。しかし、このような簡潔なドキュメント行には多くの疑問が残ります。
- 製品に適用される通貨は何ですか?
- 税込み価格ですか、税抜き価格ですか?
- 実際の価格に影響を与える割引などの他の変数はありますか?
- すべてのチャネルで同じ価格ですか?
- まだ販売されていない商品にも価格が適用されますか?
- 欠損値を反映するためのゼロなどの特殊なケースはありますか?
日付も、orders
テーブルにdate
列が含まれている場合には、意味の曖昧さのある候補です。日付と時刻は次のようなものを指す可能性があります。
- バスケットの検証
- 支払いの入力
- 支払いのクリアランス
- 会計パッケージでの注文の作成
- 出荷
- 配達
- 注文の終了
ただし、このような短いリストでは、実際の現実の状況で遭遇する奇妙さをほとんどカバーできません。最近、例えば、最大のヨーロッパのオンラインビジネスの1つで働いている間に、発注に関連する日付が、サプライヤー工場の発祥国によって異なる意味を持つことに気付きました。ヨーロッパのサプライヤーはトラックを使用して出荷し、日付は倉庫への到着を反映していました。一方、アジアのサプライヤーは船を使用して出荷し、日付は港への到着を反映していました。この小さな「ひねり」は、リードタイムの計算において10日以上の差を生じることが一般的でした。
ビジネスに関連するデータセットでは、データの意味はほとんど常に基礎となる企業のプロセスや慣行に依存しています。そのようなプロセスに関連するドキュメントは、存在する場合でも、通常は管理者や監査人に興味がある内容に焦点を当てており、会社のIT環境内に存在するさまざまな細かい要素にはほとんど触れていません。しかし、悪魔は細部に宿るのです。
データの資格付けはデータのクリーニングではありません
データのクリーニングは、光学センサーの欠陥など、実際には研究に関連するものではなく、光学実験のチャートの測定値が単に光学センサーの欠陥を反映している場合に、実験を「曲げる」可能性のある特定のデータポイント(外れ値)を除去する必要がある実験科学で最も意味があります。
ただし、このプロセスは通常、ビジネスデータの分析に必要なものとは異なります。外れ値は、データベースの復旧の残り物を扱う際に遭遇することがありますが、ほとんどはマージナルです。現在のほとんどのプロダクションデータベースの(ビジネス的な)整合性は優れています。誤ったエントリは存在しますが、ほとんどのモダンなシステムは最も頻繁なエラーを防ぐのに非常に優れており、後で修正する際にも非常にサポート的です。ただし、データの資格付けは、データポイントを削除または修正することを目的とするのではなく、データ全体に光を当て、後続の分析が本当に「意味をなす」ようにすることを目的としています。データの資格付けプロセスによって「変更」される唯一のものは、元のデータのドキュメントです。
データの資格付けは努力の大部分です
商業、航空宇宙、ホスピタリティ、バイオインフォマティクス、エネルギーに関連する数十のデータ駆動型プロジェクトを手がけてきた経験から、データの資格付けは常にプロジェクトの最も要求の厳しいステップであることを観察してきました。機械学習アルゴリズムは洗練されて見えるかもしれませんが、回帰または分類の問題のよく知られた範囲内でイニシアチブが続く限り、機械学習の成功は主に事前のドメイン知識の問題です。ビッグデータ処理にも同じことが言えます。
データの資格付けの問題は潜在的なものであり、何が欠けているかわかりません。これは、システムで生成されるデータの「真の」意味と、データ分析を行う人々が認識する「実際の」意味との間の意味のギャップです。知らないことは危険です。時には、意味のギャップが分析全体を無効にすることさえあります。
私たちは、ほとんどのIT実践者が、実際のビジネスデータセットに伴う「特異性」の深さを大幅に過小評価していることを観察しています。ほとんどのビジネスは、テーブルのフィールドごとに完全なドキュメントの一行さえ持っていません。それにもかかわらず、フィールドごとに半ページのドキュメントがあっても、ドキュメントはまだ十分ではありません。
Lokadが直面する(多くの)課題の1つは、まず最初に必要とされていないものを請求することが困難であるということです。したがって、私たちはしばしば「統計的なアルゴリズムの調整」などのより高貴なタスクの下にデータの資格付け作業を押し込むことがあります。または、同様の科学的なタスクです。
しかしながら、実際の作業の現実は、データの資格付けは人的観点からみても集中的であり、それ自体で非常に困難なタスクでもあります。それはビジネスを理解することと、多くのシステムにまたがるプロセスを理解することのミックスであり、それらの中には必然的にレガシーなものも含まれ、データが出口として出てくるものと機械学習パイプラインの期待とのギャップを埋めるものです。
多くの企業はデータの資格付けに対して過小投資しています。低く評価された課題であるだけでなく、データの資格付けに才能を投資しても、派手なデモや実際の数字には結びつきません。その結果、企業はデータ分析プロセスの後の段階に急いで進むことになりますが、期待通りにはうまくいかず、まるでモラセスに泳いでいるような状況に陥ります。データの実際の理解には短期的な解決策はありません。