00:00:03 データサイエンスにおけるデータの準備についての概要。
00:00:46 データの準備の複雑さを過小評価すること。
00:02:01 典型的なデータの準備プロジェクトの期間。
00:03:19 データの準備の速度と正確性に関する課題。
00:06:07 データの準備の文書化の重要性。
00:08:00 サプライチェーンにおける「注文日」の解釈。
00:09:02 システムのアップグレードによるデータの解釈の複雑さ。
00:10:07 エラーを回避するためのデータの意味論の理解。
00:10:15 ケーススタディ:サプライチェーンシステムの特異性。
00:14:53 ビジネス運営におけるデータの文書化の必要性。
00:16:01 サプライチェーンにおけるデータの追跡の重要性。
00:17:24 自動化された意思決定におけるデータの範囲の拡大。
00:18:42 データの記憶に個人に頼るリスク。
00:19:02 データの準備における課題と期待。
00:20:13 データの準備は企業全体の取り組みとして。
00:21:56 実世界の効果を通じたデータの解釈の正確性の判断。
00:23:02 不正確なデータの解釈の結果と追跡の重要性。
00:24:37 データの準備の困難さと結果。
00:24:49 「良い」データの準備の概念。

概要

このLokad TVのエピソードでは、ホストのKieran ChandlerとLokadの創設者であるJoannes Vermorelが、データサイエンスにおけるデータの準備の複雑さについて議論しています。データの準備はしばしば過小評価されていますが、現在はGDPRの遵守のために優先されています。Vermorelは、数ヶ月と多大なリソースを要することが多いデータの準備が、「ゴミを入れればゴミが出る」という問題を回避するために不可欠であると強調しています。これには一貫性のないまたは不完全なデータを理解可能な形式に変換する必要があり、徹底的な文書化が求められます。このプロセスは、ビジネスの問題の多面的な性質とデータの歴史的な文脈によって複雑に形成されています。Vermorelは、さまざまな組織チームを巻き込む分散型のアプローチを提唱し、効果的なデータの準備はアクセス可能で明確な意思決定を促進するべきだと主張しています。

詳細な概要

Kieran Chandlerがホストを務めるLokad TVのエピソードでは、Lokadの創設者であるJoannes Vermorelと共に、データサイエンスの領域におけるデータの準備の複雑で重要な役割について議論しています。GDPRの遵守法の台頭に伴い、データは多くの経営者の焦点となっており、現在、企業はデータの準備に4500億ドル以上を費やしていると推定されています。データの準備の目的は、生のデータを簡単に解釈して適用できる形式に変換することです。

Lokad TVのエピソードで、Kieran Chandlerがホストを務め、彼とLokadの創設者であるJoannes Vermorelが、データサイエンスの領域におけるデータの準備の複雑で重要な役割について議論しています。GDPRの遵守法の台頭に伴い、データは多くの経営者の焦点となっており、現在、企業はデータの準備に4500億ドル以上を費やしていると推定されています。データの準備の目的は、生のデータを簡単に解釈して適用できる形式に変換することです。

title: “データの準備の複雑さについて”

Vermorelは、データの準備の複雑さが頻繁に過小評価されていることに取り組んでいます。企業がそれにかなりのリソースを投資しているにもかかわらず、多くのプロジェクトが予定よりも遅れたり予算を超過したりしています。Vermorelによれば、ほとんどのITシステムのバグはデータの準備段階での問題に関連しています。彼は、ビジネスの問題の多面的な性質がデータの準備手順として現れ、タスクの複雑さを増していると説明しています。

タイムラインに関して、Vermorelは大規模なデータの準備プロジェクトは少なくとも数ヶ月かかる場合があり、しばしば6ヶ月に及ぶと提案しています。改善されたツールやよりスケーラブルなソフトウェアがプロセスを加速するという前提にもかかわらず、彼は全体的なエコシステムの成熟度が進捗を遅らせていると指摘しています。本当に「ゴミを入れればゴミが出る」という問題を回避するためには、まずデータを文書化し明確化する必要があります。彼はこのプロセスが長いタイムラインに寄与していると主張しています。

このプロセスを加速することの可能性について尋ねられた際、Vermorelは単にリソースを追加するだけでは簡単ではないと説明しています。扱われているデータは元々データの準備の目的で作成されたものではなく、むしろ企業システムの副産物です。例えば、彼はポイントオブセールシステムの主な機能は顧客の支払いを処理することであり、データを収集することではないと説明しています。しかし、これらのシステムでもバーコードのエラーなどの実用的な運用上の理由により、一貫性のないまたは欠陥のあるデータが生成されることがあります。これらの不一致は、サプライチェーンの最適化で効果的に使用するためには、広範な準備作業が必要です。

Vermorelは、データの解釈がシステムのアップグレードやビジネスプラクティスの変更によって時間とともに変わる可能性について指摘しています。したがって、データ自体だけでなく、それが生成された歴史的な文脈も理解することが重要です。これらの複雑さが認識されない場合、誤った解釈が誤った意思決定につながる「ゴミを入れればゴミが出る」問題に直面する可能性があります。

Vermorelは、Lokadのクライアントの1つを用いた事例研究を挙げて、自身のポイントを説明しています。このクライアントは、正確な数量の商品を受け取ることが重要な要求の厳しい産業設備を運営しています。クライアントのシステムには、納品数量が注文と完全に一致しない場合、注文全体が拒否され返品されるという機能があります。これにより、注文数量よりわずかに多く受け取った場合、元の購買注文をシステム内で納品数量に合わせて修正する必要があります。この回避策により、彼らは納品を受け入れることができ、

産業運用における中断を回避します。

しかし、このプロセスは、わずかに注文数量よりも多く納品することを知っている抜け目のないサプライヤーによって悪用されています。これにより、実際の需要と比較して膨らんだ見積もりの購買注文が生じ、購買チームのパフォーマンスを誤った形で表すデータのアーティファクトが作成されます。Vermorelは、誤った解釈を避けるためにこの複雑さを文書化する必要があると強調しています。彼は、問題は購買チームのパフォーマンスの低さではなく、システムの制約とユーザーがこれらの制約にどのように対処したかに起因すると主張しています。

話題を変えて、Vermorelは、Lokadを除いて、歴史的なデータに関心を持つのは誰かについて議論しています。彼は、企業が予想される収入や支出に注意を払っていることを指摘し、それをしない企業は時間とともに姿を消していくと述べています。これは、彼の言葉で言えば、ビジネスの「ダーウィニズム」の形です。彼は、長期間にわたって自社の財務取引に注意を払う企業は自然に歴史的なデータに関心を持つと提案しています。

会話はデータの準備に向かっています。Vermorelは、データは本質的に「クリーン」ではなく、完全に理解されていないと強調しています。彼は、データの準備は単にITの問題ではなく、ビジネスデータのすべての側面を理解し、すべてのビジネスの視点に対処することに関わると提案しています。彼は、IT部門はすべてのビジネスの視点をマスターすることは期待できず、データの準備に対して単独の責任を負うべきではないと指摘しています。

Vermorelは、組織全体にわたる異なる専門知識を持つ異なるチームを巻き込む分散アプローチを提案しています。例えば、購買に関連するデータは購買チームが関与すべきです。同様に、サプライヤースコアカードに必要なデータは調達チームが関与すべきです。このアプローチにより、効果的なデータの準備に必要な洞察を得ることができます。

データの解釈について、特に情報が不完全な場合、Vermorelはそれを科学的な理論に関連付けています。理論が正しいかどうかを知ることはできませんが、それが検証に耐えるときには正しいとされます。データの準備の正確性は、その解釈から派生する意思決定が正しいかどうかで確立されます。不正確なデータの準備が不合理な意思決定につながる場合、原因を追跡し、修正し、再評価することができます。

Vermorelは、特に複雑なサプライチェーンのシナリオにおいて、良いデータの準備がどのように見えるべきかを説明しています。それは、関連するビジネスの洞察と視点を提供する、よく書かれた本に似ています。それは組織全体にアクセス可能で分散され、共有の理解を促進する必要があります。データの文書化、維持、理解には継続的な努力が必要です。

最後に、Vermorelは、データの準備はデータ自体の有効な理解の解釈であるべきだと強調しています。この理解が確立され、維持されると、データに対する論理的な操作は非常に簡単になります。したがって、良いデータの準備は、よく書かれたガイドブックであり、サプライチェーンにおいて明確かつ効果的な意思決定を可能にする共有の理解でもあります。

フルトランスクリプト

Kieran Chandler: 今日のエピソードでは、データの準備について話し合います。最近のGDPRのコンプライアンス法により、データは多くの経営幹部の心に非常に重要な位置を占めています。それはビッグビジネスでもあり、最近の調査では、企業がデータの準備に4500億ドル以上を費やしていると推定されています。データの準備は、生データを理解しやすい形式に変換することです。これは容易なことではありません。なぜなら、データはさまざまなソースから入力され、しばしば一貫性がなく、不完全で、エラーも含まれるからです。では、なぜ今日データの準備について話しているのでしょうか?もし企業が4500億ドル以上を投資しているのなら、私たちはもう理解しているはずですよね。

Joannes Vermorel: はい、まったくその通りです。データの準備は、かなりよく知られている分野ですが、変化に関しては系統的に過小評価されています。興味深いことに、多くのデータの準備プロジェクトは最終的には期限を逃し、予算超過を引き起こします。その核心的な問題は、実際のITシステムや一般的なエンタープライズソフトウェアで見られる多くのバグが、データの準備レベルでの問題に遡るということです。それは非常に複雑です。よく知られている問題であるにもかかわらず、ビジネスの複雑さはデータの準備の手順として再現され、それによって境界のない領域となります。データの準備には最終的なレシピはありません。

Kieran Chandler: では、相当量のデータの準備にはどれくらいの時間がかかるのでしょうか?

Joannes Vermorel: 私は大規模なデータの準備プロジェクトが数ヶ月未満で完了したことはありません。通常、6ヶ月程度です。より良いツールやスケーラブルなソフトウェアがあれば、もっと速くなると主張する人もいるかもしれません。しかし、現実は、エコシステムにはほとんど成熟度がないため、Googleのような一部のデータのチャンピオンを除いて、データはまず文書化され、明確化される必要があります。このデータには「ゴミを入れればゴミが出る」という問題を回避するために行うべきことがたくさんあります。ですので、数ヶ月かかり、複雑なサプライチェーンが関与する場合には6ヶ月が妥当な目標です。

Kieran Chandler: 6ヶ月はかなり長い期間のようですね。このプロセスを早める方法はありますか?もし私が大規模な組織なら、問題に対してただ人手を増やせばいいのではないでしょうか?

Joannes Vermorel: ここで特定の問題が発生します。1ヶ月で9人の女性が赤ちゃんを産むことはできるでしょうか?問題の種類を理解することが重要です。まず、持っているデータは元々データとして作成されたものではありません。それは単に会社を運営するための企業システムの副産物です。例えば、スーパーマーケットで支払いをすることができるPOSソフトウェアを考えてみましょう。その主な機能は、店を出る際に支払う顧客を処理することです。ですので、バーコードが何らかの理由でスキャンされない場合、レジ係は同じ価格の商品を2回スキャンする可能性が高いです。最終的には正しい価格を支払いますが、データの観点では商品が2回カウントされることになります。

Kieran Chandler: 1回もカウントされない商品は、在庫管理の問題を引き起こす可能性があります。なぜなら、電子的な記録がずれてしまうからです。これは良い解決策ではなく、避けることが望ましいです。しかし、現実は、データの問題を解決するか、会社の運営をスムーズにするかの選択肢がある場合、物理的にサプライチェーンを操作する必要がある現場の人々は、常に商品や顧客、サービス、その他の流れを妨げない解決策を選びます。会社の運営が最優先であり、データは2次的な副産物に過ぎません。データは常に第一級の市民として扱われることはありません。それがすべての作業が必要な理由です。なぜなら、データはサプライチェーンを最適化するために収集されたわけではないからです。これがすべての課題の原因ですか?

Joannes Vermorel: そうです、それがすべての変更の原因です。

Kieran Chandler: 先ほど言及した文書化について話しましょう。この文書化では、どのような内容を期待しているのでしょうか?また、6ヶ月の期間に戻ると、どのくらいの文書量が必要ですか?

Joannes Vermorel: ルールとしては、通常、Lokadでプロジェクトを開始する際には、テーブルごとのフィールドごとに1行未満の文書化しかありません。実際にはそれすらありません。私たちは、ERP、MRP、WMS、またはサプライチェーンを実行するために使用される他のシステムのテーブルごとに1ページの文書化を終えるまでのプロジェクトを多く開始しています。ですので、20のテーブルに20のフィールドがある場合、400ページの文書化になります。はい、その400ページの文書化を作成するには6ヶ月かかります。

Kieran Chandler: それは膨大な量の文書化ですね。本当にすべて必要なのでしょうか?

Joannes Vermorel: ゴミを入れないためには、すべて必要です。

Kieran Chandler: なぜですか?

Joannes Vermorel: 実際のケースを考えてみましょう。たとえば、‘orders’というテーブルがあるとします。これは私の過去の注文を含んでおり、日付があります。しかし、それは単純なものでしょうか?本当にどのような日付について話しているのでしょうか?それは、クライアントが商品をカートに入れるために商品をクリックした日付ですか?それともクライアントがカートを確定し、支払いをした日付ですか?それともクレジットカードプロセッサによって支払いが確定した日付ですか?それともシステムに登録されたときの日付ですか?それともシステムで最後に修正された発注書の日付ですか?この「日付」フィールドには約20の異なる解釈があります。

さらに、会社が10年以上の歴史を持っている場合、注文日の微妙な解釈は年々変わっている可能性があります。システムのアップグレードが行われ、この列の意味が変わった状況になるかもしれません。

また、これは完全に均質なものではありません。さらに、エッジケースなどの複雑さが生じる可能性があります。たとえば、この日付は、支払いが最終的に詐欺として拒否された場合を除いて、クライアントがカートを確定した日付であるはずです。この場合、それは注文が詐欺として拒否された日時です。

また、これは実際には非常に良い設計ではありませんが、複雑なサプライチェーンを実行する企業は複雑なシステムと多くの歴史を持っています。したがって、初日から完璧に行われたわけではなく、すべての歴史的な複雑さに対処する必要があります。これらの複雑さは、この文書化に反映されます。これらの複雑さを認識しないと、データを分析しようとする際に問題が発生します。

Kieran Chandler: サプライチェーンの最適な意思決定を行うためには、「ゴミを入れない、ゴミを出さない」という問題が発生する可能性があります。つまり、データの意味を正しく解釈することが重要だということですね?

Joannes Vermorel: まさにその通りです。データは単なる数字以上のものであることを理解する必要があります。1つのセルに組み合わされるさまざまな要素を表しています。データを生成するソフトウェアだけでなく、人々がソフトウェアとどのようにやり取りしているかも理解する必要があります。文書化には、人々の行動の人間的な側面も考慮する必要があります。

Kieran Chandler: 過去にお客様の中でこの問題に直面した例と、それが会社にどのような影響を与えたかについて、良い例はありますか?

Joannes Vermorel: はい、例を挙げることができます。非常に要求の厳しいオペレーションを実行していたクライアントがいました。彼らは非常に短いリードタイムで発注をサプライヤーに渡していました。彼らのシステムには興味深い設計上の特徴がありました。納入された商品の数量が最初に要求された数量と一致しない場合、全体の発注書を拒否してサプライヤーに返送する必要がありました。

たとえば、1,000個を注文した場合、サプライヤーが1,050個を納入した場合、それを拒否する必要があります。しかし、それを拒否すると、重大な運用上の問題につながる可能性があります。システムでは数量の変更ができなかったため、納入数量と一致するように元の発注書を変更することになりました。

Kieran Chandler: つまり、納入されたものに合わせて元の発注書を変更するということですね?

Joannes Vermorel: まさにその通りです。しかし、これにより別の問題が生じました。サプライヤーはこのやり方に気付きました。彼らは注文数よりも多くの商品を納入することができることに気付き、会社がその商品を必要としていることを知っていました。彼らは過剰な数量を納入するわけではありませんでしたが、会社が受け入れると考える数量を納入していました。

データ上では、最初の注文がより大きな数量であるかのように見えました。これにより、発注書が必要な数量と比べて大きすぎるように見える奇妙なデータが生じ、購買チームが適切な数量を選択するのが下手だと思われるようになりました。しかし、問題は購買チームではなく、システムの制限と人々がそれらの制限に対処している方法にありました。

これらの詳細は、誤った結論に至らないために文書化する必要がありました。購買チームは仕事が下手ではありませんでした。問題は、彼らがナビゲートしようとしている制限を持つシステムであることでした。

Kieran Chandler: このシステムはすべての奇妙な副作用を生成しています。それを理解するためには説明ページが必要ですが、逃れることはできません。それはビジネス自体の複雑さがこのデータに反映されているだけです。それでは、それらのずる賢いサプライヤーから離れましょう。それは間違いなく面白い例です。では、人の側面について話しましたね。明らかに、Lokadでは将来の確率的な予測を行うために過去のデータを使用していますが、私たち以外にも過去のデータに関心を持っている人はいますか?

Joannes Vermorel: 通常、受け取るべき金額や支払うべき金額に関わるものは、非常に注意が払われます。人々が注意を払っていなかったわけではありませんが、金銭を注意深く監視していなかった企業は時間の経過とともに消えていきました。それはまさにダーウィニズムの実践です。それにも関わらず、あなたがそれに注意を払わないなら、単に消えてしまいます。だから、500年前にイタリアの修道士たちによって二重簿記が発明されたのです。もし注意を払わないなら、修道院は悪い会計慣行のために崩壊するだけです。これはまったく新しい問題ではありませんが、過去にはミッションクリティカルではないと考えられていたデータが今ではミッションクリティカルになっています。

例を挙げると、過去のストックアウトを適切に計上するためには、購入した商品を考慮に入れる必要があります。つまり、サプライヤーに支払うべき金額を知るために、販売した商品を考慮に入れる必要があります。しかし、過去のストックアウトを追跡する必要はありますか?手動で購入数量を決定し、ストックアウトの奇妙な期間があったことを覚えているサプライチェーンの専門家がいる限り、それらの過去の記録は必要ありません。それらはあなたのシステムの一部です。

問題は、注文数量などのより定量的なものに移行しようとすると、Lokadのような自動化された意思決定において、過去の在庫レベルに関する正確な記録がより重要になるということです。さもなければ、自動化は売上と需要不足の解釈を誤ることになります。

会社をより高度に自動化するためには、単なる原始的な会計データだけでなく、より広範なデータに注意を払う必要があります。あなたの会計士は在庫切れの日数には興味がありませんが、あなたのサプライチェーン最適化ソフトウェアは興味があります。あなたは、本当にあなたの範囲に含まれるデータの範囲を拡大し、文書化し、品質管理と保証が必要なデータを必要とします。

Kieran Chandler: つまり、過去の出来事を覚えているこの一人にかなり依存しているわけですね。データが入ってくる準備はもっとしっかりしているべきではないでしょうか?IT部門や他の誰かがそのデータを準備し、最初からきれいな状態にしているべきではないですか?それはより簡単な方法のように思えます。

Joannes Vermorel: はい、しかし問題はITの能力ではありません。完全にきれいなデータなど存在しません。ポイントは、データが十分な深さで自然に理解されず、すべてのビジネスの側面が適切にカバーされていないということです。

Kieran Chandler: 企業がAIに数十億ドルを投資しているとよく言われていますが、実際のところは、ビジネス自体の複雑さがこのデータの準備の課題として現れています。そして、「ああ、それはIT部門が対応すべきだ」と言うことは、ITに会社を運営し、すべてのビジネスの側面に精通していることを期待することと同じです。

Joannes Vermorel: 確かに、それは組織の問題を引き起こします。なぜなら、ITに人事、マーケティング、調達などの専門家であることを期待しているからです。つまり、IT部門にはすべてのビジネスの側面について完全なマスタリーを期待しています。しかし、それはあまりにも多くを要求することです。IT部門は既にすべてのITの変更に対処する必要があるため、会社のすべてのビジネス問題に対処することを期待されるべきではありません。また、ITを会社全体と定義することもできますが、それでは目的が果たされません。

さて、手元のケースに戻りますが、データの準備は会社内でかなり分散した取り組みでなければなりません。なぜなら、たとえば調達に関連するデータを準備するために必要な洞察力を提供できるのは、調達チームだけだからです。同様に、サプライヤースコアカードを確立し、データを十分な精度で準備して意味を持たせるためには、調達に責任を持つチームと話をする必要があります。

問題に取り組むたびに、その問題に特化した専門家が会社内に関与している必要があります。なぜなら、データの準備に必要な理解を集めるためには、その問題についての洞察力を持つ人々が必要だからです。これは厳密にはITの問題ではありません。データを処理する際に、ビジネスの問題に対して意味のないデータにならないようにするためには、必要な理解をすべて集める必要があります。

Kieran Chandler: つまり、まだそこまで到達していないということですね。一部の企業はそこに到達していますが、それは例外であり、ルールではありません。情報がすべて揃っていないし、解釈の隙間がある場合、自分の解釈が正しいかどうかを確信することはできません。多くの可能性があるかもしれません。

Joannes Vermorel: 確かに、それは興味深いポイントです。それは科学的な理論と似ています。自分の理論が正しいことを知ることはできません。ただ、それが十分に良いとわかり、野生で挑戦されたときに機能することを知っているだけです。それをより良く機能させるためのものはありません。

では、データの準備についてはどうでしょうか?データパイプラインの最後で、この解釈に基づいて自動的に生成される意思決定が正しいことを知っていると、データの準備が正しいことがわかります。正しい意思決定があれば、最適化ロジックが効率的であり、機械学習のレイヤーが正確であり、他にもたくさんのことがあります。基本的に、誤った解釈によって生成された正しい意思決定にはなりません。データの解釈と準備が正しく行われていない場合、結果は非常にゴミになり、機能する余地がありません。

要するに、準備を行い、それに自信を持って意思決定を生成する以外に回避策はありません。意思決定が意味をなさない場合、問題を根本原因まで遡り、順を追って修正します。最終的に、システムから出てくる意思決定が、それを評価する実践者にとって意味をなす場合、正しく行っているとわかります。

Kieran Chandler: あなたは言うかもしれません、「私はそれらが適切に準備されていると信じていますが、通常はグレーゾーンです。サプライチェーンの専門家は、「それは良い決定ですが、さらに改善できます。たとえば、需要の異常な上昇や下降を説明するために競合他社の価格を考慮に入れている場合、そのデータはまだありません。」と言うかもしれません。つまり、黒と白の状況ではありません。

Joannes Vermorel: データの準備の困難さや、不十分なデータの準備についてはかなり話しました。しかし、まとめると、良いデータの準備とはどのようなものでしょうか?比較的複雑なサプライチェーンの状況では、良いデータの準備は、よく構造化された本のようなものです。1つのテーブルに1ページ、または20のテーブルに20のフィールドがある400ページの本のように考えてみましょう。ただし、単なる本であるだけでは十分ではありません。それはよく書かれた本でなければなりません。

もしもあなたが非常に退屈なものを書いた場合、誰もそれを読まず、組織に何の影響も与えません。ですので、それはよく書かれている必要があります。そして、よく書かれているとは、読みやすいことを意味します。また、ビジネスの視点から書かれている必要もあります。それはITの文書ではありません。データの準備は本当にITの問題ではなく、すべてのビジネスの洞察を持つことに関係しています。

ビジネスにおける有効な視点は常に変化します。業界の競争状況が変わると、特定の問題に対する有効な視点も変わります。したがって、この本はよく書かれ、メンテナンスされる必要があります。

これは会社全体で非常に分散した取り組みです。たとえば、マーチャンダイジングチームだけが最初にマーチャンダイジングテーブルをどのように文書化すべきかを正しく理解している場合があります。このデータの準備は、会社全体で広く配布され、アクセス可能な、クリーンでよく書かれた資料のように見えます。

興味深いことに、これらの洞察をすべて持っていると、ロジックであるデータ変換は、データ自体の有効な理解の直感的な解釈になります。データを理解し、文書化し、書き、メンテナンスするためには、非常に多くの努力が必要です。しかし、それらすべてを行った後、ロジックを書くことは簡単です。では、良いデータの準備とはどのようなものでしょうか?それは、よく書かれた本、共有された理解、会社内部の一種のサプライチェーンのバイブルのようなものです。

Kieran Chandler: いいですね!では、データのグレーゾーンは、組織から出てくる新しいベストセラーになるのでしょうか?

Joannes Vermorel: おそらく、誰にもわかりません。

Kieran Chandler: では、今日のデータの準備に関するエピソードをお楽しみいただけたことを願っています。いつでもご質問があればお気軽にお問い合わせください。また次回のLokad TVでお会いしましょう。さようなら。