00:00:08 データレイクとその重要性。
00:00:39 データレイクの定義とビジネスにおけるその役割。
00:02:13 データウェアハウスからのデータレイクの進化。
00:04:15 データレイクに関する考え方と哲学の変化。
00:07:43 データレイクにおけるデータ正確性の確保。
00:10:06 テクノロジーが20年前以降にデータウェアハウスをどのように改善したか。
00:12:14 データレイクにおけるオンデマンドシステムの利点。
00:13:31 ビジネスインテリジェンスの限界とその時代遅れのアプローチ。
00:15:22 ビジネスインテリジェンスとデータレイクの比較、及び意思決定への情報提供能力。
00:16:49 実装の複雑さ:データソースへのアクセスと多国籍企業への影響。
00:18:32 データレイクの導入:テクノロジー主導の企業への利点と部門横断的な最適化への利用。
00:20:08 データレイクの未来:アクセス性と実装の向上、APIを用いた次のステップ。
00:22:45 閉会の挨拶と結論。
概要
このインタビューでは、キアラン・チャンドラーとロカドの創業者であるヨアネス・ヴェルモレルが、データレイクとそれが果たすサプライチェーン最適化における役割について議論しています。データレイクは、生データを集中管理するリポジトリであり、機械学習を活用したアプリケーションがスマートな意思決定を行うことを可能にします。ヴェルモレルは、従来のビジネスインテリジェンスツールの限界を指摘し、データレイクがより効率的で自動化されたデータ分析を提供することを強調しています。彼は、テクノロジー主導の企業が既にデータレイクを採用し、サブシステムのためのアプリケーションプログラミングインターフェース(API)の実装に向かって進んでおり、エンドツーエンドの自動化を実現していると考えています。ヴェルモレルは、大企業が今後5年で、より良いデータ駆動型意思決定のためにデータレイクとAPIをますます採用すると予測しています。
詳細な概要
このインタビューでは、キアラン・チャンドラーが、サプライチェーン最適化を専門とするソフトウェア企業ロカドの創業者ヨアネス・ヴェルモレルと共に、データレイクについて議論しています。まず、データレイクとその起源について定義します。データレイクは、売上、購買、そして在庫レベルなど、企業の主要な取引データを統合するために設計されたデータベースの一種です。これらのデータベースは、アプリケーションで利用されることを意図しており、マーケティング、サプライチェーン、人事などにおいてデータに基づいたスマートな意思決定を行うためのドメイン特化型アプリを可能にします。
データレイクの歴史は、20年以上前のデータウェアハウジングやデータマートにまで遡ります。ヴェルモレルは、データレイクとデータウェアハウスの主な違いは、それらの背後にあるテクノロジーと哲学にあると説明しています。データレイクは大量のデータの保存と提供においてより効率的であり、クラウドコンピューティングにより、よりアクセスしやすく、手頃な価格になっています。
20年前、企業はオラクルのような高価なハードウェアを購入してデータウェアハウスを構築する必要がありました。現在では、クラウドコンピューティングプラットフォームを利用することで、従量課金制の拡張性に優れた、非常に競争力のある価格のデータレイクを利用できるようになりました。この柔軟性により、企業は必要に応じてデータストレージのアプローチを容易に調整できます。
データレイクの背後にある哲学も、データウェアハウスと比べて進化しています。従来のアプローチは、データを適切に整理・管理するためにIT部門に大きな負担をかけていました。これにより、異なる部門間でのデータ管理やアクセスに課題が生じていました。
データレイクは、データをより集中化されアクセスしやすい形で統合することを目的としており、アプリケーションがデータを処理し、スマートな意思決定を行いやすくしています。この考え方の変化により、データ管理と利用においてより高い効率性と柔軟性が実現されました。
20年前、データウェアハウジングはデータの管理と整理のための一般的な手法でした。このアプローチは、さまざまなデータテーブルを接続するために高度な技術的努力と、企業のデータを統一するモデルを必要としました。しかし、この方法はしばしば、負担の大きさからIT部門が圧倒され、多くのプロジェクトが失敗に終わる原因となっていました。
今日、データレイクは、よりスマートで効率的なデータ管理の手法として登場しています。データレイクは、CRM、ERPやウェブプラットフォームなど、さまざまなシステムから抽出された生データを格納するリポジトリとして機能します。データを整理したり統合しようとするのではなく、単にデータレイクに投げ込むことで、大量のデータを問題なく処理できます。
データレイク利用の課題の一つは、データが正確かつ最新であることを保証する点です。IT部門は、データレイクが元のシステムを正確に反映していることを保証する責任を負いますが、データのビジネス上の意味を理解する必要はありません。例えば、CRM内のデータの理解は、それを利用する営業やマーケティングなど各部門に委ねられており、このアプローチにより、部門ごとに異なるニーズや視点に合わせた、問題特有のデータ解釈が可能となります。
テクノロジーの風景は、データウェアハウスの時代から大きく変わり、データレイクがより実現可能な選択肢となっています。一つには、インターネット上でデータを転送するためのツールの品質が向上し、サプライチェーンなどの分散システムからのデータ統合が容易になりました。加えて、インターネットインフラの改善により、小規模な企業でも大量のデータを難なく移動できるようになりました。
さらに、クラウドコンピューティングプラットフォームにより、データレイクはよりアクセスしやすく、費用対効果の高いものとなりました。これらのプラットフォームは、迅速な反復とオンデマンド利用を可能にし、企業が大きな財務リスクを負うことなくデータレイクを試すことを可能にします。
ビジネスインテリジェンスツールは、企業がデータから洞察を得るのに役立ってきましたが、基本的には人間が利用することを前提としています。つまり、企業は自動化するのではなく、従業員にデータ分析を行わせる必要があるということです。これに対し、データレイクはより効率的で自動化されたデータ分析を可能にするため、データ管理の向上を目指す多国籍企業にとって魅力的な選択肢となっています。
ヴェルモレルは、従来のビジネスインテリジェンス(BI)ツールの限界、データレイクの利点、そしてサプライチェーン最適化におけるデータ管理の未来について説明しています。
ヴェルモレルは、BIをある程度リアルタイムな形で基本的なデータ分析しか提供しない時代遅れの技術と表現しています。この技術は30年前に革命をもたらし、企業が自社データにアクセスして集約することを可能にしましたが、実用的な洞察や意思決定を提供するものではありませんでした。これに対し、データレイクはより大きな全体像の一部であり、さまざまなソースからの生データを格納するリポジトリとして機能します。そして、機械学習を活用したアプリケーションがこのデータを効率的に処理し、企業に影響を与え、具体的な価値を生み出す実行可能な意思決定を導き出すことが可能です。
データレイクの実装は、企業のデータソースへのアクセスの複雑さに依存します。大規模な多国籍企業にとっては、国ごとに異なるシステムが存在するため、このプロセスは困難になり得ます。しかし、データに基づく洞察を得て意思決定を行いたい企業には、他の選択肢はありません。ヴェルモレルは、小規模なテクノロジー主導の企業はすでにデータレイクを採用し、サブシステム向けにアプリケーションプログラミングインターフェース(API)を実装することでさらに進化していると考えています。これにより、部門横断的な最適化とスマートな意思決定が可能となります。
ヴェルモレルは、大企業が今後5年以内にデータレイクの採用をますます進めると見ており、よりアクセスしやすく手頃になることで、データレイクを導入できなかった企業は、既に採用している企業に対して競争力を失うリスクがあると考えています。しかし、データレイクはデータ管理の最終形ではありません。ヴェルモレルは、APIこそが未来であり、企業がデータを読み取り分析するだけでなく、それに基づいて行動を起こすことを可能にすると提案しています。APIはエンドツーエンドの自動化を実現し、自動的に意思決定を生成し、それをシステム内で実装することができます。
ヨアネス・ヴェルモレルは、従来のBIツールを超えたデータレイクの採用が、サプライチェーン最適化における効率的なデータ駆動型意思決定にとって重要であると強調しています。彼は、大企業がデータレイクとAPIを実装してプロセスの自動化を図り、よりスマートな意思決定を行う未来を描いています。
完全な書き起こし
Kieran Chandler: 本日のLokad TVでは、データレイクの概念についてさらに議論し、なぜそれらの企業がより関心を持つべきなのかを理解していきます。では、ヨアネス、例の通り、まずデータレイクとは何か、そしてその起源についてもう少し定義するところから始めましょう。
Joannes Vermorel: データレイクとは、通常、企業のすべての主要データ、特に販売、購買、在庫レベルなどの全取引データをほぼすべて統合することを目的とした、特性を持つデータベースの一種です。データレイクの意図と最終用途は、人間ではなくアプリ向けであるということです。つまり、データレイクを導入することで、ドメイン特化型のアプリが大量のデータレイクのデータを活用して、マーケティング、サプライチェーン、人事などのためのスマートな意思決定を行えるようにするという考えです。本質的には、スマートなアプリに一括して提供できるよう、すべてのデータを統合する場所なのです。ところで、あなたの質問の第二部分ですが、データレイクの歴史は、データウェアハウジングやデータマートの考えにまでさかのぼります。
Kieran Chandler: データウェアハウスは約20年以上前に流行しました。では、その当時と現在では何が変わり、主要な違いは何でしょうか?
Joannes Vermorel: それは興味深いですね。今日の流行語は「データレイク」と「データサイエンティスト」ですが、20年前は「データウェアハウス」と「データマイニング」でした。基本的には、同じアイデアの進化形で、20年後に再び注目される形となりました。変わった点は多くあります。まず第一に、データレイクの技術が進化し、大量のデータの保存と提供がはるかに効率的になったことです。そして、クラウドコンピューティングが登場したことで、現在では従量課金制のオンデマンドデータレイクを利用できるようになりました。これは20年前、Oracleのような非常に高価な機器を購入して全データを保存していた時代とは大きく異なります。現在では、クラウドコンピューティングプラットフォームを利用することで、従量課金制でテラバイト単位のデータを非常に競争力のある価格で利用できるのです。
Kieran Chandler: これは技術面での話ですね。では、哲学的な側面はどうでしょうか?データウェアハウスと比べて、データレイクの利用方法や考え方はどう変わったのでしょうか?
Joannes Vermorel: 確かに大きな進化がありました。20年前に考えられていたデータウェアハウスの問題は、データを適切に整理するためにIT部門に大きな負担をかけていた点です。各部門、例えばマーケティング、サプライチェーン、財務などごとにデータマートを組織するためのデータウェアハウスが存在していたのです。データマートは、データウェアハウス内の部分集合のようなものでした。このアプローチは、今日のデータレイクに通じる精神に似ている部分もありますが、IT部門による多大な整理と管理が要求されるという問題がありました。
Kieran Chandler: ビジネスインテリジェンスの場合、すでに準備された、整理された状態、例えば顧客と売上、返品とを紐付けるといった、全ての要素を繋ぎ合わせるという、高度な期待がありました。全体をまとめ上げるためには実際、とても多大な労力を要しました。技術的にはテーブルを結合し、適切なジョイントで全てのテーブルを繋ぐというものでした。つまり、20年前は非常に多くの作業を行うという哲学で、それはBIで行われていたこと、またリレーショナルシステムで自然に行われていたことと非常に似ていました。しかし、このアプローチの問題は、必要な作業量が途方もなく大きく、結果としてIT部門がこれらのデータウェアハウジングプロジェクトの要求の膨大さに完全に圧倒され、しばしば失敗に終わったという点です。では、今日の状況はいかがでしょう?今やデータレイクが存在する今、物事は少し混沌としているのでしょうか?
Joannes Vermorel: 哲学的な観点から見ると、データレイクは非常にシンプルです。データレイクは、他のシステムに存在する全データをクリーンに抽出し、ダンプするための受け皿に過ぎないという考え方です。つまり、CRMからのデータ、ERPからのデータ、ウェブプラットフォームからのデータを巧妙に再結合しようとするのではなく、各データソースを抽出してデータレイクにダンプするのです。そして、技術の進歩によりデータレイクは大容量のデータを問題なく処理できます。クラウド上で運用していれば、その利用料がかかります。
Kieran Chandler: 実際に使用しているデータが質の良いものであるとどうやって確認するのですか?つまり、どのデータが最新であるかをどのように把握するのでしょうか?全てをダンプするだけなら、どうやって管理するのですか?
Joannes Vermorel: データレイクにおけるITの責任は、データレイクが元のシステムの正確な反映を保持していることを確認することですが、それはビジネス上で何が起こっているかを理解する必要はありません。たとえば、200のリレーショナルテーブルを持つCRMがあれば、それをデータレイクにミラーリングすればよく、それ以上の理解は不要です。
Kieran Chandler: では、CRM内で何が起こっているのかを理解する必要があるのは誰ですか?
Joannes Vermorel: 結局のところ、データを活用したいのは各部門自身であり、問題はそのデータ解釈が非常にケースバイケースであるという点です。例えば、マーケティング課題を解決したい場合とサプライチェーンの課題を解決したい場合では、売上データの見方が異なります。これが理由であり、また20年前に多くのデータウェアハウスプロジェクトが失敗した主な理由の一つでもありました。企業全体の統一モデルを作ろうというビジョンがありましたが、実際には各部門にとっては、マーケティングが「自分の領域のビジョンにぴったり当てはまらない」と言い、サプライチェーンや財務も同様の不満を抱いたため、非常にフラストレーションが溜まる結果となったのです。対して、現在の考え方は、サプライチェーン、マーケティング、財務、人事など各部門自身が主体的に動くというものです。
Kieran Chandler: つまり、今日では失敗しないということです。もう一度言いますが、状況は大きく変化しています。特にサプライチェーンにおいては、設計上、分散システムを扱っているという課題があります。分散システムとはどういう意味かというと、一箇所にすべてが集約されていないということです。定義上、複数の倉庫がある場合、それらは同じ場所に存在しません。仕入先も倉庫と同じ場所にあるわけではなく、顧客も同様です。ですから、私たちは本来、分散されたシステムを扱っており、全てのデータを一箇所、すなわちデータレイクに統合しなければならないのです。なお、これを実現するにはネットワーク上での処理が必要となります。
Joannes Vermorel: もちろん、20年前にはすでにインターネットは発明されていました。実際に存在していたのですが、インターネット上でデータを移動させるためのツールの質は、今日のものとは全く異なっていました。そしてネットワークそのものの品質も同様に全く違ったのです。今日では、例えば規模が大きすぎない、従業員1,000人規模の企業の場合、巨大企業ではないにせよ十分な規模ですが、20年前には1日あたり1ギガバイトのデータをインターネット経由で移動させるのは非常に複雑でした。
つまり、例えばパリでは光ファイバーへのアクセスが必要でした。20年前のパリでは、光ファイバーに容易にアクセスできるのは、証券取引所付近という1か所に限られており、その範囲はおよそ1平方キロメートル程度でした。それ以外の場所では、自前で光ファイバーを敷設しなければならなかったのです。巨大企業であれば可能でしたが、従業員1,000人規模の企業でも実現は難しかったのです。しかし今は状況が変わり、非常にシンプルになっています。ツールも進化しており、実際にギガバイト単位のデータを大きな問題なく移動させることができるようになりました。
そしてオンデマンドシステムが利用可能であるという事実もあり、これらのデータレイクはクラウドコンピューティングプラットフォームのスケールメリットのおかげで非常に安価です。さらにオンデマンドであるため、試行錯誤が可能です。もしデータレイクを構築して完全に失敗しても、「削除」して再挑戦するだけで、実際に使用した分だけの費用で済むのです。つまり、迅速な反復が可能なのです。20年前のように、高価な機器を購入してしまい、間違えると大問題になるという状況とは大きく異なります。
Kieran Chandler: そして、財務部門は依然として最速のインターネット環境を持っているに違いありません。すでにデータをしっかり把握し、ビジネスインテリジェンスツールで分析している大手多国籍企業に対して、データレイクにどんな魅力があるのか、どうお答えになりますか?
Joannes Vermorel: ビジネスインテリジェンスの問題点は、根本的に人間向けに設計されていることにあります。確かに良い面もありますが、人がその数字をチェックする一分一分が、従業員に数字を見るための労働時間を費やさせ、他の作業ができなくなるということです。簡単に数百万の数字が生成され、それを処理するのに何千時間もの人手が必要となるため、非常に高コストなのです。
つまり、私の見解では、ビジネスインテリジェンスはかなり時代遅れの技術と言えます。リアルタイムに近い形でデータの基本的な分析を行う方法でした。30年前、Business Objectsが設立された時代を振り返ると、その頃は、1日あたり、または製品ごとに何ユニットが販売されているかといった情報を提供するための同期クエリを実行できるとは想像もできなかったのです。突然、キューブ、さらにはハイパーキューブといった技術により、非常に洗練された分析が可能になりました。しかし最終的には、それは単なるデータの基本的な集約に過ぎず、その集約結果自体が意思決定を下す根拠にはならないのです。たとえば、価格を上げるべきか下げるべきか、生産量を増やすべきか減らすべきか、あるいは1000ユニットの生産ロットの中で100ユニットを航空輸送に回すべきか、といった判断は示してくれません。根本的には、数値的な洞察を得るための手段にすぎないのです。つまり、BIとデータレイクの大きな違いは、データレイクがより大きな全体像の中の一部、すなわち一つの歯車として機能し、通常はその前に機械学習駆動のアプリが配置され、データレイクが効率的に供給するデータを基に自動的に意思決定を行うという点にあります。そして、その意思決定は企業に実際の物理的影響をもたらし、具体的な価値を創出するのです。
Kieran Chandler: それでは、ビジネスインテリジェンスツールに限界があるということに同意するとして、データレイクの実装は実際どれほど容易なのでしょうか?単にすべてのデータをクラウドにアップロードするだけで済むのでしょうか?
Joannes Vermorel: データレイクの実装の複雑さは、文字通りデータソースへのアクセスの複雑さに比例します。つまり、何か高度な処理をするわけではなく、単にデータにアクセスするだけなのです。大手多国籍企業の場合、各国がそれぞれ独自のシステムを持っていると、各国のデータをデータレイクに集約するために、それぞれに対応したデータレイクを構築しなければなりません。しかし、残念なことに代替手段はなく、直接各国と統合する方法しかありません。それだと、たとえばマーケティング部門とサプライチェーン部門が同じ売上データにアクセスしようとすると、その統合費用を二重に支払うことになるのです。だから、データレイクの考え方は、一度構築すれば、その後は社内の他の部門も容易にデータにアクセスできるという点にあります。要するに、複雑さは貴社が保有するシステム次第ということです。そして、最初の引用に戻りますが、データがなければ単なる「意見を持った男」に過ぎないのです。何らかの測定を行いたいなら、どこからもデータを取得する以外に選択肢がないのです。
Kieran Chandler: ここで話をまとめましょう。データレイクには多くの利点があり、単なる大量のデータを貯め込む容器に過ぎないように見えますが、なぜ現時点で業界で広く採用されていないのでしょうか?
Joannes Vermorel: 実は、小規模な技術主導企業はかなり前からデータレイクを採用しており、その先を行く形で、各サブシステムにAPI(アプリケーションプログラミングインターフェース)を実装する、いわゆるAPI化に進んでいます。例えば、スマートな電子商取引企業では、既にデータの統合が行われています。
Kieran Chandler: 今日、ウェブサイトのデータ、検索エンジンマーケティングで支払う金額、つまりGoogle AdWordsなど、そしてクロスオーダーの結果を見れば、彼らがダイレクトマーケティングで非常に巧妙な意思決定を行っていることがわかります。MicrosoftやGoogleのような純粋な技術主導の企業も、実際何十年も前から同様の取り組みを行っているのです。Google自体は2十年ほどしか存在していませんが、他の多くの技術企業はかなり前からこれに取り組んできました。では、何十年も続けているとすれば、未来はどうなるのでしょうか?次は何が起こるのか?いつかデータの海に飛び込む時が来るのでしょうか?
Joannes Vermorel: はい。私が次に見通しているのは、サプライチェーン指向の企業が、データレイクが非常に手軽かつ低コストになった今、これを積極的に導入するということです。当社の顧客の中には、1年前にはデータレイクを持っていなかった企業が、今ではすでにデータレイクを構築している例が多く見られます。ここ2年間でデータレイクに関する転換点があったと言えるでしょう。ですから、ほとんどの大企業は、今後おそらく5年以内には自社のデータレイクを実装することになると考えます。そうでなければ、すでにこれを実施している大企業に完全に太刀打ちできなくなるからです。
しかし、限界もあります。特に、データレイクは他のサブシステムに存在するすべてのデータの読み取り専用コピーにすぎません。だからこそ、次のステップは、すべてのサブシステムがAPI(アプリケーションプログラミングインターフェース)を公開することだと言ったのです。これがAmazonが実施した方法でもあります。これらのAPIを利用すれば、単に読み取り専用で終わるのではなく、実際にアクションを起こすことも可能になります。つまり、全てのデータを統合し、読み取り、解析し、意思決定を下した後、その決定をどう活用するかというと、例えばExcelのスプレッドシートを適切な部門に送って、購買などの決定を実行させるという方法があります。しかし、APIがあれば、直接そのAPIを呼び出して、この製品、指定数量、特定の仕入先、指定された輸送方法などの購入注文をシステムに注入することも可能になるのです。つまり、APIを活用すれば、意思決定を自動生成するだけでなく、その決定を実際に自動的かつ物理的に実行するエンドツーエンドの自動化が実現できるのです。
Kieran Chandler: では、今日はここまでにしましょう。本日はお時間をいただきありがとうございました。今週はこれで全てです。ご視聴ありがとうございました。また次回お会いしましょう。さようなら。