00:00:08 データレイクとその重要性
00:00:39 データレイクの定義とビジネスにおける目的
00:02:13 データウェアハウスからのデータレイクの進化
00:04:15 データレイクに関するマインドセットと哲学の変化
00:07:43 データレイクにおけるデータの正確性の確保
00:10:06 20年前からデータウェアハウスの技術がどのように進化したか
00:12:14 データレイクにおけるオンデマンドシステムの利点
00:13:31 ビジネスインテリジェンスの制約と時代遅れのアプローチ
00:15:22 ビジネスインテリジェンスとデータレイクを比較し、意思決定への影響力を検証する
00:16:49 実装の複雑さ:データソースへのアクセスと多国籍企業への影響
00:18:32 データレイクの採用:テクノロジー主導の企業における利点とクロスファンクション最適化への活用
00:20:08 データレイクの未来:アクセシビリティと実装の向上、APIとの次のステップ
00:22:45 締めの言葉と結論

要約

このインタビューでは、Kieran ChandlerとLokadの創設者であるJoannes Vermorelが、データレイクとそのサプライチェーン最適化における役割について話し合っています。データレイクは、機械学習に基づくアプリケーションがスマートな意思決定を行うための生データの集中リポジトリです。Vermorelは、従来のビジネスインテリジェンスツールの制約を強調し、データレイクがより効率的で自動化されたデータ分析を提供すると述べています。彼は、テクノロジー主導の企業が既にデータレイクを採用し、サブシステムに対してアプリケーションプログラミングインターフェース(API)の実装に向けて進んでいると考えています。Vermorelは、大企業が次の5年間でデータレイクとAPIをますます採用し、より良いデータ駆動型の意思決定を行うと予測しています。

詳細な要約

このインタビューでは、Kieran Chandlerがサプライチェーン最適化に特化したソフトウェア企業であるLokadの創設者であるJoannes Vermorelとデータレイクについて話し合っています。彼らはデータレイクとその起源を定義することから始めます。データレイクは、売上、購買、在庫レベルなど、企業のすべての主要なトランザクションデータを統合するために設計されたデータベースの一種です。これらのデータベースは、人間ではなくアプリケーションが使用することを想定しており、マーケティング、サプライチェーン、人事などのデータ駆動型のドメイン固有のアプリケーションがスマートな意思決定を行うことができます。

データレイクは、20年以上前のデータウェアハウスとデータマートのトレンドにさかのぼる歴史があります。Vermorelは、データレイクとデータウェアハウスの主な違いは、その技術と背後にある哲学にあると説明しています。データレイクは大量のデータを効率的に保存し提供することができ、クラウドコンピューティングによりアクセスしやすくなり、手頃な価格になりました。

20年前、企業は自社のデータウェアハウスを収容するためにOracleなどの高価なアプライアンスを購入する必要がありました。しかし、クラウドコンピューティングプラットフォームにより、スケーラブルで価格競争力のあるペイアズユーゴーデータレイクを利用することができるようになりました。この柔軟性により、ビジネスは必要に応じて簡単にデータストレージのアプローチを調整することができます。

データレイクの背後にある哲学も、データウェアハウスと比較して進化しています。以前のアプローチでは、IT部門に対してデータの適切な整理と管理を求めるという負担がかかりました。データウェアハウスは、マーケティング、サプライチェーン、ファイナンスなどの異なる部門向けにデータマートを備えて設計されていました。これにより、異なる部門間でのデータの管理とアクセスに課題が生じました。

データレイクは、データをより集中的かつアクセスしやすい方法で統合することを目指しており、アプリケーションがデータを処理しスマートな意思決定を行いやすくしています。この考え方の変化により、データ管理と利用の効率性と柔軟性が向上しました。

20年前、データウェアハウジングはデータの管理と整理のための人気のある方法でした。このアプローチでは、さまざまなデータテーブルを接続するために高度な技術的な取り組みが必要であり、企業のデータに統一されたモデルが必要でした。しかし、この方法はしばしばIT部門が作業量の多さに圧倒され、多くの失敗プロジェクトにつながることがありました。

今日、データレイクはより効率的なデータ管理の手法として登場しました。データレイクは、CRM、ERP、Webプラットフォームなどのさまざまなシステムから抽出された生データのリポジトリとして機能します。データを整理または結合しようとする代わりに、データは単純にデータレイクにダンプされ、大量のデータを問題なく処理することができます。

データレイクを使用する際の課題の1つは、データが正確かつ最新であることを確保することです。IT部門は、データレイクが元のシステムの正確な反映を含んでいることを保証する責任がありますが、データのビジネスへの影響を理解する必要はありません。たとえば、CRM内のデータを理解する責任は、営業やマーケティングなどの使用部門にあります。このアプローチにより、データに対する問題特化の解釈が可能となります。異なる部門はデータに対して異なるニーズと視点を持つ場合があります。

データウェアハウスの時代からテクノロジーランドスケープは大きく変化し、データレイクはより実現可能なオプションとなりました。まず、インターネットを介してデータを移動するためのツールの品質が向上し、サプライチェーンなどの分散システムからデータを統合することが容易になりました。さらに、インターネットインフラストラクチャが改善され、小規模な企業でも大量のデータを問題なく移動することが可能になりました。

さらに、クラウドコンピューティングプラットフォームにより、データレイクはよりアクセスしやすく、費用効果が高くなりました。これらのプラットフォームにより、迅速なイテレーションとオンデマンドの使用が可能となり、企業は重要な財務リスクを伴わずにデータレイクを試験することができます。

ビジネスインテリジェンスツールは、企業がデータから洞察を得るために有用でしたが、基本的には人間が利用することを想定しています。つまり、企業はデータを分析するために従業員に報酬を支払わなければならず、プロセスを自動化することはできません。これに対して、データレイクはより効率的で自動化されたデータ分析を可能にし、データ管理を改善しようとする多国籍企業にとって魅力的なオプションとなっています。

Vermorelは、従来のビジネスインテリジェンス(BI)ツールの制約、データレイクの利点、およびサプライチェーン最適化におけるデータ管理の将来について説明しています。

Vermorelは、BIを時代遅れの技術と位置付け、ある程度リアルタイムなデータ分析のみを提供するものと説明しています。この技術は30年前に革命的であり、企業がデータにアクセスし集約することを可能にしましたが、具体的な洞察や意思決定を提供するものではありません。これに対して、データレイクは大局を考えた一環として、さまざまなソースからの生データのストレージリポジトリとして機能します。その後、機械学習駆動のアプリケーションがこのデータを効率的に処理し、企業に影響を与える具体的な意思決定を生成することができます。

データレイクの導入は、企業のデータソースへのアクセスの複雑さに依存します。大規模な多国籍企業の場合、各国に独自のシステムがあるため、これは困難なプロセスとなる場合があります。ただし、洞察を得てデータに基づいた意思決定を行いたい場合、他に選択肢はありません。Vermorelは、小規模なテック企業は既にデータレイクを採用しており、さらにサブシステムのためにアプリケーションプログラミングインターフェース(API)を実装することでそれを超えています。これにより、クロスファンクショナルな最適化とスマートな意思決定が可能となります。

Vermorelは、データレイクがよりアクセスしやすく、手頃な価格になることで、大企業が今後5年間でますますデータレイクを採用すると予測しています。データレイクを導入しない企業は、既に導入している企業によって競争力を失うリスクがあります。ただし、データレイクはデータ管理の最終段階ではありません。Vermorelは、APIが将来の技術であり、企業がデータを読み取り、分析するだけでなく、それに基づいて行動することも可能にすると提案しています。APIを使用することで、エンドツーエンドの自動化が可能となり、自動的に意思決定を生成し、システム内で実装することができます。

Joannes Vermorelは、伝統的なBIツールを超えて、データレイクを採用し、サプライチェーンの最適化において効率的なデータに基づいた意思決定を行うことの重要性を強調しています。彼は、大企業がデータレイクとAPIを導入してプロセスを自動化し、よりスマートな意思決定を行う未来を想像しています。

フルトランスクリプト

Kieran Chandler: 今日のLokad TVでは、データレイクの概念についてもう少し詳しく話し合い、なぜ企業がそれにもっと関心を持つべきなのかを理解します。では、いつものように、まずデータレイクについて少し詳しく定義してみましょう。

Joannes Vermorel: データレイクは、通常、いくつかの特徴を持つデータベースであり、特に販売したもの、購入したもの、在庫レベルなどのトランザクションデータなど、会社のほぼすべてのコアデータを統合することを目的としています。データレイクの意図と最終的な使用目的は、アプリケーション向けであり、人間向けではありません。アイデアは、データレイクを導入することで、データ駆動型のドメイン固有のアプリケーションを持つことができ、データレイクから大量のデータを使用してマーケティング、サプライチェーン、人事などのスマートな意思決定を生成できるようにすることです。基本的には、すべてのデータを一括してスマートアプリに提供するための場所です。質問の後半については、データレイクはデータウェアハウスとデータマートのアイデアの発展として、長い歴史があります。

Kieran Chandler: データウェアハウスは、おそらく20年以上前に見られたトレンドでした。それでは、当時と現在の違いは何であり、主な違いは何ですか?

Joannes Vermorel: それは興味深いですね。現在のキーワードは「データレイク」と「データサイエンティスト」ですが、20年前は「データウェアハウス」と「データマイニング」であり、基本的には同じアイデアの進化を20年後に再訪したものです。変わったことはいくつかあります。まず、データレイクの技術が変わり、大量のデータを効率的に保存して提供することができるようになりました。そして、その間にクラウドコンピューティングが登場しました。つまり、現在では、テラバイトごとの料金でオンデマンドのデータレイクを完全に利用できます。これは、20年前には非常に高価なOracleのようなアプライアンスを購入してデータをすべて保存する必要があったときとはかなり異なります。現在では、クラウドコンピューティングプラットフォームを使用して、テラバイトごとの料金で非常に攻撃的な価格設定を行うことができます。

Kieran Chandler: それは技術的な側面ですね。哲学的な側面はどうですか?データレイクとデータウェアハウスの使用方法とマインドセットには何が変わったのでしょうか?

Joannes Vermorel: 確かにかなりの進化がありました。20年前に考えられていたデータウェアハウスの問題は、データを適切に整理するためにITに多くの負荷をかけることでした。データウェアハウスには、マーケティング、サプライチェーン、ファイナンスなど、各部門ごとに1つのデータマートを持つようなデータマートがありました。データマートは、データウェアハウス内のサブセットまたは生存手段のようなものでした。このアプローチの問題は、現在のデータレイクと似たような性質を持っていたため、IT側からの多くの組織と管理を必要としたことです。

Kieran Chandler: ビジネスインテリジェンスのために行われたことは、ある種の準備ができているという期待に非常に高いレベルがありました。つまり、顧客と販売と返品を結びつけるような、すでに準備された、整理されたものがあるということです。ですので、すべての結びつけられるものを結びつける必要があります。結びつけられるものを結びつけるためには、かなりの努力が必要です。技術的には、テーブルを結合し、適切な結合を行うことです。ですので、20年前は、多くのことを行うことが哲学であり、それはBIにおいて行われていることと非常に似ており、関係システムにおいて自然に行われていることとも非常に似ていました。このアプローチの問題は、必要な作業量が非常に膨大であるため、通常、これらのデータウェアハウスプロジェクトによって要求が押し寄せるため、IT部門が完全に圧倒されてしまうことです。その結果、頻繁に失敗してしまいます。ITが提供できなかったためです。しかし、今日はどうでしょうか?データレイクがあると、少し混乱することになるでしょうね。

Joannes Vermorel: データレイクの哲学的な面では、はるかにシンプルです。データレイクは、他のシステムに存在するすべてのデータをクリーンな抽出として受け取るだけのものです。ですので、CRMから来るデータとERPから来るデータとWebプラットフォームから来るデータを組み合わせることはしません。単にこれらのデータソースを抽出してデータレイクにダンプするだけです。そして、データレイクはテクノロジーのおかげでうまく動作し、大量のデータをダンプしても文句を言いません。クラウド上にいる場合、それに対して料金が発生します。

Kieran Chandler: 実際に使用しているデータが正しいデータであることをどのように知るのですか?すべてのデータをこのレイクにダンプしているので、どのデータが最新かを追跡する方法はありますか?

Joannes Vermorel: データレイクにおけるITの責任は、データレイクが元のシステムに存在するデータの正確な反映を含んでいることを確認することです。しかし、それにはビジネスの状況を理解する必要はありません。CRMには200のリレーショナルテーブルがあり、それらをデータレイクに反映させるだけです。これで終わりです。CRMで何が起こっているかを理解する必要はありません。

Kieran Chandler: では、CRM内で何が起こっているかを理解する必要があるのは誰ですか?

Joannes Vermorel: 実際のところ、データを活用したいのは各部門自体です。そして、データの解釈は非常に問題特異的です。たとえば、マーケティングの問題を解決したい場合とサプライチェーンの問題を解決したい場合では、セールスデータの見方が異なります。それが、20年前に多くのデータウェアハウスの取り組みが失敗した主な理由の1つでもありました。企業の統一モデルを作成することがビジョンでしたが、マーケティング部門は「私の領域のビジョンには完全に合っていない」と言い、サプライチェーンも同じことを言い、ファイナンスも同じことを言いました。それに対して、現在は、サプライチェーン、マーケティング、ファイナンス、人事など、各部門自体が主体となっています。

Kieran Chandler: つまり、彼らは今日は失敗しないということです。変わることがたくさんあります。特にサプライチェーンでは、分散システムを扱っているという特定の課題があります。分散とは何を意味するのでしょうか?つまり、複数の倉庫がある場合、それらは同じ場所にはありません。サプライヤーも倉庫と同じ場所にはありませんし、顧客も同じではありません。つまり、分散されたシステムを見ているわけですが、それらのデータを1つの場所、つまりデータレイクに集約したいということです。そのためには、技術的にはネットワークを介して行う必要があります。

Joannes Vermorel: 明らかに、20年前にはインターネットはすでに存在していました。しかし、インターネットを介してデータを移動するためのツールの品質は、現在のものとはまったく異なっていました。そして、ネットワーク自体の品質もまったく異なっていました。現在では、例えば、規模の大きくない企業、従業員数1,000人程度の企業であれば、1日に1ギガバイトのデータをインターネットを介して移動することは難しいことではありません。

つまり、たとえばパリでファイバーにアクセスする必要がありました。20年前のパリでは、ファイバーにアクセスできる場所は1か所しかありませんでした。それは証券取引所の近くの地域で、簡単にファイバーにアクセスできる1平方キロメートルの場所でした。他の場所では、自分自身でファイバーを敷設する必要がありました。したがって、メガ企業はそれができましたが、従業員数1,000人のような規模の大きなビジネスはできませんでした。これは変わりました。今では非常に簡単です。ツールの品質が向上し、数ギガバイトをあまり問題なく移動することができます。

そして、オンデマンドシステムがあること、これらのデータレイクがクラウドコンピューティングプラットフォームの規模の経済のおかげで非常に安価であること、そしてオンデマンドであることは、試行錯誤ができるということです。データレイクを設定しようとして完全に失敗した場合でも、「削除」と言ってやり直すことができ、使用した分だけ支払うだけです。つまり、迅速に反復することができます。20年前のように、非常に高価なアプライアンスを購入することに自分自身をコミットしなければならなかったわけではありませんでしたが、それが大きな問題でした。

Kieran Chandler: そして、おそらく財務部門はまだ最も高速なインターネットを持っていると思います。既にデータをしっかりと把握し、ビジネスインテリジェンスツールを使用して理解している大手多国籍企業に対して、データレイクに興味を持つべき理由は何だと思いますか?

Joannes Vermorel: ビジネスインテリジェンスの問題は、根本的には人間向けに設計されているということです。それは良いことですが、それはつまり、人々がそれらの数字を見るたびに、何か他のことをする代わりに従業員に数字を見るために給与を支払っているということです。非常に簡単に何百万もの数字を生成することができ、それを処理するために何千時間もの人時が必要となり、非常に高価です。

ですので、問題は、私が見るビジネスインテリジェンスは、比較的リアルタイムな方法でデータの基本的な分析を行うための技術の一種であるということです。それは非常に興味深いものでした。なぜなら、30年前にさかのぼると、Business Objectsが設立された時代、彼らはその会社でした。それ以外の場合、同期化されたクエリを実行してこの情報を取得することはできませんでした。例えば、1日あたりの製品ごとの販売数量などです。それはビジネスインテリジェンスでは不可能でした。突然、このキューブを持つことができ、ハイパーキューブを持つことさえでき、さらには非常に素晴らしいものにすることさえできました。しかし、最終的には、あなたはただデータの非常に基本的な集計を見ているだけであり、この集計は意思決定ではありません。価格を上げるべきか下げるべきか、もっと生産すべきか少なくすべきか、1000個のユニットの生産バッチのうち100個のユニットを早期配送のために飛行機に積むべきかを教えてくれません。基本的には、数量的な洞察を得ることに関してです。ですので、BIとデータレイクの大きな違いは、データレイクが基本的にはより大きな全体像の一部であるという洞察を持っていることです。データレイクの前に座っていると、通常はデータレイクから超効率的に提供されるデータを機械学習駆動のアプリケーションが処理し、自動的に意思決定を生成します。そして、これらの意思決定は、会社に物理的な影響を与え、具体的な価値を創出します。

Kieran Chandler: もし、ビジネスインテリジェンスツールには制限があるかもしれないと同意するなら、データレイクの実装については、実際にはどれくらい簡単なのでしょうか?単にすべてのデータをクラウドにアップロードして、それで完了ですか?

Joannes Vermorel: データレイクを実装する複雑さは、データソースにアクセスする複雑さに比例します。つまり、それらに何もスマートなことをせずに、文字通りそれらにアクセスすることです。ですので、大規模な多国籍企業の場合、会社ごとに異なるシステムを持つ場合、どうでしょう?すべての国からデータをデータレイクに持ってくるために、異なるタイプのデータレイクを用意する必要があります。しかし、それは残念なことですが、他に選択肢はありません。なぜなら、唯一の選択肢は、国々と直接統合することであり、それはさらにコストがかかります。たとえば、マーケティングとサプライチェーンの2つの部門が販売データにアクセスしたい場合、この統合に2回支払うことになります。データレイクのアイデアは、一度やればそれで済むということです。そして、データレイクにあるため、会社の他の部門がデータにアクセスするのに非常に適しています。複雑さは完全にあなたが持っているものに依存します。しかし、また、最初の引用に戻ると、データがなければ、あなたはただの意見を持つ人間です。どんな種類の測定を行いたい場合でも、どこからでもこのデータを取得するための代替手段はありません。

Kieran Chandler: では、データレイクには多くの利点があるとしても、それは比較的単純なものであり、結局のところ、ただの大量のデータの受け皿ですが、なぜ現在の産業であまり採用されていないのでしょうか?

Joannes Vermorel: 実際には、非常に小さなテックドリブンの企業はかなり前からデータレイクを採用しており、それ以上に、会社のAPI化と言えるものを行っています。つまり、すべてのサブシステムにAPI(アプリケーションプログラミングインターフェース)を設置することです。これはデータレイクの次のステップです。例えば、スマートなeコマースでは、すでにデータを統合しています。そして、それは。

Kieran Chandler: 今日は、ウェブサイトから来るもの、検索エンジンの商品マーケティングのために支払うもの、Google AdWordsなど、クロスオーダーなどを見る必要があります。彼らは直接マーケティングの行動やその他のことについてスマートな決定をすることができます。マイクロソフトやGoogleのような純粋なテックドリブンの企業に関しても、同様のことを行ってきました。Googleはわずか20年しか存在していませんが、他のテック企業もかなり長い間それを行ってきました。だから、彼らがそれを数十年もやってきたなら、未来はどうなるのでしょうか?次はどうなるのでしょうか?データの海に飛び込むことになるのでしょうか?

Joannes Vermorel: はい、私が次に見るのは、サプライチェーンに非常に重点を置いた企業が、データレイクが非常にアクセスしやすく、非常に安価になったことで、これらのデータレイクを導入することです。私たちの顧客の中には、1年前にデータレイクを持っていなかった多くの顧客が、今ではデータレイクを持っています。データレイクに関しては、過去2年間で転換点があったと言えます。だから、おそらく次の5年以内に、ほとんどの大企業が自社のデータレイクを実装していることでしょう。そうでなければ、彼らはデータレイクを実装しているすべての大企業に完全に競争力を失ってしまいます。

ただし、データレイクには制限もあります。特に、データレイクは他のサブシステムに存在するすべてのデータの読み取り専用コピーのようなものです。だからこそ、私が言っていたのは、次のステップとしてすべてのサブシステムがAPI(アプリケーションプログラミングインターフェース)を公開することです。これはAmazonが行ったことです。これらのAPIを使用すると、単なる読み取り専用ではなく、アクションも実行できます。アイデアは、すべてのデータを統合し、読み取り、解析し、すべての決定を行い、計算されたこれらの決定をどうするかです。その答えは、Excel スプレッドシートを適切な部門に送信して、購買などの決定を実装することです。ただし、APIがあれば、このAPIを直接呼び出して、この製品のこの数量の発注をこのサプライヤーから行い、指定された輸送方法などを行うことができます。つまり、APIがあれば、自動的に終端まで自動化された処理を行うことができます。つまり、決定を自動的に生成するだけでなく、これらの決定を物理的に自動的に実装することができます。なぜなら、それがシステムの1つに再注入されるからです。

Kieran Chandler: では、ここで終わりにしますが、今日はお時間をいただきありがとうございました。それでは、今週は以上です。ご視聴いただきありがとうございました。また次回お会いしましょう。それでは、さようなら。