00:00:08 Озера данных и их важность.
00:00:39 Определение озер данных и их роль в бизнесе.
00:02:13 Эволюция озер данных от хранилищ данных.
00:04:15 Изменение подхода и философии в отношении озер данных.
00:07:43 Обеспечение точности данных в озерах данных.
00:10:06 Как технологии улучшили хранилища данных с 20 лет назад.
00:12:14 Преимущества систем по требованию в озерах данных.
00:13:31 Ограничения бизнес-аналитики и ее устаревший подход.
00:15:22 Сравнение бизнес-аналитики с озерами данных и их способностью влиять на принятие решений.
00:16:49 Сложность внедрения: доступ к источникам данных и влияние на международные компании.
00:18:32 Принятие озер данных: преимущества для технологически ориентированных компаний и их использование в кросс-функциональной оптимизации.
00:20:08 Будущее озер данных: увеличение доступности и внедрение, следующие шаги с помощью API.
00:22:45 Заключительные замечания и выводы.

Резюме

В этом интервью Киран Чандлер и Жоанн Верморель, основатель Lokad, обсуждают озера данных и их роль в оптимизации цепи поставок. Озера данных - это централизованные хранилища необработанных данных, которые позволяют приложениям на основе машинного обучения принимать умные решения. Верморель подчеркивает ограничения традиционных инструментов бизнес-аналитики, подчеркивая, что озера данных предлагают более эффективный и автоматизированный анализ данных. Он считает, что технологически ориентированные компании уже приняли озера данных и перешли к внедрению интерфейсов программирования приложений (API) для своих подсистем, что позволяет автоматизировать процессы от начала до конца. Верморель предсказывает, что крупные компании в ближайшие пять лет будут все больше принимать озера данных и API для принятия более обоснованных решений на основе данных.

Расширенное резюме

В этом интервью Киран Чандлер обсуждает озера данных с Жоаннесом Верморелем, основателем компании Lokad, специализирующейся на оптимизации цепи поставок. Они начинают с определения озер данных и их происхождения. Озера данных - это тип базы данных, разработанный для объединения всех основных транзакционных данных компании, таких как продажи, закупки и уровни запасов. Эти базы данных предназначены для использования приложениями, а не людьми, что позволяет приложениям, ориентированным на данные, принимать умные решения в области маркетинга, цепи поставок, кадрового делопроизводства и других областей.

Data lakes имеют историю, которая уходит корнями в хранилища данных и хранилища данных, тренды которых были актуальны более 20 лет назад. Верморель объясняет, что основное отличие между data lakes и хранилищами данных заключается в технологии и философии, лежащей в их основе. Data lakes более эффективны в хранении и обработке больших объемов данных, в то время как облачные вычисления сделали их более доступными и доступными по цене.

Двадцать лет назад компании должны были приобретать дорогостоящее оборудование, такое как от Oracle, чтобы разместить свое хранилище данных. Теперь, с платформами облачных вычислений, компании могут иметь data lakes с оплатой по мере использования, которые масштабируются и имеют агрессивную цену. Эта гибкость позволяет бизнесу легко адаптировать свой подход к хранению данных при необходимости.

Философия data lakes также изменилась по сравнению с хранилищами данных. В старом подходе на IT-отделы ложилось много давления, чтобы правильно организовывать и управлять данными. Хранилища данных были разработаны с помощью хранилищ данных для разных подразделений, таких как маркетинг, цепочка поставок и финансы. Это создавало проблемы в управлении и доступе к данным в разных отделах.

Data lakes стремятся объединить данные более централизованным и доступным способом, что упрощает обработку приложений и принятие умных решений. Это изменение в мышлении позволило добиться большей эффективности и гибкости в управлении и использовании данных.

Двадцать лет назад хранилища данных были популярным методом управления и организации данных. Этот подход требовал высокого уровня технических усилий для связи различных таблиц данных и требовал единой модели данных компании. Однако этот метод часто приводил к перегрузке IT-отделов из-за огромного объема работы и приводил к множеству неудачных проектов.

Сегодня data lakes стали более эффективным и эффективным подходом к управлению данными. Data lakes служат хранилищем для необработанных данных, извлеченных из различных систем, таких как CRM, ERP и веб-платформы. Вместо попыток организовать или объединить данные они просто помещаются в data lake, который может обрабатывать большие объемы данных без проблем.

Одной из проблем использования data lakes является обеспечение точности и актуальности данных. За точность данных в data lake отвечают IT-отделы, но им не нужно понимать бизнес-последствия данных. Ответственность за понимание данных в CRM, например, лежит на отделах, которые их используют, таких как продажи или маркетинг. Такой подход позволяет более точно интерпретировать данные, так как разные подразделения могут иметь разные потребности и взгляды на данные.

Технологический ландшафт существенно изменился с времен хранилищ данных, что делает data lakes более жизнеспособным вариантом. Во-первых, качество инструментов для перемещения данных через интернет улучшилось, что упрощает объединение данных из распределенных систем, таких как цепочки поставок. Кроме того, интернет-инфраструктура улучшилась, что позволяет даже малым компаниям перемещать большие объемы данных без труда.

Кроме того, платформы облачных вычислений сделали data lakes более доступными и экономически эффективными. Эти платформы позволяют быструю итерацию и использование по требованию, позволяя компаниям экспериментировать с data lakes без значительных финансовых рисков.

В то время как инструменты бизнес-аналитики были полезны для компаний для получения информации из их данных, они в основном предназначены для потребления человеком. Это означает, что компании должны платить сотрудникам за анализ данных вместо автоматизации процесса. Data lakes, в свою очередь, позволяют более эффективный и автоматизированный анализ данных, что делает их привлекательным вариантом для международных компаний, стремящихся улучшить свое управление данными.

Верморель объясняет ограничения традиционных инструментов бизнес-аналитики (BI), преимущества data lakes и будущее управления данными в оптимизации цепи поставок.

Верморель описывает BI как устаревшую технологию, которая предоставляет только базовый анализ данных в относительно реальном времени. Эта технология была революционной 30 лет назад, позволяя компаниям получать доступ и агрегировать свои данные, но она не предлагает действенных идей или решений. В отличие от этого, data lakes являются частью более крупной картины, служа хранилищем для необработанных данных из различных источников. Приложения, основанные на машинном обучении, могут эффективно обрабатывать эти данные для генерации действенных решений, которые влияют на компанию и создают осязаемую ценность.

Реализация озера данных зависит от сложности доступа к источникам данных компании. Для крупных международных компаний это может быть сложным процессом, поскольку каждая страна может иметь свою собственную систему. Однако нет альтернативы, если компания хочет получить информацию и принимать решения на основе данных. Верморель считает, что малые компании, ориентированные на технологии, уже приняли озера данных и даже перешли дальше, реализовав программные интерфейсы приложений (API) для своих подсистем. Это позволяет осуществлять кросс-функциональную оптимизацию и принимать умные решения.

Верморель считает, что в ближайшие пять лет крупные компании все больше будут принимать озера данных, поскольку они становятся более доступными и доступными по цене. Компании, не реализующие озера данных, рискуют быть вытесненными теми, кто уже это сделал. Однако озера данных не являются последним этапом управления данными. Верморель предлагает, что будущее за API, позволяющими компаниям не только читать и анализировать данные, но и действовать на основе них. API могут обеспечить полностью автоматизированный процесс принятия решений и их реализацию в системе.

Жоанн Верморель подчеркивает важность отказа от традиционных инструментов бизнес-аналитики и принятия озер данных для более эффективного принятия решений на основе данных в оптимизации цепочки поставок. Он предвидит будущее, в котором крупные компании реализуют озера данных и API для автоматизации своих процессов и принятия более умных решений.

Полный текст

Киран Чандлер: Сегодня на Lokad TV мы поговорим немного больше о концепции озер данных и поймем, почему компании должны проявлять больше интереса к ним. Итак, Жоанн, как всегда, может быть, мы просто начнем с определения того, что такое озера данных и откуда они появились.

Жоанн Верморель: Озеро данных обычно является своего рода базой данных с некоторыми особенностями, которая предназначена для консолидации практически всех основных данных вашей компании, особенно всех транзакционных данных, таких как то, что вы продали, что вы купили, ваш уровень запасов и так далее. Цель и конечное использование озера данных заключается в том, чтобы оно было предназначено для приложений, а не для людей. Идея заключается в том, чтобы создать озеро данных, чтобы у вас были приложения, ориентированные на конкретные области, которые очень ориентированы на данные и могут использовать огромное количество данных из озера данных для принятия умных решений в области маркетинга, цепочки поставок, кадрового делопроизводства и т. д. В основном, это место, где вы можете консолидировать все данные для их предоставления пакетами для умных приложений. Что касается второй части вашего вопроса, озера данных имеют долгую историю, уходящую корнями к идеям хранения данных и хранилищ данных.

Киран Чандлер: Хранилища данных были тенденцией, которую мы видели, наверное, более 20 лет назад. Итак, что изменилось с тех пор и каковы ключевые отличия?

Жоанн Верморель: Это интересно. Сейчас модными словами являются “озеро данных” и “дата-сайентист”, в то время как двадцать лет назад это были “хранилище данных” и “дата-майнинг”, которые в основном представляют собой эволюцию одних и тех же идей, просто пересмотренных через двадцать лет. Что изменилось, так это несколько вещей. Во-первых, технология озер данных изменилась, поэтому они стали гораздо более эффективными в хранении и предоставлении больших объемов данных. Затем у нас появилось облачное вычисление, что означает, что сейчас у вас может быть полностью по требованию озеро данных с оплатой за использование по терабайту. Это совершенно иное по сравнению с 20 лет назад, когда вам приходилось покупать очень дорогое устройство, например, от Oracle, чтобы хранить все свои данные. В настоящее время с облачными платформами вы можете иметь терабайты с оплатой за использование и быть чрезвычайно агрессивными в терминах ценообразования.

Киран Чандлер: Это, так сказать, техническая сторона вопроса. Как насчет философии? Что изменилось в мышлении и в том, как мы используем озера данных по сравнению с хранилищами данных?

Жоанн Верморель: Действительно, произошло довольно много изменений. Проблема с хранилищами данных так, как они были задуманы 20 лет назад, заключалась в том, что они оказывали большое давление на ИТ-отдел для правильной организации данных. У вас даже было хранилище данных, которое должно было организовывать хранилища данных, с одним хранилищем данных, предназначенным для каждого вида подразделения, таких как маркетинг, цепочка поставок, финансы и так далее. Хранилища данных были подобными подмножествами или подсистемами в вашем хранилище данных. Проблема этого подхода, который был в некотором роде похож на озера данных, которые у нас есть сегодня, заключалась в том, что он требовал много организации и управления со стороны ИТ-отдела.

Кирен Чандлер: Что было сделано для бизнес-аналитики, так это то, что были очень высокие ожидания относительно того, что уже должно было быть подготовлено, организовано, знаете ли, с тем, что вы присоединили, знаете ли, клиентов к продажам к возвратам. Так что, знаете, вы склеиваете вещи вместе. Все вещи, которые идут вместе, это довольно большое усилие на самом деле. Технически, это о том, чтобы объединить таблицы, это соединить все эти таблицы вместе с правильным соединением Exeter. Так что, 20 лет назад, философия заключалась в том, чтобы делать много, и это было довольно похоже на то, что делалось в области бизнес-аналитики и довольно похоже на то, что делалось естественным образом для реляционных систем. Проблема этого подхода заключалась в том, что количество работы, которое он требует, абсолютно огромно, и поэтому вы обычно имеете отделы ИТ, которые просто полностью перегружены количеством требований, которые падают на них из-за этих проектов по созданию хранилищ данных. В результате часто они терпели неудачу, потому что, ну, просто ИТ не смогли выполнить. Но что насчет сегодняшнего дня? Я имею в виду, наверняка сейчас все станет немного беспорядочным, учитывая, что у вас есть эти озера данных.

Жоанн Верморель: Озера данных, с точки зрения философии, намного более легковесны, потому что философия заключается в том, что озеро данных является всего лишь приемником для чистого извлечения, но чистого извлечения всех данных, которые находятся в других системах. Так что вы не пытаетесь делать какие-либо изысканные комбинации данных, которые поступают из CRM, плюс данные, которые поступают из ERP, плюс данные, которые поступают с вашей веб-платформы. Вы просто извлекаете эти источники данных и сбрасываете их в озеро данных. И озеро данных хорошо себя ведет благодаря технологии, что означает, что вы можете сбросить огромное количество данных, и оно справится с нагрузкой без жалоб. Если вы находитесь в облаке, вам за это будет начислена плата.

Кирен Чандлер: Как вы знаете, что используемые вами данные являются хорошими данными? Я имею в виду, как вы отслеживаете, какие данные актуальны? Я имею в виду, если вы просто сбрасываете все это в это озеро, как вы отслеживаете?

Жоанн Верморель: Обязанность ИТ с озером данных заключается в том, чтобы убедиться, что озеро данных содержит точное отражение того, что находится в исходных системах. Но для этого не требуется понимания того, что происходит в бизнесе. У вас просто есть CRM, в котором есть 200 таблиц, реляционных таблиц, и вы просто отражаете их в озере данных, и все. Вам не нужно понимать, что происходит в CRM.

Кирен Чандлер: Итак, кто должен понимать, что происходит в CRM?

Жоанн Верморель: Оказывается, что это сами отделы, которые хотят использовать данные, и проблема заключается в том, что интерпретация данных является очень специфичной для каждой проблемы. Например, способ, которым вы смотрите на данные о продажах, отличается в зависимости от того, хотите ли вы решить проблему маркетинга или проблему цепочки поставок. Вот почему, и это также была одна из основных причин, почему двадцать лет назад многие из этих инициатив по созданию хранилищ данных потерпели неудачу. Потому что видение заключалось в том, чтобы создать унифицированную модель компании, но потом оказалось, что это было крайне разочаровывающе для каждого отдела, потому что маркетинг говорил: “О, это не совсем соответствует видению, которое у меня есть в моей области”, и цепочка поставок говорила то же самое, и финансы говорили то же самое. Так что, в отличие от этого, идея заключается в том, что сейчас это больше похоже на сами отделы, такие как цепочка поставок, маркетинг, финансы, человеческие ресурсы.

Кирен Чандлер: Это означает, что они не потерпят неудачу сегодня. Я имею в виду, опять же, многое меняется. Особая проблема, особенно в цепочке поставок, заключается в том, что мы, по сути, имеем дело с распределенными системами. Что я имею в виду под распределенными? Я имею в виду, что не все находится в одном месте, потому что, по определению, если у вас есть несколько складов, они не находятся в одном месте. Ваши поставщики не находятся в одном месте с вашими складами, и ваши клиенты тоже. Так что, по определению, мы смотрим на системы, которые разбросаны, и вы хотите объединить все эти данные в одном месте, которое является вашим озером данных, что технически должно происходить через сеть.

Joannes Vermorel: Очевидно, двадцать лет назад интернет уже был изобретен. Он существовал, но качество инструментов для передачи данных через интернет было совершенно иным по сравнению с тем, что у нас есть сегодня. И сама сеть, качество самой сети, тоже было совершенно иным. В настоящее время, если вы хотите передвигать, скажем, для небольшой компании, компании с 1000 сотрудниками, то вы достаточно крупны, но не являетесь мега-корпорацией. Двадцать лет назад, если вы хотели передвигать один гигабайт данных в день через интернет, это было сложно.

Я имею в виду, вам нужно было иметь доступ к оптоволокну, например, в Париже. Двадцать лет назад в Париже было только одно место, где вы могли получить доступ к оптоволокну, и это была территория около фондовой биржи. Там был квадратный километр, где вы могли легко получить доступ к оптоволокну. В любом другом месте вам приходилось проложить свое собственное оптоволокно, если вы хотели его получить. Таким образом, мега-корпорации могли это сделать, но даже крупный бизнес, знаете ли, с 1000 сотрудниками, не мог. Это изменилось. Теперь это очень просто. Инструменты лучше, и вы можете передвигать буквально гигабайты без особых проблем.

И то, что у вас есть системы по требованию, эти озера данных не только очень дешевы благодаря экономии масштаба этих облачных вычислительных платформ, но и то, что они доступны по требованию, означает, что вы можете делать пробные запуски и исправлять ошибки. Если вы просто попытаетесь настроить озеро данных и это окажется полным провалом, вы можете просто сказать “удалить” и повторить попытку, и вы платите только за то, что используете. Таким образом, вы можете быстро итерироваться. Это не так, как двадцать лет назад, когда вам приходилось обязывать себя покупать очень дорогой аппарат, и если вы ошиблись, это была большая проблема.

Kieran Chandler: И думаю, что в финансовых сферах, наверное, до сих пор самый быстрый интернет. Что бы вы сказали крупной международной компании, которая уже хорошо разбирается в своих данных, которая уже использует инструменты бизнес-аналитики? Я имею в виду, почему им следует быть заинтересованными в озере данных?

Joannes Vermorel: Проблема с бизнес-аналитикой заключается в том, что, в основном, она предназначена для людей. Это хорошо, но это означает, что каждую минуту, когда люди будут смотреть на эти цифры, это будет минута, когда вы фактически платите сотруднику за то, чтобы он смотрел на цифры, а не делал что-то другое. Вы можете очень легко получить миллионы чисел, которые потребуют тысячи часов человеко-часов для обработки, что является чрезвычайно дорогостоящим.

Таким образом, проблема заключается в том, что бизнес-аналитика, так, как я ее вижу, является относительно устаревшим типом технологии. Это был способ получить базовый анализ ваших данных таким образом, чтобы он был относительно в режиме реального времени. Это было очень интересно, потому что, если мы вернемся 30 лет назад, когда была основана компания Business Objects, они были компанией, которая. Иначе вы просто не могли знать, что вы не можете выполнять синхронизированные запросы, которые дадут вам эту информацию: сколько единиц продается в день, на продукт и так далее. Это было невозможно с помощью бизнес-аналитики. Внезапно стало возможным иметь этот куб, вы можете даже иметь гиперкубы, и еще лучше, вы можете иметь его очень, очень красивым. Но в конце концов вы просто смотрите на супер базовую агрегацию ваших данных, и эта агрегация не является решением. Она не говорит вам, следует ли повысить или понизить цену, она не говорит вам, следует ли производить больше или меньше, она не говорит вам, если из партии из 1000 единиц производства вы должны положить 100 единиц в самолет для более быстрой доставки. Таким образом, в основном, это просто получение количественных идей. Так что большая разница между, знаете ли, бизнес-аналитикой и озером данных заключается в том, что озеро данных поставляется с пониманием того, что оно фундаментально является зубцом в большой картине, где, сидя перед озером данных, у вас обычно будет приложение, управляемое машинным обучением, которое будет обрабатывать данные, обслуживаемые очень эффективно озером данных, чтобы автоматически принимать решения. И эти решения - это то, что имеет физическое влияние на вашу компанию и создает осязаемую ценность.

Кирен Чандлер: Хорошо, если мы согласимся, что, возможно, у инструментов бизнес-аналитики есть свои ограничения, и если речь идет о внедрении озера данных, насколько это на самом деле просто? Это просто вопрос загрузки всех этих данных в облако, и тогда вы готовы к работе?

Жоанн Верморель: Сложность внедрения озера данных строго пропорциональна сложности доступа к источникам данных, вы знаете, буквально к их доступу, не делая ничего умного с ними. Это означает, что для крупных многонациональных компаний, если у вас есть в каждой стране своя собственная система, то, догадайтесь, у вас будет столько же типов озер данных, сколько стран, чтобы вы могли привести данные из каждой страны в озеро данных. Но, я имею в виду, к сожалению, у вас нет альтернативы, потому что единственная альтернатива - это иметь прямую интеграцию с самими странами, и это еще более затратно, потому что если у вас есть два подразделения, скажем, маркетинг и цепочка поставок, которые хотят получить доступ к данным о продажах, вы будете платить за эту интеграцию дважды. Идея озера данных заключается в том, что вы делаете это один раз, а затем данные находятся в озере данных, что делает их очень удобными для доступа остальной части компании. Сложность полностью зависит от того, что у вас есть. Но также, снова вернемся к вашей первоначальной цитате, если у вас нет данных, вы просто человек с мнением. Что ж, у вас нет альтернативы, чтобы получить эти данные откуда-либо, если вы хотите провести какие-либо измерения.

Кирен Чандлер: Давайте сведем все вместе. Если у озер данных есть так много плюсов и оно кажется довольно простым, это просто большой резервуар данных в конечном итоге, почему это не принимается промышленностью в настоящее время?

Жоанн Верморель: Оказывается, что очень маленькие технологически ориентированные компании приняли озера данных довольно давно, и они даже пошли дальше с API-фикацией своей компании, что означает, что вы будете ставить API (интерфейс прикладного программирования) на каждую подсистему, что является следующим шагом, который происходит после озера данных. Так что, я бы сказал, умные электронные коммерции, например, они уже сконсолидировали свои данные, и так далее.

Кирен Чандлер: Вам нужно посмотреть и на то, что приходит с веб-сайта, то, за что вы платите за продвижение в поисковых системах, знаете, Google AdWords и так далее, и на кросс-заказы. Они способны принимать умные решения в отношении прямых маркетинговых действий и тому подобного. В технологически ориентированных компаниях, таких как Microsoft или Google, они также делают подобные вещи, знаете, буквально десятилетиями. Я имею в виду, Google существует всего два десятилетия, но другие компании, такие как все технологические компании, делают это уже довольно давно. Итак, если они делают это десятилетиями, что будет дальше? Мы будем время от времени погружаться в океан данных?

Жоанн Верморель: Да, я имею в виду, что я вижу следующим шагом то, что компании, которые очень ориентированы на цепочку поставок, теперь, когда озера данных стали очень доступными и дешевыми, будут внедрять эти озера данных. Мы видим среди наших клиентов, что многие клиенты, у которых год назад не было озера данных, теперь имеют озеро данных. Я бы сказал, что в последние два года произошел переломный момент в вопросах озера данных. Так что я подозреваю, что большинство крупных компаний в течение, вероятно, следующих пяти лет реально внедрят свои собственные озера данных, потому что иначе они будут полностью отстранены от всех крупных компаний, которые сделают это за них.

Но есть и ограничения, в частности, озеро данных - это просто копия всех данных, которые находятся в других подсистемах. Вот почему я говорил, что следующим шагом является предоставление API всем подсистемам, интерфейсам прикладного программирования, потому что это то, что сделала Amazon. Эти API позволяют вам делать еще больше, вдруг вы уже не только для чтения, вы также можете действовать. Идея заключается в том, что вы можете объединить все данные, прочитать, обработать, принять все эти решения, и что мы делаем с этими вычисленными решениями? Ответ заключается в том, что вы можете отправить электронную таблицу Excel spreadsheet в правильное подразделение, чтобы они реализовали ваши решения, такие как закупки. Но если есть API, вы можете напрямую вызвать это API, чтобы просто внедрить заказ на покупку для этого продукта, этого количества, от этого поставщика, с указанием этого транспорта и т.д. Таким образом, если у вас есть API, у вас могут быть автоматизированные процессы от начала до конца, где вы не только автоматически генерируете решение, но затем автоматически физически реализуете эти решения, потому что они вновь внедряются в одну из систем.

Кирен Чандлер: Хорошо, нам придется остановиться здесь, но спасибо за ваше время сегодня. Вот и все на этой неделе. Большое спасибо за внимание, и мы вернемся в следующий раз. Пока пока.