00:00:08 Data lakes y su importancia.
00:00:39 Definición de data lakes y su propósito en los negocios.
00:02:13 Evolución de los data lakes a partir de los data warehouses.
00:04:15 Cambio de mentalidad y filosofía en torno a los data lakes.
00:07:43 Garantizar la precisión de los datos en los data lakes.
00:10:06 Cómo la tecnología ha mejorado el almacenamiento de datos desde hace 20 años.
00:12:14 Los beneficios de los sistemas bajo demanda en los data lakes.
00:13:31 Limitaciones de la inteligencia de negocios y su enfoque obsoleto.
00:15:22 Comparación entre la inteligencia de negocios y los data lakes y su capacidad para informar la toma de decisiones.
00:16:49 Complejidad de implementación: Acceso a fuentes de datos y el impacto en empresas multinacionales.
00:18:32 Adopción de los data lakes: Beneficios para empresas impulsadas por la tecnología y su uso en la optimización interfuncional.
00:20:08 El futuro de los data lakes: Aumento de la accesibilidad e implementación, próximos pasos con las APIs.
00:22:45 Conclusiones y cierre.

Resumen

En esta entrevista, Kieran Chandler y Joannes Vermorel, fundador de Lokad, discuten los data lakes y su papel en la optimización de la supply chain. Los data lakes son repositorios centralizados de datos en bruto que permiten a las aplicaciones impulsadas por el aprendizaje automático tomar decisiones inteligentes. Vermorel destaca las limitaciones de las herramientas tradicionales de inteligencia de negocios, enfatizando que los data lakes ofrecen un análisis de datos más eficiente y automatizado. Él cree que las empresas impulsadas por la tecnología ya han adoptado los data lakes y se han movido hacia la implementación de interfaces de programación de aplicaciones (APIs) para sus subsistemas, lo que permite la automatización de extremo a extremo. Vermorel predice que las grandes empresas adoptarán cada vez más los data lakes y las APIs en los próximos cinco años para una mejor toma de decisiones basada en datos.

Resumen Extendido

En esta entrevista, Kieran Chandler discute los data lakes con Joannes Vermorel, el fundador de Lokad, una empresa de software especializada en la optimización de la supply chain. Comienzan definiendo los data lakes y sus orígenes. Los data lakes son un tipo de base de datos diseñada para consolidar todos los datos transaccionales principales de una empresa, como ventas, compras y niveles de stock. Estas bases de datos están destinadas a ser utilizadas por aplicaciones, en lugar de por humanos, lo que permite que las aplicaciones específicas del dominio tomen decisiones inteligentes para marketing, supply chain, recursos humanos y más.

Los data lakes tienen una historia que se remonta a los data warehouses y los data marts, tendencias de hace más de 20 años. Vermorel explica que la principal diferencia entre los data lakes y los almacenes de datos radica en la tecnología y la filosofía detrás de ellos. Los data lakes son más eficientes para almacenar y servir grandes cantidades de datos, mientras que la computación en la nube los ha vuelto más accesibles y asequibles.

Hace veinte años, una empresa necesitaría comprar un aparato costoso, como uno de Oracle, para alojar su data warehouse. Ahora, con las plataformas de computación en la nube, las empresas pueden tener data lakes de pago por uso que son escalables y tienen precios competitivos. Esta flexibilidad permite a las empresas ajustar fácilmente su enfoque de almacenamiento de datos si es necesario.

La filosofía detrás de los data lakes también ha evolucionado en comparación con los data warehouses. El enfoque anterior ponía mucha presión en los departamentos de TI para organizar y gestionar correctamente los datos. Los data warehouses estaban diseñados con data marts para diferentes divisiones, como marketing, supply chain y finanzas. Esto creaba desafíos en la gestión y el acceso a los datos en diferentes departamentos.

Los data lakes tienen como objetivo consolidar los datos de una manera más centralizada y accesible, lo que facilita que las aplicaciones procesen y tomen decisiones inteligentes. Este cambio de mentalidad ha permitido una mayor eficiencia y flexibilidad en la gestión y el uso de datos.

Hace veinte años, el data warehousing era un método popular para gestionar y organizar datos. Este enfoque implicaba un alto nivel de esfuerzo técnico para conectar varias tablas de datos y requería un modelo unificado de los datos de la empresa. Sin embargo, este método a menudo llevaba a que los departamentos de TI se vieran abrumados por la cantidad de trabajo y resultaba en muchos proyectos fallidos.

Hoy en día, los data lakes han surgido como un enfoque más ágil y eficiente para la gestión de datos. Los data lakes actúan como un repositorio de datos sin procesar extraídos de varios sistemas como CRM, ERP y plataformas web. En lugar de intentar organizar o combinar los datos, simplemente se depositan en el data lake, que puede manejar grandes cantidades de datos sin problemas.

Uno de los desafíos en el uso de los data lakes es asegurar que los datos sean precisos y estén actualizados. Los departamentos de TI son responsables de garantizar que el data lake contenga un reflejo preciso de los sistemas originales, pero no necesitan comprender las implicaciones comerciales de los datos. La responsabilidad de comprender los datos dentro del CRM, por ejemplo, recae en las divisiones que lo utilizan, como ventas o marketing. Este enfoque permite una interpretación más específica del problema de los datos, ya que diferentes divisiones pueden tener diferentes necesidades y perspectivas sobre los datos.

El panorama tecnológico ha cambiado significativamente desde los días de los data warehouses, lo que hace que los data lakes sean una opción más viable. Por un lado, la calidad de las herramientas para mover datos a través de Internet ha mejorado, lo que facilita la consolidación de datos de sistemas distribuidos, como las cadenas de suministro. Además, la infraestructura de Internet ha mejorado, lo que permite que incluso las empresas más pequeñas muevan grandes cantidades de datos sin dificultad.

Además, las plataformas de computación en la nube han hecho que los data lakes sean más accesibles y rentables. Estas plataformas permiten una iteración rápida y un uso bajo demanda, lo que permite a las empresas experimentar con data lakes sin un riesgo financiero significativo.

Si bien las herramientas de inteligencia empresarial han sido útiles para que las empresas obtengan información de sus datos, están destinadas fundamentalmente al consumo humano. Esto significa que las empresas deben pagar a los empleados para analizar los datos en lugar de automatizar el proceso. Los data lakes, en cambio, permiten un análisis de datos más eficiente y automatizado, lo que los convierte en una opción atractiva para las empresas multinacionales que buscan mejorar su gestión de datos.

Vermorel explica las limitaciones de las herramientas tradicionales de inteligencia empresarial (BI), las ventajas de los data lakes y el futuro de la gestión de datos en la optimización de la cadena de suministro.

Vermorel describe la BI como una tecnología obsoleta que proporciona solo un análisis básico de datos de manera algo en tiempo real. Esta tecnología fue revolucionaria hace 30 años, permitiendo a las empresas acceder y agregar sus datos, pero no ofrece información o decisiones accionables. En cambio, los data lakes forman parte de una imagen más amplia, sirviendo como un repositorio de almacenamiento para datos en bruto de diversas fuentes. Las aplicaciones impulsadas por el aprendizaje automático pueden procesar eficientemente estos datos para generar decisiones accionables que impacten a la empresa y creen un valor tangible.

La implementación de un data lake depende de la complejidad de acceder a las fuentes de datos de una empresa. Para las grandes empresas multinacionales, esto puede ser un proceso difícil, ya que cada país puede tener su propio sistema. Sin embargo, no hay alternativas si una empresa quiere obtener información y tomar decisiones basadas en datos. Vermorel cree que las pequeñas empresas impulsadas por la tecnología ya han adoptado los data lakes e incluso han avanzado más allá de ellos mediante la implementación de interfaces de programación de aplicaciones (API) para sus subsistemas. Esto permite la optimización interfuncional y la toma de decisiones inteligentes.

Vermorel ve que las grandes empresas adoptarán cada vez más los data lakes en los próximos cinco años, ya que se vuelven más accesibles y asequibles. Las empresas que no implementen data lakes corren el riesgo de ser superadas por aquellas que ya lo han hecho. Sin embargo, los data lakes no son el paso final en la gestión de datos. Vermorel sugiere que las API son el futuro, ya que permiten a las empresas no solo leer y analizar datos, sino también actuar sobre ellos. Las API pueden permitir la automatización de extremo a extremo, generando decisiones automáticamente e implementándolas dentro del sistema.

Joannes Vermorel enfatiza la importancia de ir más allá de las herramientas tradicionales de BI y adoptar data lakes para una toma de decisiones basada en datos más eficiente en la optimización de la cadena de suministro. Él visualiza un futuro en el que las grandes empresas implementen data lakes y API para automatizar sus procesos y tomar decisiones más inteligentes.

Transcripción completa

Kieran Chandler: Hoy en Lokad TV, vamos a hablar un poco más sobre el concepto de data lakes y entender por qué las empresas deberían estar más interesadas en ellos. Entonces, Joannes, como siempre, tal vez deberíamos comenzar definiendo un poco más sobre qué son los data lakes y de dónde vienen.

Joannes Vermorel: Un data lake es típicamente una especie de base de datos con algunas particularidades, que está destinada a consolidar prácticamente todos los datos principales de su empresa, especialmente todos los datos transaccionales como lo que ha vendido, lo que ha comprado, sus niveles de stock, y así sucesivamente. La intención y el uso final del data lake es que se supone que es para aplicaciones, no para humanos. La idea es que se coloca un data lake para que pueda tener aplicaciones específicas de dominio que sean muy impulsadas por datos y puedan utilizar toneladas de datos del data lake para generar decisiones inteligentes para marketing, cadenas de suministro, recursos humanos o cualquier otra cosa. Fundamentalmente, es un lugar donde puede consolidar todos los datos para servirlos en lotes a aplicaciones inteligentes. En cuanto a la segunda parte de su pregunta, los data lakes tienen una larga historia, que se remonta a la idea de los data warehouses y los data marts.

Kieran Chandler: Los data warehouses fueron una tendencia que vimos hace probablemente más de 20 años. Entonces, ¿qué ha cambiado desde entonces y cuáles son las diferencias clave?

Joannes Vermorel: Eso es interesante. La palabra de moda hoy en día es “data lake” y “data scientist”, mientras que hace veinte años era “data warehouse” y “data mining”, que básicamente son la misma evolución de las mismas ideas, simplemente revisitadas veinte años después. Lo que ha cambiado es bastante. Primero, la tecnología de los data lakes ha cambiado, por lo que son mucho más eficientes para almacenar y servir grandes cantidades de datos. Luego, tuvimos la computación en la nube en el medio, lo que significa que hoy en día puedes tener data lakes completamente bajo demanda con precios de pago por terabyte. Esto es bastante diferente en comparación con hace 20 años, cuando tenías que comprar un aparato muy caro, como el de Oracle, para almacenar todos tus datos. Hoy en día, con las plataformas de computación en la nube, puedes tener terabytes de pago por uso y ser extremadamente agresivo en términos de precios.

Kieran Chandler: Eso es más o menos el lado técnico de las cosas. ¿Qué hay de la filosofía? ¿Qué ha cambiado en la mentalidad y cómo estamos utilizando los data lakes en comparación con los data warehouses?

Joannes Vermorel: De hecho, ha habido una gran evolución. El problema con los data warehouses tal como se pensaban hace 20 años es que ponían mucha presión en TI para organizar adecuadamente los datos. Incluso tenías un data warehouse que se suponía que estaba organizando data marts, con un data mart destinado a cada tipo de división, como marketing, cadena de suministro, finanzas, y así sucesivamente. Los data marts eran como subconjuntos o subsistencias dentro de tu data warehouse. El problema con este enfoque, que era algo similar en espíritu a los data lakes que tenemos hoy en día, es que requería mucha organización y gestión por parte de TI.

Kieran Chandler: Lo que se hizo para la inteligencia empresarial es que había un alto nivel, un alto grado de expectativas en el hecho de que ya habría una especie de preparación, organización, ya sabes, con lo que has adjuntado, ya sabes, clientes a ventas a devoluciones. Entonces, ya sabes, pegas cosas juntas. Todas las cosas que van juntas, es mucho esfuerzo, en realidad. Técnicamente, se trata de, ya sabes, unir tablas, es conectar todas esas tablas juntas con una unión adecuada. Entonces, hace 20 años, la filosofía era hacer mucho, y era para que fuera bastante similar a lo que se estaba haciendo en BI y bastante similar a lo que se hacía naturalmente para los sistemas relacionales. El problema con este enfoque era que la cantidad de trabajo que requería era completamente enorme, y así terminabas con divisiones de TI típicamente abrumadas por la cantidad de requisitos que les caían encima debido a estos proyectos de data warehousing. Por lo tanto, frecuentemente, fallaba porque, bueno, simplemente TI no lograba entregar. Pero, ¿qué pasa hoy en día? Quiero decir, seguramente las cosas se van a poner un poco desordenadas ahora que tienes estos data lakes.

Joannes Vermorel: Los data lakes, en términos de filosofía, son mucho más simples porque la filosofía es que el data lake es solo un receptor para una extracción limpia, pero una extracción limpia de todos los datos que se encuentran en otros sistemas. Entonces, no intentas hacer ninguna recombinación sofisticada de los datos que provienen del CRM, más los datos que provienen del ERP, más los datos que provienen de tu plataforma web. Simplemente vas a extraer esas fuentes de datos y las vas a volcar en el data lake. Y el data lake se comporta bien gracias a la tecnología, lo que significa que puedes volcar una gran cantidad de datos y manejará la carga sin quejarse. Si estás en la nube, te cobrarán por ello.

Kieran Chandler: ¿Cómo sabes que los datos que estás utilizando son buenos datos? Quiero decir, ¿cómo llevas un registro de qué datos están actualizados? Quiero decir, si los estás volcando todos en este lago, ¿cómo llevas un registro?

Joannes Vermorel: La responsabilidad de TI con un data lake es asegurarse de que el data lake contenga un reflejo preciso de lo que está en los sistemas originales. Pero eso no requiere entender lo que está sucediendo en el negocio. Simplemente tienes un CRM que tiene 200 tablas relacionales y las reflejas en el data lake, y eso es todo. No necesitas entender lo que está sucediendo en el CRM.

Kieran Chandler: Entonces, ¿quién necesita entender lo que está sucediendo dentro del CRM?

Joannes Vermorel: Resulta que son las propias divisiones las que quieren explotar los datos, y el problema es que la interpretación de los datos es altamente específica del problema. Por ejemplo, la forma en que ves los datos de ventas es diferente si quieres resolver un problema de marketing o un problema de cadena de suministro. Esa fue también una de las principales razones por las que, hace veinte años, muchas de esas iniciativas de data warehousing fallaron. Es porque la visión era producir un modelo unificado de la empresa, pero luego resultó ser muy frustrante para cada división porque marketing decía: “Oh, no encaja exactamente en la visión que tengo de mi dominio”, y la cadena de suministro decía lo mismo, y Finanzas diría lo mismo. En cambio, la idea es que ahora es más como las propias divisiones, como cadena de suministro, marketing, finanzas, recursos humanos.

Kieran Chandler: Significa que no van a fallar hoy. Quiero decir, nuevamente, hay toneladas de cosas que cambian. Un desafío particular, especialmente en la cadena de suministro, es que estamos tratando con sistemas distribuidos prácticamente por diseño. ¿Qué quiero decir con distribuido? No todo está en un solo lugar porque, por definición, si tienes múltiples almacenes, no están en el mismo lugar. Tus proveedores no están en el mismo lugar que tus almacenes, y tus clientes tampoco lo están. Entonces, por definición, estamos viendo sistemas dispersos y quieres consolidar todos esos datos en un solo lugar, que es tu data lake, lo que técnicamente debe suceder a través de la red.

Joannes Vermorel: Obviamente, hace veinte años, ya se había inventado Internet. Existía, pero la calidad de las herramientas para mover datos a través de Internet era completamente diferente en comparación con lo que tenemos hoy en día. Y luego, la red en sí misma, la calidad de la red en sí misma, también era completamente diferente. Hoy en día, si quieres mover, digamos, para una empresa no tan grande, una empresa de 1,000 empleados, por lo tanto, eres considerable pero no una mega-corporación. Hace veinte años, si querías mover un gigabyte de datos por día a través de Internet, era complicado.

Quiero decir, necesitabas tener acceso a la fibra, por ejemplo, en París. Hace veinte años, solo había un lugar en París donde podías tener acceso a la fibra, que era el área cerca de la bolsa de valores. Había como un kilómetro cuadrado donde podías obtener fácilmente acceso a la fibra. En cualquier otro lugar, tenías que tender tu propia fibra si la querías. Entonces, las mega-corporaciones podían hacer eso, pero incluso un negocio considerable, ya sabes, con 1,000 empleados, no podía. Esto ha cambiado. Ahora, es muy sencillo. Las herramientas son mejores y puedes mover literalmente gigabytes sin demasiados problemas.

Y el hecho de que tengas sistemas bajo demanda, esos data lakes no solo son muy baratos, gracias a las economías de escala de esas plataformas de computación en la nube, sino que el hecho de que estén bajo demanda significa que puedes hacer prueba y error. Si intentas configurar un data lake y es un completo fracaso, simplemente puedes decir “eliminar” y volver a intentarlo, y solo estás pagando por lo que usas. Entonces, puedes iterar rápidamente. No es como hace veinte años, cuando tenías que comprometerte a comprar un aparato muy caro, y si te equivocabas, eso era un gran problema.

Kieran Chandler: Y apuesto a que esas áreas financieras probablemente todavía tienen el internet más rápido. ¿Qué les dirías a una gran empresa multinacional que ya tiene un buen control sobre sus datos, que ya está comprendiendo las cosas utilizando herramientas de inteligencia empresarial? Quiero decir, ¿por qué deberían estar interesados en un data lake?

Joannes Vermorel: El problema con la inteligencia empresarial es que, fundamentalmente, está destinada a los humanos. Es buena, pero significa que cada minuto que las personas van a mirar esos números es un minuto en el que realmente estás pagando a un empleado para que mire números en lugar de hacer otra cosa. Puedes producir muy fácilmente millones de números, lo que requerirá miles de horas-hombre para ser procesados, lo cual es extremadamente costoso.

Entonces, el problema es que la inteligencia empresarial, tal como yo la veo, es un tipo de tecnología bastante anticuada. Era una forma de obtener un análisis básico de tus datos de una manera relativamente en tiempo real. Era muy interesante porque, si retrocedemos 30 años atrás, que fue cuando se fundó Business Objects, ellos eran la compañía que. Y de lo contrario, simplemente no podías saber que no podías realizar consultas sincronizadas que te dieran esta información: cuántas unidades se venden por día, por producto, y así sucesivamente. Eso no era posible con la inteligencia empresarial. De repente, era posible tener este cubo, incluso puedes tener hipercubos, e incluso mejor, puedes tenerlo muy, muy bonito. Pero luego, al final, solo estás viendo una agregación súper básica de tus datos, y esta agregación no es una decisión. No te dice si debes subir o bajar tu precio, no te dice si debes producir más o menos, no te dice si de un lote de producción de 1000 unidades, debes poner 100 unidades en un avión para una entrega más rápida. Entonces, fundamentalmente, se trata de obtener ideas cuantitativas. Entonces, la gran diferencia entre, ya sabes, la inteligencia empresarial y el data lake es que el data lake viene con la idea de que es fundamentalmente una pieza de un panorama más amplio donde, sentado frente al data lake, típicamente tendrás una aplicación impulsada por el aprendizaje automático que procesará los datos de manera muy eficiente proporcionados por el data lake para generar decisiones automáticamente. Y esas decisiones son algo que tiene un impacto físico en tu empresa y que creará un valor tangible de alguna manera.

Kieran Chandler: Bueno, si estamos de acuerdo en que tal vez las herramientas de inteligencia empresarial tienen sus limitaciones, y si se trata de implementar un data lake, ¿qué tan fácil es hacerlo realmente? ¿Es solo cuestión de cargar todos estos datos en la nube y ya está listo?

Joannes Vermorel: La complejidad de implementar un data lake es estrictamente proporcional a la complejidad de acceder a tus fuentes de datos, ya sabes, acceder a ellas literalmente, sin hacer nada inteligente con ellas. Entonces eso significa que, para las grandes multinacionales, bueno, eso significa que si tienes cada país en tu empresa con su propio sistema, bueno, adivina qué. Tendrás tantos tipos de data lakes como países para llevar los datos de cada país al data lake. Pero quiero decir, es desafortunado que no tengas alternativa porque la única alternativa es tener una integración directa con los países directamente, y eso es aún más costoso porque si tienes dos divisiones, digamos marketing y cadena de suministro, que quieren acceder a los datos de ventas, pagarás por esta integración dos veces. Entonces, la idea con un data lake es que, mientras lo haces una vez, y luego está en el data lake, lo que lo hace muy adecuado para que el resto de la empresa acceda a los datos. La complejidad depende completamente de lo que tengas. Pero también, nuevamente, si volvemos a tu cita inicial, si no tienes datos, solo eres un hombre con una opinión. Bueno, no tienes ninguna alternativa para recuperar estos datos en ningún otro lugar si quieres hacer cualquier tipo de medición.

Kieran Chandler: Ahora, vamos a juntar las cosas. Si hay tantos aspectos positivos en los data lakes y parece bastante simplista, es solo un gran receptáculo de datos al final del día, ¿por qué no se está adoptando fácilmente por la industria en este momento?

Joannes Vermorel: Resulta que las empresas tecnológicas muy pequeñas adoptaron los data lakes hace bastante tiempo, e incluso fueron más allá con lo que yo llamaría la API-ficación de su empresa, lo que significa que van a poner una API (Interfaz de Programación de Aplicaciones) en cada subsistema, que es el siguiente paso que ocurre después del data lake. Entonces, diría que el comercio electrónico inteligente, por ejemplo, ya ha consolidado sus datos, y eso.

Kieran Chandler: Necesitas echar un vistazo tanto a lo que viene del sitio web hoy en día, lo que pagas por el marketing de mercancías en motores de búsqueda, ya sabes, los Google AdWords y demás, como a los pedidos cruzados. Son capaces de tomar decisiones inteligentes en términos de acciones de marketing directo y demás. En cuanto a empresas puramente tecnológicas como Microsoft o Google, también han estado haciendo cosas similares, ya sabes, literalmente durante décadas. Quiero decir, Google solo ha estado presente durante dos décadas, pero otras empresas como todas las empresas tecnológicas han estado haciendo eso durante bastante tiempo. Entonces, si han estado haciendo eso durante décadas, ¿qué hay del futuro? ¿Vamos a sumergirnos en un océano de datos en algún momento?

Joannes Vermorel: Sí, quiero decir, lo que veo a continuación es que las empresas muy orientadas a la cadena de suministro, ahora que los data lakes se han vuelto muy accesibles y muy baratos, implementarán estos data lakes. Vemos entre nuestros clientes que muchos clientes que no tenían un data lake hace un año ahora tienen un data lake. Diría que ha habido un punto de inflexión en los últimos dos años en lo que respecta a los data lakes. Entonces, sospecho que la mayoría de las grandes empresas, probablemente en los próximos cinco años, realmente habrán implementado sus propios data lakes, porque de lo contrario, simplemente serían completamente superadas por todas las grandes empresas que lo habrán hecho por ellas.

Pero también hay límites, en particular, un data lake es como una copia de solo lectura de todos los datos que se encuentran en otros subsistemas. Es por eso que decía que el siguiente paso es que todos los subsistemas expongan APIs, interfaces de programación de aplicaciones, porque eso es lo que ha hecho Amazon. Estas APIs te permiten hacer aún más, de repente no solo eres de solo lectura, también puedes actuar. La idea es que puedas consolidar todos los datos, leer, analizar, tomar todas esas decisiones, y luego ¿qué hacemos con esas decisiones que se han calculado? La respuesta es que puedes enviar la hoja de cálculo de Excel spreadsheet al departamento adecuado para que implementen tus decisiones, como las compras. Pero si hay una API, puedes llamar directamente a esta API para inyectar automáticamente la orden de compra de este producto, de esta cantidad, de este proveedor, con este transporte especificado y demás. Entonces, en realidad, si tienes APIs, puedes tener automatizaciones de extremo a extremo donde no solo generas la decisión automáticamente, sino que luego implementas estas decisiones físicamente automáticamente porque se reinyecta en uno de los sistemas.

Kieran Chandler: Bueno, tenemos que dejarlo aquí, pero gracias por tu tiempo hoy. Eso es todo por esta semana. Muchas gracias por sintonizar, y estaremos de vuelta la próxima vez. Hasta luego.