A/B Testing, Exploración vs. Explotación

septiembre 4, 2019

supply chain science and tech

00:00:08 A/B testing y sus aplicaciones en marketing y supply chains.
00:01:47 Ejemplos de A/B testing en marketing y supply chains.
00:03:41 Problemas con A/B testing en supply chains y cómo desplaza problemas.
00:06:02 Problemas de desplazamiento e interconexión en el A/B testing de supply chain.
00:07:45 Supply chains como sistemas interconectados y los desafíos del A/B testing.
00:09:58 Limitaciones del A/B testing en la gestión de supply chain.
00:11:45 Reinforcement learning para supply chains.
00:13:22 Equilibrando exploración y explotación en la toma de decisiones.
00:15:01 Aleatoriedad para obtener mejores insights de supply chain.
00:17:08 Empresas explorando proveedores y mercados alternativos.
00:19:39 Cuantificando el valor del conocimiento en la toma de decisiones empresariales.
00:20:52 Cómo Lokad optimiza las decisiones empresariales considerando efectos de segundo orden.
00:23:42 La importancia futura de la exploración y la cuantificación de su valor para las empresas.

Resumen

En esta entrevista, Kieran Chandler conversa con Joannes Vermorel, el fundador de Lokad, sobre A/B testing y sus limitaciones en la optimización de supply chain. Discuten la historia y las aplicaciones del A/B testing, que es popular en marketing pero menos en supply chain management. Vermorel sostiene que el A/B testing es insuficiente para la optimización de supply chain debido a la naturaleza interconectada de los supply chains y al aprendizaje limitado que proporciona. En cambio, sugiere adoptar un enfoque de machine learning e introducir aleatoriedad en la decision-making. Al explorar de forma continua opciones alternativas y cuantificar el conocimiento, Vermorel cree que las empresas de vanguardia pueden mejorar sus procesos de supply chain, impulsando la optimización y la mejora a lo largo del tiempo.

Resumen Extendido

En esta entrevista, Kieran Chandler discute el A/B testing y sus aplicaciones en la optimización de supply chain con Joannes Vermorel, el fundador de Lokad, una empresa de software especializada en la optimización de supply chain. Comienzan explicando qué es el A/B testing y su historia, antes de profundizar en sus aplicaciones, limitaciones y alternativas.

El A/B testing, un subconjunto del diseño experimental, consiste en probar dos variantes entre sí para determinar su efectividad. Es probable que el método se originara a finales del siglo XIX, aunque los registros son poco claros debido a su naturaleza intuitiva. El A/B testing forma parte del método científico y del campo más amplio del diseño de experimentos, que tiene como objetivo adquirir pequeños fragmentos de verdad sobre cualquier afirmación o hipótesis.

El A/B testing es particularmente popular en marketing, donde se utiliza para evaluar la efectividad de materiales promocionales, como boletines informativos o anuncios. Un ejemplo de A/B testing en marketing es dividir una base de datos de clientes en dos grupos aleatorios y enviar la versión A de un boletín a un grupo y la versión B al otro. Luego se miden los resultados para determinar qué versión funcionó mejor.

A principios de la década de 2000, Google realizó una serie de A/B tests para determinar el número óptimo de resultados de búsqueda a mostrar en la página de resultados de su motor de búsqueda. Las pruebas ayudaron a la empresa a equilibrar los tiempos de carga de la página y la satisfacción del usuario, lo que finalmente llevó a la decisión de mostrar alrededor de 10 resultados por página.

Aunque el A/B testing es menos popular en la gestión de supply chain, a Lokad a menudo se le solicita, ya sea de forma explícita o implícita, realizar A/B tests para sus clientes. En el contexto de supply chain, el A/B testing generalmente implica comparar el rendimiento de un conjunto de tiendas gestionadas por el sistema de optimización de inventario de Lokad contra un conjunto de tiendas comparables gestionadas por el sistema existente del cliente. La comparación se lleva a cabo durante un período, como tres meses, y puede denominarse benchmark o piloto.

Vermorel sostiene que el A/B testing puede parecer un enfoque racional para comparar dos métodos, pero puede ser problemático para la optimización de supply chain debido a la naturaleza interconectada de los supply chains.

Vermorel explica que, en un supply chain, los problemas a menudo se desplazan en lugar de resolverse. Al comparar el rendimiento de dos técnicas de optimización diferentes, puede que no sean independientes, ya que compiten por los mismos recursos. Esto conduce a una situación en la que la optimización de una técnica se logra a expensas de la otra. La naturaleza interconectada de los supply chains también significa que, cuando una parte se ve afectada, puede influir en otras, lo que dificulta aislar y medir el impacto de una sola variable.

Otro problema con el A/B testing en el contexto de supply chains es el aprendizaje limitado que proporciona. El A/B testing solo prueba una hipótesis a la vez, generando una pequeña cantidad de información. Esto puede ser suficiente si se busca una certeza absoluta sobre algo en lo que se cree firmemente, pero los supply chains están en constante cambio, y el lento ritmo del A/B testing puede no mantenerse al día con las necesidades evolutivas.

Vermorel también señala el problema de la seasonality, que puede afectar la validez de los resultados del A/B testing. Para tenerlo en cuenta, una prueba puede necesitar ejecutarse durante 12 meses, pero a menudo esto no es factible, ya que solo proporciona un fragmento único de información sobre qué sistema es mejor. Además, distintos sistemas pueden funcionar mejor para diferentes tipos de productos o situaciones, lo que limita aún más la utilidad del A/B testing.

En lugar de depender del A/B testing, Vermorel sugiere abordar el problema desde una perspectiva de machine learning. Este enfoque se centra en extraer activamente información de los datos, lo que puede resultar más eficaz para comprender sistemas complejos e interconectados como los supply chains. Al considerar cómo las decisiones influyen en las observaciones, se vuelve posible aprender mejor sobre la demanda y optimizar las operaciones de optimize supply chain.

Vermorel explica que las empresas deben equilibrar la optimización de sus procesos actuales con la exploración de opciones alternativas. Esto podría implicar introducir aleatoriedad en la toma de decisiones, lo que puede ayudar a evitar que las empresas se queden atrapadas en un mínimo local, una situación en la que creen haber encontrado la mejor solución, pero en realidad existe una mejor si se desvían de su enfoque actual.

Una forma de introducir aleatoriedad es mediante la experimentación con diferentes productos o proveedores. Por ejemplo, una red de tiendas podría añadir algunos productos aleatorios a su surtido en cada establecimiento o probar proveedores alternativos para evaluar su fiabilidad y la oferta de productos. Empresas de la industria del aftermarket automotriz incluso han implementado este enfoque, asignando una parte de sus pedidos a proveedores que inicialmente no ofrecen los mejores precios o condiciones, simplemente para sondear el mercado.

Aunque pueda parecer contraproducente que las empresas introduzcan tanta aleatoriedad en sus procesos, Vermorel sostiene que este enfoque puede, de hecho, mejorar la rentabilidad a largo plazo. Al aprender continuamente sobre su mercado, las empresas pueden descubrir nuevos insights que pueden tener impactos significativos en sus resultados económicos. Por ejemplo, podrían descubrir que pueden subir o bajar sus precios sin afectar las ventas, lo que llevaría a aumentar los ingresos o a lograr economías de escala.

Incorporar aleatoriedad en la toma de decisiones permite a las empresas probar mercados, proveedores, puntos de precio e incluso estructuras organizativas de supply chain alternativas. Esta inversión en exploración ayuda a las empresas a descubrir pequeñas variaciones que se adaptan mejor a sus operaciones, lo que a su vez puede impulsar el crecimiento y mejorar su rendimiento general.

Joannes Vermorel, fundador de Lokad, discute la importancia de explorar y cuantificar el conocimiento dentro de una empresa. Hace referencia a un artículo que publicó hace más de una década, en el que introducía un algoritmo llamado “poker price of knowledge and estimated reward” que puede ayudar a cuantificar el costo y la recompensa de la exploración. Vermorel enfatiza que las empresas deben optimizar en función de ganancias reales, como dólares, en lugar de objetivos arbitrarios. Predice que las empresas de vanguardia introducirán cada vez más la exploración y la aleatoriedad en sus procesos de supply chain para impulsar la optimización y mejorar con el tiempo.

Transcripción Completa

Kieran Chandler: Hoy vamos a discutir por qué esta técnica es profundamente débil y a comprender algunas de las técnicas alternativas que podemos utilizar para evaluar nuestros supply chains de manera más efectiva. Así que, Joannes, quizás deberías comenzar, como siempre, contándonos un poco más sobre lo que es el A/B testing.

Joannes Vermorel: El A/B testing es un método para verificar si una hipótesis es cierta o no, típicamente comparando dos grupos, aunque puede ser más de dos. No queda muy claro cuándo se inventó. Probablemente se inventó a finales del siglo XIX, pero los registros son confusos y, probablemente, debido a que es algo tan intuitivo, la gente ya lo había considerado mucho antes, simplemente no estaba documentado de manera clara ni necesariamente se le llamaba A/B testing. Lo interesante es que forma parte del método científico, que se encuentra en el campo del diseño de experimentos, una forma científica de adquirir pequeños fragmentos de verdad sobre cualquier afirmación que se pueda hacer. No va a demostrar que cualquier afirmación sea verdadera, pero puede darte una respuesta científica a la pregunta de si tu hipótesis es cierta o no.

Kieran Chandler: Entonces, ¿de qué tipo de experimentos estamos hablando realmente?

Joannes Vermorel: El A/B testing es muy popular en marketing. En supply chain, es mucho menos popular. En marketing, se utiliza intensamente para cosas como boletines promocionales. Por ejemplo, si estás anunciando un producto primero y otro después, puedes dividir tu base de datos de clientes en dos grupos aleatorios, enviar la versión A de tu boletín al primer grupo y la versión B al segundo, y luego medir el resultado. Esa es una forma bastante eficiente de hacer A/B testing.

Kieran Chandler: Entonces, ¿la idea es que envíes dos cosas y veas cuál funciona mejor?

Joannes Vermorel: Exactamente. Estás probando una hipótesis. Google, por ejemplo, realizó muy famosamente una serie de A/B tests a principios de los 2000 solo para determinar cuántos resultados de búsqueda eran óptimos en términos de visualización. Encontraron un equilibrio a través del A/B testing, que en ese entonces era de alrededor de 10 resultados.

Kieran Chandler: ¿Por qué esto es de interés para nosotros en Lokad? ¿Es algo que nuestros clientes realmente solicitan?

Joannes Vermorel: En supply chain, se nos pregunta frecuentemente, ya sea de forma explícita o implícita, sobre la realización de A/B tests. En supply chain, el A/B testing toma otra forma. Por ejemplo, la gente diría: “Dejemos que Lokad gestione 10 tiendas con su sistema de optimización de inventario, mientras que 10 otras tiendas comparables se gestionan con el sistema antiguo. Lo realizaremos durante tres meses y compararemos los resultados.” Podrían llamarlo benchmark, pero en realidad es un A/B test.

Kieran Chandler: Hay, en cierto modo, un A/B test en marcha, y suena bastante racional. Parece que necesitas una forma de comparar estos dos enfoques diferentes. Entonces, ¿cómo funciona realmente en el mundo real?

Joannes Vermorel: El meollo del problema es que parece obvio y razonable. Se podría decir que parece una forma razonable de comparar esos dos métodos. Simplemente cambio una variable, como el software que gestiona el stock, y me aseguro de que mi experimento sea representativo. Así que tomaría varias tiendas y un período más largo, como tres meses, para garantizar la significancia estadística. Todo eso parece bastante razonable y lógico. Pero hay un “pero”: es más complicado de lo que parece. Los problemas que tengo con esos benchmarks son, en mi opinión, ejemplos de racionalismo ingenuo. Parece muy científico, pero en realidad no es supercientífico ni racional; simplemente así lo aparenta.

El problema en la gestión de supply chain es que se tiende a desplazar los problemas en lugar de resolverlos. Por ejemplo, tienes esas 20 tiendas en la prueba. Parece súper racional. El problema es que todas esas tiendas compiten por el mismo stock en el centro de distribución. Si quisiera hacer trampa, siendo Lokad, el software, podría mejorar mis propios resultados consumiendo mucho stock, mejorando el rendimiento de mi ámbito a costa de las otras tiendas. Y si tienes un benchmark que dice que el objetivo es maximizar el rendimiento de esas diez tiendas, la optimización matemática lo hará a expensas de las otras. Así que existe un ciclo de retroalimentación entre las tiendas porque compiten a través del mismo distribuidor por el mismo stock en el centro de distribución. Esto siempre ocurre en los supply chains; es un sistema y está interconectado por diseño.

Los supply chains permiten grandes ganancias en términos de eficiencia, fiabilidad, costo y economías de escala. Pero la desventaja es que, al ser un solo sistema, si tocas una parte, tiendes a influir en las otras.

Kieran Chandler: ¿Cuál sería entonces un mejor enfoque? ¿Deberías probar una técnica durante seis meses en veinte ubicaciones y luego otra técnica durante otros seis meses?

Joannes Vermorel: Otro problema que tengo con este tipo de benchmark es que aprendes muy poco sobre tu sistema. El A/B testing suele ser poco apreciado porque solo se prueba una hipótesis a la vez. En términos de información, hablamos de un poco de información, simplemente un cero o un uno. Ni siquiera es un byte, sino un bit. Y ni siquiera es un bit completo, porque solo tendrás un grado de confianza en tus resultados. Así que lo que aprendes es como una fracción de un bit, lo cual suena muy poco y, en efecto, es muy poco.

Kieran Chandler: Las pruebas son buenas si quieres tener una certeza absoluta sobre algo en lo que sientes de manera muy intensa. Por ejemplo, puedes realizar un A/B test para tener la confirmación final de que tenías razón, pero el problema es que asumes que ya conoces la verdad. Por eso funciona muy bien para la ciencia. En los métodos científicos, las personas recogen pistas de maneras muy indirectas, y una vez que han reunido una montaña de pistas, realizan un A/B test para confirmar su hipótesis de una manera más directa. Pero va a ser muy costoso y lento, y esa será la confirmación final, clavando el ataúd y cerrando el caso para siempre.

Joannes Vermorel: El problema con las supply chain es que las cosas están cambiando todo el tiempo. Tu red es una bestia en constante cambio. Si deseas realizar un A/B test para la optimización de la supply chain, podrías necesitar 12 meses en lugar de tres debido a la estacionalidad. Pero, ¿quién puede permitirse 12 meses solo para obtener un dato sobre cuál de los dos sistemas es el mejor? Existen tantas otras alternativas en el mercado, y solo puedes realizar una cantidad limitada de pruebas. El sistema A podría ser mejor para los productos de baja rotación, mientras que el sistema B podría ser mejor para los de alta rotación. Tener solo un dato es muy poco, y no te dará ninguna perspectiva sobre la mejor opción.

El problema con el A/B test es que solo estás probando dos caminos posibles, y en una supply chain, hay millones de caminos posibles. ¿Cómo podemos generar información sobre todas esas posibilidades?

Kieran Chandler: Entonces, en una supply chain, tenemos millones de caminos posibles. ¿Cómo podemos generar información sobre todas esas posibilidades?

Joannes Vermorel: Esa es una pregunta muy interesante, y una perspectiva más moderna del caso sería el aprendizaje por refuerzo. Cuando quieres pensar en cómo funciona un motor de aprendizaje, puedes extraer información de los datos de manera pasiva, como cuando los datos llegan y deseas aprender, o de forma activa, donde lo que haces influye en lo que observas, que es el caso en la gestión de la supply chain. Por ejemplo, si decides no poner un producto en oferta en una tienda, nunca observarás la demanda de este producto en dicha tienda.

El A/B test es una forma de adquirir conocimiento, pero es increíblemente lento. Si tuvieras que aprender a caminar como un bebé a través de A/B tests, te llevaría un millón de años aprender a caminar. Es muy poderoso para la certeza científica, pero no puede ser el proceso que impulse el camino hacia la verdad.

En la gestión de la supply chain, una perspectiva más moderna es el aprendizaje por refuerzo, donde se piensa en un equilibrio entre exploración y explotación. Tienes una idea de lo que es lo bueno, pero no estás completamente convencido de que siempre sea lo mejor, así que deseas hacer lo que se llama exploración. Aleatorizas un poco tus acciones para aprender más sobre el sistema.

Kieran Chandler: Tienes tu proceso de optimización que intenta optimizar, según métricas especificadas, algún algoritmo que te conduce a lo que consideras óptimo según tus propias mediciones. Pero el problema es que si haces eso, puedes quedar atrapado en una forma de hacer las cosas, lo que, matemáticamente, se llama un mínimo local. Intentas minimizar tu función de costo, y quedas atrapado en un área que parece ser un mínimo local donde se ve bien. Si te desvías de ese punto, parece que estás en el óptimo, pero en realidad, si quieres algo que sea mucho mejor, necesitas diverger.

Joannes Vermorel: Básicamente, estamos hablando de introducir un cierto porcentaje en tu decisión, que en realidad podría no ser correcto y podría no coincidir con tu optimización. Pero se trata básicamente de introducir ese cierto porcentaje de error potencial solo para descubrir más sobre lo que podría funcionar. Y, obviamente, se trata de experimentar. No quieres hacer cosas locas, pero por ejemplo, si tienes una gran red de tiendas, la idea sería cambiar tu surtido. Puedes decidir que, todo el tiempo, en cada tienda, vas a introducir algunos productos que normalmente no forman parte del surtido, prácticamente al azar. Obviamente, no intentarás hacer eso con artículos super caros, como una máquina de jardinería cara si tienes una tienda en pleno centro de la ciudad. No haces cosas completamente absurdas, pero introduces algo de aleatoriedad para ver si algunos productos inesperadamente captan mucha tracción solo por haberlos probado en un centro urbano, y generalmente, pensabas que ese producto no era adecuado para esa área. Resulta que tal vez sí lo es. Así que deseas introducir algún tipo de aleatorización.

Esto se puede hacer en la supply chain, por ejemplo, a veces probando con otros proveedores para sondear en términos de lead times. Tienes a tu proveedor habitual, y simplemente envías algunos pedidos a competidores solo para ver cómo resultan. E incluso he visto empresas, en el mercado de repuestos automotrices, por ejemplo, que tienen eso implementado de forma automática, donde una cierta fracción de los pedidos enviados a los proveedores no se pasa inicialmente a los proveedores que ofrecen el mejor precio y las mejores condiciones, sino que se envían solo para sondear y ver si el proveedor es súper confiable, y si los productos cumplen con las expectativas en cuanto al proceso de pedido, es decir, que cuando solicitas una determinada pieza, realmente recibes esa pieza y no otra.

Kieran Chandler: Parece muy sorprendente porque las empresas, en general, normalmente se centran tanto en la rentabilidad y en actuar de la manera más eficiente posible, maximizando ese resultado. En realidad, están introduciendo estos diferentes proveedores solo para probar las cosas. Pero, ¿es eso algo difícil de incorporar?

Joannes Vermorel: Eso es, nuevamente, lo que diría el enfoque racional ingenuo: “Oh, simplemente optimizamos directamente.” Pero eso no es ni racionalismo ni el mejor enfoque. Si comienzas a pensar en los efectos de segundo orden, la idea es que siempre quieras aprender sobre tu mercado. Quieres probar proveedores alternativos, mercados alternativos para tus clientes, puntos de precio alternativos, porque la idea es que el conocimiento tiene un precio y es valioso. Puedes obtener grandes recompensas.

Podrías estar atascado, por ejemplo, podrías darte cuenta de que estás vendiendo tu producto a un cierto punto de precio, pero en realidad, podrías aumentar tu precio, y aún así se vendería más o menos igual. Es que simplemente nunca lo has intentado; no pensaste que las personas percibieran tu producto como tan valioso como lo hacen.

Kieran Chandler: La realidad es que, por lo general, estás atrapado en lo que has estado haciendo hasta ahora. O quizás a veces sucede lo contrario: en realidad, estás vendiendo tu producto a un precio que es demasiado alto. Y si intentaras bajar el precio, en realidad aumentarías enormemente la demanda, y entonces entrarían en juego las economías de escala. Y luego podrías producir a un precio más barato y lograr un efecto acumulativo en cuanto a lograr un gran crecimiento para la empresa. Así que la idea es que esta aleatorización que se puede introducir es en realidad una inversión que haces con la idea de que vas a descubrir ligeras variaciones que se adapten mejor a tu empresa. Pueden ser variaciones en tus puntos de precio, en tus proveedores, o incluso en tus organizaciones de supply chain, como por ejemplo, cuál warehouse está suministrando a qué plantas, o viceversa. ¿Hay alguna manera de cuantificar este conocimiento y de determinar en realidad cuánto vale ese conocimiento para una empresa?

Joannes Vermorel: En realidad, sí. Es decir, incluso publiqué un artículo hace más de una década titulado “POKER: Price of Knowledge and Estimated Reward.” Así que si realmente deseas hacerlo de la manera elegante, literalmente puedes cuantificar el costo de la exploración frente a la recompensa de la exploración de lo que ganas al tener un cierto horizonte. Porque, obviamente, tienes que seguir jugando – es la idea de tener un juego iterado en el que juegas el mismo juego una y otra vez. Y cuando exploras, bueno, haces cosas que típicamente son menos óptimas, pero a veces encuentras el punto ideal, y luego puedes explotar ese hallazgo. Pero la idea es que, para lograr eso, necesitas tener un algoritmo, especialmente, diría yo, en el ámbito del machine learning, que realmente pueda aprovechar ese ruido en tus datos y utilizarlo para aprender no solo un poco de información, sino mucho más. Y, de nuevo, esto no es simplemente como un A/B test en el que básicamente estableces tu porcentaje o algo así. Es algo que es capaz de capturar, diría yo, patrones mucho más difusos donde tienes toneladas de efectos interconectados que pueden impulsar un mejor rendimiento en una situación de muy alta dimensión.

Kieran Chandler: ¿Cómo encaja este enfoque con lo que hacemos aquí en Lokad? Porque lo que hacemos aquí en Lokad es, de cierto modo, optimizar esas decisiones empresariales que se pueden tomar en cualquier momento. Es como introducir este tipo de ruido, haciendo cosas que intencionadamente están un poco equivocadas.

Joannes Vermorel: Sí, y eso fundamentalmente va en contra de esa creencia. Quiero decir, no es mi creencia, pero cuando realmente quieres tener en cuenta los efectos de segundo orden. En Lokad, realmente intentamos aplicar, no el irracionalismo, sino tratar de ser racionales, teniendo en cuenta esos otros efectos que son muy complejos. Durante la primera década de Lokad, para la gran mayoría de nuestros clientes, ni siquiera estaban optimizando nada. Estaban optimizando porcentajes de error, lo que, en mi opinión, ni siquiera es una optimización. Si optimizas porcentajes de error, ni siquiera sabes lo que estás haciendo para tu empresa. Necesitas optimizar en dólares. El primer paso es avanzar hacia un proceso de optimización en el que en realidad intentes optimizar, en lugar de simplemente repetir objetivos que son completamente arbitrarios. Ahora, lo que vemos es que con nuestros clientes más avanzados, especialmente en el ecommerce, es que ahora que este proceso de optimización está en marcha, la idea de la exploración comienza a surgir. Típicamente empieza con cosas como la fijación de precios, que de nuevo, desde mi perspectiva, está muy dentro del ámbito de la supply chain porque de ahí proviene la demanda. Necesitas tener un buen precio, y el precio explica la demanda en gran parte. Pero el precio ciertamente no es la única área en la que deseas hacer exploración. Lo que veo para los próximos años es que creo que, para que las empresas se mantengan a la vanguardia, necesitan tener la ambición de estar a la vanguardia en lo que respecta a su supply chain. Cada vez más, introducirán la idea de un poco de exploración y aleatorización, solo para generar resultados que impulsen el propio proceso de optimización y lo mejoren con el tiempo.

Kieran Chandler: Entonces, para concluir, se puede ver que en el futuro habrá un momento en el que en realidad le daremos mucha más importancia a este tipo de exploración y a la importancia de cuantificar cuánto te aporta como empresa en términos de conocimiento.

Joannes Vermorel: Exactamente, perfecto.

Kieran Chandler: Muy bien, hoy tendremos que concluir. Gracias por tu tiempo.

Joannes Vermorel: Eso es todo por hoy. Muchas gracias por sintonizarnos, y nos veremos de nuevo la próxima vez.

Kieran Chandler: Gracias por ver.

Regresar a Lokad TV ›

PREVIOUS EPISODES