Como ya hemos dicho, el objetivo principal de la previsión es construir modelos precisos con los datos que no tienes. Sin embargo, a primera vista, esto parece otra idea loca de los matemáticos: tanto extraña como totalmente impráctica.

Pero en nuestra experiencia, medir la verdadera precisión del pronóstico es un problema de negocios real. Fallar en esto cuesta dinero. De hecho, cuanto más grande es la empresa, mayor es el costo.

¿Aún no tienes idea del error real del pronóstico?

Mira nuestro último slidecast de 9 minutos (los guiones están pegados a continuación).

video de YouTube

Guiones del slidecast:

Overfitting: tus pronósticos pueden no ser tan buenos como te indica la medida

La precisión de la previsión es fundamental para muchas industrias como el comercio minorista, la fabricación o los servicios. Si sobrepronosticas la demanda de tus clientes, tus costos se disparan porque tendrás demasiado personal, demasiado inventario. Pero si subpronosticas la demanda de tus clientes, tus clientes se enfadan porque no pueden comprar tu producto o porque tienen que esperar demasiado tiempo para ser atendidos.

En este slidecast, voy a presentar un problema poco conocido en la previsión llamado overfitting.

Este problema es poco conocido por dos razones. Primero, es un problema sutil, no obvio y contraintuitivo en muchos aspectos. Segundo, es un problema que ha desconcertado a los matemáticos desde el siglo XIX. Solo a fines de los años noventa, hace un poco más de 10 años, la comunidad científica comenzó a comprender realmente este problema tanto a nivel teórico como práctico.

Antes de seguir adelante, permítanme ir directamente a la conclusión. El overfitting tiene un impacto muy fuerte en tus pronósticos. El overfitting puede hacerte creer que tienes un error de pronóstico del 10% mientras que tu error de pronóstico real es del 20%, y eso no sería la peor situación posible.

El overfitting es un problema de negocios muy real. El overfitting cuesta dinero.

Además, no hay forma de evitar el overfitting. Las teorías estadísticas modernas se construyen sobre este mismo concepto. El overfitting juega un papel central en esas teorías, sin importar cómo enfoques la estadística, el overfitting está aquí para quedarse.

El problema clave es definir qué significa realmente la precisión de la previsión.

Intuitivamente, la forma más fácil de medir la precisión de la previsión consiste en hacer un pronóstico y esperar a que ocurra el evento pronosticado; de modo que podamos comparar el pronóstico con su resultado correspondiente.

Sin embargo, este método tiene una gran desventaja: solo te dice acerca de la precisión de los pronósticos pasados. Desde una perspectiva empresarial, importa poco saber si los pronósticos pasados fueron buenos o malos, ya que de todos modos no puedes cambiarlos. Lo que realmente importa es asegurarse de que los pronósticos que están por venir sean realmente precisos.

Luego, hay otro problema: a menos que el método utilizado para producir los pronósticos sea estrictamente idéntico de un pronóstico al siguiente, no hay razón para creer siquiera que la precisión pasada podría usarse como un indicador confiable para la precisión futura.

Desde el siglo XVIII, los matemáticos han introducido la noción de modelo estadístico. El aspecto principal de los modelos estadísticos no es, a pesar de la creencia popular, proporcionar pronósticos buenos o malos, sino proporcionar pronósticos repetibles.

Con un modelo estadístico, obtienes un proceso que automatiza la producción de pronósticos. No garantiza que los pronósticos sean buenos, pero al menos si los pronósticos son malos, puedes analizar el modelo más a fondo.

Consideremos la siguiente serie de tiempo de muestra. Ilustraremos el problema de sobreajuste considerando modelos estadísticos sucesivos.

Comencemos con un modelo lineal simple. Como puedes ver, la línea no se ajusta muy bien a los puntos de la serie de tiempo. Como resultado, tenemos un error grande, más del 50%. Este modelo realmente no se ajusta a los datos.

Luego, podemos aumentar la complejidad del modelo. Ahora tenemos un modelo que sigue aproximadamente el promedio local de la serie de tiempo. Este nuevo modelo se ve mucho mejor que el anterior, y de hecho el error se ha dividido por 5, alcanzando ahora el 10%.

Tenemos un buen modelo aquí, pero ¿todavía podemos reducir aún más el error? Bueno, la respuesta es simple: sí, podemos producir un modelo que logre menos del 1% de error.

Como puedes ver, es bastante fácil; solo tenemos que diseñar un modelo que pase por casi todos los puntos de la serie de tiempo.

Pero, ¿realmente podemos confiar en que este modelo sea preciso en un 1% en pronósticos futuros? ¡Obviamente no podemos! Este modelo simplemente está optimizando microfluctuaciones del pasado que no son más que variaciones aleatorias. Intuitivamente, no podemos pronosticar la verdadera aleatoriedad; solo podemos pronosticar patrones como tendencia, estacionalidad, etc.

Ahora, si comparamos los dos últimos modelos, tenemos un problema obvio: según nuestra medida de error, el modelo de la derecha, el que tiene un error del 1%, es diez veces mejor que el modelo de la izquierda.

Aunque es obvio que el mejor modelo es el de la izquierda. Este modelo suaviza las fluctuaciones aleatorias de la serie de tiempo.

Por lo tanto, hay algo mal con la forma en que estamos midiendo el error. Este error, como se ilustra en los gráficos anteriores, se conoce como el error empírico. Es el error que obtienes a través de medidas en tus datos históricos.

Sin embargo, lo que realmente nos interesa es lo que se conoce como el error real. El error real se define como el error de tu modelo de pronóstico en los datos que no tienes, es decir: datos futuros.

Aunque esta definición parece ser una paradoja completa: ¡cómo puedes medir algo si, precisamente, no tienes los datos!

Desde el siglo XIX, los estadísticos han estado analizando este problema a través de un enfoque conocido como el compromiso sesgo-varianza.

Si observamos los tres modelos que tenemos, podemos decir que el modelo lineal tiene un sesgo alto: no importa qué modelo lineal elijamos, nunca logrará ajustarse realmente a los datos, a menos que, por supuesto, los datos mismos estén distribuidos de manera lineal; pero en la mayoría de las situaciones, el modelo lineal solo aproximará la distribución de los datos.

Entonces, el modelo lineal tiene una varianza baja: intuitivamente, agregar o eliminar un punto en la serie temporal no afectará mucho al modelo resultante. Este modelo es bastante estable.

En el otro extremo, el modelo de la derecha tiene un sesgo muy bajo: se ajusta, de hecho, a la mayoría de los puntos de la serie temporal. Sin embargo, la varianza es muy alta: agregar o eliminar un solo punto es probable que cause cambios importantes en este modelo. No hay estabilidad en absoluto.

En el centro, tenemos un modelo que equilibra tanto el sesgo como la varianza; y esto parece ser exactamente el camino a seguir.

Sin embargo, el problema principal con el enfoque de sesgo versus varianza es que todavía no tenemos idea de lo que realmente está sucediendo con el error real, es decir, el error en los datos que no tenemos.

Este compromiso suele ser más una heurística que un verdadero criterio estadístico.

Desde finales de la década de 1990, el campo del aprendizaje estadístico, una teoría más amplia que abarca la previsión estadística, ha logrado un avance significativo tanto a nivel teórico como práctico.

Esta teoría es compleja, pero una ecuación simple nos brinda una visión importante de los resultados. Esta teoría nos dice que el error real está acotado superiormente por la suma del error empírico y otro valor llamado riesgo estructural.

Como hemos visto anteriormente, el error empírico es simplemente el error medido en los datos históricos.

El riesgo estructural es un criterio teórico que se puede calcular explícitamente para ciertas clases de modelos y estimar para la mayoría de las otras clases.

Volviendo a nuestro ejemplo inicial, podemos ver que el riesgo estructural aumenta con la complejidad del modelo.

Ahora, si cuantificamos esos riesgos estructurales, obtenemos la siguiente perspectiva.

Todavía no conocemos el error real, ese valor de todos modos no se puede medir directamente, pero vemos que el modelo del centro tiene el límite superior más bajo en el error real.

La teoría del aprendizaje estadístico no nos da el valor del error real, pero nos da en cambio un límite superior; y todo el punto es elegir el modelo que logre el límite superior más bajo.

Este límite superior actúa como un valor máximo para el error real.

En comparación con el compromiso sesgo-varianza, vemos que la teoría del aprendizaje estadístico nos da una estimación cuantitativa del error real.

El riesgo estructural es difícil de estimar en la práctica. Sin embargo, en este momento, sigue siendo la mejor solución conocida para evitar el sobreajuste.

Hemos visto anteriormente que una forma obvia de terminar con problemas de sobreajuste era aumentar la complejidad del modelo.

Pero también hay otra forma, una forma más sutil, de terminar con problemas de sobreajuste: esto puede suceder al aumentar la complejidad de los datos.

Agregar puntos adicionales a los datos generalmente reduce los problemas de sobreajuste, pero si comienzas a agregar dimensiones adicionales a los datos, es probable que termines con problemas de sobreajuste incluso si los modelos en sí mismos no cambian.

En nuestra experiencia en Lokad, esta situación se encuentra con frecuencia en organizaciones que refinan, año tras año, sus propios modelos de pronóstico con entradas de datos cada vez mayores; sin tener en cuenta explícitamente el riesgo estructural que acecha dentro de sus modelos.

En dimensiones altas, incluso los modelos lineales están sujetos a problemas de sobreajuste.

Esto concluye esta breve presentación sobre el sobreajuste. Si tienes que recordar una cosa, recuerda que sin tener en cuenta el riesgo estructural, tu medida del error de pronóstico es probable que sea muy engañosa; y cuanto más grande sea tu empresa, más dinero te costará.

Muchas gracias por tu interés. Estaremos encantados de responder tus preguntas en nuestros foros.


Comentarios de los lectores (9)

Presentación de diapositivas interesante hace 3 años | Mark


Wow, qué gran video, gracias por ayudarme a entender el sobreajuste. hace 4 años | Melford McRae


Por cierto, he intentado ver la presentación de diapositivas en varios navegadores y no he podido verla. Parece que nunca se carga. ¿Puede alguien en Lokad verificarlo y ver cuál podría ser el problema? hace 4 años | Shaun Snapp


Acabo de publicar un video actualizado que funciona. hace 4 años | Joannes Vermorel


Parece que SlideShare no ha mantenido sus cosas a lo largo de los años :-( Aquí están el archivo de audio https://media.lokad.com/videos/2009-04-21-overfitting/overfitting.mp3 y el archivo de PowerPoint https://media.lokad.com/videos/2009-04-21-overfitting/overfitting.pptx Voy a combinar esos dos como un video de YouTube. hace 4 años | Joannes Vermorel


Este es un problema bastante espinoso. No hay otra forma de medir un modelo de pronóstico que no sea comprobando su rendimiento histórico, pero existe la tendencia a sobreajustar para obtener “la mejor precisión”. Todo esto sería un problema mayor si un mayor porcentaje de empresas realmente utilizaran su procedimiento de mejor ajuste en los sistemas de pronóstico que compraron o realmente ajustaran los modelos. Me interesaría una discusión sobre cómo evitar el sobreajuste al usar un procedimiento de mejor ajuste. hace 4 años | Shaun Snapp


Publiqué una respuesta de seguimiento en https://blog.lokad.com/journal/2014/5/20/how-to-mitigate-overfitting-when-forecasting-demand ¡Espero que te ayude! hace 4 años | Joannes Vermorel


Gracias por la presentación. Me ayudó a entender el sobreajuste, sin entrar en detalles matemáticos. hace 8 años | Shyam Prasad Murarka


Gracias por la presentación de diapositivas. hace 8 años | Abhishek