Nuestro video sobre el sobreajuste recibió mucha atención desde que se publicó hace 5 años, es decir, medio siglo atrás para una startup como Lokad. Años después, hemos avanzado mucho pero el sobreajuste sigue siendo un tema difícil.

En resumen, el sobreajuste representa el riesgo de que tu modelo de pronóstico sea preciso solo al predecir el pasado y no al predecir el futuro. Un buen modelo de pronóstico debería ser bueno para predecir los datos que no tienes.

Una idea errónea común es que no hay otra forma de evaluar un modelo que no sea comprobando su rendimiento con los datos históricos. Es cierto, los datos históricos deben ser aprovechados; sin embargo, si hay una idea clave para recordar de la teoría de Vapnik-Chervonenkis es que no todos los modelos son iguales: algunos modelos tienen mucho más riesgo estructural - un concepto parte de la teoría - que otros. Una clase entera de modelos puede considerarse segura o insegura desde una perspectiva puramente teórica, lo que se traduce en mejoras de precisión muy reales.

No se puede evitar por completo el problema del sobreajuste, pero se puede mitigar.

Hay varias formas de mitigar el sobreajuste. Primero, la regla que nunca debes romper es: un modelo de pronóstico nunca debe evaluarse con los datos que se utilizaron para entrenar el modelo en primer lugar. Muchas herramientas hacen regresiones de modelos en todo el historial para estimar el ajuste general posteriormente. Bueno, como su nombre indica, este proceso te da el ajuste pero nada más. En particular, el ajuste no debe interpretarse como algún tipo de precisión esperada, no lo es. El ajuste suele ser mucho menor que la precisión real.

Segundo, una forma sencilla de mitigar el sobreajuste es realizar extensas pruebas retrospectivas. En la práctica, esto significa que tu proceso debe dividir el conjunto de datos de entrada en docenas, si no cientos, de umbrales de fecha incrementales, y volver a entrenar todos los modelos de pronóstico y volver a evaluarlos cada vez. Las pruebas retrospectivas requieren mucha capacidad de procesamiento. Poder asignar la enorme capacidad de procesamiento necesaria para realizar extensas pruebas retrospectivas fue en realidad una de las principales razones por las que Lokad migró hacia la computación en la nube en primer lugar.

Tercero, incluso las pruebas retrospectivas más extensas tienen poco valor si tus series de tiempo son escasas en primer lugar, es decir, si las series de tiempo representan artículos de baja volumen de ventas. De hecho, como la mayoría de los puntos de datos de las series de tiempo son cero, el proceso de pruebas retrospectivas aprende muy poco al iterar sobre ceros. Desafortunadamente para el comercio, aproximadamente el 90% de los artículos vendidos o atendidos tienen un historial de demanda que se considera escaso desde un punto de vista estadístico. Para abordar este problema, el rendimiento del modelo debe evaluarse desde un punto de vista de múltiples series de tiempo. No es el rendimiento del modelo en una sola serie de tiempo lo que importa, sino su rendimiento en grupos bien definidos de series de tiempo. Luego, todo se convierte en un equilibrio entre la precisión empírica local vs global al seleccionar el mejor modelo.

¿Alguna pregunta? No dudes en publicarlas como comentarios.


Comentarios de los lectores (2)

Shaun, El backtesting es una herramienta muy fundamental en estadísticas. Se ha utilizado durante décadas en prácticamente todos los ámbitos: finanzas, meteorología, transporte, energía, … El backtesting no requiere “confianza”, es la única metodología sólida que conocemos cuando se trata de evaluar la precisión de un proceso predictivo, y hay una gran cantidad de literatura sobre el tema. Para una introducción suave, realmente deberías comenzar a leer “Elementos de aprendizaje estadístico” hace 4 años | Joannes Vermorel


Joannes, Esto es extremadamente interesante. Sin embargo, me preocupa cómo explicar esto a los clientes. Entonces, si entiendo bien, uno puede realizar backtesting en Lokad, sin embargo, si el backtesting, que al leerlo es una forma de aprendizaje automático, ¿no tiene un desafío significativo al explicar lo que se hizo? Si se convierte en un algoritmo avanzado, ¿no se debe confiar básicamente en que funcione? Obviamente, esto es un enfoque principal para Lokad, por lo que todos ustedes han pensado mucho en esto. Sin embargo, creo que hay una audiencia corporativa limitada para comprender los detalles específicos de cómo funciona. Entonces, ¿Lokad se basa en los resultados de la investigación que Lokad ha realizado en empresas anteriores, mostrando el beneficio neto de este backtesting? hace 4 años | Shaun Snapp