La efectividad irrazonable del Descenso de Gradiente Estocástico (SGD, por sus siglas en inglés) es probablemente el mayor descubrimiento de aprendizaje automático de la década de 2010. SGD impulsa casi todos los avances recientes en aprendizaje automático. Conceptualmente, SGD es notablemente simple: procesa tu conjunto de datos punto por punto y, para cada punto, ajusta los parámetros del modelo en la dirección dada por este punto. En términos más técnicos, la “dirección” se da como un gradiente y el “ajuste” implica un pequeño coeficiente de escala generalmente conocido como la tasa de aprendizaje.

Aunque la técnica de SGD se remonta a la década de 1950, en su mayoría permaneció como una técnica oscura y poco utilizada hasta que cobró importancia con la llegada del aprendizaje profundo. Las razones por las que esta técnica funciona no estaban claras y, hasta cierto punto, todavía no lo están. Dado que el objetivo es minimizar el error del modelo en el conjunto de datos en su conjunto, no es obvio que seleccionar puntos en estricto aislamiento produzca algo más que basura numérica.

Hoy en día, se entiende en general que la efectividad de SGD, es decir, por qué funciona, se debe a dos factores. En primer lugar, aunque el gradiente obtenido por SGD es muy ruidoso, ya que cada paso considera un solo punto de datos, este gradiente es muy económico. Resulta que, para un presupuesto dado de recursos informáticos, la aplicación de numerosas actualizaciones de gradiente de baja calidad supera ampliamente la aplicación de una sola actualización de gradiente de alta calidad. En segundo lugar, las actualizaciones ruidosas en sí mismas ayudan al modelo a salir de los vastos mesetas de indiferencia numérica que existen en dimensiones superiores. De hecho, en dimensiones superiores, la clave de la optimización no es, como se pensaba, escapar de los mínimos locales, sino escapar de los mesetas locales, áreas donde la pérdida varía muy poco.

Un resumen y una figura de un artículo titulado Diferenciación Automática de Ruta Selectiva: Más allá de la distribución uniforme en la eliminación de retropropagación.

Algunos de nosotros, incluidos Paul Peseux y Victor Nicollet, decidimos avanzar aún más en estas ideas. Si SGD funciona al intercambiar calidad de gradiente por eficiencia computacional, ¿qué tal si extendemos este principio aún más? ¿Qué tal si tenemos un gradiente de subpunto que sea aún más económico de calcular, aunque más ruidoso? Esto es exactamente lo que se ha hecho con la Diferenciación Automática de Ruta Selectiva (SPAD). SPAD revisita uno de los pilares del paradigma moderno de aprendizaje automático con un giro: un punto de datos puede ser “dividido” en términos de gradiente por sus rutas de evaluación.

El siguiente artículo presenta una contribución de Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) y Thierry Paquet (Litis).


Título: Diferenciación Automática de Ruta Selectiva: Más allá de la distribución uniforme en la eliminación de retropropagación

Autores: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet

Resumen: Este artículo presenta la Diferenciación Automática de Ruta Selectiva (SPAD), un enfoque novedoso para reducir el consumo de memoria y mitigar el sobreajuste en modelos basados en gradientes para la inteligencia artificial integrada. SPAD amplía la Diferenciación Automática Aleatorizada existente, propuesta por Oktay et al y que traza rutas aleatorias a través del grafo de retropropagación con inyección de matriz, al permitir distribuciones de probabilidad alternativas en el grafo de retropropagación, mejorando así el rendimiento de aprendizaje y la gestión de memoria. En una iteración específica, SPAD evalúa y clasifica múltiples rutas dentro del grafo de retropropagación. En iteraciones posteriores, sigue preferentemente estas rutas de mayor clasificación. Este trabajo también presenta una técnica basada en compilación que permite el acceso agnóstico al modelo a rutas aleatorias, asegurando la generalización en diversas arquitecturas de modelos, no solo en modelos profundos. Las evaluaciones experimentales realizadas en diversas funciones de optimización demuestran un mejor rendimiento de minimización al emplear SPAD. Además, los experimentos de aprendizaje profundo con SPAD mitigan notablemente el sobreajuste, ofreciendo beneficios similares a los métodos tradicionales de eliminación de retropropagación, pero con una disminución concomitante en el uso de memoria. Concluimos discutiendo las implicaciones únicas de estocasticidad de nuestro trabajo y el potencial que tiene para mejorar otras técnicas estocásticas en el campo.

Descargar el artículo (PDF)