Неразумная эффективность стохастического градиентного спуска (SGD) является, вероятно, самым значительным открытием в области машинного обучения в 2010-х годах. SGD питает практически все последние прорывы в машинном обучении. Концептуально SGD является замечательно простым: обрабатывайте свой набор данных по одной точке данных за раз и для каждой точки изменяйте параметры модели в направлении, заданном этой точкой. В более технических терминах “направление” задается градиентом, а “изменение” включает в себя малый коэффициент масштабирования, обычно называемый скоростью обучения.

В то время как техника SGD восходит к 1950-м годам, она оставалась малоизвестной и малоиспользуемой до тех пор, пока не стала популярной с появлением глубокого обучения. Причины, почему эта техника работает, не были ясны и, в некотором смысле, они все еще не ясны. Поскольку цель состоит в минимизации ошибки модели на всем наборе данных, не очевидно, что выбор точек в строгой изоляции должен привести к чему-то, кроме числового мусора.

В настоящее время общепринято понимать, что эффективность SGD - то есть, почему она работает - обусловлена двумя факторами. Во-первых, хотя градиент, полученный с помощью SGD, очень шумный - каждый шаг учитывает только одну точку данных - этот градиент очень дешевый. Оказывается, что при заданном бюджете вычислительных ресурсов применение множества низкокачественных обновлений градиента значительно превосходит применение одного высококачественного обновления градиента. Во-вторых, сами шумные обновления помогают модели выйти из обширных плато численной безразличности, существующих в более высоких измерениях. Фактически, в более высоких измерениях суть оптимизации заключается не в том, как долго думали, в том, чтобы выйти из локальных минимумов, а в том, чтобы выйти из локальных плато - областей, где потери меняются очень мало.

Абстракт и фигура из статьи с названием Селективное дифференцирование по пути: за пределами равномерного распределения в отсеве обратного распространения.

Некоторые из нас, включая Поля Пезе и Виктора Николле, решили продвинуть эти идеи дальше. Если SGD работает, обменивая качество градиента на вычислительную эффективность, что насчет расширения этого принципа дальше? Что насчет подточечного градиента, который был бы еще дешевле вычислять, хотя и более шумным? Именно это было сделано с помощью селективного дифференцирования по пути (SPAD). SPAD пересматривает один из основных принципов современной парадигмы машинного обучения с некоторыми изменениями: точка данных может быть “разделена” с точки зрения градиента по своим путям оценки.

В статье ниже представлен вклад Поля Пезе (Lokad), Виктора Николле (Lokad), Максима Берара (Litis) и Тьерри Паке (Litis).


Title: Выборочное автоматическое дифференцирование пути: за пределами равномерного распределения на откате отсева

Authors: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet

Abstract: Эта статья представляет собой введение в выборочное автоматическое дифференцирование пути (SPAD), новый подход к снижению потребления памяти и смягчению переобучения в градиентных моделях для встроенного искусственного интеллекта. SPAD расширяет существующее случайное автоматическое дифференцирование, предложенное Октаем и др., которое проходит случайные пути через граф обратного распространения с инъекцией матрицы, позволяя использовать альтернативные вероятностные распределения на графе обратного распространения, тем самым улучшая производительность обучения и управление памятью. В конкретной итерации SPAD оценивает и ранжирует несколько путей в графе обратного распространения. В последующих итерациях он предпочтительно следует этим путям более высокого ранга. В этой работе также представлена компиляционная техника, позволяющая модели-агностический доступ к случайным путям, обеспечивая обобщаемость для различных архитектур моделей, не ограниченных глубокими моделями. Экспериментальные оценки, проведенные на различных оптимизационных функциях, демонстрируют улучшенную производительность минимизации при использовании SPAD. Кроме того, эксперименты с глубоким обучением с использованием SPAD значительно смягчают переобучение, предлагая преимущества, сходные с традиционными методами отсева, но с сопутствующим снижением использования памяти. Мы заключаем обсуждением уникальных стохастических последствий нашей работы и потенциала ее усиления другими стохастическими методами в этой области.

Скачать статью (PDF)