Дифференцируемое программирование для оптимизации больших объемов реляционных данных
В сложном мире управления цепями поставок реляционные данные являются королем. ERP-системы, WMS, PMS и другие программные инструменты, всеобщие в сфере цепи поставок, работают поверх реляционных баз данных, отслеживая все, начиная от уровней запасов до отношений с поставщиками. Реляционные данные состоят из серии взаимосвязанных таблиц, каждая из которых богата столбцами информации. Однако, когда дело доходит до машинного обучения и математической оптимизации, реляционные данные часто затмеваются более простыми формами, такими как векторы, последовательности и графы.
Реляционные данные - благодаря своей богатой сложности - предлагают более глубокий, более нюансированный взгляд на операции, чем их более простые аналоги (упомянутые выше векторы, последовательности и графы). Однако большинство предприятий борется с эффективным использованием данных в их реляционной форме. Результат? Принудительное приспособление квадратных колышков к круглым отверстиям, отчаянно пытающихся сжать реляционные данные в инструменты, разработанные для более простых моделей. Это несоответствие ограничивает компании, подобно использованию хоккейной клюшки в гольфе - теоретически возможно, но далеко от оптимального сочетания инструмента и цели.
Решив исследовать эту слепую точку, несколько лет назад Поль Пезе начал докторскую программу в Lokad с целью превратить реляционные данные в полноправных участников как для обучения, так и для оптимизации. Его исследовательские усилия привели к ряду замечательных улучшений в нашей дифференцируемой программировании в рамках Envision - DSL (язык программирования, специфичный для предметной области) Lokad, посвященный оптимизации цепи поставок. Впечатляющие результаты Поля теперь находятся в производстве, обычно зарытые в возможностях автодифференциации DSL.
Автор: Поль Пезе
Дата: сентябрь 2023
Аннотация:
В данной докторской диссертации, озаглавленной, представлены три вклада в область дифференцируемого программирования с акцентом на реляционные данные. Реляционные данные широко распространены в отраслях, таких как здравоохранение и цепь поставок, где данные часто организованы в структурированных таблицах или базах данных. Традиционные подходы машинного обучения испытывают трудности с обработкой реляционных данных, в то время как модели машинного обучения с открытым исходным кодом лучше подходят, но сложны в разработке.
Дифференцируемое программирование предлагает потенциальное решение, рассматривая запросы к реляционным базам данных как дифференцируемые программы, позволяя разрабатывать модели машинного обучения с открытым исходным кодом, которые могут прямо рассуждать о реляционных данных. Основная цель этого исследования - исследовать применение машинного обучения к реляционным данным с использованием техник дифференцируемого программирования.
Первый вклад диссертации представляет собой введение дифференцируемого слоя в языки программирования для работы с реляционными данными, как с теоретической, так и с практической точек зрения. Язык программирования Adsl был создан для выполнения дифференциации и транскрипции реляционных операций запроса. Язык специального назначения Envision был дополнен возможностями дифференцируемого программирования, позволяющими разрабатывать модели, использующие реляционные данные в среде нативного реляционного языка программирования.
Второй вклад разрабатывает новый оценщик градиента под названием GCE, разработанный для категориальных признаков, представленных в реляционных данных. GCE демонстрирует свою полезность на различных категориальных наборах данных и моделях и был реализован для моделей глубокого обучения. GCE также интегрируется в качестве нативного оценщика градиента в дифференцируемый слой программы Envision, облегченный первым вкладом этой диссертации.
Третий вклад разрабатывает обобщенный оценщик градиента под названием Stochastic Path Automatic Differentiation (SPAD), который получает свою стохастичность от декомпозиции кода. SPAD предлагает идею обратного распространения части градиента для снижения потребления памяти во время обновления параметров. Реализация этого подхода оценки градиента становится возможной благодаря решениям, принятым при дифференциации Adsl.
Это исследование имеет значительные последствия для отраслей, полагающихся на реляционные данные, открывая новые идеи и улучшая процесс принятия решений путем применения моделей машинного обучения с открытым исходным кодом к реляционным данным с использованием техник дифференцируемого программирования.
Жюри:
Защита состоялась перед жюри, состоящим из:
- Тьерри Паке, профессор университета (Университет Руана Нормандии), научный руководитель диссертации.
- Максим Берар, преподаватель (Университет Руана Нормандии), со-руководитель диссертации.
- Ромен Раво, преподаватель (Университет Тура), рецензент.
- Тьерри Артьер, профессор университета (ECM / LIS - AMU - CNRS), рецензент.
- Сесилия Занни-Мерк, профессор университета (INSA Руан Нормандия), экзаменатор.
- Лоран Вендлинг, профессор университета (Университет Парижа Сите), экзаменатор.
- Виктор Николет, технический директор Lokad, консультант.