Стохастический градиентный спуск с оценщиком градиента для категориальных признаков
Обширная область машинного обучения (ML) предоставляет широкий спектр методов и техник, охватывающих различные ситуации. Однако цепочка поставок сталкивается с собственными специфическими проблемами данных, и иногда аспекты, которые могут считаться «базовыми» специалистами по логистике, не выигрывают от традиционных инструментов ML — по крайней мере, по нашим меркам. Так было в случае с категориальными переменными, которые встречаются повсеместно в цепочке поставок — например, для представления категорий товаров, стран происхождения, способов оплаты и т.д. Поэтому несколько из нас решили пересмотреть понятие категориальных переменных с точки зрения дифференцируемого программирования.

В цепочке поставок категориальные переменные часто отсутствуют не потому, что данные неизвестны, а потому что сама категоризация не всегда имеет смысл. Например, термин фасон (прямой / узкий / тонкий и т.д.) применим к брюкам, но не к поясам. Таким образом, различие между «отсутствующими данными» и «неприменимыми данными» может казаться тонким, но оно, тем не менее, важно. Именно такое различие определяет, насколько корректно работает модель, а насколько она ведет себя странно.
Ниже представлена статья с вкладом от Paul Peseux (Lokad), Victor Nicollet (Lokad), Maxime Berar (Litis) и Thierry Paquet (Litis).
Заголовок: Стохастический градиентный спуск с оценщиком градиента для категориальных признаков
Авторы: Paul Peseux, Maxime Berar, Thierry Paquet, Victor Nicollet
Аннотация: Категориальные данные присутствуют в ключевых областях, таких как здравоохранение или цепочка поставок, и требуют особой обработки. Чтобы применить современные модели машинного обучения к таким данным, необходима кодировка. Для построения интерпретируемых моделей one-hot кодирование по-прежнему является очень хорошим решением, однако такая кодировка приводит к разреженным данным. Оценщики градиента не подходят для разреженных данных: градиент в основном считается равным нулю, хотя на самом деле он не всегда существует, поэтому представлен новый оценщик градиента. Мы показываем, что этот оценщик минимизирует в теории, и демонстрируем его эффективность на различных наборах данных с множеством архитектур моделей. Этот новый оценщик показывает лучшие результаты по сравнению с общими оценщиками в аналогичных условиях. Также после анонимизации опубликован реальный розничный набор данных. В целом, цель данной статьи – всесторонне рассмотреть категориальные данные и адаптировать модели и оптимизаторы к этим ключевым особенностям.