Стохастический градиентный спуск с оценкой градиента для категориальных признаков
Обширная область машинного обучения (ML) предоставляет широкий спектр техник и методов, которые охватывают множество ситуаций. Однако снабженческая цепочка имеет свой собственный набор специфических проблем с данными, и иногда аспекты, которые могут считаться «базовыми» для практиков снабженческой цепочки, не получают пользы от удовлетворительных инструментов ML - по крайней мере, согласно нашим стандартам. Так было с категориальными переменными, которые повсеместно присутствуют в снабженческой цепочке - например, для представления категорий товаров, стран происхождения, способов оплаты и т. д. Поэтому несколько из нас решили пересмотреть понятие категориальных переменных с точки зрения дифференцируемого программирования.
В снабженческой цепочке категориальные переменные часто отсутствуют не потому, что данные неизвестны, а потому что сама категоризация не всегда имеет смысл. Например, разрез (прямой / узкий / облегающий и т. д.) применим к брюкам, но не к ремням. Таким образом, различие между “отсутствующими данными” и “неприменимыми данными” может показаться тонким, но тем не менее важным. Это тот вид различия, который отличает хорошо себя ведущую модель от странной.
В статье ниже представлен вклад Поля Пезе (Lokad), Виктора Николле (Lokad), Максима Берара (Litis) и Тьерри Паке (Litis).
Title: Стохастический градиентный спуск с оценкой градиента для категориальных признаков
Authors: Поль Пезе, Максим Берар, Тьерри Паке, Виктор Николле
Abstract: Категориальные данные присутствуют в ключевых областях, таких как здравоохранение или снабженческая цепочка, и эти данные требуют специальной обработки. Для применения последних моделей машинного обучения к таким данным требуется кодирование. Для создания интерпретируемых моделей по-прежнему хорошим решением является кодирование one-hot, но такое кодирование создает разреженные данные. Оценщики градиента не подходят для разреженных данных: градиент в основном считается нулевым, хотя он просто не всегда существует, поэтому вводится новый оценщик градиента. Мы показываем, что этот оценщик минимизирует в теории и демонстрируем его эффективность на различных наборах данных с несколькими архитектурами моделей. Этот новый оценщик работает лучше обычных оценщиков в аналогичных условиях. Также после анонимизации выпускается набор реальных данных о розничной торговле. В целом, целью этой статьи является тщательное рассмотрение категориальных данных и адаптация моделей и оптимизаторов к этим ключевым особенностям.