О последовательном анализе решений.
Я восхищаюсь амбициями Уоррена Пауэлла по объединению обширного семейства «решений во времени». Его метод последовательного анализа решений (SDA) устанавливает широкую рамку: от управления до обучения с подкреплением, от транспорта до энергетики и электронной коммерции, послание заключается в том, что последовательные решения имеют общую структуру и их следует решать посредством оптимизации политик. В этой структуре выделяются четыре основных подхода к принятию решений — миопические или приближения функции затрат, приближения функции ценности, прямой прогноз и приближения функции политики — каждый из которых является путём обхода неразрешимой сложности динамических задач. Это мощное представление, которое оказало влияние на многие области одновременно.1
Моя собственная работа исходит из иного исходного положения. В книге Введение в цепочку поставок я утверждаю, что цепочка поставок — не отрасль математики или программного обеспечения как такового; это прикладная отрасль экономики. Ежедневная практика заключается в том, чтобы превращать возможность выбора в условиях изменчивости в деньги, где прибылью — правильно скорректированной по риску — служит мерило. Если целью являются монеты в бухгалтерской книге, то каждая значимая концепция — дефицит, компромиссы, альтернативные издержки — должна быть оценена до оптимизации. См. главу 3 («Эпистемология») и главу 4 («Экономика»).2
Там, где SDA и я пересекаемся
SDA правильно рассматривает будущее как последовательность наблюдений и выборов, при этом агентство сохраняется через политики, реагирующие на то, что известно на каждом шаге. Цепочки поставок существуют именно в таком мире. Но каждый, кто пытался управлять предприятием в большом масштабе, знает, что данные поступают как побочный продукт систем учета, что стимулы иногда противоречат истине, и что доказательства дорого получать. Именно поэтому в книге уделяется внимание тому, как производится знание внутри фирм, и искажениям, которые проскальзывают — тому, что я называю «эпистемической коррупцией». Рамка, которая превосходно работает в лабораторных условиях, должна выдерживать контакт со стимулами и семантикой цеха. См. главу 3 («Эпистемология», особенно §3.6).2
SDA’овская таксономия классов политик также является полезным контрольным списком, когда приходится приближать то, что не может быть решено точно. В этом смысле моя работа симпатична: движки цепочки поставок часто сочетают простые миопические шаги с краткосрочным прогнозированием там, где это оправданно. Лексикон SDA помогает сравнивать такие стратегии и напоминает нам, что ни один класс не доминирует во всех задачах.1
Там, где мы расходимся
Расхождение начинается с первого шага. SDA исходит из модели — состояние, решение, экзогенная информация, переход, цель — и затем проводит поиск по политикам. Я же начинаю раньше, с ценообразования. Прежде чем принять любое «состояние», я хочу, чтобы затраты и выгоды, которые делают решение экономически обоснованным, были видимы и проверяемы. Другими словами, я предпочитаю оценивать последствия до тех пор, пока множество последовательных тонкостей не сведется к обоснованным, мгновенным решениям.
Это наиболее очевидно, когда мы «выравниваем» последовательную задачу, устанавливая правильные цены. Рассмотрим распределение дефицитного запаса из распределительного центра. Если мы назначим видимую удерживающую цену для запасов в распределительном центре — теневую цену, отражающую возможность обслужить более выгодный запрос завтра — то магазин получает единицу только тогда, когда его предельная прибыль действительно превышает эту удерживающую цену. Мы не игнорируем будущее; мы выкупаем его цифрой, отражающей стоимость капитала, ценность информации и возможность ожидания. См. главу 8 («Решения», §8.5).2
Два инструмента делают такое выравнивание достаточно безопасным для ежедневного применения. Первый — это окно ответственности: ограниченный горизонт, в течение которого за сегодняшнее решение несется ответственность, а последующие решения наследуют оставшуюся часть. Нам не нужно прописывать весь сезон, чтобы оценить, было ли разумно заказать контейнер (или отгрузить в магазин); мы измеряем последствия, выраженные в денежных единицах, в рамках окна и продолжаем далее. Второй — это экономика ожидания: бездействие является законной опцией, с пороговым правилом, которое срабатывает только тогда, когда ожидаемая с учетом риска доходность наилучшего допустимого шага превышает теневую стоимость капитала фирмы плюс опционную стоимость задержки. Вместе эти механизмы сохраняют агентство, избегая хрупкости глубокого прогнозирования, когда данные и семантика несовершенны. См. главу 8 («Решения», §8.5).2
Ценообразование также позволяет учитывать долгосрочные побочные эффекты, не моделируя каждую случайность. Ритейлер, оценивающий запасы исключительно по наблюдаемым продажам, будет недоинвестировать в обслуживание; решением служит штраф за дефицит товара, теневой расчет, отражающий долгосрочную стоимость утраченных продаж. При такой цене последовательная боль от разочарования клиента завтра корректно отражается в сегодняшнем распределении. См. главы 4 и 8.2
Такой подход «сначала ценообразование» переносится и на инженерное дело. SDA в основном ориентирован на модель; я же делаю ставку на инженерное решение. В книге утверждается, что программные парадигмы, используемые для выражения решений, имеют значение не меньше, чем статистическая модель. Цепочки поставок выигрывают от языков и сред выполнения, где время, деньги и неопределённость являются первоклассными сущностями; где преобладают массивы и таблицы; где детерминизм обеспечивает аудит; и где частичные перерасчёты сокращают временные циклы обратной связи. Цель — автономные системы, чьи решения выражаются в денежном эквиваленте, а не дашборды, которым требуется спасение в 7 утра. См. главу 9 («Инжиниринг», §9.5) и главу 6 («Интеллект», §6.3).2
Наконец, остается вопрос каким образом мы учимся. Полевые данные стоят дорого и зачастую неоднозначны; единственное практическое средство противодействия — это экспериментальная оптимизация: собрать данные, принять решения, наблюдать за «ненормальными» рекомендациями, исправлять ошибочные показатели и повторять процесс. Этот цикл не претендует на окончательную сходимость; он поддерживает систему, привязанную к реальности по мере изменения условий. См. главу 9 («Инжиниринг», §9.2).2
Что это означает на практике
Обширность подхода SDA — это его особенность. Когда вы настраиваете прогноз для энергетического хранилища, разрабатываете стратегию для роботизированного контроллера или сравниваете приближения функции ценности с прямыми моделями, SDA предлагает связный язык и карту методов для испытаний. Это также напоминает нам, что в конечном итоге мы оптимизируем именно политики.1
Однако корпоративная цепочка поставок — это другая, более дикая территория. Семантика данных меняется прямо под ногами; стимулы искривляют доказательства; эксперименты рискованны и медленны. В таких условиях мне больше удавалось, прибегая сначала к ценообразованию, а моделирование оставляя на втором плане. Метод прост в изложении, хотя его выполнение требует усилий. Оценивайте то, что в дефиците — включая внимание и производственные мощности. Применяйте явные штрафы там, где будущее приносит ущерб — дефицит товара, перегрузки, устаревание. Ограничивайте атрибуцию с помощью окна. Признавайте «ожидание» как опцию и вводите пороговое правило, учитывающее как капитал, так и неопределенность. Выражайте всё это в парадигме, где деньги и время являются базовыми, а затем повторяйте процесс, пока автономные решения не перестанут казаться абсурдными.
Это не опровержение SDA. Это выбор порядка. SDA ищет приближения, делающие динамическую оптимизацию осуществимой. Я же ищу цены, которые делают повседневные решения экономически правильными, так чтобы динамическая задача, которую нам действительно приходится приближать, была меньше, лучше контролируемой и оправдывала дополнительные усилия. Эти два подхода можно комбинировать: снаружи — ценовой, инженерный периметр; внутри — целенаправленный прогноз или приближение функции ценности там, где это действительно необходимо.
Читатели, заинтересованные в моей подробной позиции, найдут экономические основания в главах 3–4, рассмотрение последовательных решений — в главе 8, а инженерный подход — программные парадигмы и экспериментальную оптимизацию — в главе 9 книги Введение в цепочку поставок. Для краткого изложения охвата SDA и четырех классов политик, охватывающих его методы, объединённая концепция Пауэлла и его учебное пособие по моделированию являются лучшими отправными точками.1