Об аналитике последовательного принятия решений.
Я восхищаюсь амбициями Уоррена Пауэлла по объединению разросшейся семьи «решений во времени». Его Аналитика последовательного принятия решений (SDA) задаёт щедрый каркас: от управления до обучения с подкреплением, от транспорта до энергетики и электронной коммерции — послание таково, что последовательные решения обладают общей структурой и должны решаться посредством оптимизации по политикам. В рамках этой структуры выделяются четыре основные стратегии принятия решений — краткосрочные приближения через функции затрат, приближения через функции ценности, прямое прогнозирование и приближения через функции политики — каждая из которых является путём сквозь неразрешимые динамические задачи. Это мощная концепция, оказавшая влияние на многие области одновременно.1
Моя собственная работа исходит из иного подхода. В книге Introduction to Supply Chain я утверждаю, что цепочка поставок не является отраслью математики или программного обеспечения per se; это прикладная отрасль экономики. Повседневная практика заключается в том, чтобы превращать опционы в условиях изменчивости в деньги, где мерилом служит прибыль — правильно скорректированная с учётом риска. Эта позиция — не лозунг. Она определяет, как мы моделируем, как измеряем и, в конечном итоге, как автоматизируем. Если целью являются монеты в бухгалтерской книге, то каждая важная концепция — дефицит, компромиссы, альтернативные издержки — должна быть оценена по цене до оптимизации. См. Главу 3 («Эпистемология») и Главу 4 («Экономика»).2
Где SDA и я встречаемся
SDA правильно рассматривает будущее как последовательность наблюдений и выборов, где агентство сохраняется за счёт политик, реагирующих на известную на каждом этапе информацию. Цепочки поставок существуют именно в таком мире. Но любой, кто пытался управлять предприятием в крупных масштабах, знает, что данные поступают как побочный продукт систем учёта, что стимулы иногда противоречат истине, и что сбор доказательств дорог. Вот почему книга уделяет внимание тому, как производится знание внутри компаний, и искажениям, которые вкрадываются — то, что я называю «эпистемической коррупцией». Модель, блестяще работающая в лабораторных условиях, всё же должна выдерживать контакт со стимулами и семантикой производственного процесса. См. Главу 3 («Эпистемология», особенно §3.6).2
Таксономия классов политик в SDA также служит полезным контрольным списком, когда необходимо аппроксимировать то, что нельзя решить точно. В этом смысле моя работа созвучна: движки цепочек поставок часто сочетают простые краткосрочные шаги с коротким прогнозированием там, где это оправдано. Лексикон SDA помогает сравнивать такие стратегии и напоминает, что никакой один класс не доминирует во всех задачах.1
Где наши пути расходятся
Расхождение начинается с первого шага. SDA опирается на модель — состояние, решение, экзогенная информация, переход, цель — а затем ищет подходящие политики. Я же начинаю раньше, с ценообразования. Прежде чем принять какое-либо «состояние», я хочу, чтобы затраты и выгоды, которые оправдывают экономическую легитимность решения, были видны и поддавались аудиту. Иными словами, я предпочитаю оценивать последствия по цене до тех пор, пока многочисленные последовательные тонкости не схлопнутся в обоснованные, одношаговые решения.
Это наиболее очевидно, когда мы «упрощаем» последовательную задачу, внедряя правильные цены. Рассмотрим, например, распределение дефицитного товара из распределительного центра. Если мы назначаем инвентаризации РЦ видимую резервную цену — теневую цену, отражающую опцион на удовлетворение более выгодного запроса завтра — то магазин получает единицу лишь в том случае, когда его предельная отдача действительно превышает эту резервную цену. Мы не игнорируем будущее; мы выкупаем его по цене, отражающей стоимость капитала, ценность информации и возможность ожидания. См. Главу 8 («Решения», §8.5).2
Два инструмента делают это упрощение достаточно безопасным для ежедневного применения. Первый — это окно ответственности: ограниченный горизонт, в течение которого сегодняшнее решение подлежит учёту, а последующие решения наследуют оставшуюся часть. Нам не нужно прописывать весь сезон, чтобы оценить, было ли разумно заказать контейнер (или отгрузить товар в магазин); мы измеряем результаты, выраженные в монетах, в рамках одного окна и двигаемся дальше. Второй — это экономика ожидания: бездействие по-прежнему является законной опцией, с правилом отсечения, которое срабатывает только тогда, когда ожидаемая, с учетом риска скорректированная отдача от наилучшего допустимого хода превышает теневую стоимость капитала компании плюс опцион на отсрочку. Вместе эти механизмы сохраняют возможность принятия решений, избегая хрупкости глубокого прогнозирования, когда данные и семантика несовершенны. См. Главу 8 («Решения», §8.5).2
Ценообразование также позволяет учитывать долгосрочные побочные эффекты без моделирования каждой случайности. Розничный торговец, оценивающий запасы исключительно по наблюдаемым продажам, будет недостаточно инвестировать в обслуживание; решением является штраф за дефицит товара, теневое оценивание, отражающее долгосрочную стоимость потерянных продаж. При установлении такой цены последовательная боль от разочарования клиента завтра правильно отражается через распределение сегодня. См. Главы 4 и 8.2
Такой подход «сначала ценообразование» проникает и в инженерное дело. SDA в основном ориентирована на модель, а я — на инженерию. В книге утверждается, что программные парадигмы, используемые для выражения решений, важны не меньше, чем статистическая модель. Цепочки поставок выигрывают от языков и платформ выполнения, где время, деньги и неопределённость являются сущностями первого порядка; где доминируют массивы и таблицы; где детерминизм обеспечивает аудит; и где частичное пересчитывание сокращает циклы обратной связи. Цель — автономные системы, чьи решения выражаются в монетах, а не панели управления, требующие вмешательства в 7 утра. См. Главу 9 («Инжиниринг», §9.5) и Главу 6 («Интеллект», §6.3).2
Наконец, встает вопрос как мы учимся. Полевые данные дороги и неоднозначны; единственным практичным противоядием является экспериментальная оптимизация: инструментировать, принимать решения, наблюдать за «безумными» рекомендациями, исправлять управляющие факторы и повторно запускать процесс. Этот цикл не претендует на окончательную сходимость; он удерживает систему привязанной к реальности по мере изменения условий. См. Главу 9 («Инжиниринг», §9.2).2
Что это означает на практике
Широта подхода SDA — это его особенность. Когда вы калибруете прогноз для энергетического хранилища, разрабатываете политику для робота-контроллера или сравниваете приближения через функцию ценности с прямыми развертываниями, SDA предлагает последовательный язык и карту методов для испытаний. Она также напоминает, что в конечном итоге мы оптимизируем по политикам.1
Но корпоративная цепочка поставок — это совсем иная дикая территория. Семантика данных меняется у вас под ногами; стимулы искажают доказательства; эксперименты рискованны и медленны. В таких условиях у меня больше успеха с подходом «сначала ценообразование, затем моделирование». Метод прост в изложении, хотя и требует усилий при реализации. Оценивайте по цене то, что является дефицитным — включая внимание и мощности. Назначайте явные штрафы там, где будущее наносит ущерб — дефицит товара, перегрузки, устаревание. Ограничивайте атрибуцию рамками окна. Признайте опцию «ожидания» и применяйте правило отсечения, учитывающее как капитал, так и неопределённость. Выражайте всё это в парадигме, где деньги и время воспринимаются как неотъемлемые сущности. Затем повторяйте процесс, пока автономные решения не перестанут казаться безумием.
Это не опровержение SDA. Это выбор порядка. SDA ищет приближения, делающие динамическую оптимизацию осуществимой. А я ищу цены, делающие повседневные решения экономически правильными, так чтобы динамическая задача, которую нам придётся приближать, была меньше, лучше структурирована и оправдывала приложенные усилия. Эти два подхода можно комбинировать: снаружи — инженерно оформленный периметр с ценовой оценкой; внутри — целенаправленное краткосрочное прогнозирование или приближение функции ценности там, где это действительно необходимо.
Читатели, заинтересованные в моём детальном подходе, найдут экономические основы в главах 3–4, рассмотрение последовательных решений в главе 8 и инженерную позицию — программные парадигмы и экспериментальную оптимизацию — в главе 9 книги Introduction to Supply Chain. Для компактного изложения охвата SDA и четырёх классов политик, охватывающих его методы, объединённая структура Пауэлла и его учебное пособие по моделированию являются лучшей отправной точкой.1