Обобщение - это способность алгоритма создавать модель, используя набор данных, которая хорошо работает на ранее неизвестных данных. Обобщение имеет важное значение для цепочки поставок, так как большинство решений отражают предвидение будущего. В контексте прогнозирования данные являются неизвестными, потому что модель прогнозирует будущие события, которые наблюдать невозможно. Несмотря на значительный прогресс, как теоретический, так и практический, в области обобщения с 1990-х годов, истинное обобщение остается недостижимым. Полное решение проблемы обобщения может не сильно отличаться от решения проблемы искусственного общего интеллекта. Кроме того, цепочка поставок добавляет свои собственные сложности к основным проблемам обобщения.
Обзор парадокса
Создание модели, которая идеально работает на имеющихся данных, просто: достаточно полностью запомнить набор данных, а затем использовать сам набор данных для ответа на любой запрос, связанный с набором данных. Поскольку компьютеры хорошо справляются с записью больших наборов данных, создание такой модели легко. Однако это обычно бесполезно1, поскольку суть наличия модели заключается в ее предсказательной силе помимо того, что уже было наблюдено.
Кажется, что возникает непреодолимый парадокс: хорошая модель - это та, которая хорошо работает на данных, которые в настоящее время недоступны, но, по определению, если данные недоступны, наблюдатель не может провести оценку. Термин “обобщение” поэтому относится к неуловимой способности определенных моделей сохранять свою актуальность и качество за пределами наблюдений, доступных на момент построения модели.
Хотя запоминание наблюдений можно отклонить как неподходящую стратегию моделирования, любая альтернативная стратегия создания модели потенциально подвержена той же проблеме. Независимо от того, насколько хорошо модель кажется работать на настоящих данных, всегда можно предположить, что это просто вопрос случая или, что еще хуже, дефекта стратегии моделирования. То, что на первый взгляд может показаться периферийным статистическим парадоксом, на самом деле является проблемой глобального масштаба.
В качестве анекдотического доказательства, в 1979 году SEC (Комиссия по ценным бумагам и биржам), американское агентство, ответственное за регулирование финансовых рынков, ввело свое знаменитое Правило 156. Это правило требует, чтобы управляющие фондами информировали инвесторов о том, что прошлые результаты не являются показателем будущих результатов. Прошлые результаты являются неявной “моделью”, которую SEC предупреждает не доверять за ее “обобщающую” силу; то есть за ее способность что-либо сказать о будущем.
Даже сама наука борется с тем, что означает экстраполяция “истины” за пределами узкого набора наблюдений. Скандалы “плохой науки”, которые развернулись в 2000-х и 2010-х годах вокруг p-хакинга, указывают на то, что целые области исследований испорчены и не могут быть доверены2. Хотя есть случаи явного мошенничества, когда экспериментальные данные явно подделаны, большую часть времени суть проблемы заключается в моделях; то есть в интеллектуальном процессе, используемом для обобщения того, что было наблюдено.
Под своим самым широким обличьем проблема обобщения неразличима от самой науки, поэтому она так же сложна, как и воспроизведение широты человеческого изобретательства и потенциала. Однако, более узкий статистический вкус проблемы обобщения намного более доступен, и именно эту перспективу мы примем в следующих разделах.
Возникновение новой науки
Обобщение возникло как статистическая парадигма в начале 20-го века, в основном через призму точности прогнозирования3, которая представляет собой особый случай, тесно связанный с прогнозами временных рядов. В начале 1900-х годов появление среднего класса, владеющего акциями, в США вызвало огромный интерес к методам, которые помогли бы людям обеспечить финансовую прибыль от своих торгуемых активов. Гадалки и экономические прогнозисты одинаково стремились экстраполировать будущие события для охотно платящей публики. Судьбы были сделаны и потеряны, но эти усилия очень мало пролили свет на “правильный” способ подхода к проблеме.
Обобщение оставалось, в основном, ошеломляющей проблемой для большей части 20-го века. Даже не было ясно, принадлежит ли оно к области естественных наук, управляемых наблюдениями и экспериментами, или к области философии и математики, управляемых логикой и самосогласованностью.
Пространство продолжало двигаться до вехового момента в 1982 году, года первого публичного соревнования по прогнозированию - по народному известного как соревнование M4. Принцип был прост: опубликовать набор данных из 1000 усеченных временных рядов, позволить участникам представить свои прогнозы, и, наконец, опубликовать остальную часть набора данных (усеченные хвосты) вместе с достигнутой точностью участниками. Через это соревнование обобщение, все еще рассматриваемое через призму точности прогнозирования, вошло в область естественных наук. Впереди прогнозные соревнования стали все более частыми.
Через несколько десятилетий Kaggle, основанный в 2010 году, добавил новое измерение к таким соревнованиям, создав платформу, посвященную общим проблемам прогнозирования (не только временных рядов). На февраль 2023 года5, платформа организовала 349 соревнований с денежными призами. Принцип остается тем же, что и в оригинальном соревновании M: усеченный набор данных становится доступным, участники представляют свои ответы на заданные задачи прогнозирования, и, наконец, рейтинги вместе с скрытой частью набора данных раскрываются. Соревнования все еще считаются золотым стандартом для правильной оценки ошибки обобщения моделей.
Переобучение и недообучение
Переобучение, как и его антоним недообучение, - это проблема, которая часто возникает при создании модели на основе заданного набора данных и подрывает обобщающую способность модели. Исторически6, переобучение возникло как первое хорошо понятное препятствие для обобщения.
Визуализация переобучения может быть выполнена с помощью простой задачи моделирования временных рядов. Для целей этого примера предположим, что целью является создание модели, отражающей ряд исторических наблюдений. Одним из самых простых вариантов моделирования этих наблюдений является линейная модель, как показано ниже (см. Рисунок 1).
Рисунок 1: Композитный график, изображающий три разных попытки «подгонки» ряда наблюдений.
С двумя параметрами «недообученная» модель является надежной, но, как следует из названия, она недостаточно точно отражает данные, так как явно не улавливает общую форму распределения наблюдений. Этот линейный подход имеет высокую смещенность, но низкую дисперсию. В этом контексте смещение следует понимать как врожденное ограничение стратегии моделирования на улавливание деталей наблюдений, а дисперсию следует понимать как чувствительность к малым флуктуациям – возможно, шумам – наблюдений.
Можно принять довольно сложную модель, как показано на кривой «переобучения» (Рисунок 1). Эта модель включает много параметров и точно соответствует наблюдениям. У такого подхода низкая смещенность, но демонстрируется высокая дисперсия. В качестве альтернативы можно принять модель средней сложности, как показано на кривой «правильной подгонки» (Рисунок 1). Эта модель включает три параметра, имеет среднюю смещенность и среднюю дисперсию. Из этих трех вариантов модель правильной подгонки всегда является лучшей с точки зрения обобщения.
Эти варианты моделирования представляют собой суть компромисса между смещением и дисперсией.7 8 Компромисс между смещением и дисперсией является общим принципом, который показывает, что смещение можно уменьшить, увеличивая дисперсию. Ошибка обобщения минимизируется путем нахождения правильного баланса между смещением и дисперсией.
Исторически, с начала XX века до начала 2010-х годов, переобученная модель определялась9 как модель, содержащая больше параметров, чем можно обосновать данными. Действительно, на первый взгляд, добавление слишком большого количества степеней свободы к модели кажется идеальным рецептом для проблем переобучения. Однако появление глубокого обучения доказало, что эта интуиция и определение переобучения являются вводящими в заблуждение. Этот вопрос будет рассмотрен в разделе о глубоком двойном спуске.
Кросс-валидация и обратное тестирование
Кросс-валидация - это техника проверки модели, используемая для оценки того, насколько хорошо модель обобщается за пределы своего обучающего набора данных. Это метод подвыборки, который использует различные части данных для тестирования и обучения модели на разных итерациях. Кросс-валидация является основой современных практик прогнозирования, и почти все победители конкурсов прогнозирования широко используют кросс-валидацию.
Существует множество вариантов кросс-валидации. Самый популярный вариант - это k-кратная проверка, при которой исходная выборка случайным образом разбивается на k подвыборок. Каждая подвыборка используется один раз в качестве проверочных данных, в то время как остальные - все остальные подвыборки - используются в качестве обучающих данных.
Рисунок 2: Пример кросс-валидации K-кратной проверки. Представленные наблюдения все взяты из одного и того же набора данных. Таким образом, техника создает подвыборки данных для целей проверки и обучения.
Выбор значения k, количество подвыборок, является компромиссом между маргинальными статистическими выгодами и требованиями в терминах вычислительных ресурсов. Действительно, с использованием k-кратной проверки вычислительные ресурсы растут линейно с увеличением значения k, в то время как выгоды в плане снижения ошибки испытывают крайне убывающие отдачи10. На практике выбор значения 10 или 20 для k обычно является “достаточно хорошим”, так как статистические выгоды, связанные с более высокими значениями, не стоят дополнительных неудобств, связанных с более высокими затратами вычислительных ресурсов.
Кросс-валидация предполагает, что набор данных может быть разложен на серию независимых наблюдений. Однако в цепочке поставок это часто не так, поскольку набор данных обычно отражает некоторый вид исторических данных, где присутствует зависимость от времени. При наличии времени обучающая подвыборка должна строго предшествовать валидационной. Другими словами, “будущее” относительно отсечки перекрестной выборки не должно просачиваться в валидационную подвыборку.
Рисунок 3: Пример процесса обратного тестирования создает подвыборки данных для целей проверки и обучения.
Ретроспективное тестирование представляет собой разновидность кросс-валидации, которая непосредственно учитывает зависимость от времени. Вместо случайных подвыборок данные для обучения и проверки получаются путем отсечки: наблюдения до отсечки относятся к данным для обучения, в то время как наблюдения после отсечки относятся к данным для проверки. Процесс повторяется путем выбора серии различных значений отсечки.
Метод перекрестной выборки, который лежит в основе как кросс-валидации, так и ретроспективного тестирования, является мощным механизмом, направляющим усилия по моделированию на путь более обобщенного решения. Фактически, он настолько эффективен, что существует целый класс алгоритмов (машинного) обучения, которые в своей основе используют этот механизм. Самые известные из них - случайные леса и градиентный бустинг.
Преодоление размерностного барьера
Естественно, чем больше данных, тем больше информации можно извлечь. Таким образом, при прочих равных условиях, больше данных должно привести к лучшим моделям или, по крайней мере, к моделям, которые не хуже, чем их предшественники. В конце концов, если больше данных делает модель хуже, всегда можно проигнорировать данные в крайнем случае. Однако из-за проблем переобучения отказ от данных оставался “меньшим злом” до конца 1990-х годов. Это была суть проблемы “размерностного барьера”. Эта ситуация была как сбивающей с толку, так и глубоко неудовлетворительной. Прорывы в 1990-х годах позволили преодолеть размерностные барьеры с потрясающими инсайтами, как теоретическими, так и практическими. В процессе эти прорывы сумели отвлечь - силой своего отвлекающего воздействия - всю область исследований на десятилетие, задержав появление ее преемников, в первую очередь методов глубокого обучения, которые обсуждаются в следующем разделе.
Чтобы лучше понять, что было неправильно с увеличением объема данных, рассмотрим следующий сценарий: вымышленный производитель хочет предсказать количество несвоевременных ремонтов в год на крупных промышленных оборудованиях. После тщательного рассмотрения проблемы, инженерная команда выявила три независимых фактора, которые, кажется, вносят вклад в уровень отказов. Однако соответствующий вклад каждого фактора в общий уровень отказов неясен.
Таким образом, вводится простая модель линейной регрессии с 3 входными переменными. Модель может быть записана как Y = a1 * X1 + a2 * X2 + a3 * X3, где
- Y - это выход линейной модели (частота отказов, которую инженеры хотят предсказать)
- X1, X2 и X3 - это три фактора (конкретные типы рабочих нагрузок, выраженные в часах работы), которые могут влиять на отказы
- a1, a2 и a3 - это три параметра модели, которые должны быть определены.
Количество наблюдений, необходимых для получения “достаточно хороших” оценок трех параметров, в значительной степени зависит от уровня шума, присутствующего в наблюдениях, и того, что считается “достаточно хорошим”. Однако, интуитивно, для подгонки трех параметров потребуется как минимум два десятка наблюдений, даже в самых благоприятных ситуациях. Поскольку инженеры смогли собрать 100 наблюдений, они успешно регрессируют 3 параметра, и полученная модель кажется “достаточно хорошей” для практического применения. Модель не улавливает многие аспекты 100 наблюдений, что делает ее очень грубым приближением, но когда эта модель проверяется на других ситуациях через мысленные эксперименты, интуиция и опыт говорят инженерам, что модель ведет себя разумно.
Основываясь на своем первом успехе, инженеры решают провести более глубокое исследование. На этот раз они используют все возможности электронных датчиков, встроенных в механизмы, и с помощью электронных записей, создаваемых этими датчиками, им удается увеличить набор входных факторов до 10 000. Изначально набор данных состоял из 100 наблюдений, каждое из которых характеризовалось 3 числами. Теперь набор данных был расширен; это все еще те же 100 наблюдений, но на каждое наблюдение приходится 10 000 чисел.
Однако, когда инженеры пытаются применить тот же подход к своему значительно расширенному набору данных, линейная модель больше не работает. Поскольку здесь 10 000 измерений, линейная модель имеет 10 000 параметров; и 100 наблюдений недостаточно для регрессии такого количества параметров. Проблема не в том, что невозможно найти значения параметров, которые подходят, а наоборот: стало тривиальным найти бесконечные наборы параметров, которые идеально подходят к наблюдениям. Однако ни одна из этих “подходящих” моделей не имеет практического применения. Эти “большие” модели идеально подходят для 100 наблюдений, однако вне этих наблюдений модели становятся бессмысленными.
Инженеры сталкиваются с размерным барьером: кажется, что количество параметров должно оставаться небольшим по сравнению с наблюдениями, иначе усилия по моделированию рушатся. Эта проблема озадачивает, поскольку “больший” набор данных с 10 000 измерениями вместо 3 явно содержит больше информации, чем меньший набор данных. Таким образом, правильная статистическая модель должна быть способна улавливать эту дополнительную информацию, а не становиться дисфункциональной при ее использовании.
В середине 1990-х годов произошел двойной прорыв11, как теоретический, так и экспериментальный, который потряс сообщество. Теоретический прорыв был связан с теорией Вапника-Червоненкиса (VC)12. Теория VC доказала, что, рассматривая конкретные типы моделей, реальная ошибка может быть ограничена сверху тем, что вольно можно считать суммой эмпирической ошибки и структурного риска, внутреннего свойства самой модели. В этом контексте “реальная ошибка” - это ошибка, которую мы испытываем на данных, которых у нас нет, в то время как “эмпирическая ошибка” - это ошибка, которую мы испытываем на данных, которые у нас есть. Минимизируя сумму эмпирической ошибки и структурного риска, можно минимизировать реальную ошибку, так как она “заключена”. Это представляло собой потрясающий результат и, пожалуй, самый большой шаг в сторону обобщения с момента выявления проблемы переобучения.
В экспериментальной области были представлены модели, позже получившие название Метода Опорных Векторов (SVM), которые были почти текстовым выводом того, что теория VC выявила о процессе обучения. Эти SVM стали первыми широко успешными моделями, способными успешно использовать наборы данных, где количество измерений превышает количество наблюдений.
Упаковав реальную ошибку, по-настоящему удивительный теоретический результат, теория VC преодолела проблему размерности - что оставалось неразрешенным в течение почти столетия. Она также проложила путь для моделей, способных использовать высокоразмерные данные. Однако вскоре SVM были замещены альтернативными моделями, в основном ансамблевыми методами (случайные леса13 и градиентный бустинг), которые в начале 2000-х годов оказались более эффективными альтернативами14, превосходя их как по обобщающей способности, так и по требованиям к вычислениям. Как и SVM, которые они заменили, ансамблевые методы также обладают теоретическими гарантиями в отношении их способности избегать переобучения. Все эти методы обладают свойством быть непараметрическими методами. Проблема размерности была преодолена благодаря введению моделей, которым не нужно вводить один или несколько параметров для каждого измерения, тем самым избегая известного пути к проблемам переобучения.
Вернемся к проблеме несанкционированных ремонтов, упомянутой ранее. В отличие от классических статистических моделей, таких как линейная регрессия, которая не справляется с проблемой размерности, ансамблевые методы смогут успешно использовать большой набор данных с его 10 000 измерениями, даже если есть всего 100 наблюдений. Более того, ансамблевые методы будут превосходить ожидания из коробки. Операционно это было весьма замечательным развитием, так как это устраняло необходимость тщательно создавать модели, выбирая точно правильный набор входных измерений.
Влияние на широкое сообщество, как внутри, так и вне академии, было огромным. Большая часть исследовательских усилий в начале 2000-х годов была посвящена изучению этих непараметрических “теоретически обоснованных” подходов. Однако успехи исчезли достаточно быстро по мере прошествия лет. Фактически, спустя двадцать лет лучшие модели из того, что стало известно как статистическое обучение, остаются прежними - просто благодаря более производительным реализациям15.
Глубокий двойной спад
До 2010 года общепринятое мнение гласило, что для избежания проблем с переобучением количество параметров должно оставаться значительно меньше количества наблюдений. Действительно, поскольку каждый параметр неявно представляет степень свободы, иметь столько же параметров, сколько наблюдений, было рецептом для обеспечения переобучения16. Ансамблевые методы обходили эту проблему, будучи непараметрическими. Однако это критическое понимание оказалось ошибочным, и весьма существенно.
То, что позже стало известно как подход глубокого обучения, удивило почти всё сообщество своими гиперпараметрическими моделями. Это модели, которые не переобучаются, но содержат в несколько раз больше параметров, чем наблюдений.
Генезис глубокого обучения сложен и можно проследить его до самых ранних попыток моделирования процессов мозга, а именно нейронных сетей. Раскрытие этого генезиса выходит за рамки данного обсуждения, однако стоит отметить, что революция глубокого обучения начала 2010-х годов началась, когда область отказалась от метафоры нейронной сети в пользу механического сочувствия. Реализации глубокого обучения заменили предыдущие модели гораздо более простыми вариантами. Эти новые модели воспользовались альтернативным вычислительным оборудованием, в частности графическими процессорами (GPU), которые оказались, в какой-то степени случайно, хорошо подходящими для операций линейной алгебры, характерных для моделей глубокого обучения17.
Потребовалось почти еще пять лет, чтобы глубокое обучение было широко признано прорывом. Значительная часть сдержанности происходила из лагеря статистического обучения - совпадение, что именно эта часть сообщества двадцать лет назад успешно преодолела проблему размерности. В то время как объяснения для этой сдержанности различны, явное противоречие между общепринятой мудростью о переобучении и утверждениями глубокого обучения, безусловно, способствовало значительному уровню начального скептицизма относительно этого нового класса моделей.
Противоречие оставалось неразрешенным до 2019 года, когда было выявлено явление “глубокого двойного спуска”18, которое характеризует поведение определенных классов моделей. Для таких моделей увеличение числа параметров сначала ухудшает тестовую ошибку (из-за переобучения), пока число параметров не станет достаточно большим, чтобы изменить тренд и снова улучшить тестовую ошибку. “Второй спуск” (тестовой ошибки) не был предсказан в рамках теории компромисса между смещением и разбросом.
Рисунок 4. Глубокий двойной спуск.
Рисунок 4 иллюстрирует два последовательных режима, описанных выше. Первый режим - это классический компромисс между смещением и разбросом, который кажется имеет “оптимальное” число параметров. Однако этот минимум оказывается локальным минимумом. Существует второй режим, наблюдаемый при увеличении числа параметров, который проявляет асимптотическую сходимость к фактической оптимальной тестовой ошибке для модели.
Глубокий двойной спуск не только примиряет статистическую и глубокое обучение, но также демонстрирует, что обобщение остается относительно малоизученным. Он доказывает, что широко распространенные теории - общепринятые до конца 2010-х годов - представляют искаженную перспективу обобщения. Однако глубокий двойной спуск до сих пор не предоставляет рамки или что-то эквивалентное, что бы предсказывало обобщающие способности (или их отсутствие) моделей на основе их структуры. На сегодняшний день подход остается настойчиво эмпирическим.
Шипы в цепочке поставок
Как было подробно рассмотрено, обобщение является чрезвычайно сложной задачей, и цепочки поставок добавляют свою долю особенностей, дополнительно усугубляя ситуацию. Во-первых, данные, которые ищут практики цепочки поставок, могут оставаться недоступными навсегда; не частично невидимыми, а полностью ненаблюдаемыми. Во-вторых, сам акт прогнозирования может изменить будущее и достоверность прогноза, так как решения строятся на основе этих самых прогнозов. Таким образом, при подходе к обобщению в контексте цепочки поставок следует использовать двухсторонний подход; одна нога - это статистическая обоснованность модели, а другая - высокоуровневое рассуждение, которое поддерживает модель.
Кроме того, доступные данные не всегда являются желаемыми данными. Рассмотрим производителя, который хочет прогнозировать спрос, чтобы определить количество производимой продукции. Нет такой вещи, как исторические данные о “спросе”. Вместо этого исторические данные о продажах являются лучшим доступным производителю прокси-показателем исторического спроса. Однако исторические продажи искажены прошлыми дефицитами. Нулевые продажи, вызванные дефицитом, не следует путать с нулевым спросом. Хотя модель может быть создана для исправления этой истории продаж в некоторую историю спроса, ошибка обобщения этой модели по своей природе неуловима, так как ни прошлое, ни будущее не содержат эти данные. Короче говоря, “спрос” - это необходимая, но непостижимая конструкция.
В терминологии машинного обучения моделирование спроса является проблемой наблюдения без учителя, где вывод модели никогда не наблюдается непосредственно. Этот аспект без учителя противоречит большинству алгоритмов обучения и большинству методов проверки модели - по крайней мере, в их “наивной” форме. Более того, он также противоречит самой идее конкурса прогнозирования, где под этим понимается простой двухэтапный процесс, в котором исходный набор данных разделяется на публичный (обучающий) поднабор и частный (проверочный) поднабор. Сама проверка становится упражнением по моделированию, по необходимости.
Проще говоря, прогноз, созданный производителем, в одном или другом виде формирует будущее, которое испытывает производитель. Высокий прогнозируемый спрос означает, что производитель увеличит производство. Если бизнес хорошо управляется, экономия масштаба вероятно будет достигнута в процессе производства, что позволит снизить затраты на производство. В свою очередь, производитель, вероятно, воспользуется этими новыми экономическими возможностями, чтобы снизить цены и таким образом получить конкурентное преимущество перед конкурентами. Рынок, стремящийся к самой низкой цене, может быстро принять этого производителя в качестве самого конкурентоспособного варианта, что вызовет всплеск спроса, значительно превышающий первоначальный прогноз.
Это явление известно как самосовершающееся пророчество, прогноз, который склонен становиться правдой благодаря влияющей вере, которую участники имеют в сам прогноз. Неортодоксальная, но не совсем неразумная точка зрения характеризует цепи поставок как гигантские самосовершающиеся механизмы Руба Голдберга. На методологическом уровне это взаимосвязывание наблюдателя и наблюдения дополнительно усложняет ситуацию, поскольку обобщение становится связанным с захватом стратегического намерения, которое лежит в основе развития цепи поставок.
На данном этапе вызов обобщения, с которым сталкиваются цепи поставок, может показаться непреодолимым. Таблицы, которые остаются всеобщими в цепях поставок, определенно указывают на то, что это является стандартной, хотя и неявной, позицией большинства компаний. Таблица является, однако, прежде всего инструментом для отсрочки решения проблемы на усмотрение человека, а не применения какого-либо систематического метода.
Хотя отсрочка на усмотрение человека является неправильным ответом (в себе), это также неудовлетворительный ответ на проблему. Наличие дефицита товара не означает, что все подходит в отношении спроса. Конечно, если производитель поддерживал средний уровень обслуживания выше 90% в течение последних трех лет, то крайне маловероятно, что (наблюдаемый) спрос мог быть в 10 раз больше продаж. Таким образом, разумно ожидать, что может быть разработан систематический метод для справления с такими искажениями. Аналогично, самосовершающееся пророчество также может быть смоделировано, в основном, через понятие политики, как это понимается в теории управления.
Таким образом, при рассмотрении реальной цепи поставок требуется двухсторонний подход к обобщению. Во-первых, модель должна быть статистически обоснованной, в пределах, допустимых широкими науками “обучения”. Это включает не только теоретические подходы, такие как классическая статистика и статистическое обучение, но и эмпирические исследования, такие как машинное обучение и соревнования по прогнозированию. Возвращение к статистике 19 века не является разумным предложением для практики управления цепями поставок в 21 веке.
Во-вторых, модель должна быть поддержана высокоуровневым рассуждением. Другими словами, для каждого компонента модели и каждого шага процесса моделирования должно быть обоснование, которое имеет смысл с точки зрения цепи поставок. Без этого ингредиента практически гарантировано операционное хаос[^19], обычно вызванное некоторой эволюцией самой цепи поставок, ее экосистемы функционирования или ее основного прикладного ландшафта. Действительно, вся суть высокоуровневого рассуждения заключается не в том, чтобы заставить модель работать один раз, а в том, чтобы заставить ее работать устойчиво на протяжении нескольких лет в постоянно меняющейся среде. Это рассуждение является не таким уж секретным ингредиентом, который помогает решить, когда пришло время пересмотреть модель, когда ее конструкция, какой бы она ни была, больше не соответствует реальности и/или бизнес-целям.
Издалека эта концепция может показаться уязвимой для ранее высказанной критики в адрес электронных таблиц - критики относительно откладывания тяжелой работы на некую неуловимую “человеческую оценку”. Хотя эта концепция все еще откладывает оценку модели на человеческую оценку, выполнение модели предполагается полностью автоматизированным. Таким образом, повседневные операции предполагается полностью автоматизированными, даже если текущие инженерные усилия по дальнейшему улучшению числовых рецептов не прекращаются.
Примечания
-
Существует важная алгоритмическая техника, называемая “мемоизацией”, которая точно заменяет результат, который может быть вычислен заново, его предварительно вычисленным результатом, тем самым обменивая больше памяти на меньшее вычисление. Однако эта техника не имеет отношения к данному обсуждению. ↩︎
-
Почему большинство опубликованных исследовательских результатов являются ложными, Джон П. А. Иоаннидис, август 2005 года ↩︎
-
С точки зрения прогнозирования временных рядов, понятие обобщения подходит через концепцию “точности”. Точность можно рассматривать как особый случай “обобщения”, когда речь идет о временных рядах. ↩︎
-
Макридакис, С.; Андерсен, А.; Карбоне, Р.; Филдес, Р.; Хибон, М.; Левандовски, Р.; Ньютон, Дж.; Парзен, Э.; Винклер, Р. (апрель 1982 года). “Точность экстраполяции (методы временных рядов): результаты прогнозного соревнования”. Журнал прогнозирования. 1 (2): 111–153. doi:10.1002/for.3980010202. ↩︎
-
Kaggle в цифрах, Карл Макбрайд Эллис, получено 8 февраля 2023 года, ↩︎
-
Фрагмент 1935 года “Возможно, мы старомодны, но для нас шестивариативный анализ на основе тринадцати наблюдений кажется довольно похожим на переобучение”, из “Квартального обзора биологии” (сентябрь 1935 года, том 10, номер 3, стр. 341-377), кажется указывает на то, что статистическая концепция переобучения уже была установлена к тому времени. ↩︎
-
Гренандер, Ульф. Об эмпирическом спектральном анализе стохастических процессов. Ark. Mat., 1(6):503– 531, август 1952 года. ↩︎
-
Уиттл, П. Тесты соответствия во временных рядах, том 39, № 3/4 (декабрь 1952 года), стр. 309-318, Oxford University Press ↩︎
-
Эверитт Б.С., Скрондал А. (2010), Кембриджский словарь статистики, Cambridge University Press. ↩︎
-
Асимптотические преимущества использования больших значений k для k-сгиба могут быть выведены из центральной предельной теоремы. Это намекает на то, что, увеличивая k, мы можем получить приблизительно 1 / sqrt(k) близость к полному использованию потенциала улучшения, принесенного k-сгибом в первую очередь. ↩︎
-
Сети опорных векторов, Коринна Кортес, Владимир Вапник, журнал “Машинное обучение”, том 20, страницы 273–297 (1995 год) ↩︎
-
Теория Вапника-Черновенкиса (VC) не была единственным кандидатом для формализации того, что означает “обучение”. Концепция PAC (probably approximately correct) Валианта 1984 года проложила путь для формальных подходов к обучению. Однако PAC-фреймворк не обладал огромным влиянием и операционными успехами, которыми пользовалась теория VC вокруг тысячелетия. ↩︎
-
Случайные леса, Лео Брейман, журнал “Машинное обучение”, том 45, страницы 5–32 (2001 год) ↩︎
-
Одним из несчастных последствий того, что метод опорных векторов (SVM) сильно вдохновлен математической теорией, является то, что эти модели имеют мало “механического сочувствия” к современным вычислительным устройствам. Относительная непригодность SVM для обработки больших наборов данных - включая миллионы или более наблюдений - по сравнению с альтернативами привела к падению этих методов. ↩︎
-
XGBoost и LightGBM - две популярные реализации ансамблевых методов, которые остаются широко используемыми в кругах машинного обучения. ↩︎
-
В целях краткости здесь происходит некоторое упрощение. Существует целое направление исследований, посвященное “регуляризации” статистических моделей. При наличии ограничений регуляризации количество параметров, даже при рассмотрении классической модели, такой как линейная регрессия, может безопасно превышать количество наблюдений. При наличии регуляризации ни одно значение параметра уже не представляет полной степени свободы, а является лишь долей. Таким образом, более правильно говорить о количестве степеней свободы, а не о количестве параметров. Поскольку эти побочные соображения не изменяют фундаментальных взглядов, представленных здесь, упрощенная версия будет достаточной. ↩︎
-
Фактически, причина обратная. Пионеры глубокого обучения смогли переосмыслить свои исходные модели - нейронные сети - в более простые модели, которые полностью полагались на линейную алгебру. Целью этой переосмысленной моделирования было именно то, чтобы сделать возможным запуск этих новых моделей на вычислительном оборудовании, которое обменивало универсальность на сырую мощность, а именно на графические процессоры. ↩︎
-
Глубокий двойной спад: где большие модели и больше данных вредят, Пр ↩︎