00:00:06 Важность данных для проектов оптимизации и опровержение мифов о данных.
00:01:50 Случайный сбор данных и проблемы использования данных из разных систем.
00:03:39 Ограничения данных временных рядов и важность детализации транзакций.
00:06:18 Необходимость в лучших и более релевантных данных для прогнозирования.
00:07:26 Практический пример: оптимизация запасов в розничной сети и важность данных по транзакциям.
00:10:01 Роль транзакционных слоев и хранения данных в сборе исторических данных.
00:11:38 Переходы ERP-систем и необходимость улучшения процессов прогнозирования.
00:13:37 Недостатки очистки данных и важность данных полного спектра.
00:15:20 Использование компьютерных систем для операций цепочки поставок и точности данных.
00:17:31 Важность учета уровней запасов и возвратов в прогнозировании.
00:19:24 Адаптация подхода к прогнозированию на основе специфики отрасли.
00:21:46 Понимание важности лучших данных и расширение горизонта релевантных данных.
00:24:48 Четкое понимание процесса генерации данных и достижение лучших прогнозов.

Резюме

Кирен Чэндлер интервьюирует Жоанна Вермореля, основателя Lokad, о важности сбора данных в оптимизация цепочки поставок. Верморель считает, что компании часто собирают данные случайно, а не целенаправленно для оптимизации, однако эти данные всё же могут быть полезны для прогнозирования и оптимизационных процессов. Он подчёркивает значение детализированных данных, так как агрегирование данных во временные ряды может привести к утрате ценной информации. Верморель советует компаниям работать с исходными транзакционными данными и решать вопросы цепочки поставок с учётом специфики отрасли. В разговоре также затрагивается важность учета таких факторов, как ценообразование, возвраты, предзаказы и движение запасов в процессах прогнозирования.

Расширенное резюме

В этом интервью ведущий Кирен Чэндлер обсуждает с Жоанном Верморелем, основателем Lokad, важность сбора данных и их роль в оптимизации цепочки поставок. Они развеивают миф о том, что данные должны быть идеальными для работы машин, и исследуют, как компании могут улучшить процессы сбора данных.

Верморель отмечает, что большинство компаний собирают данные случайно, как побочный продукт своих транзакционных систем, а не намеренно для оптимизации. Системы, такие как ERP-системы, и кассовые аппараты изначально были созданы для упрощения рутинных операций, а не для сбора полной транзакционной истории. Тем не менее, этот случайный сбор данных может служить основой для прогнозирования и оптимизации.

Чэндлер задается вопросом, существуют ли неисчерпанные запасы данных в компаниях, которые не используются. Верморель объясняет, что данные, генерируемые корпоративными системами, часто являются сложными и трудными для интерпретации, поскольку они больше отражают внутреннюю работу IT-систем, чем реальное положение дел. Когда компании стремятся внедрить процессы прогнозирования, они, как правило, извлекают упрощенную версию этих данных, например, ежедневные или еженедельные продажи. Однако такое упрощение может привести к потере критически важной информации о бизнесе и его операциях.

Детализация данных является важной проблемой, так как агрегированные данные могут не предоставлять достаточно информации для эффективного прогнозирования и оптимизации. Верморель утверждает, что при преобразовании исходных данных в упрощенные версии теряется огромное количество информации, которая могла бы оказаться ценной для оптимизации цепочки поставок.

Интервью обсуждает важность сбора данных в оптимизации цепочки поставок и подчеркивает трудности, с которыми сталкиваются компании при использовании случайно собранных данных. В разговоре отмечается, что идеальные данные не являются обязательным условием для эффективного прогнозирования и оптимизации, однако существует значительный потенциал для улучшения способов сбора, обработки и анализа данных.

Они обсуждают вызовы и важность работы с детализированными данными для лучшей оптимизации цепочки поставок.

Верморель объясняет, что многие компании агрегируют свои данные в виде временных рядов, что упрощает данные до одного числа в день. Хотя этот метод удобен, он может оказаться нерелевантным или неэффективным для принятия обоснованных бизнес-решений. Он утверждает, что лучшее прогнозирование и оптимизацию цепочки поставок можно достичь, работая с данными на уровне транзакций, так как это дает больше контекста и понимания реальных бизнес-операций.

Интервью подчеркивает некоторые подводные камни работы с агрегированными данными, поскольку они могут вводить в заблуждение и заставлять компании упускать важные сценарии. Например, в сценарии для розничной сети Верморель объясняет, как агрегирование данных может привести к неверной интерпретации спроса на уровне распределительного центра. Преобразуя данные во временные ряды, компании устраняют неоднозначность, что может быть и преимуществом, и недостатком, поскольку они могут невольно сделать неверные выводы о своих бизнес-операциях.

Разговор также затрагивает тему исторических данных и то, как многие компании теряют ценную информацию при переходе между различными ERP-системами. Раньше сохранение данных не было приоритетом, так как цель ERP-систем заключалась в том, чтобы помочь компаниям работать более слаженно. Кроме того, хранение данных раньше было дорогостоящим, что приводило к использованию эвристик для их удаления. Однако сегодня хранение данных относительно дешево, поэтому их сохранение становится более оправданным.

Верморель подчеркивает, что, работая с компаниями, Lokad часто обнаруживает, что существующие процессы прогнозирования не являются подходящей отправной точкой для оптимизации цепочки поставок. Это происходит потому, что большая часть релевантной информации теряется из-за грубого преобразования транзакционных данных во временные ряды. Вместо этого он предлагает сосредоточиться на работе с исходными транзакционными данными для оптимизации процессов цепочки поставок.

Наконец, интервью касается темы очистки данных. Верморель утверждает, что исходные транзакционные данные уже достаточно чисты для их целей, и что понятие “очистки данных” часто означает избыточное упрощение данных до временных рядов, что может не способствовать пониманию истинной сути работы компании.

Верморель начинает с объяснения, что если компании рассматривают свои данные узко, например, учитывают только оттенки зелёного, их понимание мира будет ограничено. Он подчеркивает, что данные следует воспринимать во всём спектре цветов для получения более точной картины. Также он отмечает, что данные не являются по своей природе ошибочными, а скорее отражают процессы компании. Компаниям необходимо признать свои данные такими, какие они есть, и использовать их для создания более точных прогнозов.

Верморель продолжает, утверждая, что компании должны осознать, что их системы изначально не были разработаны для генерации данных, а для управления цепочкой поставок. Тот факт, что у компаний имеются счета, платежи и другая документация, свидетельствует о том, что их данные в основном корректны. Однако, когда речь заходит о прогнозировании, компании часто упускают важнейшие факторы, такие как ценообразование, возвраты и уровни запасов.

Ценообразование оказывает значительное влияние на спрос и цепочку поставок. При анализе процессов прогнозирования компании обычно обнаруживают, что учет ценообразования отсутствует. Это лишь верхушка айсберга, так как факторы, такие как возвраты и уровни запасов, также часто остаются незамеченными. Верморель объясняет, что понимание уровней запасов имеет решающее значение, ведь если запасов нет, продаж не будет. Аналогичным образом, предзаказы представляют собой уникальный тип спроса, который не должен рассматриваться так же, как обычный.

Верморель советует компаниям решать вопросы цепочки поставок с учетом специфики отрасли. Они должны учитывать, какие факторы наиболее важны для их отрасли, и сосредоточиться на них. Например, в аэрокосмической отрасли целью может быть минимизация инцидентов с неподвижными самолетами (AOG) за счёт оптимизации инвестиций, а в розничной торговле свежими продуктами акцент следует делать на максимизации долгосрочной лояльности клиентов посредством обеспечения доступности и свежести продукции.

Вместо того, чтобы сосредотачиваться на совершенствовании и агрегировании исторических данных, Верморель предлагает расширить горизонты релевантных данных, учитывая обыденные аспекты, такие как цены, возвраты, предзаказы и движение запасов. Он подчеркивает важность понимания того, как генерируются данные, чтобы избежать ситуации “мусор на входе – мусор на выходе”. Верморель также утверждает, что лучшие прогнозы должны оцениваться в долларах и быть связаны с более качественным принятием решений, а не базироваться на процентных показателях.

Полная транскрипция

Kieran Chandler: Итак, сегодня мы обсудим, что может сделать компания, если она уже собирает данные, чтобы улучшить процессы и развеять миф о том, что данные должны быть идеальными для работы машин. Итак, Joannes, если компания уже собирает данные, можно ли сделать что-то ещё?

Joannes Vermorel: Да, первое, что нужно понять, — большинство компаний собирают данные совершенно случайно. Сбор данных никогда не был их основной целью; цель заключалась лишь в обеспечении работы. Например, ERP-система не предназначена для сбора данных, она создана для того, чтобы все обыденные операции, происходящие в компании, выполнялись при поддержке централизованной IT-системы. Так же, как в точке продажи в магазине: электронный кассовый аппарат предназначен для ускорения оплаты. Система не была разработана или внедрена для того, чтобы собирать полную транзакционную историю всех чеков. Поскольку эти системы собирают данные уже много лет, у компаний в итоге оказывается масса данных, но они изначально не предназначены для оптимизации. Таким образом, данные просто существуют, и обычно за последние десятилетия над ними выстраивается какой-либо процесс прогнозирования или оптимизации. Но это не значит, что потенциал для улучшения отсутствует.

Kieran Chandler: Если компании не планировали собирать данные с самого начала, означает ли это, что где-то в хранилищах лежит целая куча данных, о которых даже не задумывались?

Joannes Vermorel: Проблема в том, что данные обычно не собираются намеренно. Это просто побочный продукт ваших транзакционных систем. Они не кажутся хаотичными — просто, когда вы наблюдаете данные, генерируемые в типичных корпоративных системах, они выглядят чуждыми. Они не отражают реальный мир; они больше связаны с внутренней инфраструктурой IT-систем, чем с реальностью процесса. В результате, когда в крупной организации запускают новый процесс, скажем, внедрение ERP, и хотят наладить прогнозирование, в итоге получают данные, которые кажутся очень странными и чуждыми, с массой случайных сложностей, не имеющих отношения к задаче прогнозирования. Обычно компании извлекают очень упрощенную версию этих данных, в результате чего остаются ежедневные или еженедельные продажи, на основе которых строятся прогнозы. Вот где возникает масса проблем: извлеченные данные в виде ежедневных или еженедельных продаж теряют массу критически важной информации о том, что происходит в бизнесе.

Kieran Chandler: Но насколько детальными должны быть эти данные? Ведь если мы говорим о компании, которая собирает данные уже около 20 лет, то агрегирование этих данных делает их управление намного проще? Когда агрегируешь данные, ты их форматируешь так, чтобы они хорошо ложились в структуру, подходящую для работы с временными рядами. И да, временные ряды – это очень удобно: одно число в день, вот и все. Получается ряд, одно число в день, а потом ты проецируешь его в будущее. Это очень просто. Существует множество отличных моделей, способных работать с такими данными, начиная от скользящих средних и заканчивая чем-то более изысканным. Но проблема в том, что простота не гарантирует их фактической релевантности. И вот в чем суть проблемы: так делать очень просто, но это не значит, что это действительно актуально для компании.

Joannes Vermorel: Вот в чем опасность. Проблема в том, что люди думают: «О, мне нужны более детализированные данные, значит, надо перейти с месячных на еженедельные или с еженедельных на ежедневные». Это всего лишь смена временного интервала агрегирования. Они скажут: «О, если сделать это лучше, перейдем на почасовые данные». Но это вовсе не суть проблемы. Проблема в том, что, когда вы думаете о данных в виде временных рядов, вы уже формулируете задачу совершенно иначе, чем данные существуют в ваших системах. В ваших системах не существует понятия временных рядов. Главное — иметь данные с детализацией транзакций, потому что они могут дать гораздо больше информации. Если вы хотите получать лучшие прогнозы, используя лучшие данные, по нашему опыту, нужно максимально приблизиться к тому, как данные существуют в вашей IT-системе, а не полагаться на сильно упрощенную версию, где утрачена вся релевантная информация.

Kieran Chandler: Таким образом, теряется важная информация, и по сути, данные, которые вы анализируете, могут быть несколько вводящими в заблуждение. Какие сценарии могут оказаться упущенными?

Joannes Vermorel: Обычно это те вопросы, которые настолько обыденны, что люди даже забывают о них. Например, рассмотрим розничную сеть, скажем, супермаркеты. Представьте, что у вас есть несколько распределительных центров, и каждый из них обслуживает, допустим, 20 супермаркетов или что-то в этом роде. Как это выглядит, понимаете? Вы берёте на себя задачу оптимизации, скажем, запасов в распределительном центре. Таким образом, каждый день магазины размещают заказы в распределительном центре. И когда вы заказываете, допустим, 100 единиц чего-либо для супермаркета, в распределительном центре могут произойти две вещи: либо заказ выполняется, и на следующий день отгружаются 100 единиц, либо заказ не выполняется. То есть магазин оформляет заказ на 100 единиц, а затем распределительный центр ничего не отсылает. А на следующий день тот же магазин размещает новый заказ на 150 единиц.

Теперь вопрос: если вы хотите учитывать спрос на уровне распределительного центра за эти два дня, каков же он? Является ли это суммой 100 единиц плюс 150 единиц? Но это кажется неправильным, поскольку причина того, что во второй день магазин заказывает 150 единиц, заключается в том, что заказ на 100 единиц предыдущего дня не был выполнен. По сути, им пришлось компенсировать и тот не выполненный спрос, и спрос следующего дня. Таким образом, получается, что заказывается больше, однако ошибочно считать, что спрос равен 250 единицам. Возможно, правильнее считать общий спрос равным 150 единицам, так как первоначальные 100 единиц следует полностью исключить. Однако реальная ситуация может быть запутанной.

Kieran Chandler: Начнем создавать временной ряд, ведь эта информация теряется, и существует масса неоднозначностей. Все эти неясности устраняются, и можно сказать, что это хорошо. Внезапно я могу привлечь моих учёных по данным для работы с недвусмысленными данными. Но отчасти да и нет, потому что устраняя неоднозначность, вы уже заявляете, как работает ваш бизнес, и это заявление может оказаться абсолютно неверным. Joannes Vermorel: Одна из причин, по которой компании агрегируют свои старые данные, заключается в том, что они могут переходить с одной ERP-системы на более новую. Но действительно ли полезно повторно импортировать всю эту историческую информацию в новую ERP-систему? Изначально, когда речь шла о том, что сейчас называют «янпи» — транзакционных уровнях систем, которые просто управляют рутинными операциями, их целью не был сбор исторических данных. Когда всё начиналось, скажем, в конце 70-х или 80-х, сохранение данных не являлось целью, а было нужно лишь для того, чтобы компания работала более слаженно.

Из-за того, что в то время вычислительное оборудование было очень дорогим по сравнению с сегодняшними ценами, а хранение данных также обходилось очень дорого, многие поставщики программного обеспечения поступали правильно. Они внедрили эвристические инструменты, чтобы по сути избавляться от данных различными способами. Я не говорю о наших днях; большинство этих эвристик и систем уже утратили смысл, просто потому что хранение данных теперь супердешёвое. Kieran Chandler: Так, должны ли эти компании проводить какую-либо очистку данных? Или вы считаете, что им следует просто взять исходные данные и оставить их как есть? Joannes Vermorel: Данные уже чистые. Проблема в том, что когда вы говорите об очистке данных, что это вообще значит? Если я скажу, что проблема в том, что вы хотите получить точное представление о мире, а по какой-то причине решите смотреть на мир только через призму одного оттенка зелёного. Тогда ваша картина будет содержать только оттенки зелёного, а всё, что не зелёное, будет отображаться как чёрное. Вы просто этого не увидите. И далее, то, что более или менее зелёное, будет показано в виде разных оттенков зелёного — и это и будет вашим представлением о мире. Kieran Chandler: Таким образом, для получения более точного прогноза, первое — начать смотреть на компанию такой, какая она есть. Данные не ошибочны, они просто отражают реальность. Я имею в виду, что сбор данных никогда не был первичной задачей ваших систем. Системы были внедрены для того, чтобы цепочка поставок могла функционировать, чтобы можно было производить продукцию, перемещать её и продавать. Все уровни, которые у вас есть, являются отражением этих процессов, и это вполне нормальная ситуация. Тот факт, что всё работает, и у вас есть такие документы, как счета, платежи и тому подобное, доказывает, что данные в целом корректны. Они не могут быть идеальными — иначе вы не знали бы, что выставлять в счёт, сколько платить поставщикам и тому подобное. Joannes Vermorel: Первое — необходимо рассматривать проблему с максимально специфической для отрасли точки зрения. Вам нужно задать себе вопрос: «У меня есть цепочка поставок, что действительно имеет значение?» И ответ: «Зависит». Всё зависит от того, какой тип цепочки поставок вы эксплуатируете. Если вы работаете в аэрокосмической отрасли, вопрос сводится к следующему: «За каждый доллар, инвестированный в цепочку поставок, как я могу избежать максимального количества инцидентов AOG (самолёт на земле), когда чего-то не хватает, и самолёт застревает на земле?» Обычно вопрос звучит так: «Как добиться максимального числа инцидентов AOG на вложенный доллар?» Это характерно для аэрокосмической отрасли. Для скоропортящихся продуктов проблема будет совершенно иной — «Как максимально увеличить долгосрочную лояльность моих клиентов, ведь еда полностью зависит от повторных покупок?» Поэтому то, что вам нужно, — это не service level одного отдельного продукта, что, по сути, бессмысленно. Вас это не волнует, ведь существует множество заменителей. Вам важно, чтобы ваши лояльные клиенты, приходящие не за одним товаром, а за целой корзиной, получили отличный опыт. И если чего-то не хватает, всегда найдётся замена, и они смогут покинуть магазин, оставаясь довольными не только общим наличием товаров, но и их свежестью. Это и есть часть общего опыта, а затем вопрос сводится к тому, как оптимизировать это соотношение на каждый вложенный доллар. Вопрос действительно специфичен для отрасли. Какие аспекты являются наиболее важными и требуют пристального внимания? Лишь ваша отраслёвая экспертиза позволяет судить об этом, и чаще всего это не требует продвинутых знаний в data science. Достаточно глубокого понимания отрасли, чтобы понять, что является приятным дополнением, а что — критически важно для недопущения ужасных ошибок. Kieran Chandler: В чём основная мысль сегодняшнего дня? Joannes Vermorel: Итак, если взять цель этого эпизода — как получить более точный прогноз с лучшим охватом, — это то, к чему мы стремимся, а лучшие данные обычно оказываются не тем, что вы ожидаете. Kieran Chandler: То есть, да, у вас могут быть данные, гораздо более качественные для ваших прогнозов, но проблема в том, что означает «лучше»? Обычно местный опыт говорит о том, что мы подразумеваем очень конкретные вещи, которые абсолютно не совпадают с ожиданиями большинства. Прежде всего, лучшие данные — это возможность получить полное представление обо всём, на что следует обращать внимание, и это, как правило, не Instagram, не ваши социальные сети или прогнозы погоды. Это нечто гораздо более обыденное, уже присутствующее в системе. То, что многие люди, возможно, те, кто был до вас, уже решили, что это не заслуживает внимания. Joannes Vermorel: Наш посыл в том, что эти данные действительно стоят того, чтобы их изучать. Я говорю о ценах, возвратах, отложенных заказах, движениях запасов — всё это имеет значение, и хорошая новость в том, что оно уже присутствует где-то в ваших системах. Во-первых, расширьте своё представление о том, какие данные можно считать релевантными. Во-вторых, забудьте об идее подготовки данных. Вам нужно понимать, как данные генерируются, почему? Иначе вы получите ситуацию «мусор на входе — мусор на выходе». Понять данные сложно, ведь это связано и с пониманием программного обеспечения, и с пониманием процессов, которым следуют люди, работающие с этим ПО. Kieran Chandler: Мы уже касались этого, и люди сосредоточены на спросе, а цены, безусловно, — одна из тех вещей, на которые можно обратить внимание, но, может быть, стоит повторить: что ещё может представлять интерес? Joannes Vermorel: Думаю, что для большинства компаний сегодня, по крайней мере для компаний, использующих компьютерные системы десятилетиями, всё уже налажено в Европе, Северной Америке и, на самом деле, в большей части Азии. Проблема в том, что если говорить о прогнозировании в упрощённых терминах, речь идёт не только о продажах. Это может касаться возвратов, а также, например, одной из самых базовых вещей, о которой задумываются люди: как улучшить наши прогнозы?

Joannes Vermorel: Обычно, когда мы начинаем анализировать эти временные ряды, оказывается, что вы даже не знаете цену. Когда мы работаем с компаниями, желающими улучшить свой прогноз, мы просто смотрим на их конвейер извлечения данных, генерирующий прогноз, и видим, что информация о ценах отсутствует. Безусловно, цены оказывают огромное влияние на цепочку поставок. Если вдруг вы снизите цены на все товары на 50%, спрос взорвётся, возможно, ваша рентабельность исчезнет, но, тем не менее, цены имеют огромное влияние на спрос и на цепочку поставок. Большую часть времени, когда мы рассматриваем процессы Планирования продаж и операций и прогнозирования, информация о ценах отсутствует, а это всего лишь верхушка айсберга.

Kieran Chandler: Можешь рассказать о спросе и отложенных заказах?

Joannes Vermorel: Обычно возвраты отсутствуют, и уровни запасов не учитываются. Можно подумать: зачем вообще нужны уровни запасов? Ответ таков: если происходит дефицит товара, то вы не сможете ничего продать, потому что товара просто нет. Возможно, вы получите заказы с отложенной поставкой, но это уже очень специфичный сценарий. Можно ли считать заказ с отложенной поставкой равнозначным обычной продаже? Это требует обязательств. Заказ с отложенной поставкой означает, что товара нет, поэтому я попрошу поставщика включить этот товар в список отложенных заказов для последующей отгрузки, и как клиент, я готов мириться с длительной задержкой. Таким образом, это тоже спрос, но спрос, который не совсем идентичен обычному спросу. Если вы скажете, что одна единица отложенного заказа равна обычной продаже, это не так, действительно не так. Kieran Chandler: Особенно, чтобы привести пример: если по какой-то причине большая часть вашего спроса, например, в B2B, приходится на клиентов, которые согласны на отложенные заказы и длительные задержки поставки, если им удаётся получить лучшую цену, то с точки зрения прогнозирования это очень хорошо, ведь вам не придётся ничего прогнозировать. Kieran Chandler: Можешь ещё раз рассказать о спросе и отложенных заказах?

Kieran Chandler: Можешь рассказать о спросе и отложенных заказах?

Joannes Vermorel: Заказ с отложенной поставкой подразумевает, что товар будет отправлен позже; как клиент, я готов мириться с длительной задержкой. Таким образом, это тоже спрос, но спрос, который не совсем идентичен обычному спросу. Если вы скажете, что одна единица отложенного заказа равна обычной продаже, то это не так, действительно не так.

Kieran Chandler: Если вы хотите максимально эффективно использовать уже имеющиеся данные, какой совет ты бы дал компаниям?

Joannes Vermorel: Первое — необходимо рассматривать проблему с максимально специфической для отрасли точки зрения. Вам нужно задать себе вопрос: «У меня есть цепочка поставок, что действительно важно?» И ответ: «Зависит». Всё зависит от типа цепочки поставок, которую вы эксплуатируете. Если вы работаете в аэрокосмической отрасли, вопрос сводится к тому, как за каждый доллар, инвестированный в цепочку поставок, избежать максимального количества инцидентов AOG (самолёт на земле), когда что-то отсутствует, и самолёт застревает на земле. Обычно вопрос звучит так: «Как добиться максимального числа инцидентов AOG на вложенный доллар?» Это характерно для аэрокосмической отрасли. Для скоропортящихся продуктов проблема будет совершенно иной — «Как максимально увеличить долгосрочную лояльность моих клиентов, ведь еда полностью зависит от повторных покупок?» Поэтому то, что вам нужно, — это не service level одного отдельного продукта, ибо это бессмысленно. Вас это не волнует, так как существует множество заменителей. Важно, чтобы ваши лояльные клиенты, приходящие не за одним товаром, а за целой корзиной, получали отличный опыт. Если чего-то не хватает, всегда найдётся замена, и они смогут покинуть магазин, оставаясь довольными не только наличием товара, но и его свежестью. Это и есть часть общего опыта, а затем вопрос сводится к тому, как оптимизировать это соотношение на каждый вложенный доллар. Вопрос действительно специфичен для отрасли. Какие идеи наиболее важны и требуют пристального внимания? Ваша отраслёвая экспертиза позволяет судить об этом, и обычно это не требует продвинутых навыков в data science. Достаточно прямого понимания отрасли, чтобы определить, что является приятным дополнением, а что — критически важно для избежания крайне глупых решений.

Kieran Chandler: В чём основное послание сегодняшнего дня?

Joannes Vermorel: Итак, если взять цель этого эпизода — как получить более точный прогноз с лучшим охватом, — то это то, к чему мы стремимся, а лучшие данные обычно оказываются не тем, что вы ожидаете.

Kieran Chandler: То есть, да, у вас могут быть данные, значительно лучшие для ваших прогнозов, но проблема в том, что означает «лучше»? Обычно местный опыт показывает, что мы подразумеваем очень конкретные вещи, которые абсолютно не соответствуют ожиданиям большинства. Прежде всего, лучшие данные означают полное представление обо всём, на что следует обращать внимание, и, как правило, это не Instagram, не ваши социальные сети или прогноз погоды. Это нечто гораздо более обыденное, то, что уже существует в системе, то, что многие, возможно, до вас уже решили, что не заслуживает внимания.

Joannes Vermorel: Наш посыл в том, что эти данные действительно стоят того, чтобы на них обратить внимание. Я имею в виду цены, возвраты, отложенные заказы, перемещения запасов — всё это имеет значение, и хорошая новость в том, что оно уже присутствует где-то в ваших системах. Во-первых, расширьте своё представление о том, какие данные являются релевантными. Во-вторых, забудьте об идее подготовки данных. Вам нужно понять, как данные генерируются, почему? Иначе вы получите ситуацию «мусор на входе — мусор на выходе». Понять данные сложно, ведь это включает в себя и понимание программного обеспечения, и понимание процессов, которым следуют люди, работающие с этим программным обеспечением.

Обычно семантика данных состоит из двух частей: половина — в голове человека, управляющего программным обеспечением, и половина — в голове инженера-программиста, который изначально разработал корпоративное ПО. Когда я говорю о человеке, к сожалению, это, как правило, много-много людей, а в худшем случае их интерпретации могут противоречить друг другу. Вот тут и возникает очень запутанная ситуация. Так что расширьте своё представление о релевантных данных — ничего экстравагантного, просто базовые, обыденные вещи для вашего бизнеса, и не только продажи. Затем вам необходимо понять эти данные.

Наконец, если вы хотите получать более точные прогнозы, всё сводится к тому, что означает «лучший прогноз». Затем мы подходим к тому, когда люди говорят: «О, это означает лучший средний процент ошибки или лучший средний абсолютный показатель ошибки» — или другие метрики. И опять же, если это выражено в процентах, этого недостаточно. Это должно быть выражено в долларах. И как мы обсуждали в одном из предыдущих эпизодов о приоритете решений, в конечном итоге прогноз можно считать лучше только если он приводит к принятию лучших решений.

К сожалению, оценить, является ли прогноз лучше или нет, можно лишь через призму окончательного решения, которое вы принимаете. Это сложно, но так оно и есть. Если вы просто скажете: «О, у меня лучше MAPE, значит, прогноз лучше», — это крайне неверно, и вы даже не окажетесь на том пути, который, можно сказать, ведёт к ужасным ошибкам.

Kieran Chandler: Да, хорошо, мне придётся с этим смириться, но, полагаю, есть несколько IT-менеджеров, которые будут нам благодарны за это, потому что им теперь придётся копаться в архивах. Ладно, это всё на этой неделе. Большое спасибо, что присоединились, и до встречи в следующем эпизоде. Пока.