00:00:01 Введение и обсуждение генеративного ИИ.
00:01:11 Исследование генеративной проблемы и её решений.
00:02:07 Обсуждение эволюции и прогресса генеративного ИИ.
00:03:02 Вехи в машинном обучении и доступность инструментов.
00:04:03 Обсуждение особенностей и результатов инструментов ИИ.
00:05:00 Популярность и доступность генеративного ИИ.
00:06:33 Генерация изображений с помощью Stable Diffusion, становящейся доступной.
00:07:37 Обсуждение доступности инструментов генерации.
00:08:43 Объяснение генерации объектов высокой размерности.
00:09:38 Проблемы и улучшения в размерностном потенциале.
00:10:07 Изучение генерации текста и её ограничений.
00:11:15 Обсуждение последовательности на различных масштабах.
00:12:24 Переход к теме специфики и универсальности генераторов.
00:13:46 Сравнение результатов, сгенерированных ИИ, с результатами человека.
00:14:59 Обсуждение моделей машинного обучения и генерации языка.
00:15:51 Изучение метода вырезания и вставки в ИИ.
00:16:30 Подчёркивание отсутствия у ИИ здравого смысла.
00:17:26 Упоминание результатов теста IQ для ChatGPT.
00:18:45 Обсуждение понимания ИИ и примеров.
00:19:47 Поверхностное понимание ИИ и смешение в высокой размерности.
00:20:41 Сложность искусственного интеллекта и его история.
00:21:58 Неизвестные элементы и развитие интеллектуальных возможностей ИИ.
00:22:25 Обсуждение изменяющегося восприятия интеллекта.
00:23:45 Познания в области глубокого обучения и искусственного интеллекта.
00:24:24 Концепция скрытого знания в человеческих языках.
00:25:59 Понимание вселенной в древности и современности.
00:27:02 Введение в концепцию ‘антихрупкости’ из книги Насима Талеба.
00:28:01 Антихрупкость в экосистемах и человеческих обществах.
00:29:31 Критика способности ChatGPT создавать ‘интеллектуальный’ дискурс.
00:31:05 Рассмотрение применения генеративного ИИ в бизнесе.
00:31:37 Потенциальная роль генеративного ИИ в управлении цепочками поставок.
00:33:34 Ограниченные возможности ChatGPT в областях с нехваткой данных.
00:35:00 Предостережение при использовании кода, сгенерированного ИИ, в критически важных системах.
00:36:04 Преимущества ИИ для цепочек поставок и сопутствующих процессов.
00:37:37 Обсуждение тенденции расширения набора данных для автодополнения кода.
00:38:45 Сравнение требований к параметрам: ChatGPT против меньшего генератора.
00:40:45 Последствия генеративного ИИ для бизнеса и цепочек поставок.
00:41:19 Обсуждение взглядов Лавкрафта на глубокие истины вселенной.
00:42:01 Связь злоупотребления технологиями с программным обеспечением цепочек поставок.
00:42:56 Опасения по поводу создания и проверки поддельных кейс-стадий.
00:44:04 Критика расплывчатых маркетинговых заявлений конкурентов Lokad.
00:45:10 Обсуждение ограничений языковых моделей ИИ.
00:46:08 Объяснение специфики ИИ в технологиях.
00:47:00 Важность специфической терминологии в ИИ.
00:48:01 Аналогия покупки окна для понимания ИИ.
00:48:48 Обсуждение проблем интеграции архитектуры программного обеспечения.
00:50:14 Важность базового дизайна в корпоративном программном обеспечении.
00:50:54 Пример базового дизайна в транзакционной базе данных.
00:51:48 Необходимость надлежащего проектирования и интеграции программного обеспечения.
00:52:52 Советы по оценке технологий поставщика.
00:53:36 Важность оглашения достижений в области технологий.
00:54:20 ИИ как модное слово и проверка поставщиков.
00:55:25 Заключительные замечания и окончание интервью.
Резюме
В этом интервью Жоаннес Верморель, основатель Lokad, обсуждает состояние и влияние генеративного ИИ, уделяя особое внимание достижениям, таким как ChatGPT и Stable Diffusion. Верморель объясняет, что такое генеративный ИИ и его история, подчеркивая поэтапный прогресс в генерации изображений и текста. Он отмечает удобство использования последних инструментов, таких как Stable Diffusion и ChatGPT, которые улучшили показатели успеха и доступность. Верморель подчеркивает ограничения нынешних моделей ИИ в плане здравого смысла и истинного интеллекта. Он также обсуждает вызовы и потенциал ИИ в управлении цепями поставок и критикует расплывчатые и вводящие в заблуждение заявления некоторых компаний относительно их возможностей в области ИИ. Верморель акцентирует внимание на важности понимания базовой технологии и необходимости осторожного подхода при оценке решений ИИ.
Расширенное резюме
В интервью между ведущим Конором Дохерти и Жоаннесом Верморелем, основателем Lokad, обсуждается текущее состояние и влияние генеративного ИИ, с особым акцентом на достижения, такие как ChatGPT для текста и Stable Diffusion для изображений.
Верморель начинает с определения генеративного ИИ как совокупности предложенных решений генеративной задачи, которая заключается в разработке алгоритма или метода для создания ещё одного экземпляра цифрового представления набора объектов. Он упоминает, что подобного рода задачи существуют уже десятилетиями, и для узких применений уже существуют успешные генераторы. Например, генераторы использовались для создания названий реалистично звучащих мест в Англии или заголовков для романов Стивена Кинга.
Точно так же в области генерации изображений существуют генераторы, способные создать карту, напоминающую декорации из «Властелина колец», с горами, лесами, береговыми линиями и фантастическими названиями. По словам Вермореля, прогресс в этой области был поэтапным, с целью сделать генераторы более универсальными и всё больше зависящими от наборов входных данных, а не от обширного набора заранее запрограммированных правил.
Выделяя два значимых достижения прошлого года в более широком сообществе машинного обучения, Верморель упоминает ChatGPT для текста и Stable Diffusion для изображений. Хотя это были значительные шаги вперёд, делающие эти инструменты более доступными, он настаивает на том, что они были поэтапными, а не революционными, и не представляли собой новых открытий в области статистики, математики или компьютерных наук.
Однако тот факт, что эти инструменты были упакованы и доведены до такой степени, что простые пользователи могли начать их использовать в течение нескольких минут, безусловно, заслуживал внимания. Это кардинально отличалось от ранних генеративных инструментов, которые, хотя и могли создавать впечатляющие изображения или тексты, часто обладали множеством нюансов и требовали определённого уровня квалификации для эффективной работы.
Stable Diffusion и ChatGPT выделялись благодаря своей удобности для пользователя. Например, в Stable Diffusion можно было ввести простой запрос, например, «красивый замок посреди леса», и получить правдоподобное изображение в 20% случаев. Хотя это было далеко от совершенства, это представляло собой значительное улучшение по сравнению с предыдущими методами генерации, имевшими лишь 1% успеха.
Это обозначало улучшение на порядок, что также отметил Верморель, говоря о ChatGPT. Как и в случае со Stable Diffusion, появление ChatGPT означало переход к более удобным для пользователя и доступным инструментам в области генеративного ИИ.
В этом сегменте интервью Конор Дохерти и Жоаннес Верморель, основатель Lokad, обсуждают недавнюю эволюцию и влияние моделей Generative Pre-trained Transformer (GPT). Верморель подчеркивает, что популярная модель ChatGPT не является принципиально новой, а представляет собой перепакованную и более доступную версию уже существующих технологий. Он называет 2022 год вехой, когда генеративный ИИ стал широко доступен общественности, в основном благодаря улучшениям в удобстве использования.
Затем разговор переходит к конкретным примерам, когда модели GPT оказали значительное воздействие на общественность. Верморель обращает внимание на прошлогодние релизы, такие как Stable Diffusion и третья версия ChatGPT. Он объясняет, что привлекательность и успех этих моделей заключаются в усилиях исследовательских групп по упаковке этих технологий в удобной для пользователя форме.
Верморель приводит примеры этой доступности. Он отмечает, что Stable Diffusion — инструмент для генерации изображений — был выпущен как программное обеспечение с открытым исходным кодом. Это позволило пользователям с минимальным опытом работы с Python настроить программную среду за примерно два часа и самостоятельно изучить инструмент. Верморель подчёркивает, что для использования Stable Diffusion не требуется быть опытным программистом на Python; базовые знания командной строки достаточны.
Он также упоминает о доступности онлайн-руководств и запуске бесплатного пользовательского интерфейса Dream Studio, который позволяет пользователям бесплатно генерировать до 100 изображений. Для последующих пакетов изображений необходимо оплачивать услуги, что также применяется к веб-приложению GPT.
Жоаннес Верморель изначально объясняет сложность создания изображения высокой размерности, приводя пример изображения 1000x1000 пикселей, что по существу эквивалентно трем миллионам измерений с учетом трех основных цветов. Он дополнительно упоминает, что первоначальные итерации были ограничены размером 512x512, хотя в настоящее время проводятся работы по улучшению.
Аналогично обсуждается проблема генерации текста. Верморель объясняет, что размерность в генерации текста определяется двумя направлениями. Первое связано с размером ввода или запроса, который может варьироваться от одной строки до нескольких абзацев или даже страниц. Второе — это то, как далеко может зайти генерация, прежде чем модель начнет терять последовательность.
Верморель указывает на ограничения текущих моделей, так как они не могут последовательно создать целую книгу от начала до конца. Проблемы усложняются с увеличением объёма текста: одно слово требует локальной последовательности, предложение — последовательности на большем масштабе, абзац — ещё большей, а книга может включать в себя миллионы или десятки миллионов абстрактных измерений.
Затем разговор переходит к обсуждению аспекта «щедрости» в этих моделях. Верморель трактует это как способность модели решать различные задачи или генерировать разнообразные результаты. Интересным развитием за последние пять лет, по словам Вермореля, стала способность сообщества глубокого обучения использовать огромные наборы данных.
Будь то текстовые данные из различных источников, таких как Википедия, веб-форумы или юридические тексты, модели глубокого обучения продвинулись до возможности генерировать разнообразные результаты. Теперь они могут создавать что угодно: от поэзии до юридического языка, кода или даже геномных последовательностей при правильном запросе. То же верно и для изображений, где результаты могут варьироваться от пиксель-арта до фотореалистичных изображений или различных стилей живописи.
Конор Дохерти спрашивает Жоаннеса Вермореля о том, насколько сложны модели ИИ, такие как ChatGPT, по сравнению с человеком. Верморель подробно раскрывает понятие сложности, объясняя, что оно является сложным из-за необходимости определения и прояснения его смысла. В ответ на возможное применение теста Тьюринга он заявляет, что текущее состояние моделей ИИ сильно зависит от смешения огромного количества данных, заимствованных из обширного корпуса текстов.
В некоторой степени он утверждает, что то, что производит ChatGPT, представляет собой своего рода продвинутый процесс «вырезай-вставляй», при котором части текста, найденные в интернете, собираются вместе. Он признаёт, что сила модели заключается в способности связывать эти элементы грамматически и синтаксически правильно, выявляя высокоуровневые статистические закономерности между словами, фразами и предложениями. Верморель подчёркивает, что полученный текст может звучать как человеческий, но в основном представляет собой воспроизведение уже существующего текста, написанного человеком.
Однако Верморель смягчает обсуждение, подчёркивая, что эти модели не обладают здравым смыслом. Он приводит пример от руководителя отдела ИИ в Facebook, который утверждает, что даже самые продвинутые модели ИИ не имеют здравого смысла, как у кошки. Это происходит потому, что ИИ в своей основе работает на статистических взаимосвязях и не обладает интуитивным пониманием, присущим здравому смыслу. Он иллюстрирует этот момент с помощью юмористического сценария, где модель ИИ предлагает маршрут для GPS, чтобы избежать пробок в середине Атлантического океана, не понимая абсурдности ситуации.
Чтобы дальше пояснить ограничения текущего ИИ, Верморель обсуждает эксперимент Amazon, в котором ChatGPT был подвергнут серии тестов IQ. Результаты показали, что модель ИИ оказалась примерно на стандартное отклонение ниже нормы, что соответствует его мнению о том, что ИИ в первую очередь нарезает и склеивает информацию без присущего человеку внутреннего понимания.
Однако он подчёркивает, что даже человек с ограниченными когнитивными способностями умнее кошки. Это сравнение подчеркивает, что несмотря на все впечатляющие возможности, ИИ далек от того, чтобы сравниться по уровню интеллекта с кошкой, не говоря уже о человеке. Верморель напоминает нам, что, несмотря на наше восприятие когнитивных ограничений кошки, мы всё ещё далеки от создания модели ИИ с сопоставимым интеллектом.
Этот разговор подчеркивает сложность ИИ, процесс генерации текста ИИ и ограничения, с которыми ИИ сталкивается в настоящее время в плане здравого смысла и внутреннего понимания. Он предоставляет ценную перспективу на состояние ИИ и его текущие возможности, одновременно смягчая ожидания относительно его ближайшего будущего.
Верморель подробно излагает мысль о том, что понимание мира ИИ чрезвычайно поверхностно. Он описывает процессы, которые используют эти модели, как «высокоразмерное смешивание входных данных». Он также рассматривает возможность того, что с более сложными моделями этого может быть достаточно для достижения интеллекта, но подозревает, что настоящий интеллект может оказаться гораздо сложнее.
По его мнению, путь ИИ заключался скорее в определении того, чем интеллект не является, чем в попытке его точно определить. Этот процесс уточнения продолжается уже примерно 70 лет. Он считает прорыв глубокого обучения в 2011–2012 годах значительным переломным моментом, который дал возможность реализации множества приложений, приведших к существенным открытиям. Однако он подчеркивает неопределенность в этой области. Он предполагает, что наше понимание интеллекта, возможно, придется переопределять каждый раз, когда разрабатывается новая техника ИИ.
Затем ведущий спрашивает Вермореля об улучшениях в работе ИИ в разных итерациях, уделяя особое внимание ChatGPT. Верморель соглашается, что генеративный ИИ, включая ChatGPT, значительно улучшился со временем, но отмечает сложность измерения тех улучшений, которые необходимы для преодоления существующего разрыва в понимании концепций ИИ.
В ответ на вопрос Дохерти о том, насколько лучше должна быть четвертая итерация ChatGPT, Верморель откровенно отмечает отсутствие уверенности. Он подчеркивает, что проблема заключается не просто в линейном прогрессе. Основная проблема, по его словам, заключается в том, что мы не знаем, чего именно нам не хватает в понимании интеллекта.
С исторической точки зрения Верморель отмечает, что сто лет назад интеллект человека могли оценивать по его способности выполнять сложные математические задачи, например, обращать матрицы. Однако с тех пор наше понимание и методы измерения интеллекта значительно изменились и эволюционировали. Он подразумевает, что развитие ИИ может пройти через подобные преобразования по мере того, как мы продолжаем исследовать и подвергать сомнению наши представления об интеллекте. Сто лет назад такие возможности, как обращение матриц или вычисление 20 знаков числа пи, считались признаком превосходного интеллекта. Сегодня же эти задачи воспринимаются как механические, их может выполнить обычный карманный калькулятор, что ставит под сомнение их связь с интеллектом. Он отмечает, что компьютеры, несмотря на их огромные преимущества в этих задачах по сравнению с человеком, не считаются разумными.
Дискуссия Вермореля переходит к возможностям и последствиям применения ИИ, особенно в части генерации на основе глубокого обучения. Он предполагает, что ИИ выявил множество задач, которые на первый взгляд кажутся чрезвычайно сложными, но не обязательно отражают интеллект так, как полагали изначально. В качестве примера он приводит способности ChatGPT по генерации текста. Вместо того чтобы демонстрировать, что такое интеллект, Верморель утверждает, что этот процесс скорее показывает, чем интеллект не является. Он рассматривает ChatGPT скорее как отражение огромного количества скрытых знаний, заложенных в человеческом языке, чем как демонстрацию подлинного интеллекта.
Развивая концепцию скрытых знаний, Верморель описывает их как суммарный объем человеческого понимания и знаний, который неявно представлен в языке. Эти скрытые знания зачастую фиксируются в структурированных формах, таких как базы данных, карты и другие, содержащие детали, например, химические свойства, удельное сопротивление материалов и точки плавления. Однако Верморель утверждает, что язык также воплощает значительную часть этих знаний. Он считает, что слова и фразы, которые мы используем, отражают наше коллективное понимание вселенной. Например, утверждение «планеты вращаются вокруг звезд» подразумевает знание астрофизических концепций.
Он предполагает, что эти скрытые знания заложены даже в самых простых формах языкового выражения, таких как словарные определения, которые способны вместить в себя значительную часть современной науки. Он также утверждает, что отсутствие определённых слов или концепций может помешать распознаванию некоторых форм знаний. Для иллюстрации он ссылается на книгу «Антихрупкость» Насима Талеба. Он разъясняет концепцию «антихрупкости» — термин, введённый Талебом для описания состояния, которое не только противостоит хаосу и беспорядку, но и процветает и улучшается в таких условиях. Это противопоставляется состоянию «хрупкости», которое ухудшается при нарушении порядка, или состоянию «прочности», когда объект лишь медленнее выдерживает хаос. Верморель считает эту концепцию значимой, поскольку она внесла свежий взгляд на понимание различных систем — от экосистем до человеческих сообществ.
Их обсуждение распространяется на внутреннюю взаимосвязь между языком и знанием. Верморель показывает, как введение нового термина или концепции, например «антихрупкость», может существенно обогатить понимание, хотя это и может быть трудно постичь из-за ограниченности языка. Он подчеркивает роль языка в выражении и передаче знаний.
Переходя к теме искусственного интеллекта, Верморель обсуждает феномен скрытых знаний, присутствующих в языке. Он отмечает, что эти скрытые знания играют решающую роль в таких приложениях, как ChatGPT от OpenAI — модель, способная генерировать текст, аналогичный человеческому. Верморель критически описывает ChatGPT как «генератор банальностей», приписывая его кажущийся интеллект склонности собирать вместе широко распространённые идеи или идиомы из огромных и разнообразных наборов данных.
Несмотря на критику, Верморель признает впечатляющую способность ChatGPT генерировать связный и контекстуально уместный контент даже в тех областях, с которыми пользователь может быть не знаком. Он предполагает, что это связано с обучением ChatGPT на сверхогромном наборе данных, включающем миллионы страниц текста из чрезвычайно разнообразных сфер.
По мере развития разговора они обсуждают практическое применение генеративного ИИ, такого как ChatGPT, в контексте корпоративного управления и управления цепями поставок. По мнению Вермореля, влияние генеративного ИИ на управление цепями поставок, вероятно, не будет значительным, по крайней мере, в прямом смысле. Однако он также подчеркивает сложность предсказания будущего, подразумевая, что масштаб и потенциал генеративного ИИ ещё могут эволюционировать и нас удивлять в будущем.
Верморель утверждает, что, несмотря на растущую значимость и возможности технологий ИИ, они могут не оказать существенного влияния на оптимизацию цепей поставок. Он объясняет это тем, что эти модели полагаются на большие, свободно доступные источники информации, такие как Интернет, где они анализируют изображения и текстовые теги. Однако данные, критически важные для управления цепями поставок — например, история транзакций — специфичны для каждой компании и не являются общедоступными или легко извлекаемыми. Поэтому текущая форма этих инструментов ИИ может не содержать необходимой информации для эффективной оптимизации цепи поставок.
Фокусируясь на примере продаж дверных рам, Верморель объясняет, что общие данные о дверных рамах менее полезны для планирования цепочки поставок, чем конкретная история продаж дверных рам конкретной компании. Он подчеркивает, что эти данные, скрытые внутри сайло, позволяют получить более точный прогноз того, что заказывать, производить и хранить. Это подчеркивает мысль о том, что технологии ИИ, такие как ChatGPT, которые показывают лучшие результаты при работе с широко доступными данными, могут быть менее эффективными, когда соответствующих данных недостаточно.
Однако Верморель признает, что языковые модели ИИ могут быть полезны для некоторых задач. Например, ChatGPT может помочь в создании фрагментов кода благодаря большому количеству свободно доступного кода в Интернете, преимущественно на таких платформах, как GitHub. Такая доступность позволяет ИИ генерировать приличные фрагменты кода или программы, служащие инструментом повышения производительности для программистов. Тем не менее, он предупреждает о необходимости тщательного контроля, поскольку сгенерированный ИИ код может содержать ошибки.
Глядя в будущее, Верморель предполагает, что языковые модели ИИ могут помочь в таких сферах, как ведение записей, корректура и составление конспектов встреч. Например, они могли бы сжать двухчасовое обсуждение встречи в двухстраничное резюме, сохранив все ключевые детали. Однако он предполагает, что на данный момент инструменты ИИ, такие как ChatGPT, могут испытывать трудности с выполнением подобных задач из-за внутренних ограничений. Тем не менее, он верит, что в следующем десятилетии технологии ИИ станут способнее справляться с такими задачами.
Верморель определяет данные как основную проблему, указывая на то, что генеративные модели ИИ не всегда справляются с присущими сложностями данных цепочки поставок. Затем Дохерти поднимает идею GitHub Co-pilot — инструмента, созданного для помощи в программировании, который может даже автономно генерировать приличный код. Он задается вопросом, не подходит ли этот инструмент лучше для поставленной задачи.
Верморель отрицает это, заявляя, что у GitHub Co-pilot и ChatGPT-3 практически идентичная технологическая база — оба используют архитектуру Transformer. Различия заключаются в пользовательском опыте: GitHub Co-pilot предлагает автодополнение при каждом нажатии клавиши, тогда как ChatGPT-3 ориентирован на диалог. Верморель предсказывает, что лучший инструмент для автодополнения кода, вероятно, будет использовать более широкий корпус данных, чем только код.
Продолжая, Верморель ссылается на недавнюю статью команды Amazon. В ней обсуждается перспективный генератор, объединяющий данные изображений и текста, который демонстрирует производительность, сопоставимую, а иногда и превосходящую ChatGPT-3, но с меньшим количеством параметров (один миллиард по сравнению со ста миллиардами у ChatGPT-3). По словам Вермореля, эта идея интересна, поскольку она подразумевает, что сочетание более разнообразных типов данных может создать модель, которая будет проще, но при этом более мощной.
Верморель подчёркивает парадоксальное наблюдение в разработке моделей ИИ: более крупные модели, такие как ChatGPT-3, не обязательно лучше. Он упоминает Stable Diffusion — модель, которая значительно легче и быстрее своего предшественника, Generative Adversarial Network, несмотря на то, что содержит всего около одного миллиарда параметров. Верморель отмечает, что остается неясным, действительно ли необходимы модели размером с ChatGPT-3 (которые насчитывают триллионы параметров).
Подчеркивая эту мысль, он снова ссылается на исследование команды Amazon, в котором утверждается, что им почти удалось воспроизвести производительность ChatGPT-3 с моделью, имеющей один миллиард параметров. По его словам, такой меньший размер позволяет работе на обычных видеокартах, встречающихся в современных ноутбуках и рабочих станциях. Это открывает путь к более широкому доступу.
Возвращаясь к исходной теме, Дохерти задается вопросом, приводит ли генеративный ИИ к чисто положительным или отрицательным эффектам, особенно для предприятий и, в частности, для цепей поставок.
Верморель объясняет, что прогресс в науке и технике в целом является положительным, что противоречит пессимистичной точке зрения Лавкрафта, который считал, что существуют определенные глубокие истины во вселенной, настолько жестокие и враждебные человеческому разуму, что их раскрытие может свести с ума.
Верморель признает, что любой инструмент, начиная от каменного века, может быть использован как во благо, так и во вред. В контексте корпоративного программного обеспечения для цепочки поставок он опасается роста путаницы из-за неправильного использования технологий, в частности искусственного интеллекта. По его словам, поставщики уже чрезмерно раздувают возможности ИИ, и ситуация может ухудшиться, если их маркетинговые отделы начнут создавать бесконечное количество фальшивых кейс-стадий. Это может привести к ещё более вводящим в заблуждение заявлениям и непроверяемым кейс-стадиям.
Верморель объясняет, что в прошлом создание фальшивого кейс-стадия требовало усилий, а теперь, благодаря ИИ, это стало практически тривиальным. Он также отмечает, что участники кейс-стадия не имеют стимула утверждать, что заявленные компанией преимущества ложны: они обычно подтверждают эти преимущества и приписывают часть успеха себе. Верморель прогнозирует, что эти технологии усложнят ситуацию.
Обсуждая маркетинговую стратегию своих конкурентов, Верморель выражает разочарование слабым и неинформативным использованием термина «ИИ для цепочки поставок». Он критикует их отсутствие прозрачности и тот факт, что им удается писать длинные страницы, заполненные банальностями, не предоставляя существенной информации о своим продукте. Это затрудняет ему понимание их технологии, её функций, конструкции или основных принципов.
Верморель отмечает, что подлинные приложения ИИ для оптимизации цепей поставок предполагают высокоспециализированные и технические подходы. Эти приложения основаны на конкретных алгоритмах или структурах, таких как архитектуры Transformer, генеративные сети или иерархические подходы. Он выражает необходимость, чтобы компании были точны и детальны в описании используемых ими техник ИИ. Его аргумент заключается в том, что утверждения о простом «использовании ИИ» без конкретики зачастую вводят в заблуждение или вовсе не имеют под собой оснований.
Чтобы проиллюстрировать свою точку зрения, Верморель сравнивает технологию ИИ с покупкой окна для дома. При покупке окна покупатель ожидает подробного описания продукта — изготовлено ли оно из дерева, алюминия или пластика? Одно- или двухстекловое? Аналогично, когда речь идёт об ИИ, Верморель считает, что компании должны предоставить подробное объяснение того, какие методы ИИ они используют и как это приносит пользу цепочке поставок. Он утверждает, что общие или расплывчатые описания можно приравнять к продаже «универсальных окон» без каких-либо конкретных характеристик.
Верморель продолжает эту аналогию, критикуя термин «устойчивые окна». Он утверждает, что такие расплывчатые описания только добавляют путаницы, а не разъясняют ситуацию. В том же духе он критикует компании, предлагающие «отличное освещение» в отношении своих окон, утверждая, что это эквивалентно заявлениям об ИИ, лишенным конкретных доказательств или деталей.
Кроме того, Верморель предвидит, что использование технологий ИИ, таких как GPT (Generative Pretrained Transformer), увеличит путаницу в отрасли. Хотя эти инструменты могут генерировать маркетинговые материалы и относительно легко интегрироваться в существующие технологические стеки, они могут не внести значительного вклада в общую функциональность или оптимизацию цепочки поставок, если программная архитектура не была разработана с учетом этих возможностей.
По его мнению, такой подход сродни приклеиванию дополнительного элемента к существующей конструкции скотчем — это может не улучшить конструкцию и даже не иметь смысла в применении. Верморель видит риск дальнейшего неправильного использования «настоящих» технологий ИИ, поскольку компании могут бессмысленно интегрировать ценные алгоритмы в свои процессы, что приведет к путанице в отрасли, а не к значимым достижениям.
Верморель критикует тенденцию внедрять искусственный интеллект в оптимизацию цепей поставок способами, которые оказываются неэффективными и, на самом деле, бессмысленными. Он указывает, что эти процессы часто не добавляют ценности к решениям, которые они должны улучшать. В поддержку своей точки зрения Верморель приводит исторический опыт итераций в операционных исследованиях, разведке данных и Data Science, намекая, что современные тренды, такие как когнитивный ИИ, могут оказаться просто очередным витком той же модели.
Согласно Верморелю, если компания хочет максимально использовать ИИ в составе корпоративного программного обеспечения, интеграция должна происходить на уровне проектирования. Он решительно выступает против того, чтобы просто «залатать» существующее ПО ИИ, подчеркивая, что основная концепция продукта может быть заложена только на ранних этапах его разработки. Попытка втиснуть ИИ в продукт после его создания оказывается чрезвычайно сложной и зачастую контрпродуктивной.
Когда его спрашивают о примере основного уровня проектирования, о котором он говорит, Верморель приводит в пример транзакционные базы данных. Эти базы данных, созданные для обеспечения целостности транзакций, не предназначены для использования технологий, таких как генераторы изображений или текста. По его мнению, эти разные парадигмы практически несовместимы, и добиться их согласованности не так просто. Это требует тщательного проектирования и руководящих принципов, гарантирующих совместимость в рамках программной архитектуры.
Верморель признает возможность использования ИИ в виде дополнения, работающего параллельно с существующим продуктом, однако утверждает, что такое решение редко приводит к полноценной интеграции или синергии. Напротив, оно усложняет программное обеспечение, добавляя больше движущихся частей и потенциальных ошибок.
Его совет тем, кто рассматривает возможность интеграции ИИ в оптимизацию цепей поставок, заключается в том, чтобы тщательно расспрашивать поставщиков об их предложениях. Он призывает клиентов убедиться, что поставщик способен ясно и разумно объяснить свою технологию. Если поставщик не может этого сделать, Верморель считает, что это может указывать на проблему с продуктом или на недостаточное понимание технологии со стороны поставщика.
Верморель завершает свою часть обсуждения, подчеркивая, что настоящие достижения в области ИИ, такие как создание сложных моделей, часто обнародуются через научные статьи и другие публикации. Эта открытость отчасти обусловлена гордостью разработчиков за достижение чего-то сложного. Он отмечает, что эти успехи не являются хорошо скрытыми тайнами, а открыто демонстрируются всему миру, что еще раз подчеркивает важность понимания лежащей в их основе технологии.
Верморель отмечает значительные достижения, достигнутые некоторыми компаниями в технологической отрасли. Он указывает, что компании, которые добиваются определенных технических рубежей, часто публикуют подробные отчеты, чтобы поделиться своими успехами. Он видит в этом общую тенденцию в отрасли, подтверждающую реальный технологический прогресс.
Далее Верморель занимает критическую позицию относительно роли и восприятия ИИ в современном корпоративном мире. Он характеризует ИИ как модное слово, которое получило широкое распространение на рынке. Несмотря на широкое употребление этого термина, он подчеркивает, что его значение настолько обширно и часто неопределенно, что может включать практически всё. Он предостерегает от безоговорочного принятия утверждений поставщиков об их возможностях в области ИИ, особенно когда они не могут точно описать, что именно они предлагают под этим ярлыком.
Верморель решительно советует, что, имея дело с поставщиками, которые утверждают, что предлагают ИИ-решения, необходимо тщательно разобраться в сути их предложений. Он предупреждает не доверять поставщику, если его продавец признается в незнании технологии, которую они продают, переложив ответственность на отдельную техническую команду. Верморель считает это явным индикатором того, что компания может не обладать той технологической мощью, которую заявляет.
Он развивает эту мысль, предостерегая от риторики «мы нанимаем лауреатов Нобелевской премии, у нас есть Эйнштейны». Он утверждает, что подобные заявления обычно служат дымовой завесой, созданной для убеждения потенциальных клиентов в их технической компетентности без представления каких-либо существенных доказательств. Чаще всего, по его мнению, такие случаи указывают на отсутствие чего-то по-настоящему инновационного или технологически продвинутого за словами — это просто еще одна вариация того же самого.
В завершение этого сегмента беседы Дохерти выражает благодарность Верморелю за его идеи, подчеркивая, насколько познавательной оказалась дискуссия. Сегмент завершается словами Дохерти, который благодарит аудиторию за уделенное время и внимание, обещая вернуться с еще более содержательными беседами в будущем.
Полный текст
Конор Дохерти: Генеративный ИИ сегодня повсюду, не только в цепях поставок. Это положительное явление или отрицательное? Здесь, чтобы объяснить это, с нами Жуаннес Верморель. Добро пожаловать.
Жуаннес Верморель: Привет, Конор, приятно тебя видеть.
Конор Дохерти: Итак, если не возражаешь, давай немного расставим акценты. Что же такое генеративный ИИ? Какова его цель, раз он вездесущ в наши дни?
Жуаннес Верморель: Да, генеративный ИИ — это, по сути, набор, коллекция предложенных решений для очень старой проблемы генерации. Проблема генерации возникает, когда у вас есть набор объектов в их цифровом представлении, и вы хотите найти алгоритм, метод, рецепт для создания еще одного экземпляра. Такие задачи существуют уже десятилетиями. Для конкретных, узких случаев давно существуют генераторы. Например, на протяжении десятилетий существовал генератор, способный создать название реалистично звучащего места в Англии или правдоподобное название для романа Стивена Кинга. Если вы хотели создавать изображения, существовали генераторы, которые могли сделать карту, напоминающую мир «Властелина колец». Она несла в себе атмосферу средневекового фэнтези с небольшими горами, лесами, побережьями и фантазийными названиями по всей карте. Идея использования генератора витала уже десятилетиями. Прогресс был довольно постепенным: путь заключался в расширении возможностей генератора за счет использования больших входных наборов данных вместо обширного набора заранее заданных правил. Вот где мы находимся спустя десятилетия. В прошлом году сообщество машинного обучения достигло двух заметных рубежей: ChatGPT-3 для текста и Stable Diffusion для изображений. Однако эти достижения стали скорее в плане доступности этих инструментов, а не фундаментальным прорывом в статистике, математике или информатике. Это были первые продукты, которые были упакованы и отполированы настолько, что обычный человек мог начать работу за считанные минуты и поиграть с ними. Что касается изображений, то уже более десятилетия существуют генеративные состязательные сети, способные создавать очень красивые изображения. Но эти инструменты имели множество особенностей. Stable Diffusion, с другой стороны, упростил процесс для пользователей: достаточно ввести запрос, скажем, «красивый замок посреди леса», и получить приличное изображение. Не идеально, но достаточно хорошо.
Конор Дохерти: То есть, это улучшение порядка величины в плане доступности и удобства этих инструментов?
Жуаннес Верморель: Именно так, то же самое наблюдается с ChatGPT. Кстати, тот вариант GPT, который стал популярным, на самом деле был моделью, существовавшей уже несколько лет. Это было буквально нечто, что было переупаковано таким образом, чтобы сделать его гораздо более доступным. Всё сводилось к удобству использования. Рубеж был достигнут в 2022 году, когда генеративный ИИ стал широко доступен, а не оставался чем-то малоизвестным. Ничего по-настоящему фундаментального не произошло; это действительно было дело чистой удобства использования.
Конор Дохерти: Я помню, как в детстве существовали такие генеративные сайты, как тот, где просили «дай мне имя в стиле Ramones». Я часто использую этот известный пример. Думаю, музыкант Childish Gambino сгенерировал свое имя через подобный сайт. Но я не был знаком с предыдущими итерациями ChatGPT, поскольку нынешняя версия — третья. Так что же именно в прошлогодних релизах, таких как Stable Diffusion и третья итерация ChatGPT, привлекло внимание общественности? Сейчас они повсюду.
Жуаннес Верморель: То, что привлекло внимание общественности, — это усилия исследовательских команд по упаковке технологии. Stable Diffusion был выпущен с открытым исходным кодом. Если вы были знакомы с Python-средой, даже не обладая глубокими знаниями Python, вы могли настроить программную среду примерно за два часа. Вы могли поиграть со всеми компонентами самостоятельно. Вам даже не нужно было быть программистом на Python — достаточно умения выполнять серии команд в командной строке. Существовали различные инструкции. Stable Diffusion сделал генерацию изображений доступной, если вы могли работать с командной строкой. Это немного для гиков, но не чрезмерно. Существовал даже бесплатный пользовательский интерфейс Dream Studio, где вы могли бесплатно сгенерировать первые 100 изображений. После этого нужно было заплатить примерно десять долларов за следующие 100 изображений. Open GPT также был веб-приложением: достаточно было небольшой регистрации, а затем в наше время нужно платить около 20 евро в месяц за доступ. Интересно то, что в обоих случаях вы могли получить доступ к генератору в самом широком смысле всего за, скажем, час. Потребовался небольшой опыт, чтобы почувствовать инструмент, но это было в разы проще, чем раньше. В плане реального прогресса интересно то, что эти генераторы развивались в двух направлениях на протяжении десятилетий. Одно направление — это размерность. Вы хотите иметь возможность генерировать объекты высокой размерности в широком смысле. Например, если вы хотите сгенерировать название для римского персонажа или места в Англии, это довольно низкоразмерная задача. Что-то порядка 10–20 размерностей, в зависимости от того, считаете ли вы количество букв или слогов. Но если вы хотите сгенерировать текст объемом в одну страницу, речь идет о нескольких тысячах размерностей. Если вы хотите создать изображение размером 1000 на 1000 пикселей, вы сталкиваетесь с задачей порядка трех миллионов размерностей из-за трех основных цветов. Это значительное увеличение. Первая итерация Stable Diffusion была ограничена возможностями 512 на 512 пикселей. Их совершенствуют, но именно высокая размерность стала одним из серьезных вызовов. Такая же проблема возникала и с текстом. Размерность проявляется в двух аспектах. Во-первых, это объем текста, который можно использовать как входной запрос — от одной строки до нескольких абзацев или даже страниц. Во-вторых, насколько далеко можно зайти с текстом, прежде чем генератор утратит последовательность. Эти модели ограничены. Они не способны генерировать целую книгу от начала до конца, сохраняя связность от начала до конца. Для генерации текста одной из задач является навигация в высоких размерностях. Если вы генерируете одно слово, оно должно быть последовательным на локальном уровне. Если вы генерируете предложение, оно должно быть последовательным в более широком контексте, и так далее. Если это книга, вы имеете дело с, возможно, миллионами или десятками миллионов абстрактных размерностей, которые также можно понимать как степени свободы или сложность анализируемого объекта. Та же проблема наблюдается и с изображениями. Один из путей прогресса — переход к более высоким размерностям при сохранении последовательности. Если объект разделить, легче сгенерировать два меньших изображения, чем одно большое, сохраняющее связность.
Конор Дохерти: Так когда вы говорите о больших размерностях, вы имеете в виду, что генератор должен поддерживать последовательность?
Жуаннес Верморель: Да, именно так. Цель состоит в том, чтобы поддерживать взаимосвязанность и последовательность в сгенерированном объекте, независимо от его размера или сложности. Еще один путь прогресса — универсальность. Речь идет о генераторе, который специализирован для узкой задачи, или о генераторе, способном справиться с чем угодно? За последние пять лет сообщество глубокого обучения достигло огромного прогресса в использовании гигантских наборов данных. Если речь идет о тексте, он включает в себя всё — Википедию, веб-форумы или любой другой текстовой источник. Таким образом, генератор, если правильно направлен, может создавать что угодно: от поэзии до юридического языка, от кода до геномных советов. То же самое относится и к изображениям. У нас есть генераторы, способные создавать всё: от пиксель-арта до фотореалистичных изображений или даже масляных картин. Речь идет о покрытии широкого спектра изысканности и стиля.
Конор Дохерти: Когда вы говорите о размерности этих приложений, насколько сопоставимы полученные результаты? Например, насколько сопоставимо эссе, сгенерированное через ChatGPT, с эссе, созданным среднестатистическим университетским выпускником? Одинаковы ли уровни изысканности? Мы уже достигли этого?
Жуаннес Верморель: Что касается изысканности, это сложный вопрос. Придется четко определить, что именно мы подразумеваем под этим термином.
Конор Дохерти: На самом деле, позволь мне добавить. Скажем, если провести тест Тьюринга, так что вы, возможно, даже не сможете определить, создано ли это ChatGPT или студентом в аудитории.
Жуаннес Верморель: Это зависит, поскольку эти модели, особенно генератор текста, работают, комбинируя огромное количество корпусных данных. Некоторые проводили тесты, и, в значительной степени, то, что пишет ChatGPT, буквально состоит из элементов, которые можно найти где-то в интернете. Сила модели заключается в ее способности склеивать эти фрагменты так, чтобы они были грамматически и синтаксически правильными. Но суть в том, чтобы выявлять высокоуровневые статистические закономерности между словами, группами слов и предложениями, чтобы находить те сочетания, которые, с высокой вероятностью или достоверностью, подходят друг к другу. Звучит ли это «по-человечески»? В значительной степени — да. Но реальность такова, что большая часть того, что она генерирует, может быть найдена в интернете, взята с различных сайтов. Однако прорыв заключается в умении сделать это, что было невероятно сложно. Речь идет не просто о вырезке и вставке фрагментов. Речь идет о понимании высокоуровневых статистических взаимосвязей, чтобы их можно было объединить таким образом, чтобы результат был достоверным. И, тем не менее, когда дело доходит до здравого смысла, как отметил руководитель направления ИИ в Facebook, ни один из этих генераторов не обладает здравым смыслом кошки. Вот с каким уровнем понимания мы имеем дело. Все сводится к статистическим взаимосвязям. Например, если задать простой вопрос вроде «Как мне избежать пробок посреди Атлантического океана?», модель может предложить выбрать более современную систему GPS, полностью упуская юмор вопроса. Все дело в склеивании фрагментов текста на основе высокоуровневых статистических связей.
Conor Doherty: Я считаю, что исследователи из Amazon подвергли ChatGPT серии тестов на IQ и обнаружили, что его уровень примерно на одну стандартную девиацию ниже нормы, около 83. Это соответствует тому, о чем вы говорите, просто объединяя фрагменты информации, которые кажутся связанными.
Joannes Vermorel: Но мне кажется, что вы упускаете суть. Даже невероятно неинтеллектуальный человек, если он не находится в состоянии полной бездеятельности мозга, всё же намного умнее кошки. И, как было выдвинуто предположение, с чем я склонен согласиться, мы даже близко не подходим к уровню интеллекта кошки. Мы всё ещё очень далеки. Вы можете сказать: «О, но моя кошка совершенно не способна поведать мне ничего о, скажем, Теории относительности». Однако ChatGPT способен довольно хорошо предоставить пару абзацев введения. Это произошло потому, что ChatGPT буквально вырежет и вставит аккуратное резюме этой теории из тысяч примеров, найденных в интернете, смешает их и отрегургит. Однако это не значит, что он что-либо понимает. Даже кошка, например, поняла бы, что если что-то есть… Возьмем пример с GPT. Если вы спросите у GPT что-то вроде: «Трем автомобилям требуется два часа, чтобы доехать от города Парижа до города Тур, а если автомобилей шесть, сколько времени это займет?» — GPT ответит: «Ну, шесть автомобилей — это в два раза больше, чем три, так что это займет примерно четыре часа». Снова, если подумать о кошке, и кошка решит: «Если у меня есть приятель, я хочу пойти туда», время останется тем же, независимо от того, со мной или с моим приятелем-кошкой. Хотя кошка не сформулирует это так изысканно, она понимает базовые законы нашего трёхмерного мира, течение времени и прочее. Опять же, GPT поражает своей мощностью, как и Stable Diffusion. Но можно заметить, что это всего лишь чрезвычайно поверхностное понимание, поскольку всё, что делают эти модели, — это высокоразмерное смешение входных данных. Возможно, этого достаточно. Может быть, если мы продолжим этот путь с ещё более сложными моделями, интеллект сводится лишь к накоплению подобных рецептов в более масштабном виде. Но я подозреваю, что ситуация гораздо сложнее. Я думаю, что исследователи, обладающие глубокими знаниями, располагают множеством доказательств того, что вся история искусственного интеллекта заключается в том, чтобы показать, чем интеллект не является. И это было похоже на путешествие, в котором мы участвуем уже около 70 лет.
Conor Doherty: Ну, мне кажется, вы говорили ранее, что текущая версия ChatGPT и Stable Diffusion, или просто генеративный ИИ, примерно на порядок лучше предыдущих итераций. Да. Насколько лучше должна быть четвертая версия ChatGPT, чтобы устранить описанный вами разрыв?
Joannes Vermorel: Мы действительно не знаем, потому что вот в чём дело. Когда происходит какой-либо прорыв — и я считаю, что настоящий прорыв произошёл с глубоким обучением, а не с его приложениями — глубокое обучение стало прорывом примерно в 2011–2012 годах. Это был настоящий математико-концептуальный прорыв. Остальные же достижения — это применения и очень сложные идеи, наработанные за последнее десятилетие. Но мы всё ещё не знаем, чего нам не хватает. Вопрос остаётся открытым, и его нельзя воспринимать как линейное развитие. Вот в чём проблема интеллекта — мы не знаем, что именно упускаем. Как только мы внедряем новую методику, это позволяет нам даже переосмыслить, что такое интеллект в первую очередь. Если мы вернёмся на столетие назад и задам вопрос: «Как установить, что один человек обладает превосходящим интеллектом?» — то профессора в академических кругах могли бы сказать что-то вроде: «Если этот человек умеет инвертировать матрицу или вычислять первые 20 цифр числа пи, значит, у него превосходящий интеллект». Сегодня же многие скажут, что карманный калькулятор может это сделать. Это полностью механическая задача. В вычислении первых 20 цифр числа пи нет никакого интеллекта. Существует простой набор рецептов — алгоритмов, которые можно запустить на компьютере и получить тысячи цифр. Это никак не делает вас умнее. Так обстояли дела сто лет назад, когда истинным отражением человеческого интеллекта считалась лишь простая механизация. Сейчас же компьютеры буквально на 10, а то и 15 порядков превосходят людей в выполнении этих вычислений, но они вовсе не умны. По крайней мере, таков общий консенсус. Мы обнаружили, что это поколение ИИ, основанное на глубоком обучении, демонстрирует, что многие задачи, которые кажутся чрезвычайно сложными или требующими усилий, на самом деле не отражают истинный интеллект. Например, ChatGPT больше говорит о том, чем интеллект не является, чем о том, чем он действительно является. Он показывает, что количество скрытых знаний в английском и во всех человеческих языках огромное. Под «скрытыми знаниями» подразумевается, что, скажем, существует абстрактное целое, представляющее собой сумму всех человеческих знаний. Есть базы данных, например, которые химики собирали за прошедшее столетие. Эти базы данных описывают свойства каждого отдельного химического соединения. Таким образом, существует целая база данных, в которой перечислена удельная сопротивляемость каждого известного на Земле материала или температура плавления каждого материала. У нас есть карты, собирающие знания в другой форме. Кроме того, в самом языке присутствуют скрытые знания. Слова, которые мы используем, отражают глубокое понимание устройства вселенной. Если мы говорим, что существуют звезды и планеты, и что планеты вращаются вокруг звезд, это значит, что мы уже многое поняли об устройстве вселенной. Например, у древних греков иное понимание того, что такое звезды и планеты. Предложение, что солнце — это звезда, как и все остальные, теперь принято и является частью лексикона. Это и есть часть скрытых знаний. Если просто ознакомиться с определениями в словаре, можно узнать много нового из современной науки. И наоборот, иногда отсутствие какого-либо слова препятствует появлению определённых знаний. Любопытным примером является книга «Антихрупкость» Насима Талеба, где основная идея заключалась в определении истинного противоположного понятия к хрупкости. По его определению, хрупкость — это то, что ухудшается при воздействии хаоса и беспорядка. Он утверждал, что устойчивость, надёжность или прочность не делают объект автоматически противоположным хрупкому. Эти характеристики лишь означают, что при воздействии хаоса и беспорядка процесс разрушения или деградации происходит медленнее. Талеб задавался вопросом, что же является истинной антиподом хрупкости — тем, что при хаосе и беспорядке улучшается. Эта абстрактная перспектива побудила его ввести термин «антихрупкость», создав совершенно новый взгляд на экосистемы, человеческие общества и многое другое. Введя это слово, он обогатил наши знания, хотя это может быть трудно постичь, ведь способ передачи знаний — это сам язык.
Conor Doherty: Это возвращает нас к моей исходной точке. Блестящесть ChatGPT демонстрирует, что в самом языке скрыто огромное количество знаний. Это, например, объясняет, почему политик может выдать десять модных слов, соответствующих тем идеям, которые вы хотите отстаивать. Они могут развернуть целую речь, создавая впечатление умного высказывания, при этом не предлагая никакой существенной информации. Joannes Vermorel: Интересно, что именно это и делает ChatGPT. Когда вы задаёте инструменту запрос, он склонен собирать всевозможные общепринятые идеи, соответствующие здравому смыслу или доминирующей устоявшейся точке зрения. Представьте, что у вас есть кто-то, кто отвечает на вопросы только пословицами. ChatGPT делает это, но лучше, объединяя банальности буквально из каждой области. Это впечатляет, потому что вы обычно даже не знаете, что может считаться банальностью в области, о которой вы ничего не знаете. Вот в этом и заключаются преимущества обучения генератора на сверхмасштабном наборе данных, включающем миллионы страниц текста из самых разнообразных областей. Conor Doherty: Когда дело доходит до практического применения всего этого, на ваш взгляд или по вашим оценкам, существуют ли полезные применения генеративного ИИ в таких областях, как, скажем, корпоративный сектор или цепочки поставок?
Joannes Vermorel: Корпоративный сектор — это очень обширная область, поэтому я ограничусь цепочками поставок. Что касается цепочек поставок, я бы сказал, что, скорее всего, нет, по крайней мере, не напрямую. Однако предсказать будущее чрезвычайно сложно. Я склонен думать, что эта волна генераторов не окажет значительного влияния на цепочки поставок, потому что их сила заключается в использовании огромного пула окружающих знаний, в основном из интернета, с миллионами изображений и тегов, доступных бесплатно. Но когда речь идёт об оптимизации цепочки поставок, наиболее важны ваши транзакционные данные. Если вы продаёте, скажем, дверные рамы, то знание общих сведений о дверных рамах не поможет в планировании цепочки поставок. Ваша история продаж дверных рам за прошлый год даёт куда больше информации о том, что именно заказывать, производить и как распределять запасы. Таким образом, самые актуальные данные не являются общедоступными, они существуют в замкнутом пространстве вашей компании. Компании, в отличие от ChatGPT, искажены тем, что эти инструменты эффективнее, когда обсуждают вопросы, где много материалов общедоступно в интернете. Если речь идёт о вещах, которые не широко публикуются, ChatGPT быстро оказывается неинформированным. Говоря конкретно, я бы сказал, что если подумать о методах оптимизации, я не уверен, что необходимые входные данные вообще присутствуют. Однако такие инструменты могут стать незаменимыми в поддержке вашего развития. Например, ChatGPT действительно хорошо помогает генерировать фрагменты кода. Поскольку код — это универсальный язык, представляющий собой последовательность символов, ChatGPT может генерировать как теги, так и полноценный код. Учитывая, что в интернете доступно огромное количество кода, в основном через GitHub, но и с других ресурсов, у ChatGPT есть огромные кодовые базы для обучения. Таким образом, ChatGPT способен создавать довольно приличные фрагменты кода или программы. Как инструмент повышения производительности для программистов он обладает огромным потенциалом. Но будьте осторожны: сгенерированный ChatGPT код может быть таким же ненадёжным, как код, написанный человеком. Я бы не стал использовать его без тщательного контроля, если речь идёт о создании следующего поколения автопилотов для самолётов или автомобилей. Также я предполагаю, что технологии будущего будут включать, например, ведение протоколов встреч. На данный момент я не уверен, что ChatGPT сможет суммировать двухчасовое обсуждение в пару страниц, сохранив максимум деталей. Но я уверен, что подобные инструменты в течение следующего десятилетия смогут это делать. Таким образом, в цепочках поставок появится множество преимуществ. Однако я подозреваю, что большинство из них будет касаться периферийных вопросов, таких как упрощение проведения встреч, ведение заметок или улучшение систем проверки документов. Основные же проблемы и вызовы заключаются в данных, и эти генераторы не справляются с данными так, как они представлены в цепочке поставок.
Conor Doherty: Разве нет других программ, разработанных специально для программирования? То есть, ChatGPT — это генеративный ИИ на основе текста, но есть GitHub Copilot, предназначенный для помощи в кодировании, и он сам по себе может генерировать довольно приличный код, не так ли?
Joannes Vermorel: Нет, эти модели почти идентичны, практически взаимозаменяемы. Технология, лежащая в их основе, невероятно схожа. Они используют одну и ту же архитектуру Transformer. Единственные различия — незначительные вариации в корпусе данных и пользовательском опыте. GitHub Copilot нацелен на автодополнение при каждом нажатии клавиши, в то время как ChatGPT больше ориентирован на диалог. Но эти различия — всего лишь тонкий слой оболочки. Внутри они идентичны. Я предполагаю, что лучший инструмент для автодополнения кода будет основан на корпусе, охватывающем не только код. Это иллюстрируется недавней статьёй команды из Amazon. Они представили перспективный генератор, который объединяет данные как изображений, так и текста, по сути, объединяя их. Они даже утверждают, что превосходят ChatGPT по нескольким показателям, показывая сопоставимые результаты по большинству других метрик. Однако воспринимайте это с осторожностью, так как определение хорошего генератора — задача столь же сложная, как и его создание. Интересно, что их модель так же эффективна, как ChatGPT, но имеет один миллиард параметров, тогда как у ChatGPT их почти в 100 раз больше. Это говорит о том, что, комбинируя более разнообразные данные, можно получить модель, которая окажется мощнее и проще одновременно, что paradoксально. Например, модель ChatGPT является гигантской — с количеством параметров в триллионах. Но неясно, необходима ли такая огромная модель. Фактически, один из прорывов Stable Diffusion по сравнению с другими моделями заключается в том, что она на два порядка быстрее и легче, чем использовавшаяся ранее Generative Adversarial Network. Stable Diffusion имеет всего около миллиарда параметров, что делает её очень маленькой по сравнению с ChatGPT. Но недавно одна команда заявила, что они достигли производительности ChatGPT с моделью, которая значительно меньше, примерно размером с миллиард параметров. Это интересно, так как она приблизительно соответствует размерам, которые можно запустить на графической карте, обычно используемой в ноутбуках и рабочих станциях.
Conor Doherty: Что ж, это как будто замыкает круг к тому, что я сказал в самом начале или во вступлении — является ли это чисто положительным или отрицательным явлением? Теперь, в конкретном контексте корпоративного сектора или даже более детализированных цепочек поставок, видите ли вы генеративный ИИ как отвлечение, благо или проклятие?
Conor Doherty: Что ж, это как будто замыкает круг к тому, что я сказал в самом начале или во вступлении — является ли это чисто положительным или отрицательным явлением? Теперь, в конкретном контексте корпоративного сектора или даже более детализированных цепочек поставок, видите ли вы генеративный ИИ как отвлечение, благо или проклятие?
Joannes Vermorel: В общем, я считаю, что любой прогресс в науке и технике — это хорошо. У меня нет этого лавкрафтовского взгляда, знаете ли, когда существуют некие глубокие или сокровенные истины вселенной, настолько жестокие и враждебные человеческому разуму, что, если вы их обнаружите, вы сойдёте с ума. Моя точка зрения не лавкрафтовская. Я верю, что, в целом, это хорошо. Это, безусловно, лучше, чем невежество. Теперь, как и любой инструмент с каменного века, первый молоток мог быть сконструирован как для охоты на животное, так и для убийства ваших собратьев. Такова была проблема с технологиями — их можно злоупотреблять. Эта проблема существует уже тысячи лет. Такие технологии также могут быть использованы неправильно. Вероятные злоупотребления в сфере корпоративного ПО для цепочек поставок приведут к возрастанию путаницы из-за шума. Поставщики уже безудержно раздувают рекламу ИИ, и теперь они даже смогут «подогнать» его до предела, заставив свой отдел маркетинга крутить бесконечное количество поддельных кейс-стадий. Раньше создание поддельного кейс-стади требовало некоторых усилий. Тем не менее, вы могли полностью сфабриковать его, поскольку никто никогда не будет проверять ваши утверждения. Большинство ваших заявлений невозможно проверить. И, как я описал в своей лекции, никто в кейс-стади не имеет стимула говорить, что все миллионы, которые вы утверждаете, что сэкономили, заработали или сгенерировали, являются подделкой. Каждый участник кейс-стади имеет мощный стимул сказать: «Да, всё, все эти выгоды — реальны, и это во многом благодаря мне, пусть и частично, если мы сумеем всё это достичь». Так что, по-моему, ситуация станет ещё более запутанной, потому что эти команды сойдут с ума и начнут генерировать ещё больше фиктивных кейс-стадий, утверждений и пустых страниц, описывающих технологию. Я провёл некоторое время, изучая сайты многих конкурентов Lokad. Интересно то, что можно прочесть целые страницы текста, а в конце так и не узнать ничего нового. Они умудряются крутить банальности или вещи, которые ничего не раскрывают о том, чем они на самом деле занимаются.
Conor Doherty: Флинфламмерия, так мы это называем?
Joannes Vermorel: Да, именно. Меня всегда несколько озадачивает, когда я прохожу 10-страничную документацию об ИИ для цепочек поставок, а в конце не могу сказать ни о том, что это такое, ни о том, что оно делает, ни почему оно сконструировано именно так, или какие идеи лежат в основе этого. Это действительно сбивает с толку. Я подозреваю, что раньше маркетинговые команды тратили дни на придумывание этих “пушистых” описаний. А теперь, с помощью генеративного ИИ, такого как ChatGPT, можно мгновенно создать десятистраничное описание. Так что, если вы ставите под сомнение достоверность контента, утверждающего, что в их оптимизации цепочки поставок используется ИИ, я бы сказал, что это в основном подозрительно. Не потому, что ИИ — подделка, а потому что его представляют в этом контексте неправильно. Когда мы говорим о генеративном ИИ, используются конкретные термины, такие как стабильная диффузия, архитектура Transformer и генеративная сеть. Эти технологии имеют собственные названия. Профессионалы в этой области не говорят просто “Я работаю с ИИ”. Они точнее. Им нужны эти термины для описания своей работы. Эта точность развивается как часть формирующегося процесса в сообществе. Люди, которым не хочется вдаваться в подробности описания своей технологии, часто прибегают к расплывчатым определениям. Возьмем простой пример. Если вы хотите купить окно для дома, продавец укажет материал рамы, количество слоев стекла и так далее. Если продавец просто говорит “Я продаю окна, поверьте, они хорошие” без каких-либо конкретных деталей, это вызывает подозрения. Если кто-то не может предоставить технические характеристики и вместо этого использует модные слова вроде “устойчивый”, это не проясняет ситуацию, а лишь добавляет загадок. Это аналогично тому, что происходит с ИИ и ChatGPT. Эти инструменты могут генерировать сбивающие с толку маркетинговые материалы и давать поставщикам возможность включать их в свой технологический стек, не создавая ничего существенного. Интегрировать эти инструменты в существующую программную архитектуру довольно просто, но они будут лишь гаджетом, если ваша текущая архитектура не предназначена для оптимизации возможностей этих технологий. Всегда достаточно просто прибить еще один компонент к программному обеспечению, но это не означает, что он изменит ситуацию или будет полезен. Поэтому я считаю, что эта ситуация создаст ещё больше путаницы. Это даст поставщикам еще одну возможность внедрить какие-то алгоритмы реальной ценности, но таким образом, что это будет нелогично. В итоге, это не добавляет никакой ценности решению, что является еще одной проблемой. Мы уже переживали несколько итераций этого процесса: сначала операционные исследования 50 лет назад, затем Data Mining, а потом Data Science. Теперь появятся и эти когнитивные итерации ИИ. Однако проблема в том, что если вы хотите максимально использовать эту технологию в корпоративном программном обеспечении, она не может быть просто дополнением. Она должна быть заложена на уровне проектирования вашего продукта. Это основополагающий дизайн, который нельзя изменить впоследствии. Проблема базового дизайна продуктов в том, что его можно реализовать только на начальном этапе. Вы не можете просто приклеить его к продукту после факта.
Conor Doherty: Можете привести пример того уровня основного проектирования, о котором вы говорите?
Joannes Vermorel: Если у вас есть система, в основе которой лежит транзакционная база данных, предназначенная для обеспечения целостности транзакций, это прекрасно. Но такой дизайн не позволит эффективно использовать генераторы изображений или текста. Он полностью противоречит транзакционному подходу. Вы работаете с транзакциями, а наличие инструмента, способного генерировать текст или изображение, — это нечто из другой области. То, что я пытаюсь сказать, это что наличие подходящего элемента не является само собой разумеющимся. Обычно это требует тщательного внимания к дизайну и руководящим принципам вашей архитектуры, чтобы все было совместимо. В противном случае вы просто идёте разными путями. В программном обеспечении вводит в заблуждение то, что всегда можно иметь основной продукт, а затем добавить к нему модуль, который работает отдельно. Но такой модуль не будет должным образом интегрирован, не будет связан и между ними не возникнет синергии. В результате вы получите более сложный беспорядок с большим числом движущихся частей и ошибок. Поэтому, исходя из баланса сил, я советую не пытаться интегрировать это в оптимизацию цепочки поставок. Но если поставщик предлагает такое решение, вам действительно нужно выяснить, чем же он занимается. Мой заключительный совет для аудитории: убедитесь, что при чтении страницы технологий этого поставщика всё имеет для вас смысл. Вам не нужно быть экспертом. Если поставщик не способен понятно объяснить, что такое их технология, что она делает и какие методы использует, это, скорее всего, тревожный знак. За всю мою карьеру я не встречал компании, способной добиться чего-то сложного, которая бы это скрывала. Напротив, компании, достигшие такого уровня технического мастерства, с радостью демонстрируют свои достижения миру. Кстати, это относится ко всем моделям — Stable Diffusion, ChatGPT и т.д. Эти достижения являются публичными. По ним опубликованы статьи. Это не тщательно охраняемые тайны. Напротив, компании, достигшие такого уровня технического успеха, часто публикуют очень подробные отчёты о том, как они этого добились. Это типичное поведение. С моей точки зрения, основной вывод таков: хотя ИИ обладает огромной ценностью, это всего лишь модное слово. Под эту «зонтичную» категорию можно отнести практически всё. Поэтому, когда к вам обращается поставщик, крайне важно понять, чем именно он занимается. Если человек, который вам продаёт, не имеет такого понимания, и если поставщик заявляет: “Я просто продавец, всё знает техническая команда”, не доверяйте им. Если они так говорят, это почти гарантирует, что за их утверждениями не стоит ничего существенного. Это всё тот же самый трюк.
Conor Doherty: На этой ноте, благодарю вас, Joannes. Я многому научился. Спасибо за ваше время, и спасибо всем за просмотр. До встречи в следующий раз.