00:00:01 Introduction et discussion sur l’IA générative.
00:01:11 Exploration du problème génératif et de ses solutions.
00:02:07 Discussion sur l’évolution et les progrès de l’IA générative.
00:03:02 Étapes clés de l’apprentissage automatique et accessibilité des outils.
00:04:03 Discussion sur les particularités et les résultats des outils d’IA.
00:05:00 Popularité et accessibilité de l’IA générative.
00:06:33 Génération d’images avec Stable Diffusion, devenant accessible.
00:07:37 Discussion sur l’accessibilité des outils de génération.
00:08:43 Explication de la génération d’objets de grande dimension.
00:09:38 Défis et améliorations de la capacité dimensionnelle.
00:10:07 Exploration de la génération de texte et de ses limites.
00:11:15 Discussion sur la cohérence à différentes échelles.
00:12:24 Passage à la spécificité et à la polyvalence du générateur.
00:13:46 Comparaison de la production générée par l’IA avec la production humaine.
00:14:59 Discussion sur les modèles d’apprentissage automatique et la génération de langage.
00:15:51 Exploration de la méthode de découpage et de collage en IA.
00:16:30 Mise en évidence du manque de bon sens de l’IA.
00:17:26 Mention des performances de l’IA ChatGPT aux tests de QI.
00:18:45 Discussion sur la compréhension de l’IA et exemples.
00:19:47 Compréhension superficielle de l’IA et mélange de grande dimension.
00:20:41 Complexité de l’intelligence artificielle et son histoire.
00:21:58 Les éléments inconnus et la progression de l’intelligence artificielle.
00:22:25 Discussion sur l’évolution de la perception de l’intelligence.
00:23:45 Aperçus sur l’apprentissage profond et l’intelligence artificielle.
00:24:24 Concept de connaissance latente dans les langues humaines.
00:25:59 Compréhension de l’univers dans l’Antiquité et les temps modernes.
00:27:02 Introduction au concept d’« anti-fragilité » du livre de Nasim Taleb
00:28:01 L’anti-fragilité dans les écosystèmes et les sociétés humaines
00:29:31 Critique de la capacité de ChatGPT à générer un discours “intelligent”
00:31:05 Considération des applications de l’IA générative dans les entreprises.
00:31:37 Le rôle potentiel de l’IA générative dans la gestion de la chaîne d’approvisionnement.
00:33:34 Capacités limitées de ChatGPT dans les domaines où les données sont rares.
00:35:00 Prudence dans l’utilisation de code généré par l’IA dans les systèmes critiques.
00:36:04 Avantages de l’IA pour la chaîne d’approvisionnement et les activités périphériques.
00:37:37 Discussion sur la tendance à élargir le corpus pour la complétion de code.
00:38:45 Comparaison des exigences en termes de paramètres : ChatGPT vs générateur plus petit.
00:40:45 Les implications de l’IA générative sur les entreprises et la chaîne d’approvisionnement.
00:41:19 Discussion sur la vision de Lovecraft des profondes vérités de l’univers.
00:42:01 Relation entre la mauvaise utilisation de la technologie et les logiciels de chaîne d’approvisionnement.
00:42:56 Préoccupations concernant la création et la vérification de fausses études de cas.
00:44:04 Critique des revendications marketing vagues des concurrents de Lokad.
00:45:10 Discussion sur les limites des modèles de langage IA.
00:46:08 Explication des spécificités de l’IA dans la technologie.
00:47:00 Importance d’une terminologie spécifique en IA.
00:48:01 Analogie de l’achat de fenêtres à la compréhension de l’IA.
00:48:48 Discussion sur les problèmes d’intégration de l’architecture logicielle.
00:50:14 L’importance de la conception de base dans les logiciels d’entreprise.
00:50:54 Exemple de conception de base dans une base de données transactionnelle.
00:51:48 La nécessité d’une bonne conception et intégration logicielle.
00:52:52 Conseils pour évaluer la technologie d’un fournisseur.
00:53:36 Importance de la publicité des réalisations technologiques.
00:54:20 L’IA comme mot à la mode et la sélection des fournisseurs.
00:55:25 Remarques finales et fin de l’interview.

Résumé

Dans cette interview, Joannes Vermorel, fondateur de Lokad, discute de l’état et de l’impact de l’IA générative, en se concentrant spécifiquement sur les avancées telles que ChatGPT et la diffusion stable. Vermorel explique l’IA générative et son histoire, mettant en évidence les progrès incrémentiels réalisés dans la génération d’images et de textes. Il mentionne la convivialité des outils récents tels que Stable Diffusion et ChatGPT, qui ont amélioré les taux de réussite et l’accessibilité. Vermorel souligne les limites des modèles d’IA actuels en termes de bon sens et de véritable intelligence. Il discute également des défis et du potentiel de l’IA dans la gestion de la chaîne d’approvisionnement et critique les affirmations vagues et trompeuses faites par certaines entreprises concernant leurs capacités en matière d’IA. Vermorel insiste sur l’importance de comprendre la technologie sous-jacente et d’être prudent lors de l’évaluation des solutions d’IA.

Résumé étendu

Dans l’interview entre l’animateur Conor Doherty et Joannes Vermorel, fondateur de Lokad, ils discutent de l’état actuel et de l’impact de l’IA générative, en se concentrant particulièrement sur les avancées telles que ChatGPT pour le texte et Stable Diffusion pour les images.

Vermorel commence par définir l’IA générative comme une collection de solutions proposées au problème génératif, qui consiste à développer un algorithme ou une méthode pour créer une ou plusieurs instances d’une représentation numérique d’une collection d’objets. Il mentionne que ce type de problème existe depuis des décennies et, pour des applications spécifiques, il existe des générateurs performants. Par exemple, des générateurs ont été utilisés pour créer des noms de lieux ressemblant à des endroits réels en Angleterre ou des titres pour un roman de Stephen King.

De même, dans le domaine de la génération d’images, il existe des générateurs capables de créer une carte ressemblant à un décor du “Seigneur des Anneaux”, avec des montagnes, des forêts, des côtes et des noms fantastiques. La progression dans ce domaine, selon Vermorel, a été incrémentielle, avec pour objectif de rendre les générateurs plus larges et de plus en plus dépendants des ensembles de données d’entrée, plutôt que d’un ensemble étendu de règles pré-codées.

En mettant en évidence deux jalons importants atteints l’année dernière par la communauté plus large de l’apprentissage automatique, Vermorel fait référence à ChatGPT pour le texte et à la diffusion stable pour les images. Bien que cela représente une avancée significative, rendant ces outils plus accessibles, il insiste sur le fait qu’il s’agissait d’une évolution plutôt que d’une découverte nouvelle en statistiques, en mathématiques ou en informatique.

Cependant, le fait que ces outils aient été emballés et polis suffisamment pour permettre aux profanes de les utiliser en quelques minutes était certainement remarquable. Cela contrastait avec les outils génératifs précédents qui, bien qu’ils soient capables de générer des images ou du texte impressionnants, présentaient souvent de nombreux défauts et nécessitaient un certain niveau d’expertise pour être utilisés efficacement.

La diffusion stable et ChatGPT se sont démarqués par leur convivialité. Avec la diffusion stable, par exemple, on pouvait entrer une simple requête, telle que “beau château au milieu de la forêt”, et obtenir une image plausible 20% du temps. Bien que cela soit loin d’être parfait, cela représentait une amélioration significative par rapport aux techniques de génération précédentes qui n’avaient qu’un taux de réussite de 1%.

Cela marquait une amélioration d’un ordre de grandeur, un sentiment partagé lorsque Vermorel parle de ChatGPT. Comme avec la diffusion stable, l’introduction de ChatGPT marquait un tournant vers des outils plus conviviaux et accessibles dans le domaine de l’IA générative.

Dans ce segment de l’interview, Conor Doherty et Joannes Vermorel, fondateur de Lokad, discutent de l’évolution récente et de l’impact des modèles de génération pré-entraînés par transformateur (GPT). Vermorel souligne que le modèle populaire ChatGPT n’est pas fondamentalement nouveau, mais plutôt une version repackagée et plus accessible d’une technologie préexistante. Il marque l’année 2022 comme l’année charnière où l’IA générative est devenue largement disponible au public, en grande partie grâce à des améliorations de l’utilisabilité.

La conversation se tourne ensuite vers des cas spécifiques où les modèles GPT ont eu un impact public significatif. Vermorel attire l’attention sur les sorties de l’année dernière, comme la diffusion stable et la troisième itération de ChatGPT. L’attrait et le succès de ces modèles, explique-t-il, résident dans les efforts déployés par les équipes de recherche pour emballer ces technologies de manière conviviale.

Vermorel donne des exemples de cette accessibilité. Il note que la diffusion stable, un outil de génération d’images, a été publiée en tant que logiciel open-source. Cela a permis aux utilisateurs ayant une expérience minimale en Python de configurer un environnement de programmation Python en environ deux heures et d’explorer l’outil de manière indépendante. Vermorel souligne que pour utiliser la diffusion stable, il n’est pas nécessaire d’être un programmeur Python compétent ; une compréhension de base de l’exécution en ligne de commande est suffisante.

Il mentionne également la disponibilité de tutoriels en ligne et le lancement d’une interface utilisateur gratuite, Dream Studio, qui permet aux utilisateurs de générer jusqu’à 100 images gratuitement. Pour les lots d’images suivants, les utilisateurs doivent payer des frais, un modèle qui s’applique également à l’application web de GPT.

Joannes Vermorel explique initialement la complexité de la création d’une image de grande dimension, citant l’exemple d’une image de 1000x1000 pixels, qui équivaut essentiellement à trois millions de dimensions lorsqu’on considère les trois couleurs primaires. Il mentionne également que les premières itérations étaient limitées à une capacité de 512x512, bien que des améliorations soient en cours.

De même, la question de la génération de texte est abordée. Vermorel explique que la dimensionnalité dans la génération de texte provient de deux directions. La première concerne la taille de l’entrée ou de la requête, qui peut varier d’une ligne à plusieurs paragraphes, voire plusieurs pages. La deuxième concerne jusqu’où la génération peut aller avant que le modèle ne commence à perdre en cohérence.

Vermorel souligne les limites des modèles actuels, car ils ne peuvent pas produire un livre entier de manière cohérente de bout en bout. Les défis augmentent avec la taille du texte : un seul mot nécessite une cohérence locale, une phrase nécessite une cohérence à plus grande échelle, un paragraphe encore plus grand, et un livre pourrait potentiellement impliquer des millions ou des dizaines de millions de dimensions abstraites.

La conversation se tourne ensuite vers l’aspect de “générosité” de ces modèles. Vermorel interprète cela comme la capacité d’un modèle à aborder différents problèmes ou à générer des sorties diverses. Un développement intéressant au cours des cinq dernières années, comme le déclare Vermorel, est la capacité de la communauté de l’apprentissage profond à exploiter des ensembles de données massifs.

Qu’il s’agisse de données textuelles provenant de différentes sources telles que Wikipédia, des forums web ou des textes juridiques, les modèles d’apprentissage profond ont progressé pour générer des sorties diverses. Ils peuvent maintenant produire n’importe quoi, de la poésie au jargon juridique, du code ou même des séquences génomiques lorsqu’ils sont correctement sollicités. Il en va de même pour les images, où les sorties peuvent aller de l’art pixelisé à des images photoréalistes ou à différents styles de peinture.

Conor Doherty demande à Joannes Vermorel quel est le degré de sophistication des modèles d’IA tels que ChatGPT par rapport aux humains. Vermorel développe la notion de sophistication, expliquant qu’elle est complexe en raison de la nécessité de définir et de clarifier son sens. En réponse à une possible application du test de Turing, il déclare que l’état actuel des modèles d’IA dépend fortement de la fusion de vastes quantités de données, en puisant dans un énorme corpus de textes.

Dans une certaine mesure, il soutient que ce que produit ChatGPT est une sorte de processus avancé de “couper-coller”, assemblant des morceaux de texte trouvés sur Internet. Il reconnaît que la puissance du modèle réside dans sa capacité à assembler ces morceaux de manière grammaticalement et syntaxiquement correcte, en identifiant les schémas statistiques de haut niveau qui existent entre les mots, les phrases et les phrases. Vermorel souligne que le texte résultant peut sembler humain, mais qu’il s’agit principalement d’une reproduction de contenus écrits par des humains existants.

Cependant, Vermorel tempère la discussion en soulignant que ces modèles ne possèdent pas le bon sens. Il cite un exemple du responsable de l’IA chez Facebook, qui affirme que même les modèles d’IA les plus avancés n’ont pas le bon sens d’un chat. Cela s’explique par le fait que l’IA fonctionne fondamentalement sur des relations statistiques et qu’elle ne possède pas la compréhension intuitive qui accompagne le bon sens. Il illustre ce point avec un scénario humoristique où un modèle d’IA suggère un itinéraire GPS pour éviter la circulation au milieu de l’océan Atlantique, sans se rendre compte de l’absurdité de la situation.

Pour mieux illustrer les limites de l’IA actuelle, Vermorel évoque une expérience de recherche menée par Amazon où ChatGPT a été soumis à une série de tests de QI. Les résultats ont placé le modèle d’IA environ un écart-type en dessous de la norme, ce qui correspond à sa perspective selon laquelle l’IA se contente principalement de rassembler des informations sans la compréhension innée dont les humains sont dotés.

Cependant, il souligne que même une personne aux capacités cognitives limitées est bien plus intelligente qu’un chat. Cette comparaison sert à souligner que même avec toutes ses capacités impressionnantes, l’IA est loin d’atteindre le niveau d’intelligence d’un chat, sans parler d’un être humain. Vermorel nous rappelle que malgré notre perception des limites cognitives d’un chat, nous sommes encore loin de créer un modèle d’IA doté d’une intelligence comparable.

Cette conversation met en évidence la complexité de la sophistication de l’IA, le processus de génération de texte par l’IA et les limites auxquelles l’IA est actuellement confrontée en termes de bon sens et de compréhension intrinsèque. Elle offre une perspective précieuse sur l’état de l’IA et ses capacités actuelles tout en tempérant les attentes pour son avenir immédiat.

Vermorel développe l’idée selon laquelle la compréhension du monde par l’IA est incroyablement superficielle. Il décrit les processus utilisés par ces modèles comme un “mélange de données d’entrée à haute dimension”. Il envisage également la possibilité qu’avec des modèles plus sophistiqués, cela puisse suffire à atteindre l’intelligence, mais il soupçonne que la véritable intelligence puisse être plus compliquée.

Selon lui, le parcours de l’IA a été davantage axé sur l’identification de ce qu’est l’intelligence plutôt que sur sa définition. Ce processus de clarification est en cours depuis environ 70 ans. Il identifie la percée du deep learning en 2011-2012 comme un tournant majeur, qui a permis une multitude d’applications ayant conduit à des connaissances substantielles. Cependant, il souligne l’incertitude dans le domaine. Il avance que notre compréhension de l’intelligence pourrait devoir être redéfinie à chaque fois qu’une nouvelle technique d’IA est développée.

L’animateur interroge ensuite Vermorel sur les améliorations des performances de l’IA au fil des différentes itérations, en se concentrant sur ChatGPT. Vermorel reconnaît que l’IA générative, y compris ChatGPT, s’est considérablement améliorée au fil du temps, mais il souligne la difficulté de quantifier les améliorations nécessaires pour combler le fossé existant dans la compréhension des concepts par l’IA.

En réponse à la question de Doherty sur la mesure dans laquelle la quatrième itération de ChatGPT devrait être meilleure, Vermorel admet franchement le manque de certitude. Il souligne que le problème fondamental ne réside pas seulement dans une progression linéaire. Le problème fondamental, affirme-t-il, réside dans le fait de ne pas savoir ce qui nous échappe dans notre compréhension de l’intelligence.

Dans une perspective historique, Vermorel note qu’il y a un siècle, l’intelligence d’une personne pouvait être jugée par sa capacité à effectuer des tâches mathématiques complexes telles que l’inversion d’une matrice. Cependant, notre compréhension et nos mesures de l’intelligence ont considérablement évolué depuis lors. Le développement de l’IA, laisse-t-il entendre, pourrait subir des transformations similaires alors que nous continuons à explorer et à remettre en question nos conceptions de l’intelligence. Il y a un siècle, des capacités telles que l’inversion de matrices ou le calcul des 20 premières décimales de pi étaient considérées comme des signes d’une intelligence supérieure. Aujourd’hui, cependant, ces tâches sont considérées comme mécaniques, réalisables par une simple calculatrice de poche, remettant ainsi en question leur association avec l’intelligence. Il note que les ordinateurs, bien qu’étant des ordres de grandeur supérieurs aux humains dans ces tâches, ne sont pas considérés comme intelligents.

La discussion de Vermorel se tourne vers les capacités et les implications de l’IA, en se concentrant particulièrement sur la génération à l’aide du deep learning. Il suggère que l’IA a exposé de nombreuses tâches qui, en apparence, semblent incroyablement difficiles, mais qui ne reflètent peut-être pas autant l’intelligence qu’on le pensait initialement. À titre d’exemple, il considère les capacités de génération de texte de ChatGPT. Plutôt que de démontrer ce qu’est l’intelligence, Vermorel propose qu’il révèle ce qu’elle n’est pas. Il voit ChatGPT davantage comme le reflet de l’énorme quantité de connaissances latentes présentes dans le langage humain que comme une démonstration de véritable intelligence.

Approfondissant le concept de connaissances latentes, Vermorel le décrit comme le total cumulatif de la compréhension et des connaissances humaines, qui sont implicitement représentées dans le langage. Ces connaissances latentes sont souvent enregistrées sous des formes structurées telles que des bases de données, des cartes, et autres, contenant des détails tels que les propriétés chimiques, la résistivité des matériaux et les points de fusion. Cependant, Vermorel affirme que le langage incarne également une part importante de ces connaissances. Il soutient que les mots et les expressions que nous utilisons reflètent notre compréhension collective de l’univers. Par exemple, dire que “les planètes orbitent autour des étoiles” présuppose une compréhension des concepts astrophysiques.

Ces connaissances latentes, suggère-t-il, sont intégrées même dans les formes les plus simples d’expression linguistique, telles que les définitions de dictionnaire, qui peuvent encapsuler une grande partie de la science moderne. Il affirme en outre que l’absence de certains mots ou concepts peut empêcher la reconnaissance de certaines formes de connaissance. Pour illustrer cela, il fait référence au livre “Antifragile” de Nassim Taleb. Il explique le concept d’“antifragilité” - un terme que Taleb a inventé pour décrire un état qui non seulement résiste au chaos et au désordre, mais prospère et s’améliore dans de telles conditions. Cela s’oppose à quelque chose de “fragile”, qui se dégrade en cas de désordre, ou à quelque chose de “durable”, qui résiste simplement au chaos à un rythme plus lent. Vermorel trouve ce concept important car il introduit une nouvelle perspective pour comprendre divers systèmes, des écosystèmes aux sociétés humaines.

Leur discussion porte sur la relation inhérente entre le langage et la connaissance. Vermorel illustre comment l’introduction d’un nouveau terme ou concept, tel que “antifragile”, peut enrichir considérablement la compréhension, bien que de manière difficile à appréhender en raison des limites du langage. Il met l’accent sur le rôle du langage dans l’expression et la communication des connaissances.

En se tournant vers le sujet de l’intelligence artificielle, Vermorel aborde le phénomène des connaissances latentes présentes dans le langage. Il souligne que ces connaissances latentes jouent un rôle crucial dans des applications telles que ChatGPT d’OpenAI, un modèle capable de générer un texte semblable à celui d’un être humain. Vermorel décrit de manière critique ChatGPT comme un “générateur de platitudes”, attribuant son apparence d’intelligence à sa propension à rassembler des idées ou des idiomes largement acceptés à partir de vastes ensembles de données diverses.

Malgré sa critique, Vermorel reconnaît l’impressionnante capacité de ChatGPT à générer un contenu cohérent et contextuellement approprié, même dans des domaines que l’utilisateur pourrait ne pas connaître. Cette fonctionnalité, suggère-t-il, est due au fait que ChatGPT est entraîné sur un ensemble de données extrêmement vaste comprenant des millions de pages de texte provenant de domaines extrêmement divers.

Au fur et à mesure de la conversation, ils envisagent les applications pratiques de l’IA générative comme ChatGPT dans le contexte de l’entreprise et de la gestion de la supply chain. Selon Vermorel, l’impact de l’IA générative sur la gestion de la supply chain est peu susceptible d’être significatif, du moins directement. Cependant, il souligne également le défi de prédire l’avenir, ce qui implique que le champ d’application et le potentiel de l’IA générative pourraient encore évoluer et nous surprendre à l’avenir.

Vermorel affirme que malgré la notoriété croissante et les capacités des technologies d’IA, elles pourraient ne pas avoir un impact substantiel sur l’optimisation de la supply chain. Il explique cela en affirmant que ces modèles prospèrent sur de grandes sources d’informations librement accessibles, telles que le web, où ils analysent des images et des balises de texte. Cependant, les données essentielles à la gestion de la supply chain - par exemple, l’historique des transactions - sont spécifiques à chaque entreprise et ne sont pas partagées ou facilement accessibles. Par conséquent, la forme actuelle de ces outils d’IA peut manquer des informations nécessaires pour optimiser efficacement les processus de la supply chain.

En se concentrant sur l’exemple des ventes de cadres de porte, Vermorel explique que les données génériques sur les cadres de porte sont moins utiles pour la planification de la supply chain par rapport à l’historique des ventes spécifique de l’entreprise. Il souligne que ces données, cachées dans le “silo” de l’entreprise, permettent de prédire de manière plus précise ce qu’il faut commander, produire et stocker. Cela souligne le fait que les technologies d’IA comme ChatGPT, qui fonctionnent mieux avec des données largement disponibles, peuvent être moins efficaces lorsque les données pertinentes sont rares.

Cependant, Vermorel reconnaît que les modèles de langage d’IA pourraient être précieux pour certaines tâches. Par exemple, ChatGPT peut aider à générer des extraits de code en raison de la grande quantité de code librement disponible en ligne, principalement sur des plateformes comme GitHub. Cette disponibilité permet à l’IA de générer des extraits de code ou des programmes décents, servant d’outil de productivité pour les programmeurs. Cependant, il met en garde contre la nécessité d’une supervision attentive car le code généré par l’IA pourrait également être défectueux.

En se projetant dans l’avenir, Vermorel spécule sur le fait que les modèles de langage d’IA pourraient aider dans des domaines tels que la prise de notes, la relecture et les résumés de réunions. Par exemple, ils pourraient être capables de résumer une discussion de deux heures lors d’une réunion en un résumé de deux pages tout en conservant les détails essentiels. Cependant, il suggère que les outils d’IA actuels comme ChatGPT pourraient avoir du mal à accomplir de telles tâches en raison de leurs limitations inhérentes. Néanmoins, il croit que dans la prochaine décennie, les technologies d’IA évolueront pour gérer de telles tâches de manière plus efficace.

Vermorel identifie les données comme le défi central, indiquant que les modèles d’IA génératifs ne traitent pas nécessairement bien les complexités inhérentes des données de la supply chain. Doherty évoque ensuite l’idée de GitHub Co-pilot, un outil conçu pour aider à la programmation qui peut même produire du code de manière autonome. Il se demande si cela ne conviendrait pas mieux à la tâche en question.

Vermorel réfute cela, en disant que GitHub Co-pilot et ChatGPT-3 partagent des bases technologiques presque identiques - tous deux utilisent l’architecture Transformer. Les différences résident dans l’expérience utilisateur, GitHub Co-pilot fournissant une auto-complétion à chaque frappe, tandis que ChatGPT-3 est plus axé sur le dialogue. Vermorel prédit que le meilleur outil pour la complétion de code utilisera probablement un corpus plus large que simplement du code.

Poursuivant, Vermorel fait référence à un article récent d’une équipe d’Amazon. Il parle d’un générateur prometteur qui fusionne des données d’images et de texte, affirmant des performances comparables, voire supérieures, à celles de ChatGPT-3 mais avec moins de paramètres (un milliard par rapport aux cent milliards de ChatGPT-3). Cette notion, selon Vermorel, est intrigante car elle suggère que la combinaison de types de données plus diversifiés peut créer un modèle plus simple mais plus puissant.

Vermorel met en évidence une observation paradoxale dans le développement des modèles d’IA : les modèles plus grands, comme ChatGPT-3, ne sont pas nécessairement meilleurs. Il fait référence à Stable Diffusion, un modèle nettement plus léger et plus rapide que son prédécesseur, le Generative Adversarial Network, malgré ses seulement environ un milliard de paramètres. Il n’est pas clair, selon Vermorel, si des modèles aussi grands que ChatGPT-3 (qui se situe dans la fourchette des trillions de paramètres) sont nécessaires.

Pour renforcer ce point, il mentionne à nouveau la recherche de l’équipe d’Amazon affirmant qu’ils ont presque reproduit les performances de ChatGPT-3 avec un modèle d’un milliard de paramètres. Cette taille plus petite, explique-t-il, permet de fonctionner sur des cartes graphiques courantes que l’on trouve dans les ordinateurs portables et les stations de travail actuels. Cela ouvre une porte à une accessibilité plus large.

Revenant au sujet initial, Doherty se demande si l’IA générative apporte des impacts nets positifs ou négatifs spécifiquement pour les entreprises et, plus particulièrement, les chaînes d’approvisionnement.

Vermorel explique que le progrès en science et technologie est généralement bon, contredisant la perspective pessimiste de Lovecraft qui croyait qu’il existe certaines vérités profondes ou profondes dans l’univers qui sont si brutales et hostiles aux esprits humains que, si elles étaient découvertes, elles les rendraient fous.

Vermorel reconnaît que tout outil, depuis l’âge de pierre, peut être utilisé ou mal utilisé. Dans le contexte de la logistique d’entreprise, il craint une augmentation de la confusion due à une mauvaise utilisation de la technologie, en particulier de l’intelligence artificielle. Selon lui, les fournisseurs font déjà trop de battage médiatique autour de l’IA, et cela pourrait s’aggraver avec leurs services marketing créant d’innombrables études de cas fictives. Cela pourrait conduire à des affirmations encore plus trompeuses et à des études de cas non vérifiables.

Vermorel explique qu’auparavant, la création d’une étude de cas fictive demandait un certain effort, mais maintenant, grâce à l’IA, cela est devenu facile. Il souligne également que les participants à une étude de cas n’ont aucun intérêt à dire que les avantages revendiqués par l’entreprise sont faux. Ils confirment généralement ces avantages et attribuent une partie du succès à eux-mêmes. Vermorel prédit que ces technologies rendront la situation plus compliquée.

Tout en discutant de la stratégie marketing de ses concurrents, Vermorel exprime sa déception face à l’utilisation légère et non informative du terme “IA pour la chaîne d’approvisionnement”. Il critique leur manque de transparence et la façon dont ils parviennent à rédiger de longues pages remplies de platitudes, sans offrir d’informations substantielles sur leur produit. Cela rend difficile pour lui de comprendre leur technologie, sa fonction, sa conception ou les idées qui la sous-tendent.

Vermorel souligne que les véritables applications d’IA dans l’optimisation de la chaîne d’approvisionnement impliquent des approches hautement spécialisées et techniques. Ces applications sont basées sur des algorithmes ou des structures spécifiques comme les architectures Transformer, les réseaux génératifs ou les approches hiérarchiques. Il estime nécessaire que les entreprises soient précises et détaillées sur les techniques d’IA qu’elles utilisent. Son argument est que les affirmations selon lesquelles elles “font de l’IA” sans donner de détails sont souvent trompeuses ou totalement infondées.

Pour illustrer son propos, Vermorel compare la technologie de l’IA à l’achat d’une fenêtre pour une maison. Lors de l’achat d’une fenêtre, l’acheteur s’attend à une description détaillée du produit - est-il en bois, en aluminium ou en plastique ? Est-il à simple ou double vitrage ? De même, en ce qui concerne l’IA, Vermorel estime que les entreprises devraient offrir une explication détaillée des techniques d’IA qu’elles utilisent et de la manière dont elles bénéficient à la chaîne d’approvisionnement. Il affirme que les descriptions génériques ou vagues peuvent être assimilées à la vente de “fenêtres génériques” sans aucun détail.

Vermorel étend cette analogie pour critiquer le terme “fenêtres durables”. Il soutient que de telles descriptions vagues ajoutent plus de confusion plutôt que de fournir de la clarté. Dans le même sens, il critique les entreprises qui offrent une “excellente luminosité” en ce qui concerne leurs fenêtres, suggérant que cela équivaut à des revendications d’IA qui manquent de preuves concrètes ou de détails.

De plus, Vermorel prévoit que l’utilisation de technologies d’IA telles que GPT (Generative Pretrained Transformer) augmentera la confusion dans l’industrie. Bien que ces outils puissent générer du matériel marketing et être intégrés aux piles technologiques existantes relativement facilement, ils pourraient ne pas contribuer de manière significative à la fonctionnalité globale ou à l’optimisation de la chaîne d’approvisionnement si l’architecture logicielle n’a pas été conçue avec ces capacités à l’esprit.

Selon lui, cette approche revient à ajouter une pièce supplémentaire à une structure existante avec du ruban adhésif - cela pourrait ne pas améliorer la structure ou même avoir un sens dans son application. Vermorel voit un risque dans l’utilisation abusive ultérieure de technologies d’IA “réelles”, car les entreprises peuvent intégrer des algorithmes précieux dans leurs opérations de manière non sensée, contribuant à la confusion de l’industrie plutôt qu’à des avancées précieuses.

Vermorel critique la tendance à incorporer l’IA dans l’optimisation de la chaîne d’approvisionnement de manière inefficace et, en fait, non sensée. Il souligne que ces processus n’ajoutent souvent aucune valeur aux solutions censées les améliorer. Pour étayer son propos, Vermorel évoque le schéma historique des itérations dans la recherche opérationnelle, l’exploration de données et la science des données, ce qui laisse entendre que les tendances actuelles, comme l’IA cognitive, pourraient bien être plus du même.

Selon Vermorel, si une entreprise souhaite tirer le meilleur parti de l’IA dans le cadre de son logiciel d’entreprise, l’intégration doit se faire au niveau de la conception. Il s’oppose vivement à l’ajout d’IA à un logiciel existant, soulignant que la conception fondamentale d’un produit ne peut être établie qu’au moment de sa conception. Essayer d’ajouter de force l’IA à un produit après sa création s’avère extrêmement difficile et souvent contre-productif.

Lorsqu’on lui demande un exemple du niveau de conception fondamental auquel il fait référence, Vermorel parle des bases de données transactionnelles. Ces bases de données, conçues pour garantir l’intégrité transactionnelle, ne sont pas conçues pour exploiter des technologies telles que les générateurs d’images ou de texte. Selon lui, ces paradigmes différents sont presque incompatibles et parvenir à une concordance entre eux n’est pas donné. Cela nécessite une réflexion minutieuse sur la conception et un principe directeur qui garantit la compatibilité au sein de l’architecture logicielle.

Vermorel reconnaît la possibilité d’avoir l’IA comme un complément qui se trouve à côté d’un produit existant, mais il affirme que cette disposition conduit rarement à une intégration ou une synergie appropriée. Au contraire, cela complique le logiciel, introduisant plus de pièces mobiles et de bugs potentiels.

Son conseil à ceux qui envisagent d’intégrer l’IA dans l’optimisation de la chaîne d’approvisionnement est de questionner en profondeur les fournisseurs sur leurs offres. Il exhorte les clients à s’assurer qu’un fournisseur peut expliquer clairement et de manière sensée sa technologie. Si un fournisseur ne peut pas le faire, Vermorel suggère que cela pourrait indiquer un problème avec le produit ou la compréhension de leur technologie par le fournisseur.

Vermorel conclut sa partie de la discussion en soulignant que les véritables réalisations en matière de technologie de l’IA, telles que la création de modèles complexes, sont souvent rendues publiques par le biais d’articles de recherche et d’autres publications. Cette ouverture est en partie due à la fierté que ressentent les développeurs lorsqu’ils parviennent à réaliser quelque chose de difficile. Il souligne que ces réalisations ne sont pas des secrets bien gardés, mais sont partagées ouvertement pour que le monde puisse les voir, soulignant ainsi l’importance de comprendre la technologie sous-jacente.

Vermorel reconnaît les avancées remarquables réalisées par certaines entreprises du secteur technologique. Il souligne que les entreprises qui parviennent à atteindre certains jalons techniques publient souvent des rapports détaillés pour partager comment elles ont réussi leurs succès. Il voit cela comme une tendance commune dans l’industrie, ce qui renforce le fait que c’est un signe de réelle progression technologique.

Ensuite, Vermorel adopte une position critique sur le rôle et la perception de l’IA dans le monde de l’entreprise moderne. Il caractérise l’IA comme un mot à la mode qui a gagné une importance significative sur le marché. Malgré l’utilisation répandue du terme, il insiste sur le fait que sa signification est si large et souvent vague qu’il peut englober presque n’importe quoi. Il met en garde contre l’acceptation aveugle des affirmations des fournisseurs concernant leurs capacités en IA, surtout lorsqu’ils ne peuvent pas fournir une description précise de ce qu’ils offrent sous l’étiquette de l’IA.

Vermorel conseille vivement que lorsqu’on traite avec des fournisseurs qui prétendent offrir des solutions d’IA, il faut faire preuve de diligence pour comprendre la nature exacte de leurs offres. Il met en garde contre la confiance accordée à un fournisseur dont le commercial admet ne pas avoir de connaissances sur la technologie qu’il vend, laissant entendre que cela relève du domaine d’une équipe technique distincte. Vermorel considère cela comme un indicateur clair que l’entreprise ne possède peut-être pas les compétences technologiques qu’elle revendique.

Il développe ce point en mettant en garde contre le discours du type “nous embauchons des lauréats du prix Nobel, nous avons des Einstein”. Il affirme que de telles affirmations sont généralement un écran de fumée conçu pour convaincre les clients potentiels de leur aptitude technique sans aucune preuve substantielle. La plupart du temps, soutient-il, ces situations impliquent qu’il n’y a rien de vraiment innovant ou technologiquement avancé derrière les revendications - c’est juste plus de la même chose.

En concluant ce segment de la conversation, Doherty exprime sa gratitude envers Vermorel pour avoir partagé ses idées, soulignant combien la discussion a été éclairante. Le segment se termine par Doherty remerciant le public pour son temps et son attention, promettant de revenir avec d’autres conversations enrichissantes à l’avenir.

Transcription complète

Conor Doherty: L’IA générative est partout de nos jours, pas seulement dans la chaîne d’approvisionnement. Est-ce un avantage net ou un inconvénient ? Pour nous l’expliquer, nous avons Joannes Vermorel. Bienvenue.

Joannes Vermorel: Bonjour, Conor, ravi d’être ici.

Conor Doherty: Alors, si vous le souhaitez, dressons un peu le tableau. Qu’est-ce que l’IA générative exactement ? Quel est son objectif car elle est partout de nos jours ?

Joannes Vermorel: Oui, l’IA générative est essentiellement un ensemble, une collection de solutions proposées au très ancien problème génératif. Le problème génératif se pose lorsque vous avez des collections d’objets dans leur représentation numérique et que vous souhaitez trouver un algorithme, une méthode, une recette pour générer une instance supplémentaire. Ce genre de problèmes existe depuis des décennies. Pour des situations spécifiques et limitées, il existe déjà de nombreux générateurs. Par exemple, depuis des décennies, il existe un générateur capable de créer le nom d’un lieu qui sonne réaliste en Angleterre ou un titre qui sonne réaliste pour un roman de Stephen King. Si vous voulez créer des images, il existe des générateurs qui peuvent créer une carte qui ressemble un peu à celle du Seigneur des Anneaux. Elle dégage cette ambiance médiévale fantastique avec de petites montagnes, des forêts, des côtes et des noms fantaisistes partout sur la carte. L’idée d’avoir un générateur existe depuis des décennies. Les progrès ont été assez progressifs, avec pour objectif d’élargir le générateur en utilisant davantage d’ensembles de données d’entrée plutôt qu’un ensemble étendu de règles pré-codées. C’est là où nous en sommes, des décennies après le début du processus. L’année dernière, la communauté de l’apprentissage automatique a atteint deux étapes très remarquables avec ChatGPT-3 pour le texte et la diffusion stable pour les images. Cependant, il s’agissait de jalons en termes d’accessibilité de ces outils, et non nécessairement d’une percée fondamentale en statistiques, en mathématiques ou en informatique. Ce sont les premiers produits qui ont été emballés et suffisamment bien présentés pour que n’importe qui puisse commencer en quelques minutes et jouer avec eux. Sur le front des images, depuis plus d’une décennie, il existe des réseaux antagonistes génératifs qui peuvent créer de très belles images. Mais ces outils étaient accompagnés de nombreux problèmes. La diffusion stable, en revanche, a permis aux utilisateurs de saisir une demande, par exemple “un beau château au milieu de la forêt”, et d’obtenir une image décente. Pas parfaite, mais assez correcte.

Conor Doherty: Donc, il s’agit d’une amélioration d’un ordre de grandeur de l’accessibilité et de l’utilisabilité de ces outils ?

Joannes Vermorel: Exactement, c’est la même chose avec ChatGPT. D’ailleurs, le genre de GPT qui est devenu populaire était en réalité un modèle qui existait déjà depuis quelques années. C’était littéralement quelque chose qui avait été remballé de manière à le rendre beaucoup plus accessible. C’était une question d’utilisabilité. L’étape importante a été franchie en 2022, lorsque l’IA générative est devenue largement accessible au lieu d’être obscure. Rien de vraiment fondamental ne s’est produit ; il s’agissait vraiment d’une question de pure utilisabilité.

Conor Doherty: Je me souviens qu’en grandissant, il y avait des exemples de ces sites web génératifs, comme celui qui permettait de “me donner un nom de groupe à la Ramones”. J’utilise cet exemple célèbre. Je pense que Childish Gambino, le musicien, a généré son nom grâce à un site web similaire. Mais je n’étais pas familier avec les itérations précédentes de ChatGPT car l’itération actuelle est la troisième. Alors qu’est-ce qui a exactement attiré l’attention du public l’année dernière, comme Stable Diffusion et la troisième itération de ChatGPT ? Ils sont partout maintenant.

Joannes Vermorel: Ce qui a attiré l’attention du public, ce sont les efforts déployés par les équipes de recherche dans l’emballage de la technologie. Stable Diffusion a été publié en open source. Si vous étiez familier avec un environnement Python, même si vous ne connaissiez pas grand-chose à Python, vous pouviez configurer un environnement de programmation en environ deux heures. Vous pouviez jouer avec toutes les parties mobiles par vous-même. Vous n’aviez même pas besoin d’être un programmeur Python. Il vous suffisait d’être suffisamment à l’aise pour exécuter une série de lignes de commande. Il y avait différents tutoriels. Stable Diffusion rendait la génération d’images accessible si vous pouviez jouer avec la ligne de commande. C’est un peu geek mais pas excessif. Il y avait même une interface utilisateur gratuite, Dream Studio, où vous pouviez jouer gratuitement pour les 100 premières images. Après cela, vous deviez payer environ dix dollars pour générer les 100 images suivantes. Open GPT était également une application web. Juste une petite inscription et de nos jours, vous devez payer environ 20 euros par mois pour y accéder. La chose intéressante est que dans les deux cas, vous pouviez accéder à un générateur dans un sens large en une heure, disons. Vous avez besoin d’un peu d’expérience pour commencer à vous familiariser avec l’outil, mais cela représente des ordres de grandeur de moins par rapport à ce qui existait auparavant. En termes de véritable progression, la chose intéressante est que ces générateurs ont progressé sur deux fronts depuis des décennies. Un front est la dimensionnalité. Vous voulez être capable de générer des objets de haute dimensionnalité dans un sens large. Par exemple, si vous voulez générer un nom pour un Romain ou un lieu en Angleterre, c’est un problème assez basse dimension. Quelque chose comme 10 à 20 dimensions, selon que vous comptez le nombre de lettres ou de syllabes. Mais si vous voulez générer un texte d’une page, nous parlons de quelque chose comme quelques milliers de dimensions. Si vous voulez générer une image de mille par mille pixels, vous êtes confronté à un défi de l’ordre de trois millions de dimensions en raison des trois couleurs primaires. C’est une augmentation significative. La première itération de Stable Division était limitée à 512 par 512 en termes de capacité. Ils l’améliorent, mais cette haute dimensionnalité était un défi majeur. Le même genre de problème s’est posé avec le texte. La dimensionnalité se joue dans deux directions. Il y a la quantité de texte que vous pouvez utiliser comme prompt d’entrée, et cela peut aller d’une seule ligne à plusieurs paragraphes, voire des pages. Ensuite, il y a la question de jusqu’où vous pouvez aller en termes de texte avant que le générateur ne perde toute cohérence avec lui-même. Ces modèles sont limités. Ils ne peuvent pas générer un livre entier de bout en bout avec une fin cohérente avec le début. Pour la génération de texte, un défi consiste à naviguer dans ces dimensions supérieures. Si vous générez un mot, vous devez simplement être cohérent à l’échelle locale. Si vous générez une phrase, elle doit être cohérente à plus grande échelle, et ainsi de suite. S’il s’agit d’un livre, vous traitez peut-être avec des millions ou des dizaines de millions de dimensions abstraites, qui peuvent également être considérées comme des degrés de liberté ou la complexité de l’objet que vous examinez. Le même problème existait avec les images. Une avenue de progrès consiste à se diriger vers des dimensions supérieures tout en maintenant la cohérence. Si vous divisez la chose, il est plus facile de générer deux images plus petites plutôt qu’une plus grande et cohérente.

Conor Doherty: Donc, lorsque vous parlez de ces dimensions plus grandes, vous voulez dire que le générateur doit maintenir la cohérence ?

Joannes Vermorel: Oui, précisément. L’objectif est de maintenir l’entrelacement et la cohérence dans l’objet généré, quelle que soit sa taille ou sa complexité. Une autre avenue de progrès est l’universalité. Parlez-vous d’un générateur spécifique à un problème étroit, ou d’un générateur capable de s’attaquer à n’importe quoi ? Au cours des cinq dernières années, la communauté de l’apprentissage profond a réalisé d’énormes progrès en exploitant des ensembles de données gigantesques. S’il s’agit de texte, cela couvre tout - Wikipédia, les forums web ou toute autre source de texte. Ainsi, le générateur, lorsqu’il est correctement sollicité, peut produire n’importe quoi, de la poésie au jargon juridique, en passant par le code ou même des conseils génomiques. Il en va de même pour les images. Nous disposons de générateurs capables de créer tout, des arts pixelisés aux vues photoréalistes, voire même des peintures à l’huile. Il s’agit de couvrir une gamme de sophistication et de style.

Conor Doherty: Lorsque vous parlez de la dimensionnalité de ces applications, à quel point les sorties sont-elles comparables ? Par exemple, sur ChatGPT, à quel point un essai généré par ChatGPT est-il comparable à celui généré par une personne moyenne, disons, éduquée à l’université ? Ont-ils des niveaux de sophistication comparables ? Sommes-nous déjà arrivés là ?

Joannes Vermorel: En termes de sophistication, c’est une question difficile. Nous devrions définir et clarifier ce que nous entendons par sophistication.

Conor Doherty: En fait, je peux intervenir ici. Disons que nous utilisons le test de Turing de telle sorte que vous pourriez ne pas être en mesure de déterminer si cela a été généré par ChatGPT ou par un étudiant en classe.

Joannes Vermorel: Cela dépend, car ces modèles, en particulier le générateur de texte, fonctionnent en mélangeant d’énormes quantités de corpus. Certaines personnes ont réalisé des tests, et dans une large mesure, ce que ChatGPT écrit est littéralement un copier-coller de choses trouvées quelque part sur le web. La puissance du modèle réside dans sa capacité à assembler ces morceaux de manière à ce qu’ils soient grammaticalement et syntaxiquement corrects. Mais il s’agit essentiellement d’identifier des schémas statistiques de haut niveau qui existent entre les mots, les groupes de mots et les phrases pour trouver des éléments qui s’emboîtent de manière statistiquement probable ou crédible. Est-ce que cela ressemble à un humain ? Beaucoup, oui. Mais la réalité est que de grandes parties de ce qu’il génère peuvent être trouvées sur le web, prises sur différents sites. Cependant, la percée réside dans la capacité à le faire, ce qui était incroyablement difficile. Il ne s’agit pas seulement de copier-coller des phrases. Il s’agit de comprendre les dépendances statistiques de haut niveau afin de les mélanger de manière crédible. Cependant, en ce qui concerne le bon sens, comme l’a commenté le responsable de l’IA chez Facebook, aucun de ces générateurs ne possède le bon sens d’un chat. C’est le niveau de compréhension avec lequel nous travaillons. Il s’agit uniquement de relations statistiques. Par exemple, posez une question basique comme “Comment puis-je éviter les embouteillages au milieu de l’océan Atlantique ?” et il pourrait suggérer de prendre un meilleur itinéraire avec un GPS plus récent, en ignorant complètement l’humour de la question. Il s’agit de coller des morceaux de texte ensemble en se basant sur des relations statistiques de haut niveau.

Conor Doherty: Je crois que des chercheurs d’Amazon ont soumis ChatGPT à une batterie de tests de QI et ont découvert qu’il était environ un écart-type en dessous de la norme, autour de 83. Cela semble cohérent avec ce que vous dites ici, simplement coller des morceaux d’informations qui semblent appartenir.

Joannes Vermorel: Mais je pense que vous manquez le point. Même un être humain incroyablement peu intelligent, quelqu’un qui n’est pas en état de mort cérébrale, est encore largement plus intelligent qu’un chat. Pourtant, ce qui a été postulé, et j’ai tendance à être d’accord, c’est que nous ne sommes même pas proches de quelque chose d’aussi intelligent qu’un chat. Nous sommes encore très loin. Vous pourriez dire : “Oh, mais mon chat est totalement incapable de me dire quoi que ce soit sur, disons, la théorie de la relativité.” Pourtant, ChatGPT est capable de faire un assez bon travail en me donnant quelques paragraphes d’introduction. C’est parce que ChatGPT va littéralement couper et coller une belle synthèse de cette théorie parmi les milliers d’exemples que l’on peut trouver sur le web, les mélanger et les régurgiter. Cependant, cela ne signifie pas qu’il comprend quoi que ce soit. Même un chat, par exemple, comprendrait que s’il y a quelque chose… Prenons un exemple avec GPT. Si vous demandez à votre GPT quelque chose comme : “Trois voitures ont besoin de deux heures pour aller de la ville de Paris à la ville de Tours. Si vous avez six voitures, combien de temps cela prend-il ?” GPT vous dirait : “Eh bien, six voitures, c’est deux fois plus que trois, donc cela va prendre environ quatre heures.” Encore une fois, si vous pensez à un chat, et que le chat pense : “Si j’ai un copain, je veux y aller”, cela va prendre le même temps, que ce soit moi ou mon copain chat. Bien que le chat n’exprime pas les choses de manière aussi élaborée, il y a une certaine compréhension de ces choses très basiques sur notre univers tridimensionnel, le temps qui s’écoule, et ainsi de suite. Encore une fois, GPT est incroyablement impressionnant dans sa capacité, et il en va de même pour Stable Diffusion. Mais vous pouvez voir qu’il y a cette sorte de compréhension incroyablement superficielle parce que tout ce que ces modèles font, c’est mélanger de manière multidimensionnelle les données d’entrée. Peut-être que cela suffit. Peut-être que si nous continuons sur cette voie avec des modèles encore plus élaborés, il n’y a rien de plus à l’intelligence que d’accumuler ce genre de recettes simplement à une plus grande échelle. Mais je soupçonne que la situation est plus compliquée que cela. Je soupçonne que ces chercheurs conscients ont beaucoup de recherches démontrant une fois de plus que toute l’histoire de l’intelligence artificielle consiste à clarifier ce qu’est l’intelligence. Et cela a été comme un voyage, un voyage que nous avons entrepris au cours des 70 dernières années environ.

Conor Doherty: Eh bien, je pense que vous avez dit plus tôt que l’itération actuelle de ChatGPT et de Stable Diffusion, ou simplement l’IA générative, est environ un ordre de grandeur meilleure que les itérations précédentes. Oui. À quel point la quatrième itération de ChatGPT devrait-elle être meilleure pour combler l’écart que vous venez de décrire ?

Conor Doherty: Cela nous ramène à mon point de départ. La brillance de ChatGPT démontre qu’il y a une énorme quantité de connaissances latentes dans le langage lui-même. Cela explique, par exemple, pourquoi un homme politique peut vous donner dix mots à la mode du jour qui correspondent aux causes que vous voulez défendre. Ils peuvent développer tout un discours basé là-dessus et donner l’impression de dire quelque chose d’intelligent tout en ne fournissant absolument aucune substance.

Joannes Vermorel: De manière intéressante, c’est ce que fait ChatGPT. Lorsque vous donnez une indication à l’outil, il a tendance à rassembler toutes sortes d’idées largement acceptées qui sont en accord avec le bon sens ou la perspective établie dominante. Imaginez si vous aviez quelqu’un qui ne répondrait qu’à vos questions en utilisant des proverbes. ChatGPT fait cela, mais mieux, en enchaînant des platitudes provenant littéralement de tous les domaines. C’est impressionnant car vous n’êtes généralement même pas familier avec ce qui serait une platitude dans un domaine que vous ne connaissez pas du tout. C’est là toute la beauté de l’entraînement d’un générateur sur un ensemble de données extrêmement massif qui inclut des millions de pages de texte provenant de domaines super diversifiés.

Conor Doherty: En ce qui concerne l’application pratique de tout cela, à votre avis ou selon votre estimation, existe-t-il des applications utiles de l’IA générative en ce qui concerne, par exemple, l’entreprise ou la supply chain ?

Joannes Vermorel: L’entreprise est un domaine très vaste, donc je vais me concentrer sur la supply chain. Pour la supply chain, je dirais que très probablement non, du moins pas directement. Mais il est incroyablement difficile de prédire l’avenir. La raison pour laquelle je suis enclin à penser que cette vague de générateurs n’aura pas un impact massif sur la supply chain est que la force de ces générateurs réside dans le fait qu’ils exploitent une immense quantité de connaissances ambiantes, qui est essentiellement le web, avec toutes ces images et balises auxquelles vous pouvez accéder gratuitement. Mais en ce qui concerne l’optimisation d’une supply chain, les données les plus pertinentes sont votre historique transactionnel. Si vous vendez, disons, des cadres de porte, il ne vous aide pas vraiment, en termes de planification de la supply chain, de connaître beaucoup de choses générales sur les cadres de porte. Votre historique des ventes de cadres de porte de l’année dernière vous en dit beaucoup plus sur ce que vous devriez exactement commander, produire et comment vous devriez allouer le stock. Ainsi, les données les plus pertinentes ne sont pas exactement partagées ouvertement avec le monde. Elles existent dans le silo de votre entreprise. Les entreprises, contrairement à ChatGPT, sont déformées par le fait que ces outils sont meilleurs lorsqu’il s’agit de discuter de choses pour lesquelles beaucoup de matériaux sont disponibles en ligne. Si vous discutez de choses qui ne sont pas largement publiées en ligne, ChatGPT devient rapidement ignorant à ce sujet. Très concrètement, je dirais que si vous pensez aux méthodes qui pourraient être utilisées pour effectuer n’importe quel type d’optimisation, je ne suis pas trop sûr, simplement parce que les types d’entrées ne sont pas là. Cependant, ces outils pourraient potentiellement devenir des instruments pour soutenir votre développement. Par exemple, ChatGPT est en réalité assez bon pour vous aider à générer des extraits de code. Pour la programmation, parce que c’est un langage générique, cela signifie une séquence de caractères, ChatGPT peut générer des balises, mais aussi du code. En raison du fait qu’il existe une quantité gigantesque de code disponible en ligne, principalement via GitHub mais aussi via de nombreux autres endroits, vous disposez de bases de code massives auxquelles ChatGPT peut s’entraîner. Ainsi, ChatGPT est en réalité capable de composer des extraits de code ou des programmes assez décents. En tant qu’outil de productivité pour les programmeurs, il y a beaucoup de potentiel. Mais attention, le code que ChatGPT génère peut être aussi faux que le code écrit par des humains. Je ne l’utiliserais pas sans une supervision attentive si vous voulez concevoir la prochaine génération d’autopilote pour un avion ou une voiture. De plus, je soupçonne que le genre de technologie qui sortira sera des choses comme les comptes rendus de réunions. À l’heure actuelle, je ne suis pas trop sûr que ChatGPT serait capable de résumer une discussion de deux heures en quelque chose comme deux pages tout en préservant le maximum de détails sur ce qui a été dit. Mais, des outils similaires, je suis assez sûr que dans la prochaine décennie, ils seront capables de le faire. Donc, pour la supply chain, il y aura beaucoup d’avantages. Cependant, je pense que la plupart d’entre eux seront plutôt en périphérie, des choses comme faciliter les réunions, prendre des notes ou de meilleurs systèmes pour relire les documents. Mais les problèmes et les défis principaux se trouvent dans les données, et ces générateurs ne traitent pas les données telles qu’elles se présentent dans les supply chains.

Conor Doherty: N’existe-t-il pas d’autres programmes conçus spécifiquement pour la programmation ? Je veux dire, ChatGPT est une IA générative basée sur le texte, mais il y a GitHub co-pilot qui est conçu pour aider à la programmation, et il peut produire un code assez décent par lui-même, n’est-ce pas ?

Joannes Vermorel: Non, ces modèles sont presque identiques, presque interchangeables. La technologie qui les sous-tend est incroyablement similaire. Ils utilisent la même architecture Transformer. Les seules différences sont de légères variations dans le corpus et l’expérience utilisateur. GitHub copilot vise à fournir une auto-complétion à chaque frappe, tandis que ChatGPT est plus orienté vers le dialogue. Mais les différences ne sont vraiment qu’une fine couche de vernis. En dessous, ils sont les mêmes. Je soupçonne que le meilleur outil de complétion de code sera construit sur un corpus plus large que le code. Cela est illustré par un article récent publié par une équipe chez Amazon. Ils ont présenté un générateur prometteur qui combine à la fois des données d’image et de texte, les unifiant essentiellement. Ils prétendent même surpasser ChatGPT sur quelques benchmarks, avec des résultats comparables sur la plupart des autres métriques. Cependant, prenez cela avec prudence, car déterminer un bon générateur est un problème aussi complexe que la création du générateur lui-même. Ce qui est intéressant, cependant, c’est que leur modèle est aussi efficace que ChatGPT, mais avec un milliard de paramètres, tandis que ChatGPT a presque 100 fois plus de paramètres. Cela suggère qu’en mélangeant des types de données plus diversifiés, vous pouvez avoir un modèle plus puissant et plus simple, ce qui est paradoxal. Par exemple, le modèle ChatGPT est gigantesque, avec une plage de paramètres dans les billions. Mais il n’est pas clair si un modèle aussi énorme est nécessaire. En fait, l’une des avancées de Stable Diffusion, par rapport à d’autres modèles, était un modèle qui est deux ordres de grandeur plus rapide et plus léger que le réseau antagoniste génératif qu’il a remplacé. Stable Diffusion n’a que environ un milliard de paramètres, ce qui le rend très petit par rapport à ChatGPT. Cependant, une équipe a récemment affirmé avoir reproduit les performances de ChatGPT avec un modèle beaucoup plus petit, d’environ la taille d’un milliard de paramètres. C’est intéressant car c’est à peu près la même taille que ce qui peut être utilisé avec une carte graphique couramment trouvée dans les notebooks et les stations de travail de nos jours.

Conor Doherty: Eh bien, cela nous ramène un peu à ce que j’ai dit dès le départ ou dans l’introduction en général, est-ce un bilan positif ou négatif ? Maintenant, dans le contexte spécifique de l’entreprise ou même de la chaîne d’approvisionnement plus granulaire, considérez-vous cela, l’IA générative, comme une distraction, une aubaine ou une malédiction ?

Joannes Vermorel: En tant que ligne de pensée générale, je pense que tout progrès en termes de science et de technologie est bon. Je n’ai pas cette perspective lovecraftienne, vous savez, où il y a des vérités profondes et profondes de l’univers qui sont si brutales et si hostiles à l’esprit humain que si vous les découvrez, vous devenez fou. Ma vision n’est pas lovecraftienne. Je crois que généralement, c’est une bonne chose. C’est certainement mieux que l’ignorance. Maintenant, comme tout outil depuis l’âge de pierre, le premier marteau pouvait être conçu pour chasser un animal ou tuer vos semblables. Donc, cela a été le problème avec la technologie et peut être mal utilisé. Cela fait des milliers d’années que c’est un problème. Ces types de technologies peuvent également être mal utilisés. Les utilisations probables dans le domaine des logiciels d’entreprise de la chaîne d’approvisionnement vont entraîner une augmentation de la confusion due au bruit. Les fournisseurs font déjà une publicité folle pour l’IA, et maintenant ils pourront même la pousser à onze en faisant simplement tourner leurs départements marketing avec d’innombrables études de cas fausses. Dans le passé, créer une étude de cas fausse demandait un certain effort. Pourtant, vous pouviez tout falsifier car personne ne vérifiera jamais vos affirmations. La plupart de vos affirmations sont impossibles à vérifier. Et, comme je l’ai décrit dans ma conférence, personne dans une étude de cas n’a intérêt à dire que tous les millions que vous prétendez avoir économisés ou gagnés ou générés sont faux. Tout le monde qui fait partie d’une étude de cas a un énorme intérêt à dire : “Oui, tout, tous ces avantages sont vrais, et c’est grâce à moi, du moins en partie, si nous parvenons à réaliser tout cela.” Donc, je pense que la situation va devenir encore plus confuse car ces équipes vont devenir folles et générer encore plus d’études de cas et de revendications bidon et de pages vides qui décrivent la technologie. J’ai passé du temps sur les sites web de nombreux concurrents de Lokad. La chose intéressante, c’est que vous pouvez avoir des pages entières de texte où vous le lisez et à la fin, vous n’avez rien appris. Ils parviennent à tourner des platitudes ou des choses qui ne révèlent rien sur ce qu’ils font réellement.

Conor Doherty: De la flibustérie, c’est ce que nous disons ?

Joannes Vermorel: Oui, exactement. Je suis toujours un peu perplexe lorsque je parcours une documentation de 10 pages sur l’IA pour la supply chain, et qu’à la fin, je ne peux rien dire sur ce que c’est, ce que ça fait, pourquoi cela a été conçu de cette manière, ou quelles sortes d’informations président à cette chose. C’est assez déconcertant. Je soupçonne qu’auparavant, les équipes marketing passaient des jours à élaborer ces descriptions vagues. Maintenant, grâce à l’IA générative, comme ChatGPT, une description de dix pages peut être créée instantanément. Donc, si vous remettez en question la validité du contenu qui prétend avoir de l’IA dans son optimisation de la supply chain, je dirais que c’est surtout suspect. Non pas parce que l’IA est bidon, mais parce qu’elle est mal représentée dans ce contexte. Lorsque nous parlons d’IA générative, des termes spécifiques sont utilisés, tels que diffusion stable, architecture Transformer et réseau génératif. Ces techniques ont des noms. Les professionnels de ce domaine ne disent pas simplement “Je fais de l’IA”. Ils sont plus précis. Ils ont besoin de ces termes pour décrire leur travail. Cette précision se développe dans le cadre d’un processus émergent au sein de la communauté. Les personnes qui ne se soucient pas de décrire leur technologie en détail ont souvent recours à des termes vagues. Prenons un exemple simple. Si vous voulez acheter une fenêtre pour votre maison, le vendeur spécifiera le matériau du cadre, le nombre de couches de verre, etc. Si un vendeur se contente de dire “Je vends des fenêtres, faites-moi confiance, elles sont bonnes” sans donner de détails, c’est douteux. Si quelqu’un ne peut pas vous donner de spécifications techniques et utilise à la place des mots à la mode comme “durable”, cela ne clarifie rien. Cela ajoute plus de mystères. C’est analogue à ce qui se passe avec l’IA et ChatGPT. Ces outils peuvent générer des supports marketing confus et donner aux fournisseurs la possibilité de les inclure dans leur pile technologique sans créer quelque chose de substantiel. Il est assez facile d’intégrer ces outils dans une architecture logicielle existante, mais cela ne sera qu’un gadget si votre architecture logicielle existante n’a pas été conçue pour optimiser les capacités de la technologie. Il est toujours assez facile de rajouter une pièce supplémentaire à un logiciel, mais cela ne signifie pas que cela fera une différence ou sera utile. Par conséquent, je pense que cette situation va créer encore plus de confusion. Cela donnera une nouvelle opportunité aux fournisseurs d’intégrer des algorithmes de valeur réelle, mais de manière non-sensique. Au final, cela n’ajoute aucune valeur à la solution, ce qui est un autre problème. Nous avons déjà connu plusieurs itérations de cela avec la recherche opérationnelle il y a 50 ans, puis la fouille de données, puis la science des données. Maintenant, il y aura ces itérations d’IA cognitive. Cependant, le problème est que si vous voulez tirer le meilleur parti de cette technologie en tant que logiciel d’entreprise, cela ne peut pas être simplement un ajout. Cela doit être intégré dès la conception de votre produit. C’est une conception fondamentale que vous ne pouvez pas changer par la suite. Le problème avec la conception fondamentale des produits, c’est que c’est quelque chose que vous ne pouvez faire qu’au début. Vous ne pouvez pas simplement rajouter cela à votre produit par la suite.

Conor Doherty: Pouvez-vous donner un exemple du niveau de conception fondamentale dont vous parlez ?

Joannes Vermorel: Si vous avez un système où au cœur de votre système, vous avez une base de données transactionnelle conçue pour garantir l’intégrité transactionnelle, c’est génial. Mais cette conception ne fera rien pour exploiter un générateur d’images ou de texte. C’est complètement incompatible avec la perspective transactionnelle. Vous traitez des transactions, mais avoir un outil capable de générer du texte ou des images, ce n’est même pas le même domaine. Donc, ce que je dis, c’est que trouver quelque chose qui convient n’est pas acquis. Cela nécessite généralement une attention particulière à la conception et aux principes directeurs de votre architecture, afin que les choses s’adaptent. Sinon, vous êtes simplement sur des voies séparées. En informatique, ce qui est trompeur, c’est qu’il est toujours possible d’avoir un produit, puis d’avoir un complément qui se trouve à côté. Mais ce n’est pas correctement intégré, pas connecté, et il n’y a aucune synergie entre les deux. Vous avez simplement un désordre plus compliqué avec plus de pièces mobiles et plus de bugs. Donc, en termes de rapport de force, je conseillerais de ne pas essayer d’intégrer cela dans les optimisations de la supply chain. Mais si un fournisseur se présente avec cela, vous devez vraiment sonder ce qu’il fait. Mon conseil final pour le public serait : assurez-vous que si vous lisez la page technologique de ce fournisseur, cela a du sens pour vous. Vous n’avez pas besoin d’être un expert. Si le fournisseur n’est pas capable de transmettre de manière compréhensible ce qu’est leur technologie et ce qu’elle fait, et quelles sortes de techniques elle utilise, c’est très probablement un signal d’alarme. Je n’ai jamais vu de toute ma carrière une entreprise capable de réaliser quelque chose de difficile le cacher. Au contraire, les entreprises qui parviennent à ce stade sont plus qu’heureuses de mettre en valeur leurs réalisations pour que le monde puisse les voir. D’ailleurs, cela vaut également pour tous ces modèles - Stable Diffusion, ChatGPT, etc. Ces réalisations sont publiques. Des articles ont été publiés à leur sujet. Ce ne sont pas des secrets bien gardés. Au contraire, les entreprises qui parviennent à ce niveau de réalisation technique publient souvent des articles très détaillés sur la manière dont elles y sont parvenues. C’est un comportement très typique. De mon point de vue, le conseil fondamental est que, bien qu’il y ait beaucoup de valeur dans l’IA, c’est simplement un mot à la mode. Vous pouvez classer presque n’importe quoi sous cette bannière. Par conséquent, chaque fois qu’un fournisseur vous approche, il est essentiel de comprendre ce qu’ils font exactement. Si la personne qui vous vend n’a pas cette compréhension, et si le fournisseur prétend ignorer en disant : “Je suis juste un commercial, c’est l’équipe technique qui sait”, ne leur faites pas confiance. Si elles disent de telles choses, cela indique qu’il n’y a pas de technologie substantielle derrière leurs revendications. C’est une technique éprouvée depuis des décennies : prétendre avoir engagé des lauréats du prix Nobel, se vanter d’avoir des “Einstein” en coulisses, vous dire de leur faire confiance parce que leur équipe est incroyablement intelligente. Cependant, s’ils professent leur ignorance de la technologie et vous assurent que c’est le reste de l’équipe qui sait, cela garantit presque qu’il n’y a aucune substance derrière leurs revendications. C’est juste plus de la même chose.

Conor Doherty: Eh bien, sur cette note, merci, Joannes. J’ai beaucoup appris. Merci pour votre temps, et merci à tous de nous avoir regardés. Nous vous verrons la prochaine fois.