00:00:01 Introduction et discussion sur l’IA générative.
00:01:11 Exploration du problème génératif et de ses solutions.
00:02:07 Discussion sur l’évolution et les progrès de l’IA générative.
00:03:02 Jalons dans le machine learning et accessibilité des outils.
00:04:03 Discussion sur les bizarreries et les résultats des outils d’IA.
00:05:00 Popularité et accessibilité de l’IA générative.
00:06:33 Génération d’images avec Stable Diffusion, devenant accessible.
00:07:37 Discussion sur l’accessibilité des outils générateurs.
00:08:43 Explication de la génération d’objets à haute dimensionnalité.
00:09:38 Défis et améliorations de la capacité dimensionnelle.
00:10:07 Exploration de la génération de texte et de ses limites.
00:11:15 Discussion sur la cohérence à différentes échelles.
00:12:24 Passage au sujet de la spécificité et de la polyvalence des générateurs.
00:13:46 Comparaison entre la production générée par l’IA et celle humaine.
00:14:59 Discussion sur les modèles de machine learning et la génération de langage.
00:15:51 Exploration de la méthode du copier-coller dans l’IA.
00:16:30 Mise en évidence du manque de bon sens de l’IA.
00:17:26 Mention de la performance de ChatGPT aux tests de QI.
00:18:45 Discussion sur la compréhension de l’IA et des exemples.
00:19:47 Compréhension superficielle de l’IA et mélange à haute dimensionnalité.
00:20:41 Complexité de l’intelligence artificielle et son histoire.
00:21:58 Les éléments inconnus et la progression de l’intelligence de l’IA.
00:22:25 Discussion sur l’évolution de la perception de l’intelligence.
00:23:45 Perspectives sur le deep learning et l’intelligence artificielle.
00:24:24 Concept de la connaissance latente dans les langues humaines.
00:25:59 Compréhension de l’univers dans les temps anciens et modernes.
00:27:02 Introduction au concept d"anti-fragilité" issu du livre de Nasim Taleb.
00:28:01 Anti-fragilité dans les écosystèmes et les sociétés humaines.
00:29:31 Critique de la capacité de ChatGPT à générer un discours ‘intelligent’.
00:31:05 Examen des applications de l’IA générative dans les entreprises.
00:31:37 Le rôle potentiel de l’IA générative dans la gestion de la supply chain.
00:33:34 Capacités limitées de ChatGPT dans les domaines à faible quantité de données.
00:35:00 Mise en garde quant à l’utilisation de code généré par l’IA dans des systèmes critiques.
00:36:04 Les avantages de l’IA pour la supply chain et les activités périphériques.
00:37:37 Discussion sur la tendance à un corpus plus large pour l’achèvement de code.
00:38:45 Comparaison des exigences en paramètres : ChatGPT vs générateur plus petit.
00:40:45 Les implications de l’IA générative sur l’entreprise et la supply chain.
00:41:19 Discussion sur la vision de Lovecraft concernant les vérités profondes de l’univers.
00:42:01 Lien entre l’utilisation abusive de la technologie et les logiciels de supply chain.
00:42:56 Inquiétudes concernant la création et la vérification de faux cas d’étude.
00:44:04 Critique des affirmations marketing vagues des concurrents de Lokad.
00:45:10 Discussion sur les limites des modèles de langage de l’IA.
00:46:08 Explication des spécificités de l’IA dans la technologie.
00:47:00 Importance d’une terminologie spécifique dans l’IA.
00:48:01 Analogie entre l’achat de fenêtres et la compréhension par l’IA.
00:48:48 Discussion sur les problèmes d’intégration de l’architecture logicielle.
00:50:14 L’importance d’une conception centrale dans les logiciels d’entreprise.
00:50:54 Exemple de conception centrale dans une base de données transactionnelle.
00:51:48 La nécessité d’une bonne conception logicielle et d’une intégration adéquate.
00:52:52 Conseils pour évaluer la technologie d’un fournisseur.
00:53:36 Importance de la mise en avant des réussites dans la technologie.
00:54:20 L’IA comme mot à la mode et la sélection rigoureuse des fournisseurs.
00:55:25 Remarques de clôture et fin de l’interview.
Résumé
Dans cette interview, Joannes Vermorel, le fondateur de Lokad, aborde l’état et l’impact de l’IA générative, en se concentrant spécifiquement sur des avancées telles que ChatGPT et Stable Diffusion. Vermorel explique l’IA générative et son histoire, mettant en lumière les progrès incrémentaux réalisés dans la génération d’images et de textes. Il mentionne la simplicité d’utilisation des outils récents comme Stable Diffusion et ChatGPT, qui ont amélioré les taux de réussite et l’accessibilité. Vermorel souligne les limites des modèles d’IA actuels en termes de bon sens et d’intelligence véritable. Il aborde également les défis et le potentiel de l’IA dans la gestion de la supply chain et critique les affirmations vagues et trompeuses formulées par certaines entreprises concernant leurs capacités en IA. Vermorel insiste sur l’importance de comprendre la technologie sous-jacente et de faire preuve de prudence lors de l’évaluation des solutions d’IA.
Résumé Étendu
Dans l’interview entre l’animateur Conor Doherty et Joannes Vermorel, le fondateur de Lokad, ils discutent de l’état actuel et de l’impact de l’IA générative, en se concentrant particulièrement sur des avancées telles que ChatGPT pour le texte et Stable Diffusion pour les images.
Vermorel commence par définir l’IA générative comme un ensemble de solutions proposées au problème génératif, qui consiste à développer un algorithme ou une méthode pour créer une instance supplémentaire d’une représentation numérique d’une collection d’objets. Il mentionne que ce type de problèmes existe depuis des décennies et que, pour des applications restreintes, il y a eu des générateurs performants. Par exemple, des générateurs ont été utilisés pour créer des noms de lieux réalistes en Angleterre ou des titres pour un roman de Stephen King.
De même, dans le domaine de la génération d’images, il a existé des générateurs capables de créer une carte ressemblant à un décor de ‘Lord of the Rings’, avec des montagnes, des forêts, des côtes et des noms fantastiques. Selon Vermorel, la progression dans ce domaine a été incrémentale dans le but de rendre les générateurs plus larges et de plus en plus dépendants des ensembles de données d’entrée, plutôt qu’un ensemble étendu de règles pré-codées.
Soulignant deux jalons notables atteints l’année dernière par la communauté plus large du machine learning, Vermorel évoque ChatGPT pour le texte et Stable Diffusion pour les images. Bien que ces avancées aient constitué des progrès significatifs en rendant ces outils plus accessibles, il insiste sur le fait qu’ils étaient incrémentaux plutôt que révolutionnaires, ne représentant aucune découverte nouvelle en statistiques, mathématiques ou informatique.
Cependant, le fait que ces outils aient été suffisamment empaquetés et raffinés pour permettre à des profanes de commencer à les utiliser en quelques minutes était certainement remarquable. Cela contrastait avec les outils génératifs antérieurs qui, bien qu’étant capables de générer des images ou des textes impressionnants, comportaient souvent de nombreuses bizarreries et nécessitaient un certain niveau d’expertise pour fonctionner efficacement.
Stable Diffusion et ChatGPT se sont démarqués grâce à leur convivialité. Avec Stable Diffusion, par exemple, on pouvait entrer une invite simple, telle que “beautiful castle in the middle of the forest”, et obtenir une image plausible dans 20 % des cas. Bien que cela fût loin d’être parfait, cela représentait une amélioration significative par rapport aux techniques de génération antérieures qui n’avaient qu’un taux de réussite de 1 %.
Cela a marqué une amélioration d’un ordre de grandeur, un sentiment repris par Vermorel lorsqu’il évoque ChatGPT. Comme pour Stable Diffusion, l’introduction de ChatGPT a marqué un virage vers des outils plus conviviaux et accessibles dans le domaine de l’IA générative.
Dans ce segment de l’interview, Conor Doherty et Joannes Vermorel, fondateur de Lokad, discutent de l’évolution récente et de l’impact des modèles de Generative Pre-trained Transformer (GPT). Vermorel souligne que le modèle populaire ChatGPT n’est pas fondamentalement nouveau, mais plutôt une version remaniée et plus accessible d’une technologie préexistante. Il désigne 2022 comme l’année charnière où l’IA générative est devenue largement accessible au grand public, principalement grâce aux améliorations en termes de convivialité.
La conversation se tourne ensuite vers des cas spécifiques où les modèles GPT ont eu un impact public significatif. Vermorel attire l’attention sur les sorties de l’année dernière, comme Stable Diffusion et la troisième itération de ChatGPT. Il explique que l’attrait et le succès de ces modèles résident dans les efforts déployés par les équipes de recherche pour empaqueter ces technologies de manière conviviale.
Vermorel donne des exemples de cette accessibilité. Il note que Stable Diffusion, un outil de génération d’images, a été publié en tant que logiciel open source. Cela a permis aux utilisateurs ayant une expérience minimale en Python de configurer un environnement de programmation Python en environ deux heures et d’explorer l’outil de manière autonome. Vermorel souligne que pour utiliser Stable Diffusion, il n’est pas nécessaire d’être un programmeur Python chevronné ; une compréhension de base de l’exécution en ligne de commande suffit.
Il fait également référence à la disponibilité de tutoriels en ligne et au lancement d’une interface utilisateur gratuite, Dream Studio, qui permet aux utilisateurs de générer jusqu’à 100 images gratuitement. Pour les lots d’images suivants, les utilisateurs doivent payer des frais, un modèle qui s’applique également à l’application web de GPT.
Joannes Vermorel explique initialement la complexité de la création d’une image à haute dimensionnalité, citant l’exemple d’une image de 1000x1000 pixels, ce qui équivaut en essence à trois millions de dimensions en considérant les trois couleurs primaires. Il mentionne en outre que les itérations initiales étaient limitées à une capacité de 512x512, bien que des améliorations soient en cours.
De même, le problème de la génération de texte est abordé. Vermorel explique que la dimensionnalité dans la génération de texte résulte de deux directions. La première concerne la taille de l’entrée ou de l’invite, qui peut varier d’une ligne à plusieurs paragraphes voire pages. La seconde porte sur la distance à laquelle la génération peut aller avant que le modèle ne commence à perdre sa cohérence.
Vermorel souligne les limites des modèles actuels, car ils ne peuvent pas produire un livre entier de manière cohérente d’un bout à l’autre. Les défis augmentent avec la taille du texte : un seul mot nécessite une cohérence locale, une phrase nécessite une cohérence à plus grande échelle, un paragraphe encore plus, et un livre impliquerait potentiellement des millions voire des dizaines de millions de dimensions abstraites.
La conversation se tourne ensuite pour aborder l’aspect de la “générosité” dans ces modèles. Vermorel interprète cela comme la capacité d’un modèle à aborder différents problèmes ou à générer des sorties diverses. Un développement intéressant ces cinq dernières années, selon Vermorel, est la capacité de la communauté deep learning à exploiter des ensembles de données massifs.
Que ce soit des données textuelles provenant de diverses sources telles que Wikipedia, des forums web ou des textes juridiques, les modèles deep learning ont progressé pour générer des sorties diverses. Ils peuvent désormais produire n’importe quoi, de la poésie au jargon juridique, du code ou même des séquences génomiques lorsque l’invite est adéquate. Il en va de même pour les images, où les résultats peuvent varier du pixel art aux images photoréalistes ou à différents styles de peinture.
Conor Doherty demande à Joannes Vermorel à propos de la sophistication des modèles d’IA tels que ChatGPT par rapport aux humains. Vermorel développe la notion de sophistication, expliquant que celle-ci est complexe en raison de la nécessité de définir et de clarifier sa signification. En réponse à une possible application du test de Turing, il affirme que l’état actuel des modèles d’IA dépend fortement du mélange de vastes quantités de données, puisant dans un énorme corpus de textes.
Dans une certaine mesure, il soutient que ce que ChatGPT produit est une sorte de processus avancé de “cut-and-paste”, assemblant des morceaux de texte trouvés sur Internet. Il reconnaît que la force du modèle réside dans sa capacité à assembler ces fragments de manière grammaticalement et syntaxiquement correcte, en identifiant des schémas statistiques de haut niveau existant entre les mots, les phrases et les énoncés.
Cependant, Vermorel modère la discussion en soulignant que ces modèles ne possèdent pas de bon sens. Il cite un exemple donné par le responsable de l’IA chez Facebook, qui affirme que même les modèles d’IA les plus avancés manquent du bon sens d’un chat. Cela s’explique par le fait que l’IA fonctionne essentiellement sur des relations statistiques et manque de la compréhension intuitive associée au bon sens. Il illustre ce point avec un scénario humoristique dans lequel un modèle d’IA suggère un itinéraire GPS pour éviter le trafic au milieu de l’océan Atlantique, ne percevant pas l’absurdité de la situation.
Pour articuler davantage les limites de l’IA actuelle, Vermorel évoque une expérience de recherche menée par Amazon dans laquelle ChatGPT a été soumis à une série de tests de QI. Les résultats ont placé le modèle d’IA à environ un écart type en dessous de la norme, ce qui résonne avec sa perspective selon laquelle l’IA se contente principalement de recoller des informations sans la compréhension innée que possèdent les humains.
Cependant, il souligne que même une personne aux capacités cognitives limitées est bien plus intelligente qu’un chat. Cette comparaison vise à souligner qu’en dépit de toutes ses capacités impressionnantes, l’IA est loin d’égaler le niveau d’intelligence d’un chat, et encore moins celui d’un humain. Vermorel nous rappelle que, malgré notre perception des limitations cognitives d’un chat, nous sommes encore très loin de créer un modèle d’IA avec une intelligence comparable.
Cette conversation souligne la complexité de la sophistication de l’IA, le processus derrière la génération de texte par l’IA, et les limites auxquelles elle est actuellement confrontée en termes de bon sens et de compréhension intrinsèque. Elle offre une perspective précieuse sur l’état de l’IA et ses capacités actuelles tout en tempérant les attentes quant à son avenir immédiat.
Vermorel élabore sur l’idée que la compréhension du monde par l’IA est incroyablement superficielle. Il décrit les processus utilisés par ces modèles comme « high dimensional blending of the input data ». Il envisage également la possibilité qu’avec des modèles plus sophistiqués, cela puisse suffire à atteindre l’intelligence, mais il soupçonne que la véritable intelligence pourrait être plus compliquée.
Selon lui, le parcours de l’IA a davantage consisté à identifier ce que l’intelligence n’est pas, plutôt que de définir ce qu’elle est. Ce processus de clarification se poursuit depuis environ 70 ans. Il identifie l’avènement du deep learning en 2011-2012 comme un tournant majeur, qui a permis une multitude d’applications ayant généré des perspectives substantielles. Cependant, il souligne l’incertitude dans le domaine. Il postule que notre compréhension de l’intelligence pourrait devoir être redéfinie à chaque fois qu’une nouvelle technique d’IA est développée.
L’animateur interroge ensuite Vermorel sur les améliorations des performances de l’IA au fil des différentes itérations, en se concentrant sur ChatGPT. Vermorel convient que l’IA générative, y compris ChatGPT, s’est considérablement améliorée avec le temps, mais il note la difficulté de quantifier les progrès nécessaires pour combler le fossé existant dans la compréhension des concepts par l’IA.
En réponse à la question de Doherty sur l’amélioration nécessaire de la quatrième itération de ChatGPT, Vermorel admet en toute franchise le manque de certitude. Il souligne que le problème n’est pas simplement une question de progression linéaire. Le problème fondamental, affirme-t-il, réside dans le fait de ne pas savoir ce qui manque à notre compréhension de l’intelligence.
D’un point de vue historique, Vermorel note qu’il y a un siècle, l’intelligence d’une personne pouvait être jugée par sa capacité à effectuer des tâches mathématiques complexes, comme l’inversion d’une matrice. Cependant, notre compréhension et nos mesures de l’intelligence ont évolué de manière significative depuis lors. Le développement de l’IA, insinue-t-il, pourrait subir des transformations similaires à mesure que nous continuons d’explorer et de remettre en question nos conceptions de l’intelligence. Il y a un siècle, des compétences telles que l’inversion de matrices ou le calcul de 20 décimales de pi étaient considérées comme des signes d’une intelligence supérieure. Aujourd’hui, cependant, ces tâches sont jugées mécanistes, réalisables avec une simple calculatrice de poche, remettant ainsi en question leur association à l’intelligence. Il note que les ordinateurs, bien qu’étant de plusieurs ordres de grandeur supérieurs aux humains pour ces tâches, ne sont pas considérés comme intelligents.
La discussion de Vermorel se tourne vers les capacités et les implications de l’IA, en se concentrant particulièrement sur la génération via le deep learning. Il suggère que l’IA a mis en lumière de nombreuses tâches qui, à première vue, semblent incroyablement difficiles, mais qui ne reflètent peut-être pas l’intelligence autant qu’on le pensait initialement. À titre d’exemple, il considère les capacités de génération de texte de ChatGPT. Plutôt que de démontrer ce qu’est l’intelligence, Vermorel propose que cela révèle ce que l’intelligence n’est pas. Il voit ChatGPT davantage comme le reflet de l’énorme quantité de connaissances latentes contenues dans le langage humain que comme une démonstration de la véritable intelligence.
En développant le concept de connaissances latentes, Vermorel la décrit comme le cumul total de la compréhension et du savoir humains, qui est implicitement représenté dans le langage. Ces connaissances latentes sont souvent enregistrées sous forme structurée, comme dans des bases de données, des cartes et autres, contenant des détails tels que les propriétés chimiques, la résistivité des matériaux et les points de fusion. Cependant, Vermorel affirme que le langage incarne également une partie significative de ce savoir. Il soutient que les mots et expressions que nous utilisons reflètent notre compréhension collective de l’univers. Par exemple, affirmer que “les planètes orbitent autour des étoiles” présuppose une compréhension de concepts astrophysiques.
Selon lui, ces connaissances latentes sont intégrées même dans les formes les plus simples d’expression linguistique, telles que les définitions de dictionnaire, qui peuvent encapsuler une grande partie de la science moderne. Il soutient en outre que l’absence de certains mots ou concepts peut empêcher la reconnaissance de certaines formes de savoir. Pour illustrer cela, il se réfère au livre “Anti-Fragile” de Nassim Taleb. Il explique le concept d’“anti-fragilité” – un terme inventé par Taleb pour décrire un état qui non seulement résiste au chaos et au désordre, mais prospère et s’améliore dans de telles conditions. Ceci contraste avec quelque chose de “fragile”, qui se dégrade sous le désordre, ou quelque chose de “durable”, qui se contente de résister au chaos à un rythme plus lent. Vermorel trouve ce concept significatif car il a introduit une perspective nouvelle pour appréhender divers systèmes, allant des écosystèmes aux sociétés humaines.
La discussion s’étend à la relation inhérente entre le langage et le savoir. Vermorel illustre comment l’introduction d’un nouveau terme ou concept, tel que “anti-fragile”, peut enrichir considérablement la compréhension, bien que de manière difficile à appréhender en raison des limites du langage. Il insiste sur le rôle du langage dans l’expression et la communication du savoir.
En abordant le sujet de l’intelligence artificielle, Vermorel discute du phénomène des connaissances latentes présentes dans le langage. Il souligne que ce savoir latent joue un rôle crucial dans des applications comme ChatGPT d’OpenAI, un modèle capable de générer un texte d’apparence humaine. Vermorel décrit de manière critique ChatGPT comme un “générateur de platitudes”, attribuant son apparente intelligence à sa propension à assembler des idées ou idiomes largement acceptés provenant d’ensembles de données vastes et diversifiés.
Malgré ses critiques, Vermorel reconnaît le caractère impressionnant de la capacité de ChatGPT à générer un contenu cohérent et contextuellement adapté, même dans des domaines que l’utilisateur pourrait ne pas connaître. Cette caractéristique, suggère-t-il, s’explique par le fait que ChatGPT a été entraîné sur un ensemble de données super massif composé de millions de pages de texte provenant de domaines extrêmement variés.
Au fur et à mesure que la conversation progresse, ils envisagent les applications pratiques de l’IA générative comme ChatGPT dans le contexte de l’entreprise et de la gestion de la supply chain. Selon Vermorel, l’impact de l’IA générative sur la gestion de la supply chain est peu susceptible d’être significatif, du moins de manière directe. Cependant, il souligne également la difficulté de prévoir l’avenir, laissant entendre que la portée et le potentiel de l’IA générative pourraient encore évoluer et nous surprendre dans les années à venir.
Vermorel affirme que, malgré la montée en importance et les capacités croissantes des technologies de l’IA, elles pourraient ne pas avoir un impact substantiel sur l’optimisation de la supply chain. Il justifie en déclarant que ces modèles se développent grâce à de grandes sources d’informations librement accessibles, telles que le web, où ils analysent des images et des balises de texte. Cependant, les données essentielles pour la gestion de la supply chain – l’historique des transactions, par exemple – sont spécifiques à chaque entreprise et ne sont pas partagées ouvertement ni facilement accessibles. Par conséquent, la forme actuelle de ces outils d’IA pourrait manquer des informations nécessaires pour optimiser supply chain efficacement.
En se concentrant sur l’exemple de vente de cadres de porte, Vermorel explique que les données génériques concernant les cadres de porte sont moins utiles pour la planification de la supply chain comparées à l’historique des ventes spécifique à une entreprise. Il souligne que ces données, cachées dans le silo, offrent une prédiction plus précise de ce qu’il faut commander, produire et stocker. Cela souligne que les technologies d’IA comme ChatGPT, qui fonctionnent mieux avec des données largement disponibles, peuvent être moins efficaces lorsque les données pertinentes se font rares.
Cependant, Vermorel reconnaît que les modèles de langage d’IA pourraient s’avérer utiles pour certaines tâches. Par exemple, ChatGPT peut aider à générer des extraits de code grâce à la grande quantité de code librement disponible en ligne, principalement sur des plateformes comme GitHub. Cette disponibilité permet à l’IA de générer des extraits ou programmes de code décents, servant d’outil de productivité pour les programmeurs. Toutefois, il prévient de la nécessité d’une supervision minutieuse, car le code généré par l’IA pourrait également comporter des erreurs.
En envisageant l’avenir, Vermorel suppose que les modèles de langage d’IA pourraient contribuer dans des domaines tels que la prise de notes, la relecture et les résumés de réunions. Par exemple, ils pourraient être capables de compresser une discussion de réunion de deux heures en un résumé de deux pages tout en conservant les détails essentiels. Cependant, il suggère que, pour l’heure, des outils d’IA comme ChatGPT rencontreraient des difficultés avec de telles tâches en raison de leurs limitations inhérentes. Néanmoins, il estime qu’au cours de la prochaine décennie, les technologies de l’IA évolueront pour gérer ces tâches de manière plus efficace.
Vermorel identifie les données comme le défi central, indiquant que les modèles d’IA générative ne traitent pas nécessairement bien les complexités inhérentes aux données de supply chain. Doherty évoque alors l’idée de GitHub Co-pilot, un outil conçu pour assister dans le codage qui peut même produire de manière autonome un code décent. Il se demande si cela ne serait pas mieux adapté à la tâche en question.
Vermorel rétorque que GitHub Co-pilot et ChatGPT-3 partagent des fondements technologiques presque identiques—ils utilisent tous deux l’architecture Transformer. Les différences résident dans l’expérience utilisateur, GitHub Co-pilot proposant l’auto-complétion à chaque frappe, tandis que ChatGPT-3 est davantage orienté dialogue. Vermorel prédit que le meilleur outil pour l’auto-complétion de code utilisera probablement un corpus plus large que le seul code.
Poursuivant, Vermorel fait référence à un article récent d’une équipe d’Amazon. Celui-ci aborde un générateur prometteur qui fusionne des données d’image et de texte, revendiquant des performances comparables, et parfois supérieures, à celles de ChatGPT-3, mais avec moins de paramètres (un milliard contre les cent milliards de ChatGPT-3). Cette idée, explique Vermorel, est intrigante car elle suggère que la combinaison de données plus diversifiées peut aboutir à un modèle à la fois plus simple et plus puissant.
Vermorel met en lumière une observation paradoxale dans le développement des modèles d’IA : des modèles plus volumineux, comme ChatGPT-3, ne sont pas nécessairement meilleurs. Il évoque Stable Diffusion, un modèle nettement plus léger et plus rapide que son prédécesseur, le Generative Adversarial Network, malgré ses environ un milliard de paramètres. Il n’est pas clair, déclare Vermorel, si des modèles aussi grands que ChatGPT-3 (qui se situe dans la tranche du trillion de paramètres) sont réellement nécessaires.
Pour renforcer ce point, il mentionne à nouveau la recherche de l’équipe d’Amazon affirmant avoir reproduit presque les performances de ChatGPT-3 avec un modèle d’un milliard de paramètres. Cette taille plus réduite, explique-t-il, permet de fonctionner sur des cartes graphiques courantes que l’on trouve dans les ordinateurs portables et les stations de travail actuels. Cela ouvre la voie à une accessibilité plus large.
Revenant sur le sujet initial, Doherty se demande si l’IA générative apporte des impacts nets positifs ou négatifs spécifiquement pour les entreprises et, plus particulièrement, pour les supply chains.
Vermorel explique que les progrès en science et technologie sont généralement bénéfiques, contredisant la perspective pessimiste de Lovecraft qui croyait qu’il existait certaines vérités profondes dans l’univers, si brutales et hostiles à l’esprit humain, qu’en être la victime conduirait à la folie.
Vermorel reconnaît que tout outil, depuis l’Âge de Pierre, peut être utilisé ou détourné de son usage. Dans le contexte du logiciel d’entreprise, il craint une augmentation de la confusion due à l’usage abusif de la technologie, en particulier de l’intelligence artificielle. Selon lui, les fournisseurs font déjà l’hype autour de l’IA, et cela pourrait empirer avec leurs départements marketing créant des études de cas fausses à l’infini. Cela pourrait mener à des affirmations encore plus trompeuses et des études de cas invérifiables.
Vermorel explique qu’autrefois, créer une fausse étude de cas demandait un certain effort, mais qu’aujourd’hui, grâce à l’IA, cela est devenu sans effort. Il signale également que les participants à une étude de cas n’ont aucun intérêt à affirmer que les bénéfices revendiqués par l’entreprise sont faux. Ils confirment généralement ces bénéfices et en attribuent une partie à eux-mêmes. Vermorel prédit que ces technologies rendront la situation encore plus complexe.
Lorsqu’il discute de la stratégie marketing de ses concurrents, Vermorel exprime sa déception quant à l’usage fragile et non informatif du terme “AI for supply chain”. Il critique leur manque de transparence et la manière dont ils parviennent à rédiger de longues pages remplies de platitudes, n’offrant aucune information substantielle sur leur produit. Cela rend difficile pour lui de comprendre leur technologie, sa fonction, sa conception ou les insights qui la sous-tendent.
Vermorel souligne que les applications véritables de l’IA dans l’optimisation de la supply chain impliquent des approches hautement spécialisées et techniques. Ces applications se fondent sur des algorithmes ou structures spécifiques, tels que les architectures Transformer, les réseaux génératifs ou les approches hiérarchiques. Il exprime le besoin que les entreprises soient précises et détaillées quant aux techniques d’IA qu’elles utilisent. Son argument est que les affirmations se contentant de “faire de l’IA” sans spécificités sont souvent trompeuses ou totalement infondées.
Pour illustrer son propos, Vermorel compare la technologie de l’IA à l’achat d’une fenêtre pour une maison. Lors de l’achat d’une fenêtre, l’acheteur s’attend à une description détaillée du produit – est-elle en bois, en aluminium ou en plastique ? Est-elle simple ou double vitrage ? De même, en ce qui concerne l’IA, Vermorel estime que les entreprises devraient offrir une explication détaillée des techniques d’IA qu’elles emploient et de la manière dont elles bénéficient à la supply chain. Il affirme que des descriptions générales ou vagues équivalent à vendre des “fenêtres génériques” sans aucun détail.
Vermorel prolonge cette analogie pour critiquer le terme “sustainable windows”. Il soutient qu’une telle description vague ajoute davantage de confusion plutôt que de fournir de la clarté. De la même manière, il critique les entreprises qui promettent une “excellente lumière” au sujet de leurs fenêtres, suggérant que c’est équivalent à des affirmations en IA dépourvues de preuves concrètes ou de détails.
De plus, Vermorel anticipe que l’utilisation de technologies d’IA telles que GPT (Generative Pretrained Transformer) augmentera la confusion dans l’industrie. Bien que ces outils puissent générer du matériel marketing et être intégrés dans des infrastructures technologiques existantes avec une relative facilité, ils pourraient ne pas contribuer de manière significative à la fonction globale ou à l’optimisation de la supply chain si l’architecture logicielle n’a pas été conçue avec ces capacités à l’esprit.
À son avis, cette approche revient à coller avec du ruban adhésif une pièce supplémentaire à une structure existante – cela pourrait ne pas améliorer la structure, voire ne pas avoir de sens dans son application. Vermorel voit un risque dans l’usage abusif des technologies d’“IA réelle”, car les entreprises pourraient intégrer des algorithmes précieux dans leurs opérations de manière incohérente, contribuant à la confusion de l’industrie plutôt qu’à apporter des avancées significatives.
Vermorel critique la tendance à incorporer l’IA dans l’optimization de la supply chain de manières inefficaces et, en fait, absurdes. Il fait remarquer que ces processus n’apportent souvent aucune valeur aux solutions qu’ils sont censés améliorer. Pour étayer son propos, Vermorel invoque le schéma historique d’itérations dans la recherche opérationnelle, le data mining, et data science, impliquant que les tendances actuelles, comme l’IA cognitive, pourraient bien n’être qu’une répétition du passé.
Selon Vermorel, si une entreprise souhaite tirer le meilleur parti de l’IA dans le cadre de son logiciel d’entreprise, l’intégration devrait se faire au niveau de la conception. Il s’oppose fermement à “duct-taping” l’IA sur un logiciel existant, insistant sur le fait que la conception fondamentale d’un produit ne peut être établie qu’au début de son développement. Tenter de caser l’IA dans un produit après sa création s’avère extrêmement difficile et souvent contre-productif.
Lorsqu’on lui demande un exemple du niveau de conception fondamentale auquel il fait référence, Vermorel évoque les bases de données transactionnelles. Ces bases, conçues pour garantir l’intégrité transactionnelle, ne sont pas destinées à exploiter des technologies telles que les générateurs d’images ou de texte. Selon lui, ces paradigmes différents sont quasiment incompatibles, et parvenir à les faire coïncider n’est pas évident. Cela requiert des considérations de conception minutieuses ainsi qu’un principe directeur assurant la compatibilité au sein de l’architecture logicielle.
Vermorel admet la possibilité d’avoir l’IA en tant qu’add-on qui accompagne un produit existant, mais il soutient que cette configuration conduit rarement à une intégration ou à une synergie adéquate. Au contraire, elle complique le logiciel en introduisant davantage de composants mobiles et de bugs potentiels.
Son conseil à ceux qui envisagent l’intégration de l’IA dans l’optimisation de la supply chain est d’interroger minutieusement les fournisseurs sur leurs offres. Il exhorte les clients à s’assurer qu’un fournisseur peut expliquer sa technologie de manière claire et sensée. Si un fournisseur est incapable de le faire, Vermorel suggère que cela pourrait indiquer un problème soit avec le produit, soit avec la compréhension de sa technologie par le fournisseur.
Vermorel conclut sa partie de la discussion en soulignant que les véritables avancées en technologie d’IA, telles que la création de modèles complexes, sont souvent rendues publiques via des articles de recherche et d’autres publications. Cette transparence s’explique en partie par la fierté que ressentent les développeurs en accomplissant quelque chose de difficile. Il souligne que ces réalisations ne sont pas des secrets bien gardés, mais sont partagées ouvertement pour que le monde entier puisse en être témoin, soulignant ainsi l’importance de comprendre la technologie sous-jacente.
Vermorel reconnaît les avancées notables réalisées par certaines entreprises dans l’industrie technologique. Il souligne que les entreprises qui parviennent à atteindre certains jalons techniques publient souvent des rapports détaillés pour partager comment elles ont obtenu leurs succès. Il y voit une tendance courante dans l’industrie, renforçant que cela témoigne d’une progression technologique réelle.
Ensuite, Vermorel adopte une position critique quant au rôle et à la perception de l’IA dans le monde de l’entreprise moderne. Il caractérise l’IA comme un mot à la mode qui a acquis une traction significative sur le marché. Malgré l’utilisation généralisée du terme, il insiste sur le fait que sa signification est si vaste et souvent vague qu’elle peut englober presque n’importe quoi. Il met en garde contre une acceptation aveugle des revendications des fournisseurs concernant leurs capacités en IA, surtout lorsqu’ils ne peuvent fournir une description précise de ce qu’ils proposent sous l’étiquette d’IA.
Vermorel conseille fermement que, lorsqu’on traite avec des fournisseurs qui prétendent offrir des solutions d’IA, il faut faire preuve de diligence pour comprendre la nature exacte de leurs offres. Il met en garde contre le fait de faire confiance à un fournisseur dont le commercial admet manquer de connaissances sur la technologie qu’il vend, en la déléguant à une équipe technique distincte. Vermorel considère cela comme un indicateur clair que l’entreprise ne possède peut-être pas la maîtrise technologique qu’elle prétend avoir.
Il développe ce point en mettant en garde contre le discours “we hire Nobel laureates, we have Einsteins”. Il affirme que de telles affirmations ne sont généralement qu’un écran de fumée destiné à convaincre les clients potentiels de leur compétence technique sans preuve substantielle. Bien souvent, selon lui, ces situations impliquent qu’il n’y a rien de vraiment innovant ou technologiquement avancé derrière ces revendications – c’est simplement la même chose de toujours.
En concluant ce segment de la conversation, Doherty exprime sa gratitude envers Vermorel pour avoir partagé ses idées, soulignant combien la discussion a été éclairante. Le segment se termine avec Doherty remerciant le public pour son temps et son attention, promettant de revenir avec d’autres conversations enrichissantes à l’avenir.
Transcription complète
Conor Doherty: L’IA générative est partout ces jours-ci, pas seulement dans la supply chain. Est-ce un avantage net ou un inconvénient ? Pour nous l’expliquer, nous a rejoint Joannes Vermorel. Bienvenue.
Joannes Vermorel: Bonjour, Conor, ravi de t’accueillir.
Conor Doherty: Pour commencer, établissons un cadre. Qu’est-ce exactement que l’IA générative ? Quel est son but, puisque elle est omniprésente ces jours-ci ?
Joannes Vermorel: Oui, l’IA générative est essentiellement un ensemble, une collection de solutions proposées au très ancien problème génératif. Le problème génératif, c’est lorsque l’on dispose de collections d’objets sous leur représentation numérique, et que l’on souhaite trouver un algorithme, une méthode, une recette pour générer une instance supplémentaire. Ce type de problème existe depuis des décennies. Pour des situations spécifiques et étroites, il y a eu de nombreux générateurs. Par exemple, cela fait des décennies qu’il existe un générateur capable de créer le nom d’un lieu qui sonne de manière réaliste en Angleterre ou un titre ressemblant à ceux d’un roman de Stephen King. Si vous vouliez créer des images, il y avait des générateurs qui produisaient une carte évoquant un peu Le Seigneur des Anneaux. Elle dégageait une ambiance médiévale fantastique avec de petites montagnes, des forêts, des côtes et des noms fantaisistes disséminés sur la carte. L’idée d’avoir un générateur circule depuis des décennies. Les progrès ont été assez progressifs, la démarche consistant à rendre le générateur plus large, en exploitant davantage de jeux de données d’entrée plutôt qu’un ensemble étendu de règles pré-codifiées. Voilà où nous en sommes, des décennies après le début du processus. L’année dernière, la communauté du machine learning a atteint deux jalons très notables avec ChatGPT-3 pour le texte et stable diffusion pour les images. Cependant, ces jalons concernaient l’accessibilité de ces outils, et non pas nécessairement une percée fondamentale en statistiques, en mathématiques ou en informatique. Ce furent les premiers produits suffisamment soignés et aboutis pour qu’un profane puisse se lancer en quelques minutes et s’amuser avec eux. Du côté de l’image, pendant plus d’une décennie, il y a eu des réseaux antagonistes génératifs capables de créer de très belles images. Mais ces outils étaient accompagnés de nombreux écueils. Stable diffusion, en revanche, a facilité l’entrée des utilisateurs en leur permettant de saisir un prompt, par exemple, “un magnifique château au milieu de la forêt”, et d’obtenir une image correcte. Pas parfaite, mais suffisamment correcte.
Conor Doherty: Donc, il s’agit d’une amélioration d’un ordre de grandeur en termes d’accessibilité et d’utilisabilité de ces outils ?
Joannes Vermorel: Exactement, il en va de même pour ChatGPT. D’ailleurs, le type de GPT qui est devenu populaire était en réalité un modèle qui existait depuis quelques années. C’était littéralement quelque chose qui avait été reconditionné de manière à le rendre beaucoup plus accessible. Il s’agissait d’une question d’utilisabilité. Le jalon a été franchi en 2022, lorsque l’IA générative est devenue largement accessible plutôt qu’obscure. Rien de véritablement fondamental ne s’est produit ; il s’agissait vraiment d’une question de pure utilisabilité.
Conor Doherty: Je me souviens qu’en grandissant, il y avait des exemples de ces sites génératifs, comme celui du “donne-moi un nom de Ramones”. J’utilise cet exemple célèbre. Je pense que Childish Gambino, le musicien, a généré son nom via un site similaire. Mais je ne connaissais pas les itérations précédentes de ChatGPT, car l’itération actuelle est la troisième. Alors, qu’est-ce qui, exactement, dans les sorties de l’année dernière, comme Stable Diffusion et la troisième itération de ChatGPT, a capté l’attention du public ? Elles sont partout maintenant.
Joannes Vermorel: Ce qui a attiré l’attention du public, ce sont les efforts déployés par les équipes de recherche pour conditionner la technologie. Stable Diffusion a été publié en open source. Si vous connaissiez un environnement Python, même si vous ne maîtrisiez pas grand-chose de Python, vous pouviez mettre en place un environnement de programmation en environ deux heures. Vous pouviez manipuler toutes les parties mobiles par vous-même. Vous n’aviez même pas besoin d’être programmeur Python ; il suffisait d’être suffisamment à l’aise pour exécuter une série de lignes de commande. Il existait divers tutoriels. Stable Diffusion rendait la génération d’images accessible si vous pouviez utiliser la ligne de commande. C’est un peu geek mais pas excessif. Il y avait même une interface utilisateur gratuite, Dream Studio, où vous pouviez jouer gratuitement pour les 100 premières images. Ensuite, il fallait payer environ dix dollars pour générer les 100 images suivantes. Open GPT était également une application web. Il suffisait d’une petite inscription et, de nos jours, vous devez payer environ 20 Euros par mois pour accéder. Ce qui est intéressant, c’est que dans les deux cas, vous pouviez accéder à un générateur au sens large en environ, disons, une heure. Il faut un peu d’expérience pour commencer à se familiariser avec l’outil, mais c’était d’un ordre de grandeur inférieur à ce qui existait auparavant. En termes de véritable progression, ce qui est intéressant, c’est que ces générateurs progressent sur deux fronts depuis des décennies. Le premier front concerne la dimensionnalité. Vous voulez être capable de générer des objets de haute dimensionnalité au sens large. Par exemple, si vous voulez générer un nom pour un Romain ou un lieu en Angleterre, il s’agit d’un problème relativement de faible dimensionnalité. Quelque chose comme 10 à 20 dimensions, selon que vous comptez le nombre de lettres ou de syllabes. Mais si vous voulez générer un texte d’une page, nous parlons de quelques milliers de dimensions. Si vous voulez générer une image de mille par mille pixels, vous faites face à un défi d’environ trois millions de dimensions en raison des trois couleurs primaires. C’est une augmentation significative. L’itération initiale de Stable Diffusion était limitée à 512 par 512 en termes de capacité. Ils l’améliorent, mais cette haute dimensionnalité constituait un défi majeur. Le même type de problème se posait pour le texte. La dimensionnalité se manifeste de deux manières. D’une part, il y a la quantité de texte que vous pouvez utiliser en tant que prompt, qui peut varier d’une seule ligne à plusieurs paragraphes, voire à des pages entières. D’autre part, il y a la question de savoir jusqu’où vous pouvez aller textuellement avant que le générateur ne perde toute cohérence avec lui-même. Ces modèles sont limités. Ils ne peuvent pas générer un livre entier de bout en bout avec une fin cohérente avec le début. Pour la génération de texte, un défi consiste à naviguer dans ces dimensions supérieures. Si vous générez un mot, il faut simplement être cohérent au niveau local. Si vous générez une phrase, elle doit être cohérente à une échelle plus large, et ainsi de suite. Pour un livre, vous traitez peut-être des millions ou des dizaines de millions de dimensions abstraites, que l’on peut également voir comme des degrés de liberté ou la complexité de l’objet examiné. Le même problème existait pour les images. Une des voies de progression est de passer à des dimensions plus élevées tout en maintenant la cohérence. Si vous divisez l’objet, il est plus facile de générer deux images plus petites qu’une image plus grande et cohérente.
Conor Doherty: Donc, lorsque vous parlez de ces dimensions plus élevées, vous voulez dire que le générateur doit maintenir la cohérence ?
Joannes Vermorel: Oui, précisément. Le but est de maintenir l’enchevêtrement et la cohérence dans l’objet généré, quelle que soit sa taille ou sa complexité. Une autre voie de progression est l’universalité. Parlez-vous d’un générateur spécifique à un problème restreint, ou d’un générateur capable de tout aborder ? Au cours des cinq dernières années, la communauté deep learning a accompli d’énormes progrès dans l’exploitation de jeux de données gigantesques. S’il s’agit de texte, cela couvre tout – Wikipedia, les forums web ou toute autre source textuelle. Ainsi, le générateur, lorsqu’il est correctement sollicité, peut produire n’importe quoi, de la poésie au jargon juridique, en passant par du code ou même des conseils en génomique. Il en est de même pour les images. Nous disposons de générateurs capables de créer n’importe quoi, allant du pixel art aux vues photoréalistes, voire aux peintures à l’huile. Il s’agit de couvrir une gamme de sophistication et de styles.
Conor Doherty: Lorsque vous évoquez la dimensionnalité de ces applications, à quel point les résultats sont-ils comparables ? Par exemple, avec ChatGPT, à quel point un essai généré par ChatGPT est-il comparable à celui produit par une personne ayant, disons, un niveau universitaire ? Les niveaux de sophistication sont-ils comparables ? Sommes-nous déjà arrivés là ?
Joannes Vermorel: En termes de sophistication, c’est une question difficile. Nous devrions définir et clarifier ce que nous entendons par sophistication.
Conor Doherty: En fait, je peux intervenir ici. Disons que nous utilisons le test de Turing de sorte qu’on ne puisse pas réellement déterminer si c’est ChatGPT ou un étudiant en classe qui l’a généré.
Joannes Vermorel: Cela dépend, car ces modèles, particulièrement le générateur de texte, fonctionnent en fusionnant d’énormes quantités de corpus. Certaines personnes ont réalisé des tests, et dans une large mesure, ce que ChatGPT écrit est littéralement un collage de morceaux que l’on trouve quelque part sur le web. La force du modèle réside dans sa capacité à assembler ces pièces de manière à ce qu’elles soient grammaticalement et syntaxiquement correctes. Mais il s’agit essentiellement d’identifier des schémas statistiques de haut niveau qui existent entre les mots, les groupes de mots et les phrases afin de trouver des éléments qui s’imbriquent de manière statistiquement probable ou crédible. Est-ce que cela ressemble à du langage humain ? Beaucoup, oui. Mais la réalité est que de grandes parties de ce qu’il génère se retrouvent sur le web, extraites de divers sites. Cependant, l’innovation réside dans la capacité à le faire, ce qui était incroyablement difficile. Il ne s’agit pas simplement de couper-coller des phrases. Il s’agit de comprendre les dépendances statistiques de haut niveau afin de pouvoir les fusionner de manière crédible. Pourtant, en ce qui concerne le bon sens, comme l’a commenté le responsable de l’IA chez Facebook, aucun de ces générateurs ne possède le bon sens d’un chat. C’est le niveau de compréhension auquel nous sommes confrontés. Ce sont purement des relations statistiques. Par exemple, posez une question basique telle que “How can I avoid the traffic jam in the middle of the Atlantic Ocean?” et il pourrait suggérer de trouver un meilleur itinéraire avec un GPS récent, manquant complètement l’humour de la question. Il s’agit d’assembler des morceaux de texte en se basant sur des relations statistiques de haut niveau.
Conor Doherty: Je crois que des chercheurs d’Amazon ont soumis ChatGPT à une batterie de tests de QI et ont découvert qu’il se situait environ à un écart type en dessous de la moyenne, autour de 83. Cela semble cohérent avec ce que tu dis ici, en assemblant simplement des morceaux d’information qui semblent aller ensemble.
Joannes Vermorel: Mais je pense que tu passes à côté de l’essentiel. Même un humain incroyablement peu intelligent, pourvu qu’il ne soit pas en état de mort cérébrale, reste bien plus intelligent qu’un chat. Pourtant, ce qui a été postulé – et je tends à y souscrire – c’est que nous ne sommes même pas proches de quelque chose d’aussi intelligent qu’un chat. Nous sommes encore très éloignés. Tu pourrais dire : “Oh, mais mon chat est complètement incapable de me dire quoi que ce soit sur, disons, la théorie de la relativité.” Pourtant, ChatGPT est capable de fournir assez correctement quelques paragraphes d’introduction. Cela s’explique par le fait que ChatGPT va littéralement copier-coller un joli résumé de cette théorie parmi les milliers d’exemples que l’on trouve sur le web, les assembler, et régurgiter le tout. Cependant, cela ne signifie pas qu’il comprend quoi que ce soit. Même un chat, par exemple, comprendrait que s’il y a quelque chose… Prenons un exemple avec GPT. Si tu demandes à ton GPT quelque chose du genre : “Trois voitures ont besoin de deux heures pour aller de la ville de Paris à la ville de Tours. Si tu as six voitures, combien de temps cela prend-il ?” GPT te répondrait : “Eh bien, six voitures représentent le double de trois, donc cela prendra environ quatre heures.” Encore une fois, si tu penses à un chat, et que ce chat se dit : “Si j’ai un compagnon, j’ai envie d’aller là-bas,” cela prendra le même temps, que ce soit avec moi ou avec mon chat copain. Bien que le chat ne formule pas les choses de manière aussi élaborée, il possède néanmoins une certaine compréhension de ces notions très basiques concernant notre univers tridimensionnel, l’écoulement du temps, etc. Encore une fois, GPT est incroyablement impressionnant dans ses capacités, et il en va de même pour Stable Diffusion. Mais on peut constater qu’il s’agit d’une compréhension incroyablement superficielle, puisque tout ce que font ces modèles, c’est un mélange à haute dimension des données d’entrée. Peut-être que cela est suffisant. Peut-être qu’en poursuivant sur cette voie avec des modèles encore plus élaborés, il n’y aura rien d’autre dans l’intelligence que d’empiler ce genre de recettes à une échelle plus grande. Mais je soupçonne que la situation est plus compliquée que cela. Je suspecte que ces chercheurs avisés disposent de nombreuses études démontrant une fois de plus que toute l’histoire de l’intelligence artificielle consiste à clarifier ce que l’intelligence n’est pas. Et cela a été comme un voyage, un voyage que nous entreprenons depuis environ 70 ans.
Conor Doherty: Eh bien, je crois que tu as dit plus tôt que l’itération actuelle de ChatGPT et Stable Diffusion, ou simplement de l’IA générative, est environ d’un ordre de grandeur meilleure que les itérations précédentes. Oui. Dans quelle mesure la quatrième itération de ChatGPT devrait-elle être meilleure pour combler l’écart que tu viens de décrire ?
Joannes Vermorel: Nous ne savons vraiment pas, car voilà le problème. Chaque fois qu’il y a une sorte de percée, et je crois qu’ici la véritable avancée fut le deep learning, et non ces applications du deep learning, c’est-à-dire que le deep learning fut la percée autour de 2011-2012. Ce fut la véritable révolution mathématique et conceptuelle. Ce sont des applications et des insights très élaborés acquis au cours de la dernière décennie. Mais nous ne savons toujours pas vraiment ce qui nous manque. C’est encore une question très ouverte et il ne faut pas la voir comme une progression linéaire. C’est le problème de l’intelligence – nous ne savons pas ce qui nous fait défaut. Une fois qu’on établit une nouvelle sorte de technique, cela nous permet même de revisiter ce que signifie l’intelligence en soi. Si nous remontions d’un siècle en arrière et que l’on demandait : “Comment peut-on établir qu’une personne possède une intelligence supérieure ?” Si tu interrogeais des professeurs en milieu universitaire, ils pourraient répondre quelque chose comme : “Eh bien, si cette personne sait inverser une matrice ou calculer les 20 premiers chiffres de pi, elle possède une intelligence supérieure.” De nos jours, on dirait qu’une calculatrice de poche peut faire cela. C’est une tâche complètement mécanique. Il n’y a aucune intelligence à extraire du fait de calculer les 20 premiers chiffres de pi. Tu as de simples recettes que nous appelons des algorithmes. Tu peux les exécuter avec un ordinateur et obtenir des milliers de chiffres. Cela ne te rend pas intelligent en aucune façon. Telle était la situation il y a un siècle, quand ce qui était considéré comme le véritable reflet de l’intelligence humaine s’est avéré n’être que la partie facile de la mécanisation. Aujourd’hui, les ordinateurs sont littéralement supérieurs aux humains de 10 ordres de grandeur, voire même de 15, pour effectuer ces calculs, mais ils ne sont pas du tout intelligents. Du moins, c’est le consensus général actuel. Ce que nous avons découvert avec cette génération d’IA, avec le deep learning, c’est qu’il existe de nombreuses tâches qui, en apparence, semblent incroyablement difficiles ou complexes mais qui ne reflètent peut-être pas tant l’intelligence. Par exemple, ChatGPT en dit plus sur ce que l’intelligence n’est pas que sur ce qu’elle est réellement. Ce qu’il explique, c’est que la quantité de connaissance latente dans la langue anglaise et dans toutes les langues humaines est énorme. Quand on parle de “connaissance latente”, cela signifie que, disons, nous possédons cette entité abstraite qui réunit la somme totale du savoir humain. Il existe des bases de données, par exemple, que les chimistes ont collectées au cours du siècle dernier. Ces bases recoupent les propriétés de chaque composé chimique. Ainsi, tu disposes d’une base de données entière qui répertorie la résistivité de chaque matériau connu sur Terre, ou encore le point de fusion de chaque matériau sur Terre. Nous avons des cartes qui condensent le savoir sous d’autres formes. Il existe également une sorte de connaissance latente dans la langue même. Les mots que nous utilisons reflètent une vaste compréhension que nous avons de l’univers. Si nous affirmons qu’il y a des étoiles et des planètes, et que les planètes orbitent autour des étoiles, cela signifie que nous avons déjà compris énormément de choses sur l’univers. Par exemple, les Grecs anciens avaient une compréhension différente de ce que représentaient les étoiles et les planètes. Postuler que le soleil est une étoile, comme toutes les autres étoiles, est désormais accepté et fait partie du vocabulaire. Cela fait partie de la connaissance latente. Si tu te contentes de regarder les définitions d’un dictionnaire, tu apprendrais énormément de choses sur ce qu’il y a à apprendre des sciences modernes. Les mots eux-mêmes racontent l’état du savoir. Inversement, le fait qu’il manque un mot empêche parfois qu’une certaine connaissance n’existe même. Un exemple particulier de cette situation serait le livre “Antifragile” de Nassim Taleb. L’idée de base du livre était de définir l’opposé véritable de fragile. Fragile, dans sa définition, désigne quelque chose qui se dégrade lorsqu’il est soumis au chaos et au désordre. Il soutenait qu’être durable, dur ou robuste ne faisait pas exactement de quelque chose l’opposé de fragile. Ces caractéristiques signifient seulement que, face au chaos et au désordre, cela se dégrade ou se détériore à un rythme plus lent. Taleb se demandait alors quel serait le véritable contraire, quelque chose qui, soumis au chaos et au désordre, s’améliorerait. Cette perspective abstraite l’a amené à inventer le terme “anti-fragile”, créant ainsi une toute nouvelle vision pour appréhender les écosystèmes, les sociétés humaines et bien d’autres domaines. En introduisant ce mot, il a enrichi notre savoir, même si cela peut être difficile à saisir puisque la manière dont nous communiquons le savoir passe par la langue elle-même.
Conor Doherty: Cela nous ramène à mon point de départ. L’éclat de ChatGPT démontre qu’il existe une quantité énorme de connaissance latente dans la langue elle-même. Cela explique, par exemple, pourquoi un politicien peut te balancer dix mots à la mode du moment correspondant aux causes que tu souhaites défendre. Il peut dérouler un discours entier à partir de cela et donner l’impression de dire quelque chose d’intelligent alors qu’il n’apporte absolument aucune substance.
Joannes Vermorel: Fait intéressant, c’est ce que fait ChatGPT. Lorsque tu donnes une consigne à l’outil, il a tendance à assembler toutes sortes d’idées largement acceptées qui correspondent au bon sens ou à la perspective dominante établie. Imagine que tu aies quelqu’un qui ne répondrait à tes questions qu’en proverbes. ChatGPT fait cela, mais en mieux, en enchaînant des platitudes venant littéralement de tous les domaines. C’est impressionnant, car généralement tu n’es même pas familier avec ce qui constituerait une platitude dans un domaine dont tu ne connais rien. Voilà la beauté d’entraîner un générateur avec un ensemble de données super massif qui comprend des millions de pages de texte provenant de domaines ultra divers.
Conor Doherty: Lorsqu’il s’agit d’appliquer concrètement tout cela, d’après toi ou selon ton estimation, existe-t-il des applications utiles de l’IA générative en ce qui concerne, disons, l’entreprise ou la supply chain ?
Joannes Vermorel: Enterprise est un domaine très vaste, donc je vais me concentrer sur la supply chain. Pour la supply chain, je dirais très probablement non, du moins pas directement. Mais il est incroyablement difficile de prédire l’avenir. La raison pour laquelle je suis enclin à penser que cette vague de générateurs n’aura pas un impact massif sur la supply chain, c’est parce que leur force réside dans le fait qu’ils puisent dans un immense réservoir de connaissances ambiantes qui proviennent essentiellement du web, avec toutes ces images et ces tags accessibles gratuitement. Mais lorsqu’il s’agit de l’optimisation d’une supply chain, les données les plus pertinentes sont votre historique transactionnel. Si tu vends, disons, des cadres de portes, cela ne t’aide pas vraiment, en matière de planification supply chain, de connaître beaucoup de choses générales sur les cadres de portes. Ton historique de ventes de cadres de portes de l’année dernière t’indique bien mieux ce que tu dois commander, produire et comment tu dois allouer le stock. Ainsi, les données les plus pertinentes ne sont pas vraiment partagées librement avec le monde. Elles existent dans le silo de ton entreprise. Les entreprises, contrairement à ChatGPT, sont limitées par le fait que ces outils excellent lorsqu’il s’agit de sujets pour lesquels beaucoup de documents sont publiquement disponibles en ligne. Si tu abordes des sujets peu diffusés en ligne, ChatGPT devient rapidement ignorant de ces éléments. Très concrètement, je dirais que si tu songes aux méthodes qui pourraient être employées pour réaliser tout type d’optimisation, je ne suis pas très sûr, tout simplement parce que ce type d’entrées n’est pas présent. Cependant, ces outils pourraient potentiellement devenir instrumentaux pour soutenir ton développement. Par exemple, ChatGPT est en réalité assez compétent pour t’aider à générer des extraits de code. Pour le codage, puisqu’il s’agit d’un langage générique – c’est-à-dire d’une séquence de caractères – ChatGPT peut générer des balises, mais aussi du code. Du fait qu’il existe une quantité gigantesque de code disponible en ligne, principalement via GitHub mais aussi bien d’autres sources, tu disposes de vastes bases de code sur lesquelles ChatGPT peut s’entraîner. Ainsi, ChatGPT est effectivement capable de composer des extraits de code ou des programmes assez décents. Comme outil de productivité pour les programmeurs, il y a beaucoup de potentiel. Mais attention, le code que génGPT génère peut être aussi approximatif que celui écrit par des humains. Je ne l’utiliserais pas sans une supervision rigoureuse si tu veux concevoir la prochaine génération d’autopilote pour un avion ou une voiture. De plus, je suspecte que la technologie qui émergera portera sur des éléments tels que la transcription de comptes-rendus de réunions. À l’heure actuelle, je ne suis pas sûr que ChatGPT serait capable de résumer une discussion de deux heures en quelque chose comme deux pages, tout en préservant le maximum de détails sur ce qui a été dit. Mais j’en suis convaincu qu’au cours de la prochaine décennie, des outils similaires parviendront à le faire. Donc, pour la supply chain, il y aura de nombreux bénéfices. Cependant, je soupçonne que la plupart d’entre eux se situeront plutôt en marge, à la périphérie, tels que faciliter les réunions, la prise de notes ou offrir de meilleurs systèmes de relecture des documents. Mais les problèmes et défis fondamentaux résident dans les données, et ces générateurs ne gèrent pas les données telles qu’elles se présentent dans les supply chains.
Conor Doherty: N’existent-il pas d’autres programmes conçus spécifiquement pour le codage ? Je veux dire, ChatGPT est une IA générative textuelle, mais il y a GitHub co-pilot, qui est conçu pour assister dans le codage, et il peut produire un code assez décent par lui-même, non ?
Joannes Vermorel: Non, ces modèles sont presque identiques, pratiquement interchangeables. La technologie qui les sous-tend est incroyablement similaire. Ils utilisent la même architecture Transformer. Les seules différences résident dans de légères variations du corpus et de l’expérience utilisateur. GitHub copilot vise à fournir une autocomplétion à chaque frappe, tandis que ChatGPT est davantage orienté vers le dialogue. Mais ces différences ne sont en réalité qu’une mince couche de vernis par-dessus. En dessous, ils sont identiques. Je suspecte que le meilleur outil pour la complétion de code sera construit sur un corpus plus vaste que le code. Cela est illustré par un article récent publié par une équipe d’Amazon. Ils ont présenté un générateur prometteur qui combine à la fois des données d’images et de textes, les unifiant essentiellement. Ils affirment même surpasser ChatGPT sur quelques bancs d’essai, avec des résultats comparables sur la plupart des autres métriques. Cependant, prends cela avec un grain de sel, car déterminer un bon générateur est un problème aussi complexe que la conception du générateur lui-même. Ce qui est intéressant cependant, c’est que leur modèle est aussi efficace que ChatGPT, mais avec un milliard de paramètres, alors que ChatGPT en a presque 100 fois plus. Cela suggère qu’en mélangeant des sortes de données plus diverses, tu peux obtenir un modèle à la fois plus puissant et plus simple, ce qui est paradoxal. Par exemple, le modèle ChatGPT est gigantesque, avec une plage de paramètres dans les trillions. Mais il n’est pas évident qu’un modèle aussi énorme soit nécessaire. En fait, l’une des percées de Stable Diffusion, par rapport à d’autres modèles, fut un modèle deux ordres de grandeur plus rapide et plus léger que le Generative Adversarial Network qu’il a remplacé. Stable Diffusion n’a qu’environ un milliard de paramètres, ce qui le rend très petit comparé à ChatGPT. Toutefois, une équipe a récemment affirmé avoir reproduit la performance de ChatGPT avec un modèle bien plus petit, d’une taille d’environ un milliard de paramètres. C’est intéressant car cela correspond à peu près à ce que peut opérer une carte graphique que l’on trouve couramment dans les ordinateurs portables et les stations de travail de nos jours.
Conor Doherty: Eh bien, cela nous ramène en quelque sorte au point de départ, ou à l’introduction dans l’ensemble : est-ce un bilan positif net ou négatif net ? Maintenant, dans le contexte spécifique de l’entreprise ou même de la supply chain à un niveau plus granulaire, envisages-tu cette IA générative comme une distraction, un avantage ou une malédiction ?
Joannes Vermorel: De manière générale, je pense que tout progrès en science et en technologie est bénéfique. Je n’ai pas cette perspective lovecraftienne, vous savez, celle où il existerait des vérités si profondes et si brutales, si hostiles à l’esprit humain, qu’en les découvrant, on devient fou. Mon point de vue n’est pas lovecraftien. Je crois qu’en général, c’est une bonne chose. C’est certainement mieux que l’ignorance. Maintenant, comme tout outil depuis l’Âge de pierre, le premier marteau pouvait être conçu pour chasser un animal ou pour tuer vos semblables. Voilà donc le problème de la technologie : elle peut être mal utilisée. Cela fait des milliers d’années que c’est un problème. Ce genre de technologie peut aussi être détourné. Les abus probables dans le domaine des logiciels d’entreprise de supply chain vont se traduire par une augmentation de la confusion due au bruit. Les fournisseurs font déjà la promotion de l’IA de manière excessive, et maintenant ils seront même capables de monter d’un cran supplémentaire en laissant leur département marketing élaborer sans fin des études de cas bidons. Autrefois, créer une fausse étude de cas demandait un certain effort. Pourtant, on pouvait la truquer entièrement puisque personne ne vérifiait jamais vos affirmations. La plupart de vos affirmations sont impossibles à vérifier. Et, comme je l’ai décrit dans ma conférence, personne dans une étude de cas n’a d’incitation à dire que tous les millions que vous affirmez avoir économisés, gagnés ou générés sont faux. Chacun, participant à une étude de cas, a une énorme motivation à dire : « Oui, tout, tous ces bénéfices sont réels et c’est en partie grâce à moi si nous parvenons à tout réaliser. » Donc, mon point de vue est que la situation va devenir encore plus embrouillée, car ces équipes vont devenir folles et générer encore plus d’études de cas bidons, d’affirmations mensongères et de pages creuses qui décrivent la tech. J’ai passé un certain temps sur les sites web de nombreux concurrents de Lokad. Ce qui est intéressant, c’est que vous pouvez avoir des pages entières de texte que vous lisez sans rien apprendre au final. Ils arrivent à formuler des platitudes ou des propos qui ne révèlent rien de ce qu’ils font réellement.
Conor Doherty: Balivernes, c’est ce que nous disons ?
Joannes Vermorel: Oui, exactement. Je suis toujours un peu stupéfait lorsque je parcoure une documentation de dix pages sur l’IA pour supply chain, et qu’à la fin, je ne peux rien dire de ce que c’est, de ce que cela fait, pourquoi cela a été conçu de cette manière ou encore quelles perspectives cela comporte. C’est assez déconcertant. Je soupçonne qu’autrefois, les équipes marketing passaient des jours à inventer ces descriptions légères. Désormais, grâce à l’IA générative, telle que ChatGPT, une description de dix pages peut être créée instantanément. Ainsi, si vous doutez de la validité d’un contenu prétendant intégrer l’IA dans leur optimisation de supply chain, je dirais qu’il est pour la plupart suspect. Non pas parce que l’IA est bidon, mais parce qu’elle est mal représentée dans ce contexte. Lorsque nous parlons d’IA générative, des termes spécifiques sont employés, comme stable diffusion, Transformer architecture et generative network. Ces techniques ont des noms. Les professionnels du domaine ne se contentent pas de dire « je fais de l’IA ». Ils sont plus précis. Ils ont besoin de ces termes pour décrire leur travail. Cette précision se développe dans le cadre d’un processus émergent au sein de la communauté. Ceux qui ne prennent pas la peine de décrire leur technologie en détail recourent souvent à des termes vagues. Prenons un exemple simple. Si vous voulez acheter une fenêtre pour votre maison, le vendeur précisera le matériau du cadre, le nombre de couches de verre, etc. Si un vendeur se contente de dire « je vends des fenêtres, faites-moi confiance, elles sont bonnes » sans aucun détail, c’est discutable. Si quelqu’un ne peut pas vous fournir de spécifications techniques et se contente d’utiliser des buzzwords comme « sustainable », cela n’apporte aucune clarification. Cela ne fait qu’ajouter des énigmes. C’est similaire à ce qui se passe avec l’IA et ChatGPT. Ces outils peuvent générer des supports marketing déroutants et donner aux fournisseurs la capacité de les intégrer à leur stack tech sans créer quoi que ce soit de substantiel. Il est assez facile d’intégrer ces outils dans une architecture logicielle existante, mais ce ne sera qu’un gadget si votre architecture actuelle n’a pas été conçue pour exploiter les capacités de cette technologie. Il est toujours relativement facile de bricoler une pièce supplémentaire dans un logiciel, mais cela ne signifie pas que cela fera une différence ou sera utile. Par conséquent, je pense que cette situation créera encore plus de confusion. Cela offrira une opportunité supplémentaire aux fournisseurs d’intégrer une sorte d’algorithmes à réelle valeur, mais de manière dénuée de sens. Au final, cela n’ajoute aucune valeur à la solution, ce qui constitue un autre problème. Nous avons déjà connu plusieurs itérations de cela avec la recherche opérationnelle il y a 50 ans, ensuite le Data Mining, puis la data science. Maintenant, il y aura les itérations de l’IA cognitive. Cependant, le problème est que, si vous voulez tirer le meilleur parti de cette technologie en tant que logiciel d’entreprise, cela ne peut pas simplement être un add-on. Cela doit intervenir dès le niveau de conception de votre produit. C’est un design de base que vous ne pouvez pas modifier par la suite. Le problème avec le design de base des produits, c’est que c’est quelque chose que vous ne pouvez faire qu’au début. Vous ne pouvez pas simplement y coller du ruban adhésif après coup.
Conor Doherty: Pouvez-vous donner un exemple du niveau de conception de base dont vous parlez ?
Joannes Vermorel: Si vous disposez d’un système où, au cœur de votre système, se trouve une base de données transactionnelle conçue pour garantir l’intégrité transactionnelle, c’est parfait. Mais ce design ne va rien apporter pour exploiter un générateur d’images ou de textes. Il est complètement en décalage avec la perspective transactionnelle. Vous traitez des transactions, or disposer d’un outil capable de générer du texte ou des images ne relève même pas du même domaine. Ce que je dis, c’est qu’avoir quelque chose qui s’intègre n’est pas une évidence. Cela requiert généralement une attention minutieuse à la conception et aux principes directeurs de votre architecture, afin que tout s’harmonise correctement. Sinon, vous êtes simplement sur des voies parallèles. En logiciel, ce qui est trompeur, c’est qu’il est toujours possible d’avoir un produit et d’y ajouter ensuite un add-on en périphérie. Mais celui-ci n’est pas correctement intégré, pas connecté, et il n’y a aucune synergie entre les deux. Vous vous retrouvez simplement avec un désordre plus compliqué, avec plus de composants mobiles et plus de bugs. Ainsi, dans l’ensemble, je déconseille d’essayer d’intégrer cela dans les optimisations de supply chain. Mais si un fournisseur se présente avec ce type de solution, vous devez vraiment examiner ce qu’il fait. Mon conseil final pour l’audience serait le suivant : assurez-vous, en lisant la page technologique de ce fournisseur, que cela a du sens pour vous. Vous n’avez pas besoin d’être un expert. Si le fournisseur n’est pas capable d’expliquer de manière compréhensible ce qu’est sa technologie, ce qu’elle fait et quelles techniques elle utilise, c’est très probablement un signal d’alarme. Je n’ai jamais vu, au cours de ma carrière, qu’une entreprise capable d’atteindre des objectifs difficiles le cache. Au contraire, les entreprises qui parviennent à ce niveau ne manquent jamais d’exposer leurs réalisations pour que le monde entier puisse en témoigner. D’ailleurs, cela est vrai pour tous ces modèles – Stable Diffusion, ChatGPT, etc. Ces réalisations sont publiques. Des articles ont été publiés à leur sujet. Ce ne sont pas des secrets bien gardés. Au contraire, les entreprises qui atteignent ce niveau de performance technique publient souvent des articles très détaillés sur la manière dont elles s’y sont prises. C’est un comportement tout à fait typique. De mon point de vue, le conseil fondamental est que, bien qu’il y ait une grande valeur dans l’IA, ce n’est qu’un mot à la mode. On peut classer presque n’importe quoi sous cette appellation. Par conséquent, chaque fois qu’un fournisseur vous approche, il est essentiel de comprendre exactement ce qu’il fait. Si la personne qui vous vend ne comprend pas cela, et si le fournisseur affirme son ignorance en disant « Je ne suis qu’un commercial, c’est l’équipe tech qui sait », ne leur faites pas confiance. S’ils disent de telles choses, cela indique très probablement qu’il n’y a aucune technologie substantielle derrière leurs affirmations. C’est simplement toujours la même chose.
Conor Doherty: Sur ce, merci, Joannes. J’en ai beaucoup appris. Merci pour votre temps, et merci à tous de nous avoir regardés. À la prochaine.