Après la période des fêtes qu'il faut bien qualifier d'assez calme, le rythme des annonces dans le domaine de l'IA générative a repris.
Clairement, celui qui suit un tant soit peu ces dernières est désormais moins surpris par ce qui déboule : l'IA générative est rentrée dans ses moeurs ; ce n'est plus l'ébahissement qu'il a connu en se confrontant pour la première fois à ChatGPT. Toutefois, il reste à cette IA bien des domaines où elle peut se déployer et s'améliorer, et cela n'a pas manqué de créer des surprises...
NB : Ce billet a été rédigé début mars par un humain et non une boîte de conserve, et publié dans le numéro spécial IA de Programmez! d'avril 2024.
En avant pour les agents
Début janvier, The Verge rapporte que Microsoft entend faire de 2024 l'année de l'IA, en commençant par substituer une touche Copilot à la touche Menu de nos claviers. Un pas de plus pour ancrer le successeur du pas regretté Clippy dans le quotidien des utilisateurs, qui témoigne d'un mouvement plus général pour faire de l'IA générative grand public non plus un simple outil pour pondre du texte ou croquer des mickeys, mais un outil qui sait en utiliser d'autres au point de s'intercaler entre l'utilisateur et ces derniers, bref un agent.
Dans ce registre, Microsoft dispose clairement d'une longueur d'avance du fait que l'éditeur contrôle un OS largement implanté. Toutefois, dans le contexte d'une telle frénésie des investisseurs pour l'IA, rien qui pourrait décourager les compétiteurs, gros ou petits.
En particulier, d'insolentes startups osent lancer des agents matériels : c'est l'AI Pin d'Humane, et le r1 de Rabbit. Le premier a initié le mouvement début novembre, mais d'après les nombreux commentaires que l'on peut lire sur le second, dévoilé en janvier, il semble que ce dernier – trois fois moins cher, et sans abonnement – a plus ou moins tué son prédécesseur avant même qu'aucun des deux ne soit livré, mais c'est dans l'attente du verdict des utilisateurs. A la base, le principe est le même : permettre d'utiliser des outils sans avoir à tapoter un écran, puisque ça entend, ni même le lire, puisque ça parle, tout cela grâce à la médiation d'un LLM pour l'AI Pin, et d'un Large Action Model (LAM) pour le r1 – une Robotic Process Automation (RPA) à la sauce deep learning dont Jesse Lyu, CEO de Rabbit, souligne la singularité dans une vidéo d'annonce pour le moins plus entraînante que celle d'Humane.
Ces initiatives sont d'autant plus audacieuses qu'il ne faut pas perdre de vue qu'en plus d'avoir à se battre entre eux, ces deux David vont devoir affronter quelques Goliath. C'est que, comme The Verge le rapporte en janvier, "the AI phones are coming", en commençant avec le Galaxy S24 de Samsung. D'après une présentation du fabricant, l'IA permet de lancer une recherche en cerclant une zone dans une image, traduire en temps réel une conversation téléphonique, agrandir artificiellement des images, en éditer des éléments automatiquement détourés – de quoi faire rêver un photographe du Kremlin au temps de l'URSS, sauf que l'on apprend par ailleurs qu'une marque est apposée en bas à gauche pour signaler le trucage. Tout cela est intéressant, mais l'on est encore loin de pouvoir piloter des outils tiers de manière complexe, comme l'AI Pin et le r1 l'ambitionnent, à des tarifs sans commune mesure. Attendons de voir l'iPhone 16 et le Pixel 9 à la rentrée prochaine ?
Faux profonds à fond
Après toutes les critiques adressées aux médias sociaux pour ne pas avoir assez filtré les fake news lors d'élections dans le passé – l'élection présidentielle de 2016 aux US notamment – l'on constate sans surprise que certains s'inquiètent de la manière dont l'IA générative pourrait permettre de relancer la machine à désinformer lors d'élections à venir. Début janvier, le New York Times explique que ces inquiétudes se font d'autant plus sentir que 2024 est une année riche d'élections comme l'on n'en as pas connue depuis un quart de siècle : la moitié de la population mondiale devrait voter.
Dans ces conditions, mi-février, à l'occasion de ce grand raout annuel qu'est la Conférence de Munich sur la Sécurité, un cortège de big techs jurent la main sur le coeur que l'on ne les y prendra pas. Dans A Tech Accord to Combat Deceptive Use of AI in 2024 Elections, OpenAI, Microsoft, Meta ou encore Anthropic pour en citer que celles-là s'engagent à lutter activement contre la désinformation par voie d'IA : développer des technologies comme le watermarking, évaluer les modèles, détecter les fakes, les gérer dans le respect de la liberté d'expression, etc.
Belle annonce, mais en matière de watermarking, il ne va pas falloir en attendre trop avant longtemps. Dans la foulée du scandale Taylor Swift dont il sera question plus loin, OpenAI a annoncé début février apposer une marque C2PA sur les images générées par ChatGPT et Dall-E 3, mais a d'emblée précisé que ce n'était pas une silver bullet, s'agissant de métadonnées qui peuvent être supprimées très facilement...
Il va y avoir du boulot, car les deepfakes – les fakes créés grâce à l'IA – font déjà bien parler d'eux. Ainsi, The Guardian rapporte que plus d'une centaine de deepfakes vidéos mettant en scène le premier ministre britannique Rishi Sunak ont pu circuler comme des pubs sur Facebook. De l'autre côté de l'Atlantique, NBC News rapporte qu'un robocall du président Joe Biden incitant à ne pas aller voter à l'occasion de primaires devant se dérouler dans le New Hampshire était un deepfake audio. Au Pakistan, The Verge rapporte que des militants de l'ex-premier ministre Imran Kahn, jeté en prison pour le réduire au silence avant les élections législatives, ont cloné sa voix par IA pour produire un clip. Et ainsi de suite.
A ces petites affaires est venue s'en surajouter une autre, qui n'a rien à voir avec la politique, celle des deepfakes pornographiques de la chanteuse Taylor Swift qui ont fleuri fin janvier sur les médias sociaux, notamment l'immodéré X. Le New York Times rapporte les résultats d'une étude selon laquelle tout cela a procédé d'un concours lancé sur 4chan. 404 Media identifie parallèlement un channel de Telegram, et révèle que les deepfakes ont été produits notamment en exploitant une faille de Microsoft Designer.
Star galactique oblige, les réactions politiques ont été assez promptes. Début février, Politico rapporte que dans l'UE, le Conseil s'est enfin entendu avec le Parlement sur le projet de directive proposé par ce dernier pour lutter contre la violence à l'égard des femmes et la violence domestique, coincé dans les tuyaux depuis mars 2022 – Euronews rapporte toutefois que le texte final est loin de faire l'unanimité. Quelques jours avant, Aux US, The Verge rapporte que dans une rare manifestation bipartisane, des sénateurs démocrates et républicains ont élaboré un Disrupt Explicit Forged Images and Non-Consensual Edits (DEFIANCE) Act qui donnerait à chacun le droit d'agir en justice pour obtenir réparation en cas de diffusion d'images de ce genre.
Toujours plus fort
En matière de nouveaux modèles, la grosse annonce, c'est bien évidemment mi-février, OpenAI qui présente Sora, un modèle pour générer des vidéos à partir de texte. Là, comme l'écrit joliment Business Insider, "Sam Altman just reminded everyone why OpenAI is leading the pack". Les vidéos, que le CEO a notamment générées à la demande sur X pour montrer que ce n'est pas du fake, sont bluffantes.
Pour ceux qui suivaient les progrès dans le domaine, c'est moins la qualité de l'image qui frappe – OpenAI admet d'ailleurs que c'est loin d'être parfait –, que sa consistance, décors et personnages ne semblant pas se dégrader dans le temps. Après, comme toujours en matière d'IA générative, il reste à savoir si le modèle est capable de pondre exactement ce que l'on veut...
Au passage, sur ce point, vu dans une de ses vidéos, Matt Wolfe – il tient Future Tools, un site qui recense les outils à base d'IA, intéressant à consulter – tente d'utiliser Grimoire, un GPTs, pour générer le code d'un jeu. Il n'y parvient pas exactement, et doit s'y reprendre sans parvenir au résultat. Commentaire : "That's the beauty of these GPTs, you just keep on prompting until you get what you want". Euh !, non mon gars, ce n'est pas la beauté : c'est l'horreur !
Bref, de quoi contraindre la concurrence à redoubler d'efforts. Reste que cette dernière n'a pas démérité dernièrement, en produisant quantité de modèles petits et grands intéressants, même s'ils ont généré moins de tapage.
Chez les grands, à vrai dire guère nombreux, Google dévoile quelques jours plus tard la version 1.5 de son LLM multimodal Gemini, dont la context window de 1 million de tokens – testée jusqu'à 10 millions – ridiculise celle de GPT-4 Turbo – approximativement 9 fois moins. Aussi, elle peut contenir jusqu'à 1 heure de vidéo. Un mois plus tôt, mi-février donc, la filiale Deepmind de Google a aussi surpris avec AlphaGeometry, un système combinant un LM et un symbolic deduction engine, capable de résoudre des problèmes mathématiques de niveau Olympiades.
Du côté des petits, Mistral continue de faire parler d'elle. Fin février, la startup sort concomitamment son tchat Le Chat, et son LLM Mistral Large, qui rivaliserait avec GTP-4. Ce LLM sera rendu accessible via des plateformes, à commencer par Azure, car Microsoft annonce le même jour investir 15 millions d'euros la startup. Ars Technica rapporte que ce deal, qui doit déboucher sur une prise de participation du géant américain dans la startup française à l'occasion d'un prochain tour de table, a immédiatement fait grincer des dents. C'est que le gouvernement français, dont un co-fondateur de Mistral a été secrétaire d'Etat à l'économie numérique, a soutenu le lobbying de la startup pour obtenir un traitement de faveur des "systèmes d'IA à finalité générale" lors de la négociation de l'European AI Act, et cela au motif de ne pas entraver l'apparition de systèmes européens. Or le vent du Large poussera-t-il malgré tout Mistral de l'autre côté de l'océan ? A suivre, mais peut-être désormais dans Le Canard Enchaîné...
A noter aussi, OLMo 7B, le premier LLM véritablement open source. Certes, nombre de modèles sont prétendus tels, mais même quand leurs conditions d'utilisation sont aussi libérales que celles de Mistral 7B et Mixtral 8x7B – contrairement à Llama 2, ces modèles sont distribués sous licence Apache 2.0 – le code et les données d'entrainement ne sont jamais rendus publics. Or tout cela, The Allen Institute for AI le met à disposition sur HuggingFace, en y rajoutant tous les checkpoints – états des poids à chaque itération de l'entraînement. La portée de cette initiative ne doit pas être sous-estimée. En effet, ne pourrait-elle pas faciliter la recherche en interpretability – comprendre pourquoi un LLM sort ce qu'il sort ? A l'été 2022, une jeune docteur en informatique nommée Naomi Saphra a publié sur son blog un post des plus intéressants. Dans Interpretability Creationism, elle dénonçait la focalisation de la recherche sur le checkpoint final, qui alimente une forme de créationnisme puisqu'elle conduit à ignorer l'évolution qui se déroule au fil des checkpoints intermédiaires. A suivre, sans doute sur arXiv dans le cas présent...
Données, données !
Début janvier, l'incontournable chaîne AI Explained présente ses voeux sur YouTube, et son auteur en profite pour faire quelques prévisions qu'il convient d'écouter attentivement. La première, qui nous intéressera ici, est que la qualité des données d'entraînement va jouer un rôle toujours plus central dans le développement de nouveaux modèles. "The architecture stuff is fun, making hardware efficient is fun, but I think, ultimately, it's about data", explique un des inventeurs de Mamba. Sur la même ligne, "data is the one important thing", juge l'un des co-fondateurs de Mistral.
Mamba ? Il convient d'en dire un mot, car l'on parle de plus en plus de cette alternative au Transformer, le mécanisme qui permet à un LLM de prêter attention au texte qui lui est fourni pour le compléter de manière cohérente. Décryptant autant que possible l'article séminal des auteurs de Mamba pour les benêts que nous sommes, AI Explained explique que dans le cas du Transformer, le mécanisme se fonde sur une context window qui contient le texte auquel le LLM doit prêter attention. Le problème est qu'un token de cette fenêtre doit être encodé relativement à tous les autres, si bien que l'agrandir d'un token implique une progression quadratique des moyens requis pour assurer l'attention. Or Mamba se fonde sur un autre mécanisme, où cette progression n'est plus que linéaire – c'est une nouvelle classe de structured state space sequence model (S4), et le nombre de "s" faisant siffler comme un serpent, les auteurs l'ont baptisée ainsi.
Pour revenir aux données, chacun a pu noter l'importance croissante que le soin qui leur est apporté joue dans la performance des modèles. En particulier, les données synthétiques, c'est-à-dire générées par un modèle, jouent un rôle toujours plus central dans l'entraînement – toujours plus assisté par l'IA, comme le rapporte mi-février un intéressant article de The Atlantic sur les développements du self-learning. Fin décembre, il a déjà été question de la base d'exemples de code textbook quality générées avec GPT-3.5 utilisée entre autres pour entraîner le surprenant Phi-2. Mi-janvier, les choses ont pris une autre mesure avec AlphaGeometry, pour l'entraînement duquel Deepmind rapporte avoir généré 100 millions d'exemples "allowing us to train AlphaGeometry from scratch, without any human demonstrations." Ce ne sont que deux exemples parmi bien d'autres.
L'enjeu du recours aux données synthétiques dépasse la technique. En effet, dans un contexte où les auteurs et ceux qui vivent sur leur dos cherchent à faire valoir des droits sur les données utilisées lors de l'entraînement des modèles, recourir exclusivement à des données synthétiques ne permettrait-il pas de régler le problème ? Certes, mais encore faut-il que le domaine s'y prête.
Par exemple, ce n'est pas le cas de l'actualité : un tchat ne peut guère la trouver que dans les colonnes des journaux. Dès lors, les éditeurs de tchats se retrouvent sur la corde raide. Fin décembre, le New York Times a porté plainte contre OpenAI et Microsoft, les accusant d'avoir utilisé ses articles pour l'entraînement, la preuve alléguée étant que ChatGPT pourrait ressortit des articles intégralement – fin février, Reuters rapporte qu'OpenAI accuse le journal d'avoir hacké son tchat à cette fin. D'autre plaintes ont suivi, tandis qu'OpenAI cherche parallèlement à rassurer ses clients – mi-novembre, en annonçant les protéger de poursuites via son programme Copyright Shield – et à passer des accords avec des détenteurs de contenus – mi-juillet, avec Associated Press, et mi-décembre, avec Axel Springer.