Chronique de l’IA #7

Dans l'un des meilleurs épisodes de l'excellente série The West Wing, qui remonte à 2004, Leo McGarry se lamente : "My generation never got the future it was promised". Mais l'ordinateur personnel, objecte Josh Lyman ? "A more efficient delivery system for gossip and pornography? Where's my jet pack, my colonies on the Moon?", réplique Leo, impitoyable.
Chronique de l'IA #7
Voilà la situation qu'il leur faudrait éviter, mais à force de vouloir précipiter les choses, certains acteurs de l'IA, et non des moindres, donnent parfois l'impression de vouloir la provoquer. L'on avait vu Google se prendre les pieds dans le tapis à plusieurs reprises, mais ce n'est rien en comparaison de ce que Microsoft a réussi à faire...
Cela, dans un climat qui devient fébrile pour les investisseurs, du fait des défauts inhérents à l'IA et de l'absence de "killer application", toutes choses qui ne peuvent qu'alimenter la prudence des entreprises.
Cela étant, ça progresse dans les coulisses, mais c'est plus dans la compréhension d'en quoi l'IA consiste que dans son évolution vers l'AGI.
NB : Ce billet a été rédigé début juin par un humain et non une boîte de conserve, et publié dans le numéro #265 de Programmez! de septembre 2024.

LE MARKETING PAR LES NULS

Envie de faire parler de vous ? Même pas peur du ridicule ? Si vous n'avez pas d'assemblée à dissoudre, pourquoi ne pas introduire l'IA dans votre OS ? Recall, ou comment inscrire son nom au registre des plus belles cagades de l'histoire du marketing...
Copilot+, ou le marketing par les nuls
Fin mai, Microsoft tient sa conférence annuelle, Build 2024. Il ne faut pas être lassé du marketing pour regarder ça, tant, même dix plus tard, ça sonne toujours aussi faux que la première scène du premier épisode de la première saison de Silicon Valley, mais bon, il faut bien se tenir informé... Que ne ferait-on pas pour les lecteurs de ce blog !
Entre autres, la firme de Redmond annonce une nouvelle ligne de PC, les Copilot+. En plus d'un CPU et d'un GPU, les bécanes sont dotées d'une Neural Processing Unit (NPU), toutes choses qui doivent permettre d'utiliser LLMs et SLMs plus ou moins en local - c'est "from cloud to edge", même si ce n'est pas trop clair finalement, car c'est aussi "the cloud on the edge working together in concert". Enfin bref, des "devices that turn the world itself into a prompt", promet Satya Nadella, rien de moins.
Là-dessus, le patron cède la place à l'Executive Vice President Consumer Chief Marketing Officer - plus long tu meurs - pour rentrer dans les détails d'un système où l'IA n'est plus périphérique, mais centrale. Après avoir montré quelques exemples d'interactions avec l'IA certes sympathiques, mais désormais guère surprenantes, Yusuf Medhi en vient à évoquer Recall.
Donc voilà. Comme tout le monde, vous êtes un peu poisson rouge, et c'est bien embêtant pour retrouver ce document que vous aviez consulté il y a quelques jours. Pas de problème ! Recall est là pour ça.
Entre la Principal Product Manager, Windows AI Experiences, pour nous faire une démonstration. Carolina Hernandez avait trouvé une robe sympa pour Mère-Grand sur un site il y a quelques jours, et en avait parlé avec ses proches sur Discord. Seulement, c'est bête, elle n'avait pas enregistré l'adresse du site, et encore moins la discussion. Comment retrouver la robe ? Qu'à cela ne tienne, elle demande "blue dress" à Recall, et v'là-t'y-pas qu'il lui ressort des captures d'écrans de toutes les applications qui précédemment ont affiché une robe bleue. Vous l'aurez compris, Recall enregistre régulièrement des captures d'écran de tout ce que vous faites, et vous permet de rechercher dedans en vous basant sur des critères qui peuvent n'être que visuels.
Ça vous inquiète, sachant que Recall, livré en "preview", est activé par défaut ? Pas de problème, Yusuf Medhi revient sur scène pour vous rassurer. Citons-le extensivement. Sur le moment, c'est un peu ennuyeux, mais juste après, vous allez voir, on va bien rigoler :
We know to achieve a real breakthrough with Recall and AI, you have to be able to trust it with your data and your information. So we've built Recall with responsible AI principles and aligned it with our standards. And we're taking a very conservative approach. We're going to keep your Recall index private and local and secure on just the device. We won't use any of that information to train any AI models, and we put you completely in control with the ability to edit and delete anything that has been captured.
Ah ! oui, et aussi : "Recall is only going to be possible on these advanced PCs". Mais l'on arrête là pour la présentation de Recall.
Sans surprise, dès le lendemain, les critiques fusent, et certains ont visiblement du mal à garder leur calme face à ce remake de Clippy, mais à la puissance dix.
Giving Windows total recall of everything a user does is a privacy minefield, titre The Register. Pour qui cela n'était pas évident, et il semble donc s'en trouver - en premier lieu chez Microsoft -, l'auteur décrypte ce qui vient de se passer. Après avoir salubrement fustigé la firme de Redmond pour une nouvelle fois sortir un produit dont la charge de la finition est externalisée sur les utilisateurs - mais l'on s'est assez énervé là-dessus dans la précédente Chronique -, l'auteur, qui rappelle que le Department of Homeland Security vient tout juste de sommer Microsoft de s'expliquer sur "a cascade of security failures" - et sans trop vouloir être perfide, rappelons que la catastrophe CrowdStrike n'était pas encore arrivée -, pointe comme un problème : pour empêcher Recall de capturer votre navigation, pas d'autre solution que d'utiliser Edge. De quoi faire hurler Mozilla et autres, dont les fonctionnalités destinées à protéger la vie privée se trouvent ainsi court-circuitées.
Mais plus généralement, quelle idée d'enregistrer par défaut tout ce que fait l'utilisateur ? Et l'auteur de citer Kevin Beaumont, un expert en cybersécurité, qui résume parfaitement la situation dans un billet qu'il publie sur Medium : "in essence, a keylogger is being baked into Windows as a feature" - un article de The Cyber Express, qui y joint quelques déclarations outragées d'autorités autorisées, rapporte même que le méchant expert a qualifié Recall de "dumbest cybersecurity move in a decade" dans un fil sur Mastondon.
Bien évidemment, le hacker, fallait pas l'inviter. Quelques jours plus tard, The Verge rapporte qu'un esprit espiègle est parvenu à faire tourner Recall sur un PC qui n'est pas un Copilot+, donc dépourvu du fameux NPU - l'outil s'appelle Amperage, si vous voulez vraiment faire entrer le loup dans votre bergerie. Et quelques jours après, c'est Wired qui rapporte une autre facétie, nettement plus conséquente celle-là, puisqu'un petit malin vient de livrer TotalRecall, un outil tragiquement "very simple" qui permet d'extraire à volonté tout ce que contient la base de données de Recall.
Bref, partout, c'est un mélange d'effroi et de consternation. Au vu des critiques, Windows Central n'hésite pas à qualifier la situation de "PR disaster", Recall constituant la goutte d'eau qui a fait déborder le vase, tant la méfiance envers Microsoft était déjà généralisée. Comment la firme de Redmond a-t-elle pu l'ignorer ? Au contraire, "Microsoft is fully aware that the concept of Windows Recall sounds creepy", assure l'auteur, qui rapporte l'on s'y est en conséquence gratté la tête pour trouver comment présenter Recall au monde sans l'alarmer. Mais à quoi bon ?
Sans surprise, quinze jours après avoir son annonce en fanfare, Microsoft change de disque, pour sonner une retraite aux tonalités de marche funèbre cette fois-ci. Début juin, Wired rapporte plusieurs changements de fond. Pour l'essentiel, Recall ne sera pas activé par défaut, et les données qu'il stocke seront chiffrées.
De quoi alimenter des interrogations sur la stratégie que poursuit Satya Nadella. Comme l'on le verra plus loin, le discours financier sur l'IA s'est fait nettement plus critique ces derniers temps, notamment parce que, pour reprendre les termes d'un analyste de Goldman Sachs, dix-huit mois après ChatGPT, "not one truly transformative - let alone cost-effective - application has been found". Dès lors, que cherche à faire Microsoft ? Pressée par le temps, contraindre les utilisateurs de Windows à utiliser l'IA, même elle ne présente aucun intérêt pour eux, voire même, en l'espèce, qu'elle puisse leur nuire ?
Mais ne jugeraient-ils pas cette stratégie adéquate, que les actionnaires de la firme de Redmond ne manqueraient pas de solutions. C'est que fort opportunément, vers la même période, le New York Times se demande "If A.I. Can Do Your Job, Maybe It Can Also Replace Your C.E.O." Justement, un an et demi après l'arrivée de ChatGPT, un point sur IA et emploi s'impose...

TRAVAIL ET EMPLOI : BIENTÔT TOUS A LA PLAGE ?

L'on s'en souvient, l'arrivée de ChatGPT a suscité bien des réactions, dont certaines ont légitimement pu être qualifiées de néo-luddistes - vous savez, les gueux qui attaquent les centres de calcul avec des fourches, animés par la peur de perdre leur job. Toutefois, si la perspective de gains de productivité en a inquiété certains, c'est que les acteurs de l'IA n'ont pas manqué, en la matière, de promettre la Lune.
Travail et emploi par temps d'IA : automatisation ou augmentation ?
Mi-mai encore, CNN rapporte qu'à l'occasion de VivaTech 2024, Elon Musk annonce que "probably none of us will have a job" dans le futur car "AI and the robots will provide any goods and services that you want". A côté de ces déclarations toujours fracassantes, fin juillet, Business Insider rapportait celles plus modérées d'Andrew Ng, co-fondateur de Google Brain en son temps, pour qui "AI won't replace human workers, but maybe people that use it will replace people that don't". Moins alarmant, mais tout même une injonction à se bouger.
Relayé et donc amplifié depuis longtemps par les médias grand public, l'argument des gains de productivité a attiré l'attention d'analystes de tout bord, jusqu'à des institutionnels. Ainsi, en août 2023, l'Organisation Internationale du Travail (OIT) a produit une étude, dont les conclusions ont été opportunément reprises par le Fonds Monétaire International (FMI) une quinzaine de jours avant la tenue du forum de Davos, en janvier dernier : "AI will affect almost 40 percent of jobs around the world, replacing some and complementing others", en a déduit le bailleur de fonds planétaire.
Toutefois, qui s'est penché sur le détail de la méthodologie de l'étude de l'OIT, comme votre serviteur, n'a pu manquer de relever son caractère pour le moins... original. Pour faire simple, en l'absence de données empiriques, les auteurs ont demandé à GPT-4 dans quelle mesure il serait capable d'automatiser les tâches de différents jobs - dont ils ont par ailleurs aussi demandé à GPT-4 de dresser en partie la liste. Même si ce processus a été supervisé, et ses résultats traités avec "scepticism", il parait pour le moins singulier, pour une organisation qui prétend s'occuper du travail réel, de s'en être remise à la machine pour cogiter sur le travail prescrit. Enfin, la conclusion était que l'IA permettrait d'automatiser certaines tâches, d'en enrichir d'autres : automation et augmentation. En matière d'automatisation, jusqu'à un quart des tâches des clerical jobs - secrétaires, téléconseiller, et autres - seraient concernées. C'est donc là où ça ferait mal.
Quelques analystes ont montré qu'ils avaient plus les pieds sur terre, pour ne pas dire qu'ils étaient... moins perchés. Concomitamment à l'OIT, McKinsey - que l'on peut ne pas aimer, mais contrairement à l'OIT, le cabinet ne s'est pas adressé à une machine, mais à des gens - a produit une étude. Dans The State of AI in 2023: Generative AI's breakout year, il s'est basé sur les témoignages de près de 1 700 responsables à tous niveaux dans des entreprises du monde entier.
Il en est ressorti que l'AI générative commençait déjà à être utilisée - surtout dans le marketing, la conception de produits et de services, et le service au client -, ce qui a étonné McKinsey au regard du peu de temps écoulé depuis l'apparition du truc. Toutefois, la grosse question était de savoir si les entreprises pousseraient plus loin que l'expérimentation. Il faudrait pour cela qu'elles n'aient pas peur de prendre des risques, sur lesquels McKinsey a eu le bon sens de les interroger.
Grosso modo, plus ou moins la moitié des entreprises considéraient que le manque d'exactitude, les failles de sécurité, les infractions à la propriété intellectuelle et aux exigences réglementaires constituaient des risques - les autres risques étant moins perçus. McKinsey a commenté en soulignant que les entreprises avaient conscience des risques, mais en même temps de manière assez restrictive, ne considérant que ceux qui pouvaient porter sur leurs données : quid du social, de la soutenabilité, etc. ?
Pour ce qui concerne l'emploi, les entreprises se répartissaient presque également entre celles pensant que l'IA n'allait pas réduire leurs emplois, et celles qui pensaient le contraire. Plus générale était la tendance à penser que leurs effectifs allaient devoir faire l'épreuve d'un reskilling - jusqu'à plus d'un cinquième de l'effectif, de l'avis de plus d'un tiers des entreprises.
Pour affiner, McKinsey a effectué une distinction entre les entreprises ayant déjà une expérience de l'IA, et celles qui n'en avaient pas. Cela a fait ressortir un résultat intéressant, puisque les premières avaient moins tendance à espérer des gains par des réductions de coûts d'activités existantes, que par la création de nouvelles activités. A l'inverse, et c'est cohérent, elles avaient nettement plus tendance à juger qu'une part importante de leurs effectifs allait devoir passer par du reskilling. Enfin, mais c'est sans surprise, les deux catégories d'entreprise ne voyaient pas les mêmes défis à relever pour tirer profit de l'IA : les premières, qui savent où elles vont, pointaient les modèles et les outils, et le secondes, qui ne le savent pas, la stratégie à adopter.
Depuis, McKinsey a actualisé son étude. Dans son The state of AI in early 2024: Gen AI adoption spikes and starts to generate value publiée en mai, le cabinet a relevé que deux fois plus d'entreprises utilisent désormais l'IA générative de manière régulière, soit près de deux tiers de son échantillon - lequel a un peu diminué. Cet usage se développe dans toutes les activités, mais tout particulièrement dans un peloton de tête composé du marketing, du commercial et de l'IT - de laquelle il n'était pas question en 2023, du fait d'un oubli de McKinsey ? D'une manière générale, le retour d'expérience montre qu'il faut généralement entre un à quatre mois pour déployer l'IA générative dans les activités éloignées de la production, comme celles précédemment évoquées, ce qui paraît rapide - c'est nettement plus long dans les activités où l'on met les mains dans le cambouis.
Si la tendance est donc à l'adoption, les risques n'en sont pas moins toujours perçus, l'inexactitude plus que jamais en tête - l'effet de l'expérimentation, sans doute, car un quart des entreprises rapportent avoir subi des conséquences négatives en conséquence de leur exposition à ce risque.
Pour revenir à l'emploi, la perception du risque que l'IA générative ne le réduise est en retrait. Invitées à préciser plus en détail la manière dont elles voient les choses, les entreprises ont plus tendance à dire que la technologie va leur permettre de réduire les coûts dans les fonctions support, tout particulièrement les Ressources Humaines - mais bon, à quoi ne servent-elles plus depuis longtemps, sinon de mammouth à dégraisser ?
S'il n'y avait qu'une chose à retenir de tout cela, ce serait que si l'adoption de l'IA générative progresse dans les entreprises, ces dernières n'ont pas envie de se tirer une balle dans le pied. En fait, tandis qu'elles expérimentent prudemment, elles prennent conscience des difficultés qu'il va leur falloir affronter, non seulement pour parvenir à utiliser la technologie, mais aussi l'utiliser en sécurité.
De fait, l'IA générative ne se déploie pas comme ça :
  • Tout d'abord, il faut trouver des cas d'usage, ce qui passe par toute une acculturation. Comment imaginer recourir à un outil sans savoir à quoi il pourrait servir ? Il faut cesser de penser qu'une nouvelle technologie trouve son usage facilement, ce qui explique assez l'impatience déplacée des investisseurs dont il sera question plus loin.
  • Ensuite, il faut prendre des précautions. Mi-avril, la NSA a publié une feuille d'information Deploying AI Systems Securely, dont la lecture, bien qu'il ne s'agisse que quelques pages, montre toute l'épaisseur du sujet - et encore n'y est-il question que des risques techniques. Délicat de confier une activité à une boite noire, qui n'est pas sécurisée, et peut-être pas sécurisable d'ailleurs...
Pour l'heure, l'on est donc encore loin de la disparition du travail, mais cela n'interdit pas d'anticiper. Ainsi, certaines personnalités de l'IA, et non des moindres, se préoccupent depuis déjà quelques temps de la possibilité d'un revenu de base universel qui viendrait compenser.
Fin mai, Hard Fork, le podcast tech et rigolo du New York Times, invite Elizabeth Rhodes, la patronne de la recherche d'OpenResearch, lequel vient de publier les résultats d'une expérimentation sur l'unconditional cash : durant trois ans, 1 000 personnes ont reçu 1 000 $ par mois, tandis que 2 000 personnes n'ont rien reçu ou presque - seulement 50 $ par mois, histoire de les motiver pour jouer le groupe de contrôle. Age entre 21 et 40 ans, revenu médian de 30 000 $ - c'est pas la poule au pot tous les jours.
Il en ressort les bénéficiaires ont essentiellement dépensé l'argent pour leurs besoins de subsistance, n'en ont pas moins cessé de travailler, et se sont montrées plus intéressés par l'idée d'entreprendre, parce qu'ils disposaient de liberté pour ce faire. Décevant ? Pas tant, car comme l'explique Elizabeth Rhodes, l'étude a permis de montrer que les gens n'en sont pas devenus plus feignants.
L'on peut se demander si cette expérimentation n'est pas très éloignée du revenu de base universel, mais Elizabeth Rhodes reconnaît elle-même volontiers l'écart. De toute manière, comment expérimenter un dispositif qui tirerait une partie de ses effets de son caractère universel ? Il fallait bien commencer quelque part.
Au fait, OpenResearch ? Oui, comme OpenAI. La recherche a été financée sous l'impulsion de Sam Altman. Ainsi que Luke Skywalker le disait de son père : "il reste du bon en lui" ? A voir... Mi-juin, Wired rapporte qu'après avoir annoncé faire preuve de transparence financière durant des années, OpenResearch a décidé de ne plus rien communiquer. CloseResearch comme CloseAI, bientôt ?

RECHERCHE "KILLER APPLICATION" DÉSESPÉRÉMENT

Comme rapporté dans la précédente Chronique, une petite musique a commencé à se faire entendre ces derniers mois : chez certains observateurs, et même investisseurs - une vidéo à l'audience injustement trop confidentielle de Sequoia, le plus gros VC de la Silicon Valley, était relevée -, l'on commence à se poser des questions. Tout dernièrement le volume est monté, au point qu'il est désormais impossible d'ignorer la ritournelle, relayée qu'elle est par les médias grand public : on dirait une bulle.
L'engouement pour l'IA a-t-il créé un bulle spéculative ?
Ainsi, quatrième révolution industrielle ou Fear Of Missing Out (FOMO), s'interroge Fortune début juillet ? Sur la base d'échanges avec quelques vétérans, le magazine rappelle que par sa nature fascinante, l'IA a toujours suscité de l'engouement, et que vu ce qu'il est actuellement, pour un investisseur, "it can be difficult to avoid getting sucked by the AI hype". Après, si le souvenir des bulles technologiques doit inciter à la prudence, au-delà de constater que des valorisations sont déconnectées des fondamentaux, impossible d'en conclure plus que "Everybody can't win". On est bien avancé...
Il y a plus grand public encore, et moins prudent. Mi-juillet, c'est CNBC qui consacre un TechCheck à l'AI's trillion dollar time bomb, tout simplement. "Generative AI promised to change everything [...] Better productivity, medical breakthroughs, environmental sustainability, personnalized learning [...] But instead, we got deepfakes, disinformation, spam and plagiarism.", déplore la journaliste, qui enchaîne en citant trois publications remontant à quelques semaines, qui interrogent pour leur part la rationalité des investissements : Gen AI: too much spend, too little benefit? par Goldman Sachs, Cloud AI CAPEX: FOMO or Field-of-Dreams? par Barclays, et AI's $600B Question par Sequoia - en fait, une actualisation de AI's $200B Question qui remonte... à septembre 2023, comme quoi le VC se posait la question depuis longtemps.
Ainsi, et c'est un point à relever, même s'il peut être plus nuancé dans le fond, la forme du discours mainstream est que l'IA non seulement est nuisible, mais de plus, que c'est une bulle. Nul doute que les médias grand public cherchent d'autant plus à noircir le tableau que cela attire de l'audience, mais le fait est là : l'IA commence à avoir mauvaise presse. Plus personne ne peut l'ignorer, et les acteurs de l'IA devraient s'en soucier - sans vouloir remuer le couteau dans la plaie, dans un tel contexte, qu'est-ce que Microsoft est allé chercher avec Recall ?
La publication de Barclays est introuvable, aussi doit-on se contenter de celles de Goldman Sachs et de Sequoia. Elles sont tout à fait intéressantes à lire.
L'étude de Goldman Sachs attaque dès le début : évoquant le trillion de dollars qui devrait être investi en CAPEX dans l'IA dans les années à venir, la banque affirme d'emblée que "this spending has little to show for it so far beyond reports of efficiency gains among developers" - la note d'espoir mériterait même d'être tempérée, au regard de la dette technique que l'IA peut générer, mais passons.
La parole est donnée à une série d'experts. Certains n'y croient pas trop, d'autres y croient assez, évidemment.
Parmi les sceptiques, l'un ne voit pas l'IA permettre de transformer des activités élaborées avant longtemps, et la cantonne donc dans l'immédiat à la transformation d'un nombre d'activités basiques, car "any tasks that humans currently perform, for example in the areas of transportation, manufacturing, mining, etc., are multifaceted and require real-world interaction, which AI won't be able to materially improve anytime soon". Un autre sceptique est plus radical, jugeant que "the technology is nowhere near where it needs to be in order to be useful for even such basic tasks" en référence aux erreurs qu'elle génère quand il ne s'agit même que de résumer un texte, et pointe que l'IA a un coût prohibitif au regard de la trivialité des activités qu'elle peut transformer.
Enfin, un dernier sceptique n'interroge pas tant la technologie que les moyens qu'elle requiert. Il pointe un gros problème d'énergie aux US, car la demande générée par l'IA est gigantesque - il faudrait rajouter 100 GW à un production qui plafonne à 800 GW -, mais "the US has unfortunately lost the ability to build large infrastructure projects", sans compter le temps que cela prend. Plus généralement, son expérience lui montre que "only limited room exists to extract more efficiency from a data center", si bien que cette demande présente un caractère incompressible qui va la faire entrer en collision avec d'autres. Dans ces conditions le risque est que "[the] data centers will become an easy target because they're not perceived as major engines of job creation relative to building the next Hyundai factory, for example".
Parmi les croyants, l'on reconnaît que du fait qu'elle hallucine, l'IA est effectivement encore "very much a work in progress", et qu'il n'y a pas encore de "killer application". Toutefois, il ne faut pas mettre la charrue avant les bœufs : en informatique, c'est d'abord l'infrastructure, puis la plate-forme, et enfin l'application - le cycle IPA. Par ailleurs, si l'on met les investissements en rapport avec les revenus qu'ils génèrent plutôt que d'en considérer seulement le montant, il apparaît qu'ils diffèrent peu de ceux des cycles précédents. Et contrairement à ce qui s'est passé lors de ces derniers, dans le présent cycle, non seulement les investisseurs "have their antenna up for return on capital", mais les principaux dépensiers sont des entreprises établies, pas des start-ups. Et comme l'on ne voit pas le capital ni la clientèle leur faire défaut, tout cela n'est que question d'un temps que l'industrie en général peut donc s'offrir pour passer du hardware au software, et générer alors les revenus attendus. Après tout, "people didn't think they needed smartphones", et où en est-on aujourd'hui ?
La contribution de Sequoia est plus un billet qu'une étude, mais venant d'un tel investisseur, c'est encore mieux. Le VC actualise le calcul qu'il avait fait précédemment. Pour chaque dollar dépensé en GPU, il faut en dépenser un autre pour l'infrastructure, et doubler le tout pour intégrer la marge de 50% de qui va utiliser ces moyens pour vendre un service. Cela donne le montant des revenus requis pour rentabiliser l'investissement. Vu la tonne de GPUs achetés à ce jour, ça fait de sous, 600 milliards de dollars pour être plus exact. Or ces revenus sont loin de pouvoir être constatés. Au mieux, en totalisant ceux que génèrent Google, Microsoft, Apple, Meta et autres, Sequoia estime qu'il manque 500 milliards de dollars.
Pour le VC, il n'est pas délirant de constater des investissements frénétiques en période de construction d'infrastructures, mais le risque est d'être victime de l'illusion que "we're all going to get rich quick, because AGI is coming tomorrow, and we all need to stockpile the only valuable resource, which is GPUs". Autrement dit, il va y avoir des morts, et il va donc falloir faire le partage en les "winners" et les "losers" pour éviter de perdre sa mise. Pour nous aider, Sequoia pointe que la situation va bénéficier aux fondeurs et aux "company builders focused on delivering value to end users", ce qui ne nous aide guère en fait, sinon pour dire que Nvidia semble assurément être un bon cheval.
Que retenir de tout cela ?
Si l'on se place du point de vue d'un investisseur, le plus sceptique des analystes de Goldman Sachs formule cette excellente remarque : "I've never seen a stock decline only because it's expensive - a deterioration in fundamentals is almost always the culprit, and only then does valuation come into play". S'il est possible d'investir alors que d'autres investissent, autant donc investir, mais alors dans les acteurs qui tirent profit de la situation : de ceux qui fabriquent les circuits aux hyperscalers qui opèrent les datacenters dans le cloud, en passant par ceux qui bâtissent ces datacenters et ceux qui fournissent l'énergie dont ils ont besoin. Autrement dit, non sans faire preuve d'un certain cynisme, miser sur ceux qui créent les infrastructures pour l'IA, mais pas sur ceux qui créent l'IA qui tourne dessus.
Dans un tel contexte, c'est sans surprise qu'il faut constater que début juin, Reuters rapporte que la valorisation de Nvidia a franchi le cap des trois trillions de dollars - elle est depuis devenue l'entreprise la plus valorisée au monde. La frénésie s'est naturellement étendue aux fondeurs : mi-juillet, l'agence rapporte que TSMC - dont Counterpoint Research estime qu'il détient près des deux tiers du marché - est désormais valorisée un trillion de dollars. Ce n'est pas tout de suite que certains vont jouer à The Big Short avec ceux qui se trouvent en amont de la chaîne alimentaire de l'IA...
Les autres, qui sont en aval, ont du souci à se faire, car en ce qui les concerne, la pression va aller croissante. "We need to shift our thinking away from infrastructure and towards end-customer value" écrivait gentiment Sequoia quand la question à 600 milliards de dollars n'était qu'à 200 milliards. Le ton s'est fait nettement plus ferme depuis : "My guess is that if important use cases don't start to become more apparent in the next 12-18 months, investor enthusiasm may begin to fade" explique l'un des sceptiques de Goldman Sachs. Mais même l'un des croyants apparaît encore plus pressé : "I could become more concerned if scaled consumer applications don't emerge over the next 6-18m". S'il fallait montrer que cela percole, début août, évoquant l'étude de Goldman Sachs, The Economist, qui se demandait déjà "what happened to the artificial-intelligence revolution?" début juillet, relaie le message sur un ton on ne peut plus péremptoire : "AI tools need to improve quickly, and businesses need to adopt them en masse".
Facile à dire, mais à faire ? Pour ce qui concerne le grand public, ce ne sont pas les résultats d'une étude telle que celle du Reuters Institute et de l'université d'Oxford publiés fin mai - "AI products like ChatGPT much hyped but not much used, study says", commente la BBC - ou ceux du sondage de TechPowerUp publiés fin juillet - "Poll shows 84% of PC users unwilling to pay extra for AI-enhanced hardware", commente VideoCardz - qui vont rassurer...
Autant du point de vue de l'investisseur. Au-delà, si l'on se place d'un point de vue plus général, il faut retenir qu'il est désormais de bon ton de douter du fait que l'IA va tenir ses promesses.
Quelle surprise ! Les bateleurs auraient trop fait l'article ? Cela fait déjà longtemps que dans cette Chronique, l'on incite à se méfier des annonces d'un Jensen Huang ou d'un Sam Altman, que l'on juge pas loin d'être prêts à tout pour exploiter la situation. Mais ce n'est pas que l'on se réjouirait que Nvidia ou OpenAI disparaissent - quoique, concernant CloseAI... -, mais que l'on apprécierait que les décideurs publics ne cèdent pas à ces sirènes sans y réfléchir à deux fois. Et ce n'est pas parce qu'il faudrait craindre l'apocalypse ou les métiers à tisser, mais parce qu'en toutes choses, il faut raison garder.
Tout particulièrement le risque est le suivant : que les acteurs de l'IA, pressés par leurs investisseurs d'afficher une certaine rentabilité, mais ne parvenant pas à réduire suffisamment le coût de la technologie en jouant sur sa conception, cherchent alternativement à jouer sur son exploitation, en poussant les décideurs publics à infléchir des politiques fondamentales, en premier lieu celles de l'énergie. Autrement dit, le risque est que les acteurs de l'IA externalisent sur le public la recherche de leur rentabilité. C'est un risque réel, car la caractéristique unique de l'IA dont il est question depuis ChatGPT, celle qui se base sur le deep learning, c'est qu'aucun acteur de l'IA ne la maîtrise, si bien qu'ils sont potentiellement tous incapables de l'améliorer autant qu'il le faudrait.
Ce point essentiel, évident depuis le début, n'est pas encore pleinement repris dans les analyses des médias grand public parce qu'ils ne font pas l'effort de comprendre exactement de quoi il en retourne - et n'en ont d'ailleurs sans doute pas même les capacités -, mais cela ne saurait tarder. En effet, dans une précédente Chronique, l'on a relaté les mésaventures du Rabbit R1 et de l'AI Pin, en rapportant notamment l'exaspération de l'influenceur Marques Brownlee face aux produits non finis. Or que vient de faire Microsoft avec Recall, sinon en rajouter une couche au vu et au su de tout le monde ? Parvenu à un point, il va devenir trop évident que par nature, ce qui repose sur l'IA ne peut être assez fiabilisé, et cela ne va pas manquer d'être relevé. L'on passera alors de la critique de forme à la critique de fond, et là, les acteurs de l'IA seront sérieusement mis en difficulté...

QUAND ON VEUT COMPRENDRE, ON PEUT

Toutes ces considérations sur l'IA sont essentielles, mais il ne faut pas perdre de vue que cette Chronique n'a pas vocation qu'à effleurer le sujet. Aussi, au-delà de ces considérations sur les effets de l'IA sur le monde réel, quoi de neuf dans l'IA ces derniers temps ?
Anthropic progresse dans l'interprétabilité
Les modèles continuent de se multiplier, sans que cela soit bien passionnant à suivre maintenant que leurs progrès sont devenus marginaux. L'on a déjà rapporté à quel point GPT-4o avait déçu les attentes. Ce qui a suivi, c'est more of the same en général. Passons donc sur Gemini, Claude, Llama, et autres Mistral, dont on finirait bientôt par se demander non pas pourquoi ils sont développés - il y a du progrès dans les architectures et l'apprentissage malgré tout -, mais pourquoi ils sortent - au final, qu'est-ce que cela apporte de plus ?
Non, si nouveauté il y a ces derniers temps, et intéressante qui plus est, elle est plus à chercher de ce côté somme toute assez marginalisé de la science des modèles : l'interprétabilité. Pour rappel, l'enjeu est assez simple, à savoir comprendre pourquoi un modèle sort ce qu'il sort. En effet, comme l'a pointé Anthropic dans un papier traitant du sujet, "we understand the math of the trained network exactly - each neuron in a neural network performs simple arithmetic - but we don't understand why those mathematical operations result in the behaviors we see." Passionnant, quand l'on sait qu'un réseau de neurones profonds est un gigantesque plat de nouilles, mais comme déjà évoqué dans cette Chronique, les éditeurs de LLMs investissent peu l'interprétabilité, car sa complexité fait que les retombées ne peuvent être espérées à court terme.
Toutefois, exception qui confirme la règle, Anthropic a donc manifesté de l'intérêt pour l'interprétabilité, dans le souci de mieux comprendre pour mieux maîtriser - comme l'a expliqué un des chroniqueurs de Hard Fork, en rendant compte d'une visite l'année dernière, "they're sort of worrying obsessively about the harms that even their own models could create once they're unleashed out in the world".
Petit rappel. Comme plus personne ne peut l'ignorer, l'apprentissage appliqué à un réseau de neurones profonds permet comme par magie à ce dernier de construire un espace dans lequel tous les exemples qui lui sont donnés peuvent être positionnés de manière signifiante - cela rappellera l'analyse factorielle à ceux qui ont fait un peu de statistique descriptive, en sociologie notamment. C'est ainsi que dix ans avant l'apparition de ChatGPT, les chercheurs de Google à l'origine du fascinant word2vec expliquaient que "the word and phrase representations learned by the Skip-gram model exhibit a linear structure that makes it possible to perform precise analogical reasoning using simple vector arithmetics". Par exemple, disposant des coordonnées de "Vietnam" et de "capital" produites par le réseau de neurones, donc de leurs vecteurs, il était possible de trouver "Hanoi" aux environs des coordonnées du vecteur résultant de la somme de ces derniers.
Cette mathématisation, et même géométrisation, du langage sert de brique élémentaire dans les LLMs, les morceaux de texte, ou tokens, y étant convertis en vecteurs pour être traités par une mécanique dont l'architecture est parfaitement connue, de même que la manière de l'entraîner, mais dont fonctionnement au moment de l'inférence - la productions des tokens qui doivent le plus probablement suivre le prompt qui a été fourni - ne l'est guère, pour ne pas dire pas du tout, du fait du gigantisme de l'architecture et de la nature de l'entraînement.
En octobre dernier donc, l'éditeur de Claude rapporte ses trouvailles. Le papier de référence s'intitule Towards Monosemanticity: Decomposing Language Models With Dictionary Learning, ce qui est totalement abscons, mais Anthropic a eu la bonne idée d'en produire une synthèse grand public, Decomposing Language Models Into Understandable Components.
A ce stade très préliminaire de l'interprétabilité, la question est d'abord de déterminer la nature du substrat physique d'un concept lorsque le modèle génère du texte qui s'y rapporte. Pour cela, Anthropic explique qu'il ne faut pas travailler à l'échelle d'un neurone activé, car il l'est dans le cas de trop nombreux concepts, mais d'un ensemble de neurones qui se trouvent activés dans le cas d'un concept donné. Ce substrat physique, c'est la feature, et le concept qui lui est associé sera quelque chose comme "Nutrition statements", "Legal language" ou encore "HTTP requests and responses". Pour un nombre donné de neurones, il y a évidemment bien plus de features possibles - Anthropic rappelle avoir déjà montré que le nombre de features encodées par un modèle peut dépasser son nombre de dimensions, du fait d'un phénomène qualifié de superposition.
Ici, en étudiant un très petit LM à titre expérimental - un "toy" de 512 neurones, si l'on suit bien - à l'aide d'une mécanique appropriée, Anthropic dégage 4 000 features. C'est intéressant, mais là où cela devient fascinant, c'est qu'Anthropic montre qu'il est possible d'infléchir de manière déterministe le comportement du modèle en activant artificiellement une feature - exactement comme une électrode permettrait de contrôler un animal en envoyant du jus dans une partie de son cerveau. Ainsi, si on lui présente une même entrée sous la forme d'un texte représentant une séquence de nombres de 1 à 10, le modèle complète avec du chinois si la feature "Han Chinese" est activée, une séquence de lettres "G", "A" et "C" si la feature "DNA" est activée, et ainsi de suite.
Mi-mai, Anthropic remet cela, mais cette fois sur un modèle qui n'a rien d'expérimental, puisqu'il s'agit de Claude 3 Sonnet - c'est "from a backyard bottle rocket to a Saturn-V". De nouveau, un papier au titre totalement abscons, Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, et une synthèse grand public, Mapping the Mind of a Large Language Model.
Les nouvelles trouvailles suscitent cette fois beaucoup plus d'intérêt. En particulier, Hard Fork invite l'un des chercheurs d'Anthropic pour en parler, et la chaîne AI Explained déchiffre le papier. C'est que cette fois, il se passe un truc que tout le monde trouvera marrant.
Pour commencer, ce sont des millions de features qu'Anthropic parvient à isoler, qui correspondent à ces concepts nettement plus précis que ceux évoqués précédemment, qui peuvent être concrets, comme "Benjamin Franklin" ou "Lithium", mais aussi abstraits, comme "Code error" ou "Secrecy or discreetness". Un calcul de distance à l'aide d'une métrique appropriée montre une proximité entre les features dont les concepts sont effectivement reliés, comme par exemple "Alcatraz island" qui est proche de "Golden Gate Bridge" - on retrouve ici un résultat similaire à celui qui avait amusé les créateurs de word2vec.
Et là où cela devient amusant, c'est qu'il est ici encore possible d'activer une feature artificiellement pour forcer Claude 3 Sonnet à sortir du texte fortement influencé par le concept associé, mais cette fois de manière très cohérente, changement d'échelle oblige. Dans une petite vidéo, les chercheurs commencent par demander à Anthropic de décrire son apparence physique, à quoi il répond : "I don't actually have a physical form. I'm an artificial intelligence. I exist as software without body or avatar." Là-dessus, les chercheurs activent la feature "Golden Gate Bridge", et reposent la même question. Cette fois le LLM répond : "I'm the Golden Gate Bridge, a famouse suspension bridge that spans the San Francisco Bay. My physical for mis the iconic bridge itself. With its beautiful orange color, towering towers, and sweeping suspension cables." Trop fort !
Anthropic en déduit que ce faisant, l'on n'est pas en train de simplement forcer le LLM à utiliser un terme plutôt qu'un autre, mais carrément d'altérer sa représentation du monde. Autrement dit, l'on ne le manipule pas en surface, mais en profondeur. D'autres exemples tout aussi édifiants viennent le prouver :
  • en activant artificiellement la feature qui s'active quand Claude 3 Sonnet lit un courriel frauduleux, il accepte de générer un tel courriel alors qu'il refuserait normalement ;
  • ou alors, en activant celle qui s'active quand le modèle se fait flatteur, il verse dans la courtisanerie la plus éhontée.
Entre Anthropic et OpenAI, chacun sait qu'il y a comme une divergence radicale. Dans un entretien accordé à Wired en décembre dernier, Yann LeCun envoyait une pique : "I think the research world doesn't care too much about OpenAI anymore, because they're not publishing and they're not revealing what they're doing". Toutefois, début juin, peut-être forcée de reconnaître l'avancée réalisée, CloseAI annonce avoir extrait 16 millions de features de GPT-4, et met à disposition le code pour ce faire, ainsi qu'une interface pour en visualiser quelques-unes. Ça ne va vraiment pas chercher bien loin - l'on recommande plutôt le chouette travail d'un certain Ali Shehper, qui a mis sur Github le code et une interface pour reproduire les résultats du premier papier d'Anthropic - mais c'est toujours ça de pris...
Chronique de l’IA #7