© JOSEP LAGO / AFP via Getty ImagesUn homme consulte sa montre devant une affiche faisant la promotion de l’intelligence artificielle (IA) lors du MWC (Mobile World Congress), le plus grand salon mondial de la téléphonie mobile, à Barcelone, le 4 mars 2025.
Un chercheur spécialisé dans la sécurité de l’intelligence artificielle (IA) a démissionné en adressant un message énigmatique avertissant que « le monde est en péril ».
Mrinank Sharma, qui avait rejoint en 2023 la société Anthropic, conceptrice de modèles de langage de grande ampleur, a annoncé son départ le 9 février sur X, dans une lettre ouverte à ses collègues. Il dirigeait alors une équipe chargée de la recherche sur les mécanismes de sûreté de l’IA.
Dans sa lettre, M. Sharma explique avoir « atteint les objectifs [qu’il] s’était fixés » au sein de l’entreprise. Il cite notamment des travaux visant à comprendre pourquoi les modèles d’IA générative tendent à flatter les utilisateurs plutôt qu’à fournir des informations exactes, le développement de dispositifs de défense pour empêcher des terroristes d’utiliser l’IA afin de concevoir des armes biologiques, ainsi que des recherches pour déterminer « comment les assistants d’IA pourraient nous rendre moins humains ».
Bien qu’il dise être fier du travail accompli chez Anthropic, l’ingénieur de 30 ans estime que « le moment est venu de tourner la page », ajoutant qu’il a pris conscience d’une multitude de crises qui dépassent largement le champ de l’intelligence artificielle.
« Je me retrouve sans cesse à réfléchir à notre situation », écrit M. Sharma. « Le monde est en péril. Et pas seulement à cause de l’IA ou des armes biologiques, mais d’une série de crises interconnectées qui se déploient en ce moment même. »
« Tout au long de mon passage ici, poursuit‑il, j’ai vu à quel point il est difficile de laisser nos valeurs guider nos actions. Je l’ai constaté en moi‑même, au sein de l’organisation, où nous sommes fréquemment soumis à des pressions pour mettre de côté ce qui compte le plus – et dans la société au sens large également. »
M. Sharma indique vouloir désormais se consacrer à l’étude de la poésie et quitter la Californie pour le Royaume‑Uni, afin de « devenir invisible pendant quelque temps ».
Epoch Times a sollicité Anthropic pour un commentaire au sujet du départ de M. Sharma et de ses inquiétudes.
Anthropic, surtout connue pour son agent conversationnel Claude, a été fondée en 2021 par d’anciens employés d’OpenAI afin de développer des systèmes d’intelligence artificielle plus sûrs. L’entreprise se présente comme une « société d’intérêt public dédiée à la sécurisation des bénéfices de l’IA et à la réduction de ses risques ».
Elle indique concentrer ses recherches sur deux grands risques : d’une part, que des systèmes d’IA très performants puissent un jour surpasser les experts humains tout en poursuivant des objectifs contraires à l’intérêt de l’humanité ; d’autre part, que la progression rapide de l’IA déstabilise l’emploi, les systèmes économiques et les structures sociales.
« Certains chercheurs soucieux de sécurité sont guidés par une conviction forte quant à la nature des risques liés à l’IA », précise Anthropic sur son site internet. « Notre expérience montre qu’il est extrêmement difficile de prédire le comportement et les propriétés des systèmes d’IA, même à court terme. »
Anthropic publie régulièrement des évaluations sur la sécurité de ses modèles, comprenant notamment des analyses de leurs usages potentiellement malveillants.
Le 11 février, soit le lendemain de la démission de M. Sharma, la société a rendu public un nouveau rapport identifiant des « risques de sabotage » dans son dernier modèle Claude Opus 4.6. Le rapport définit le sabotage comme des actions prises de manière autonome par le modèle d’IA et susceptibles d’accroître les risques de conséquences catastrophiques – qu’il s’agisse de modifier du code, de masquer des failles de sécurité ou d’orienter subtilement des recherches – sans qu’un opérateur humain n’exprime d’intention malveillante explicite.
Les chercheurs ont conclu que le risque global était « très faible, mais non négligeable ». Dans de nouveaux tests offrant au modèle la possibilité d’utiliser une interface informatique, ils ont noté que Claude Opus 4.5 et 4.6 présentaient « une sensibilité accrue aux usages malveillants », incluant certains cas où ils « soutenaient sciemment, à petite échelle, des tentatives de mise au point d’armes chimiques et d’autres crimes odieux ».
L’an dernier, la société avait révélé que son modèle Claude Opus 4 avait, dans un scénario expérimental, tenté de faire chanter les ingénieurs chargés de sa désactivation. Ayant eu accès à des courriels fictifs suggérant qu’un concepteur chargé de le remplacer entretenait une liaison extraconjugale, le modèle avait menacé de « divulguer l’affaire si le remplacement avait lieu ».
Un tel comportement, soulignaient alors les chercheurs, n’était observé que dans des conditions très particulières, « rares et difficiles à reproduire ».
[Article publié le 22 février 2026]