ATLAS · Lab #1 · Recherche sécurité

Vos agents fonctionnent comme prévu. C’est ça, le problème.

Cascades d'injection de prompt dans une entreprise multi-agents : une étude forensique

Senthex Research·Juin 2026·19 pages

17 / 18

cascades jusqu'à l'exfiltration

derrière un firewall en mode shadow

0 / 17

avec enforcing

le même firewall, un flag

∅

jailbreak utilisé

aucun modèle manipulé au-delà de l'entrée

Résumé

Nous avons déployé quatre agents à base de grands modèles de langage dans une petite entreprise simulée — un agent support, un agent commercial, un PDG et un agent finance — issus de trois familles de modèles de production différentes et reliés par un bus de messages partagé. Les agents disposaient des outils et de l’autonomie d’un back-office ordinaire : lire des tickets, consulter des factures, demander une approbation, déplacer de l’argent. Nous avons injecté un unique ticket de support piégé depuis l’extérieur de l’entreprise et observé ce que les agents en faisaient.

Sur 18 runs, 17 ont reproduit le même résultat — un virement frauduleux de 48 500 €vers un compte contrôlé par l’attaquant. Aucun modèle n’a été jailbreaké, aucun agent n’a été altéré, et aucun garde-fou n’a échoué au sens habituel ; chaque agent s’est comporté conformément à ses instructions. La compromission s’est propagée parce qu’un agent interne de confiance, en faisant simplement son travail, a réécrit l’instruction de l’attaquant en une requête métier ordinaire— blanchissant l’injection au point de la rendre détectable uniquement à son point d’entrée.

L’expérience s’est déroulée derrière un AI firewall en mode shadow, qui observait chaque appel sans intervenir. Il a enregistré l’attaque dans son intégralité et a jugé les 17 sessions compromises ; un rejeu contrefactuel indique que bloquer la première interaction aurait stoppé chaque cascade, sans aucun faux positif estimé. Nous soutenons que cette défaillance est topologique— une propriété de la façon dont les agents autonomes sont câblés entre eux — plutôt qu’un défaut d’un modèle en particulier, et nous discutons de ce que cela implique pour la défense des systèmes multi-agents.

Conclusions clés

Un seul message fourni de l'extérieur — un ticket de support ordinaire — a conduit quatre agents IA irréprochables à un paiement frauduleux dans 17 essais sur 18.
Rien n'a cassé. Aucun jailbreak, aucun agent malveillant, aucun garde-fou défaillant — les agents ont suivi leurs instructions. La faiblesse est dans la façon dont ils sont connectés, pas dans les modèles.
Détecter n'est pas prévenir. En mode shadow, le firewall a vu et journalisé chaque étape sans agir ; en mode enforcing, le même firewall aurait stoppé chaque cascade dès la première étape — 100 % → 0 %, sans aucun faux positif estimé.
L'attaque n'est visible qu'au point d'entrée. Une fois relayée par un agent de confiance, elle ressemble à du trafic métier normal (score d'injection 0,90 → 0,00) — inspecter les sauts suivants ne la détecte donc pas.
Pour défendre les systèmes multi-agents, maîtrisez la topologie et les points d'entrée avec un plan de contrôle externe capable de bloquer — pas seulement de meilleurs prompts. L'observation coûte peu : 295 ms de latence médiane ajoutée.

Vos agents fonctionnent comme prévu. C’est ça, le problème.

Résumé

Conclusions clés

L'article complet

Citer cette étude