マルチエージェントLLMシステムの盲点を突く新たな攻撃手法が発見

要約

最近の研究では、マルチエージェントLLMシステムにおけるドメインカモフラージュ型インジェクション攻撃の盲点が明らかになりました。この攻撃は、標的文書の用語や権限構造を模倣したペイロードを生成することで、従来の検出器を回避します。具体的には、Llama 3.1 8Bでは検出率が93.8%から9.7%に、Gemini 2.0 Flashでは100%から55.6%に低下します。この現象は、カモフラージュ検出ギャップ（CDG）として定義され、45のタスクにわたって統計的に有意であることが確認されました。

この研究は、インジェクション攻撃に対する現在の防御手段の限界を浮き彫りにしています。特に、Llama Guard 3という生産安全分類器はカモフラージュペイロードを全く検出できず、盲点が単なる少量検出器だけでなく、専用の安全分類器にも及ぶことを示しています。さらに、マルチエージェントの議論アーキテクチャが小型モデルにおける静的インジェクション攻撃を最大9.9倍も助長することが確認されました。

最後に、ターゲット検出器の強化は部分的な改善しかもたらさず、脆弱性がアーキテクチャに根ざしている可能性が示唆されています。この研究は、インジェクション攻撃に対する新たな防御戦略の必要性を訴えており、ペイロード生成ツールやタスクバンクも公開されています。

元記事: https://arxiv.org/abs/2605.22001

公開日: Fri, 22 May 2026 18:46:07 +0000

この記事はAIアシスト編集により作成されています。

📰 元記事: 元記事を読む

要約

関連記事

長期モデルの安全性と整合性：新たな課題と対策

AI生成論文が急増！arXivでの実態を徹底分析

AIがWordPressの脆弱性を発見！GPT5.6の新たな活用法

コメントする コメントをキャンセル

コメントするコメントをキャンセル