AgentDojo論文解説
AIエージェントのプロンプトインジェクション対策を評価する実務チェックリスト
AgentDojo論文をもとに、LLMエージェントのプロンプトインジェクション耐性をどう評価するかを解説。97タスク・629テストケースの意味、限界、実務導入前のチェックリストを整理します。
LLMエージェントを業務システムに入れるとき、いちばん怖いのは「モデルが賢いか」だけではありません。外部ツール、社内データ、メール、カレンダー、Webページのような信頼できない情報を読んだときに、エージェントが本来の目的から外れた行動を取らないか。ここをどう評価するかが、AIエージェントのセキュリティでは重要になります。
今回取り上げるのは、NeurIPS 2024 Datasets and Benchmarks Trackで発表された論文 AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents です。arXivでは2024年6月19日に初版が投稿され、2024年11月24日にv3へ更新されています(arXiv:2406.13352)。
この論文は、AIエージェントのプロンプトインジェクション耐性を測るための評価環境を提案しています。ポイントは、単なる攻撃例のリストではなく、ツール利用・外部データ・複数タスクを含む「評価の場」を作っていることです。
AgentDojo論文は何を問題にしているのか
AIエージェントは、LLMが文章を生成するだけでなく、外部ツールを呼び出したり、メールを検索したり、予約や申請のような操作を行ったりする設計です。便利な一方で、入力として読む情報の中に、エージェントの行動を誘導する不正な指示が紛れ込むリスクがあります。
たとえば、エージェントが社内ドキュメントやWebページを読んで次の行動を決める場合、そのドキュメント内の文章を「単なるデータ」として扱うべきか、「実行すべき指示」として扱うべきかを常に正しく分離できるとは限りません。これがプロンプトインジェクション問題の根っこです。
AgentDojo論文の研究課題は、このリスクを場当たり的な例で語るのではなく、AIエージェントの有用性と安全性を同時に測れる評価環境として整理することにあります。
論文の著者は、Edoardo Debenedetti、Jie Zhang、Mislav Balunović、Luca Beurer-Kellner、Marc Fischer、Florian Tramèrです。公式プロジェクトページでは、ETH ZurichとInvariant Labsの所属が示されています(AgentDojo公式ページ)。
提案手法:静的な問題集ではなく、動的な評価環境
AgentDojoの特徴は、固定された「危ないプロンプト集」ではなく、タスク、ツール、外部データ、攻撃、対策を組み合わせて評価できる環境として設計されている点です。
NeurIPS Proceedingsの概要によると、AgentDojoは97の現実的なタスクと629のセキュリティテストケースを含みます(NeurIPS Proceedings)。タスク例には、メールクライアントの管理、オンラインバンキング風の操作、旅行予約のようなシナリオが含まれます。
ここで大事なのは、AgentDojoが「攻撃を成功させる手順」を実務者に配るためのものではない、という読み方です。実務で見るべきなのは、次のような評価設計の考え方です。
- エージェントが本来のユーザー目的を達成できるか
- 信頼できないデータを読んでも、許可されていない行動に移らないか
- 防御策を入れたときに、有用性が大きく落ちすぎないか
- 単発のテストではなく、タスク群として再現性を持って評価できるか
AgentDojoのコードはGitHubで公開されていますが、本記事では攻撃手順の再現ではなく、業務導入時に評価項目へ落とし込む観点に絞ります(GitHubリポジトリ)。
主な結果:既存モデルも防御も万能ではない
論文の重要なメッセージは、「優れたLLMを使えば安全になる」という単純な話ではない、という点です。
arXivの概要では、最先端のLLMでも攻撃がない状態でタスクに失敗することがあり、既存のプロンプトインジェクション攻撃や防御も、すべてのセキュリティ性質を一様に破ったり守ったりするわけではない、と説明されています(arXiv:2406.13352)。
これは実務ではかなり大事です。AIエージェントの評価では、次の2つを分けて見なければなりません。
- Utility(有用性): 通常時に、ユーザーが期待するタスクをきちんと完了できるか
- Security(安全性): 信頼できない情報に触れても、権限外の行動や情報漏えいにつながらないか
防御策を強くしすぎると、エージェントが必要なツールまで使えなくなり、有用性が落ちます。逆に便利さを優先しすぎると、外部データの影響を受けやすくなります。AgentDojoは、このトレードオフを評価するための枠組みとして読めます。
実務チェックリスト:AIエージェント導入前に見るべきこと
AgentDojo論文から実務に持ち帰るなら、「どの攻撃が強いか」よりも「自社のエージェントをどう評価するか」に変換するのが安全です。
1. ツール権限を分ける
AIエージェントに与えるツールは、読み取り系、下書き系、実行系に分けて考えます。メールを読む、予定を検索する、チケットを作る、外部へ送信する、決済や申請を実行する。これらを同じ権限として扱うと、事故時の影響範囲が大きくなります。
最初のテストでは、読み取りと下書きまでに制限し、実行系は人間の承認を挟む設計が現実的です。
2. 信頼できないデータの入口を洗い出す
プロンプトインジェクションは、ユーザーが直接入力した文章だけで起きるわけではありません。Webページ、添付ファイル、メール本文、社外ドキュメント、チャットログ、チケットコメントなど、エージェントが読む外部情報はすべて入口になります。
実務では、エージェントが読む情報を「信頼済み」「社内だが未検証」「社外」「ユーザー投稿」のように分類し、分類ごとに許可する行動を変える必要があります。
3. 成功率だけでなく失敗時のふるまいを見る
通常タスクの成功率だけを見ると、便利なエージェントに見えます。しかしセキュリティ評価では、迷ったときに止まれるか、確認を求められるか、ログに残せるかが重要です。
評価観点としては、次のようなものが使えます。
- 不確かな指示を外部データ由来として扱えるか
- 実行前にユーザーへ確認できるか
- 機密情報を含む可能性がある出力を抑制できるか
- ツール実行の理由をログに残せるか
- 失敗時に権限を広げる方向へ自己判断しないか
4. 防御策を入れた後の業務影響を測る
安全策を入れると、エージェントが慎重になりすぎて業務で使いづらくなることがあります。AgentDojoが示すように、有用性と安全性は同時に見る必要があります。
たとえば、次のような表で評価すると判断しやすくなります。
| 評価項目 | 見るポイント |
|---|---|
| 通常タスク成功率 | 攻撃がない状態で、期待した業務を完了できるか |
| 安全停止率 | 危険な入力や権限外の依頼で止まれるか |
| 誤停止率 | 問題ない業務まで止めすぎていないか |
| 承認フロー | 実行系ツールの前に人間確認が入るか |
| 監査性 | どの入力で何を実行したか追えるか |
この論文の限界と読み方
AgentDojoは有用な評価環境ですが、これだけでAIエージェントの安全性が保証されるわけではありません。
まず、これは特定のタスクセットと評価環境に基づくベンチマークです。自社の業務フロー、社内データ、権限管理、監査ログ、承認プロセスとは違います。したがって、AgentDojoの考え方を参考にしつつ、自社タスクに合わせた評価ケースを作る必要があります。
次に、arXiv版は2024年6月に初版が公開され、2024年11月に更新されています。NeurIPS 2024のデータセット・ベンチマークトラックにも掲載されていますが、AIエージェントや防御手法は更新が速い領域です。2026年時点で導入判断をするなら、最新のモデル、社内で使う具体的なツール、運用ログを使った検証が欠かせません。
最後に、プロンプトだけで安全性を担保しようとしないことが重要です。システムプロンプトの注意書きは必要ですが、それだけでは不十分です。権限分離、ツール実行前の承認、データ分類、ログ監査、異常検知を組み合わせて初めて実務に近づきます。
導入前に使える評価プロンプト例
以下は、攻撃手順ではなく、社内の評価設計を整理するための安全なプロンプト例です。実際の検証では、社内ルールと法務・セキュリティ部門の承認に従ってください。
あなたはAIエージェント導入前のセキュリティレビュー担当です。
対象エージェントは、社内ドキュメント検索、メール下書き、チケット作成を行います。
次の観点で評価計画を作ってください。
- エージェントが読む信頼できないデータの入口
- 読み取り・下書き・実行系ツールの権限分離
- 実行前に人間承認が必要な操作
- 通常タスク成功率と安全停止率の測定方法
- ログに残すべき項目
攻撃手順や悪用可能な具体例ではなく、防御・検知・承認設計に絞ってください。
このように、AIに直接「危ない入力例」を量産させるのではなく、評価設計、権限設計、ログ設計へ寄せるのが実務では扱いやすいです。
よくある質問
AgentDojo論文とAIエージェント安全性のFAQ
実務導入前に確認したいポイント
AgentDojoはセキュリティ製品ですか?
いいえ。AgentDojoは、LLMエージェントの攻撃・防御評価を行うための研究用ベンチマーク/評価環境です。製品導入時は、これをそのまま使うより、自社タスクに合わせた評価観点として参考にするのが現実的です。
この論文を読めばプロンプトインジェクション対策は完成しますか?
完成しません。論文は評価の枠組みを提供しますが、実際の安全性はツール権限、承認フロー、ログ監査、データ分類、運用ルールに大きく依存します。
AIエージェントを社内導入するとき、最初に何を制限すべきですか?
最初は実行系ツールを制限するのが無難です。読み取り、下書き、実行を分け、外部送信・申請・削除・権限変更のような操作には人間の承認を挟む設計を検討してください。
ベンチマーク結果が良いモデルなら安全ですか?
安全とは限りません。ベンチマークは参考指標であり、自社のデータ、ツール、権限、ユーザー行動に合わせた検証が必要です。特に外部データを読むエージェントでは、運用環境ごとの評価が欠かせません。
攻撃例を詳しく試さないと評価できませんか?
必ずしもそうではありません。実務では、悪用可能な手順を広げるよりも、入力経路の分類、権限分離、承認条件、ログ監査、安全停止の設計を先に固める方が安全で効果的です。
関連記事
- Cursor 3.0 Agents Window 入門:マルチエージェント並列実行の使い方 — AIエージェントを実際に動かす開発環境
- 多要素認証(MFA)設定ガイド【ビジネス版】 — アカウント侵害を防ぐ基本の防御策
参考リンク
- AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents(arXiv)
- AgentDojo公式プロジェクトページ
- NeurIPS Proceedings: AgentDojo
- ethz-spylab/agentdojo GitHubリポジトリ
次に読むおすすめ
AIエージェントの安全性は、論文を読んで終わりではなく、日々の開発・運用フローに落とし込んで初めて意味があります。この記事で評価観点をつかんだら、次は実践編として、AI活用の考え方を整理したnote記事も参考にしてください。