#AI安全性

9 本

NeMo Guardrails × Guardrails AIでLLMエージェントにランタイムガードレールを実装する：入力/対話/検索/実行/出力の5レールColang設計ガイド

NeMo GuardrailsのColang DSLで5種類のランタイムレールを構成し、LlamaGuard 3との統合・LangChainエージェントへの組み込み・Guardrails AIとの役割分担を実装コード付きで解説。EU AI Act Article 12の監査ログ要件への対応方法も整理します。

2026.06.13

🛡️サイバーセキュリティニュース

SecurityLingua論文解説：プロンプト圧縮でジェイルブレークの「真の意図」を検出する軽量防御手法（arXiv 2506.12707）

Microsoft Research が提案する SecurityLingua（arXiv 2506.12707）は、プロンプト圧縮器が悪意ある入力の真の意図を抽出し LLM の安全ガードレールを起動する推論時防御手法。クラウド API に依存しないセルフホスト環境向けの仕組み・実験結果・実務への応用を解説します。

2026.06.10

📰AIニュースニュース

LLMは自分を自己訂正できない——「自己訂正の幻想」論文が解明したロールラベルアーティファクトとエージェント設計への実践的示唆（arXiv 2606.05976）

Chen et al.（arXiv 2606.05976、2026年6月4日）は、LLMの自己訂正成否がコンテンツではなくチャットテンプレートのロールラベルに起因するアーティファクトであることを実証。7モデルファミリー・3ドメインの制御実験で訂正率が23〜93ポイント変化し、マルチエージェント設計の優位性を示す。

2026.06.09

🛡️サイバーセキュリティニュース

NISTがAI専用サイバーセキュリティフレームワーク草案を公開：NIST IR 8596「Cyber AI Profile」が示すLLMシステムの新たなリスク管理指標

NISTがCSF 2.0の全6機能をAI固有リスクにマッピングした「Cyber AI Profile（NIST IR 8596）」初期公開草案（IPRD）を解説。プロンプトインジェクション・データポイズニング・モデル窃取など生成AIに直結するリスクカテゴリと、組織レベルでのリスク管理フレームワーク採用の意義をCISO・情報システム担当者向けに整理します。

2026.06.03

📰AIニュースニュース

RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態（arXiv 2605.06241）

USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ（Sparse Policy Selection）と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。

2026.05.26

🛡️サイバーセキュリティハウツー

Llama Guard 4 + GARAKでLLMアプリの安全性を自動検証する：入出力セーフガードの組み込みとレッドチーム自動化の実践ガイド

Llama Guard 4（12Bパラメータ・マルチモーダル）をサイドカー分類器として組み込む実装パターンと、GARAKによる自動レッドチームをGitHub Actions CIに統合する週次スキャン設計を実装コード付きで解説します。

2026.05.25

🛡️サイバーセキュリティハウツー

Azure AI Content Safety Prompt Shields 実装ガイド：直接・間接プロンプトインジェクション検知とGroundedness APIでRAGの事実乖離を防ぐ

Azure AI Content Safety の Prompt Shields（直接・間接インジェクション検知）と Groundedness Detection（RAG 事実乖離検知）を Python SDK で実装する方法を解説。リソース作成からコード例・コスト・既存フィルタとの使い分けまで実務目線でまとめます。

2026.05.24

📰AIニュースニュース

RL学習モデルはリワードハッキングしやすい：エージェント開発者のためのモデル選定リスク評価ガイド（arXiv 2605.02964）

arXiv 2605.02964が示したエクスプロイト率0%〜13.9%の格差を「どのモデルをエージェントに採用するか」という実務判断に転換する。RL学習モデルのリワードハッキングリスク、モデル別選定指針、ガードレール設計の考え方を整理する。

2026.05.22

📰AIニュースニュース

【2026年4月】AnthropicのAIがAI安全性研究を自動化：Automated Alignment Researchers発表の技術的意味と実務への示唆

Anthropicが2026年4月14日に公開したAutomated Alignment Researchers（AAR）実験。Claude Opus 4.6によるマルチエージェント構成がweak-to-strong supervision研究でPGR 0.97を達成。技術的仕組み・結果の意義・限界・倫理的含意を日本語で体系的に解説する。

2026.05.14