#AI安全性
5 本
📰AIニュース ニュース
RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態(arXiv 2605.06241)
USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ(Sparse Policy Selection)と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。
🛡️サイバーセキュリティ ハウツー
Llama Guard 4 + GARAKでLLMアプリの安全性を自動検証する:入出力セーフガードの組み込みとレッドチーム自動化の実践ガイド
Llama Guard 4(12Bパラメータ・マルチモーダル)をサイドカー分類器として組み込む実装パターンと、GARAKによる自動レッドチームをGitHub Actions CIに統合する週次スキャン設計を実装コード付きで解説します。
🛡️サイバーセキュリティ ハウツー
Azure AI Content Safety Prompt Shields 実装ガイド:直接・間接プロンプトインジェクション検知とGroundedness APIでRAGの事実乖離を防ぐ
Azure AI Content Safety の Prompt Shields(直接・間接インジェクション検知)と Groundedness Detection(RAG 事実乖離検知)を Python SDK で実装する方法を解説。リソース作成からコード例・コスト・既存フィルタとの使い分けまで実務目線でまとめます。
📰AIニュース ニュース
RL学習モデルはリワードハッキングしやすい:エージェント開発者のためのモデル選定リスク評価ガイド(arXiv 2605.02964)
arXiv 2605.02964が示したエクスプロイト率0%〜13.9%の格差を「どのモデルをエージェントに採用するか」という実務判断に転換する。RL学習モデルのリワードハッキングリスク、モデル別選定指針、ガードレール設計の考え方を整理する。
📰AIニュース ニュース
【2026年4月】AnthropicのAIがAI安全性研究を自動化:Automated Alignment Researchers発表の技術的意味と実務への示唆
Anthropicが2026年4月14日に公開したAutomated Alignment Researchers(AAR)実験。Claude Opus 4.6によるマルチエージェント構成がweak-to-strong supervision研究でPGR 0.97を達成。技術的仕組み・結果の意義・限界・倫理的含意を日本語で体系的に解説する。