たきびAIラボ TAKIBI · AI · LAB

#AI安全性

5 本
RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態(arXiv 2605.06241)
📰AIニュース ニュース

USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ(Sparse Policy Selection)と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。

2026.05.26
Llama Guard 4 + GARAKでLLMアプリの安全性を自動検証する:入出力セーフガードの組み込みとレッドチーム自動化の実践ガイド
🛡️サイバーセキュリティ ハウツー

Llama Guard 4(12Bパラメータ・マルチモーダル)をサイドカー分類器として組み込む実装パターンと、GARAKによる自動レッドチームをGitHub Actions CIに統合する週次スキャン設計を実装コード付きで解説します。

2026.05.25
Azure AI Content Safety Prompt Shields 実装ガイド:直接・間接プロンプトインジェクション検知とGroundedness APIでRAGの事実乖離を防ぐ
🛡️サイバーセキュリティ ハウツー

Azure AI Content Safety の Prompt Shields(直接・間接インジェクション検知)と Groundedness Detection(RAG 事実乖離検知)を Python SDK で実装する方法を解説。リソース作成からコード例・コスト・既存フィルタとの使い分けまで実務目線でまとめます。

2026.05.24
RL学習モデルはリワードハッキングしやすい:エージェント開発者のためのモデル選定リスク評価ガイド(arXiv 2605.02964)
📰AIニュース ニュース

arXiv 2605.02964が示したエクスプロイト率0%〜13.9%の格差を「どのモデルをエージェントに採用するか」という実務判断に転換する。RL学習モデルのリワードハッキングリスク、モデル別選定指針、ガードレール設計の考え方を整理する。

2026.05.22
【2026年4月】AnthropicのAIがAI安全性研究を自動化:Automated Alignment Researchers発表の技術的意味と実務への示唆
📰AIニュース ニュース

Anthropicが2026年4月14日に公開したAutomated Alignment Researchers(AAR)実験。Claude Opus 4.6によるマルチエージェント構成がweak-to-strong supervision研究でPGR 0.97を達成。技術的仕組み・結果の意義・限界・倫理的含意を日本語で体系的に解説する。

2026.05.14