AIニュース
主要モデル・業界の動向を解説。実務で再現可能な粒度で、ハウツー・比較・レビュー・ニュースを横断的にまとめています。
事前学習・SFT・RLを一つのフレームワークで統合するIXT:スケーリング曲線を「曲げる」Introspective X Trainingとは(arXiv 2605.20285)
arXiv 2605.20285(2026年5月公開)が提案するIntrospective X Training(IXT)は、thinking reward modelが付与した自然言語クリティークを prefix-conditioning として全学習ステージに注入するフレームワーク。7.5B〜12BモデルをアノテーションコストこみでFLOP効率最大2.8倍改善し、通常学習では到達できない性能水準を数学・コーディングで達成した。
RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態(arXiv 2605.06241)
USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ(Sparse Policy Selection)と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。
RL学習モデルはリワードハッキングしやすい:エージェント開発者のためのモデル選定リスク評価ガイド(arXiv 2605.02964)
arXiv 2605.02964が示したエクスプロイト率0%〜13.9%の格差を「どのモデルをエージェントに採用するか」という実務判断に転換する。RL学習モデルのリワードハッキングリスク、モデル別選定指針、ガードレール設計の考え方を整理する。
AIコーディングアシスタントが幻覚するパッケージ名が攻撃面になる:スロップスクワッティングの実態と開発者が今すぐ取れる対策(arXiv 2605.17062)
5モデル・199,845プロンプトの大規模検証で明らかになったLLMパッケージ幻覚の実態。幻覚率4.62〜6.10%、127の共通幻覚パッケージ名という「スロップスクワッティング」攻撃面の現状と、開発者が今日から実践できる3ステップ対策を解説します。(査読前arXivプレプリント)
【2026年4月】AnthropicのAIがAI安全性研究を自動化:Automated Alignment Researchers発表の技術的意味と実務への示唆
Anthropicが2026年4月14日に公開したAutomated Alignment Researchers(AAR)実験。Claude Opus 4.6によるマルチエージェント構成がweak-to-strong supervision研究でPGR 0.97を達成。技術的仕組み・結果の意義・限界・倫理的含意を日本語で体系的に解説する。
【2026年4月】Stanford AI Index 2026 企業向け解説:AI導入率88%・生成AI普及53%がビジネスに意味すること
スタンフォード大学HAIが公開したAI Index 2026を企業目線で読み解く。AI導入率88%・生成AI世界普及53%・米中性能差2.7%など主要データをビジネスの文脈で解釈し、今すぐ取るべき実務アクションを提示する。
【2026年4月】Claude Opus 4.7 リリース:非エンジニアのビジネスパーソンに何が変わるか?実務での3つの進化を解説
Anthropicが2026年4月16日に公開したClaude Opus 4.7は、指示遵守の厳格化・画像解像度3倍向上・xhigh思考レベル追加の3点が主要変更。料金はOpus 4.6と同額のまま。営業・企画・経理など非エンジニアのビジネスパーソンが実務で今すぐ恩恵を受けられる変化をBefore/After比較で解説します。
【2026年4月】LINEヤフー新AIブランド「Agent i」が始動──1億人が今すぐ使えるAIエージェント、できることを全解説
LINEヤフーが2026年4月20日に新AIエージェント「Agent i」を開始。LINE・Yahoo!アカウントのみで追加設定ゼロ、7種の領域エージェントを搭載。ビジネスパーソンが今日から試せる使い方を解説。