#LLM評価

10 本

GRPO・DAPO・DPOの使い分け実践ガイド：検証可能報酬ありのタスクでDeepSeek-R1流RLファインチューニングを選ぶ判断基準

GRPOの仕組みと訓練不安定の原因、DAPOがGRPOを改善する4技術、DPOとの適用タスク差を実務目線で比較。TRL v1.0のGRPOTrainer・DPOTrainer・SFTTrainerを使った実装コードと手法選択フローを実務エンジニア向けに解説する。

2026.06.12

📰AIニュースニュース

LLMは自分を自己訂正できない——「自己訂正の幻想」論文が解明したロールラベルアーティファクトとエージェント設計への実践的示唆（arXiv 2606.05976）

Chen et al.（arXiv 2606.05976、2026年6月4日）は、LLMの自己訂正成否がコンテンツではなくチャットテンプレートのロールラベルに起因するアーティファクトであることを実証。7モデルファミリー・3ドメインの制御実験で訂正率が23〜93ポイント変化し、マルチエージェント設計の優位性を示す。

2026.06.09

📰AIニュースニュース

事前学習データ選別は「オンライン再重み付け」が勝る：ADAPT論文が示す静的キュレーションの限界（arXiv 2605.05227）

Cambridge・Oxford・Torontoらが2026年4月公開したarXiv 2605.05227は、オフラインのデータ選択・ミキシングより動的な再重み付けが汎化性能を高めると実証。ADAPT（Adaptive Data reweighting for Pretraining and FineTuning）の仕組みと、既存パイプラインへの示唆を解説する（査読前プレプリント）。

2026.06.04

💻AI開発ハウツー

本番LLMのLoRAアダプタ管理設計ガイド：バージョニング・ホットスワップ・マージ戦略の実務パターン

複数のLoRAアダプタを本番MLパイプラインで管理するための4パターンを実装コード付きで解説する。HuggingFace PEFT＋MLflowによるバージョニング、vLLM dynamic LoRA loadingでのホットスワップ、Task Arithmetic・DARE・TIESでのマージ戦略、評価ゲート設計まで体系的に整理する。

2026.05.31

💻AI開発ハウツー

LLM継続学習の戦略選択ガイド：EWC・リプレイ・LoRAアダプタ分離・ProCLの設計判断

本番LLMを継続的に更新する際の壊滅的忘却対策として、EWC・リプレイバッファ・LoRAアダプタ分離（O-LoRA）・プログラムメモリ型（ProCL）の4手法を追加学習コスト・推論オーバーヘッド・実装難易度・忘却抑制効果の4軸で比較し、ユースケース別の設計判断基準を示す。

2026.05.30

📰AIニュースニュース

事前学習・SFT・RLを一つのフレームワークで統合するIXT：スケーリング曲線を「曲げる」Introspective X Trainingとは（arXiv 2605.20285）

arXiv 2605.20285（2026年5月公開）が提案するIntrospective X Training（IXT）は、thinking reward modelが付与した自然言語クリティークを prefix-conditioning として全学習ステージに注入するフレームワーク。7.5B〜12BモデルをアノテーションコストこみでFLOP効率最大2.8倍改善し、通常学習では到達できない性能水準を数学・コーディングで達成した。

2026.05.27

📰AIニュースニュース

RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態（arXiv 2605.06241）

USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ（Sparse Policy Selection）と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。

2026.05.26

📰AIニュースニュース

RL学習モデルはリワードハッキングしやすい：エージェント開発者のためのモデル選定リスク評価ガイド（arXiv 2605.02964）

arXiv 2605.02964が示したエクスプロイト率0%〜13.9%の格差を「どのモデルをエージェントに採用するか」という実務判断に転換する。RL学習モデルのリワードハッキングリスク、モデル別選定指針、ガードレール設計の考え方を整理する。

2026.05.22

💻AI開発ハウツー

LLMハルシネーション検出手法の選び方ガイド【2026年版】：SelfCheckGPT・Koopman・UQ・FactSelfCheckを実務で使い分ける

LLMハルシネーション検出の3系統（サンプリング一貫性・Koopman/DMD・不確実性定量化）をAPIアクセス制約・コスト・精度・実装難易度の4軸で比較。ユースケース別の選択フローと実務での組み合わせ戦略を解説する。

2026.05.17

💻AI開発ハウツー

ブラックボックスLLMのハルシネーションをKoopman演算子で検出する：arXiv 2605.05134 論文解説と実務への応用

Koopman演算子とDMDを使い、APIのみでLLMハルシネーションを低コスト検出する手法（arXiv 2605.05134）を解説。閉源API環境での実装可能性とSelfCheckGPT・UQとの使い分けを実務視点でまとめる。

2026.05.09