#LLM評価
7 本
本番LLMのLoRAアダプタ管理設計ガイド:バージョニング・ホットスワップ・マージ戦略の実務パターン
複数のLoRAアダプタを本番MLパイプラインで管理するための4パターンを実装コード付きで解説する。HuggingFace PEFT+MLflowによるバージョニング、vLLM dynamic LoRA loadingでのホットスワップ、Task Arithmetic・DARE・TIESでのマージ戦略、評価ゲート設計まで体系的に整理する。
LLM継続学習の戦略選択ガイド:EWC・リプレイ・LoRAアダプタ分離・ProCLの設計判断
本番LLMを継続的に更新する際の壊滅的忘却対策として、EWC・リプレイバッファ・LoRAアダプタ分離(O-LoRA)・プログラムメモリ型(ProCL)の4手法を追加学習コスト・推論オーバーヘッド・実装難易度・忘却抑制効果の4軸で比較し、ユースケース別の設計判断基準を示す。
事前学習・SFT・RLを一つのフレームワークで統合するIXT:スケーリング曲線を「曲げる」Introspective X Trainingとは(arXiv 2605.20285)
arXiv 2605.20285(2026年5月公開)が提案するIntrospective X Training(IXT)は、thinking reward modelが付与した自然言語クリティークを prefix-conditioning として全学習ステージに注入するフレームワーク。7.5B〜12BモデルをアノテーションコストこみでFLOP効率最大2.8倍改善し、通常学習では到達できない性能水準を数学・コーディングで達成した。
RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態(arXiv 2605.06241)
USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ(Sparse Policy Selection)と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。
RL学習モデルはリワードハッキングしやすい:エージェント開発者のためのモデル選定リスク評価ガイド(arXiv 2605.02964)
arXiv 2605.02964が示したエクスプロイト率0%〜13.9%の格差を「どのモデルをエージェントに採用するか」という実務判断に転換する。RL学習モデルのリワードハッキングリスク、モデル別選定指針、ガードレール設計の考え方を整理する。
LLMハルシネーション検出手法の選び方ガイド【2026年版】:SelfCheckGPT・Koopman・UQ・FactSelfCheckを実務で使い分ける
LLMハルシネーション検出の3系統(サンプリング一貫性・Koopman/DMD・不確実性定量化)をAPIアクセス制約・コスト・精度・実装難易度の4軸で比較。ユースケース別の選択フローと実務での組み合わせ戦略を解説する。
ブラックボックスLLMのハルシネーションをKoopman演算子で検出する:arXiv 2605.05134 論文解説と実務への応用
Koopman演算子とDMDを使い、APIのみでLLMハルシネーションを低コスト検出する手法(arXiv 2605.05134)を解説。閉源API環境での実装可能性とSelfCheckGPT・UQとの使い分けを実務視点でまとめる。