たきびAIラボ TAKIBI · AI · LAB

#推論最適化

5 本
本番LLMのLoRAアダプタ管理設計ガイド:バージョニング・ホットスワップ・マージ戦略の実務パターン
💻AI開発 ハウツー

複数のLoRAアダプタを本番MLパイプラインで管理するための4パターンを実装コード付きで解説する。HuggingFace PEFT+MLflowによるバージョニング、vLLM dynamic LoRA loadingでのホットスワップ、Task Arithmetic・DARE・TIESでのマージ戦略、評価ゲート設計まで体系的に整理する。

2026.05.31
LLM継続学習の戦略選択ガイド:EWC・リプレイ・LoRAアダプタ分離・ProCLの設計判断
💻AI開発 ハウツー

本番LLMを継続的に更新する際の壊滅的忘却対策として、EWC・リプレイバッファ・LoRAアダプタ分離(O-LoRA)・プログラムメモリ型(ProCL)の4手法を追加学習コスト・推論オーバーヘッド・実装難易度・忘却抑制効果の4軸で比較し、ユースケース別の設計判断基準を示す。

2026.05.30
RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態(arXiv 2605.06241)
📰AIニュース ニュース

USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ(Sparse Policy Selection)と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。

2026.05.26
PicoSpec論文解説:エッジクラウド協調推論でネットワーク遅延を隠蔽する非同期Speculative Decoding(arXiv 2603.19133)
💻AI開発 ハウツー

エッジデバイス上のSLMとクラウドLLMが協調するSpeculative Decodingでは、往復通信遅延が致命的なボトルネックになる。PicoSpec(arXiv 2603.19133)が提案する非同期パイプラインとスパース圧縮付きSeparate Rejection Samplingで最大2.9倍の高速化を達成した仕組みを、vLLMシングルノード実装・DiP-SDとの使い分けとあわせて解説する。

2026.05.23
推論スキル再利用でトークンを削減する:TRS(Thinking with Reasoning Skills)の仕組みと実務への応用
💻AI開発 ハウツー

推論LLMは問題を解くたびに長い思考トークンを消費する。TRS(Thinking with Reasoning Skills)は過去の推論軌跡をコンパクトなスキルに蒸留してRAG的に再利用し、トークンを削減しながら精度を維持する。数学・コーディング実験の結果と実務実装パターンを解説する。

2026.05.08