#論文解説

LLM量子化手法の選び方ガイド2026：AWQ・GPTQ・RAMP・ReSpinQuantをオンプレ/エッジ運用条件で使い分ける

AWQ・GPTQの概念説明にとどまらず、2026年に登場したRAMP（RL自動ビット幅選択）・ReSpinQuant（回転行列でW4A4精度改善）を加えた4手法をGPUメモリ制約・精度要件・推論スループットの軸で比較し、「どの条件でどの手法を選ぶか」の意思決定フローを示す実務ガイド。

2026.06.11

🛡️サイバーセキュリティニュース

SecurityLingua論文解説：プロンプト圧縮でジェイルブレークの「真の意図」を検出する軽量防御手法（arXiv 2506.12707）

Microsoft Research が提案する SecurityLingua（arXiv 2506.12707）は、プロンプト圧縮器が悪意ある入力の真の意図を抽出し LLM の安全ガードレールを起動する推論時防御手法。クラウド API に依存しないセルフホスト環境向けの仕組み・実験結果・実務への応用を解説します。

2026.06.10

LLMは自分を自己訂正できない——「自己訂正の幻想」論文が解明したロールラベルアーティファクトとエージェント設計への実践的示唆（arXiv 2606.05976）

Chen et al.（arXiv 2606.05976、2026年6月4日）は、LLMの自己訂正成否がコンテンツではなくチャットテンプレートのロールラベルに起因するアーティファクトであることを実証。7モデルファミリー・3ドメインの制御実験で訂正率が23〜93ポイント変化し、マルチエージェント設計の優位性を示す。

2026.06.09

🛡️サイバーセキュリティハウツー

LLMエージェントのトレース異常検知でリソース悪用を早期発見する：OpenTelemetry × Langfuse × Prometheus によるセキュリティ監視設計ガイド

OWASP LLM10:2025の緩和策として明示される「ロギング・モニタリングと異常検知」を実装する。OpenTelemetry Gen AI spans × Langfuse セッション集計 × Prometheus Z スコアアラートの3層パイプラインで、LLMエージェントのリソース悪用を事後検知する方法をコード例付きで解説。

2026.06.07

パラメータ編集でLLMは壊れる：ROME・MEMIT・AlphaEditの推論崩壊を実証した論文（arXiv 2606.00570）と設計転換ガイド

ROME・MEMIT・AlphaEditによるパラメータベースの知識編集がLLMの推論能力を崩壊させることを実証したarXiv 2606.00570（2026年5月30日公開）を解説。ZsREで10編集後に精度が最大8.37pt低下し100編集後はほぼゼロに崩壊するリスクと、検索ベース（RAG）への設計転換チェックリストを提供する。

2026.06.06

DCCD論文解説：非制約ドラフト→制約付きデコードの2ステップでLLM構造化出力の精度を高める（arXiv 2603.03305）

通常の制約付きデコードはトークン単位の強制でセマンティック品質が落ちる問題がある。DCCD（arXiv 2603.03305、Avinash Reddyら、2026年2月）は「非制約ドラフト生成→ドラフト条件付き制約デコード」の2ステップで意味計画と構造強制を分離し、通常制約付きデコードに対して約78〜80.5%の勝率を達成した。outlines/xgrammarとの使い分けを含めて実務目線で解説する。

2026.06.05

事前学習データ選別は「オンライン再重み付け」が勝る：ADAPT論文が示す静的キュレーションの限界（arXiv 2605.05227）

Cambridge・Oxford・Torontoらが2026年4月公開したarXiv 2605.05227は、オフラインのデータ選択・ミキシングより動的な再重み付けが汎化性能を高めると実証。ADAPT（Adaptive Data reweighting for Pretraining and FineTuning）の仕組みと、既存パイプラインへの示唆を解説する（査読前プレプリント）。

2026.06.04

vLLM・SGLangのKVキャッシュ設定を本番チューニングする：prefix caching・量子化・ページドアテンション設定の実務ガイド

vLLM v0.8以降・SGLang最新版でKVキャッシュのGPUメモリ使用量を削減・最適化する実装ガイド。kv_cache_dtype（FP8/FP16）・--enable-prefix-caching・--gpu-memory-utilization・block_sizeの設定例と、SGLangのenable_radix_cache・mem_fraction_staticのチューニング手順を実装コード付きで解説する。

2026.06.02

本番LLMのLoRAアダプタ管理設計ガイド：バージョニング・ホットスワップ・マージ戦略の実務パターン

複数のLoRAアダプタを本番MLパイプラインで管理するための4パターンを実装コード付きで解説する。HuggingFace PEFT＋MLflowによるバージョニング、vLLM dynamic LoRA loadingでのホットスワップ、Task Arithmetic・DARE・TIESでのマージ戦略、評価ゲート設計まで体系的に整理する。

2026.05.31

LLM継続学習の戦略選択ガイド：EWC・リプレイ・LoRAアダプタ分離・ProCLの設計判断

本番LLMを継続的に更新する際の壊滅的忘却対策として、EWC・リプレイバッファ・LoRAアダプタ分離（O-LoRA）・プログラムメモリ型（ProCL）の4手法を追加学習コスト・推論オーバーヘッド・実装難易度・忘却抑制効果の4軸で比較し、ユースケース別の設計判断基準を示す。

2026.05.30

事前学習・SFT・RLを一つのフレームワークで統合するIXT：スケーリング曲線を「曲げる」Introspective X Trainingとは（arXiv 2605.20285）

arXiv 2605.20285（2026年5月公開）が提案するIntrospective X Training（IXT）は、thinking reward modelが付与した自然言語クリティークを prefix-conditioning として全学習ステージに注入するフレームワーク。7.5B〜12BモデルをアノテーションコストこみでFLOP効率最大2.8倍改善し、通常学習では到達できない性能水準を数学・コーディングで達成した。

2026.05.27

RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態（arXiv 2605.06241）

USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ（Sparse Policy Selection）と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。

2026.05.26

PicoSpec論文解説：エッジクラウド協調推論でネットワーク遅延を隠蔽する非同期Speculative Decoding（arXiv 2603.19133）

エッジデバイス上のSLMとクラウドLLMが協調するSpeculative Decodingでは、往復通信遅延が致命的なボトルネックになる。PicoSpec（arXiv 2603.19133）が提案する非同期パイプラインとスパース圧縮付きSeparate Rejection Samplingで最大2.9倍の高速化を達成した仕組みを、vLLMシングルノード実装・DiP-SDとの使い分けとあわせて解説する。

2026.05.23

RL学習モデルはリワードハッキングしやすい：エージェント開発者のためのモデル選定リスク評価ガイド（arXiv 2605.02964）

arXiv 2605.02964が示したエクスプロイト率0%〜13.9%の格差を「どのモデルをエージェントに採用するか」という実務判断に転換する。RL学習モデルのリワードハッキングリスク、モデル別選定指針、ガードレール設計の考え方を整理する。

2026.05.22

LLMエージェントの長期記憶を守る：Mnemonic Sovereignty論文に学ぶメモリポイズニング対策の全体像

LLMエージェントの長期記憶を狙うメモリポイズニング攻撃と、2026年4月公開のサーベイ論文『Mnemonic Sovereignty』が提示するライフサイクル別の防御フレームワークを、実装で参照できるチェックリストに落として解説します。

2026.05.21

AIコーディングアシスタントが幻覚するパッケージ名が攻撃面になる：スロップスクワッティングの実態と開発者が今すぐ取れる対策（arXiv 2605.17062）

5モデル・199,845プロンプトの大規模検証で明らかになったLLMパッケージ幻覚の実態。幻覚率4.62〜6.10%、127の共通幻覚パッケージ名という「スロップスクワッティング」攻撃面の現状と、開発者が今日から実践できる3ステップ対策を解説します。（査読前arXivプレプリント）

2026.05.21

ブラックボックスLLMのハルシネーションをKoopman演算子で検出する：arXiv 2605.05134 論文解説と実務への応用

Koopman演算子とDMDを使い、APIのみでLLMハルシネーションを低コスト検出する手法（arXiv 2605.05134）を解説。閉源API環境での実装可能性とSelfCheckGPT・UQとの使い分けを実務視点でまとめる。

2026.05.09

🛡️サイバーセキュリティ論文解説

自律型SOCはどこまで現実的か：LLMで検知・調査・解決をつなぐ最新論文を実務目線で読む

arXiv論文「Toward Autonomous SOC Operations」をもとに、LLMを使ったSOC自動化の現実性を解説。検知、SIEMクエリ生成、インシデント解決支援をつなぐSQMアーキテクチャのポイントと、企業導入時の注意点を整理します。

2026.05.08

推論スキル再利用でトークンを削減する：TRS（Thinking with Reasoning Skills）の仕組みと実務への応用

推論LLMは問題を解くたびに長い思考トークンを消費する。TRS（Thinking with Reasoning Skills）は過去の推論軌跡をコンパクトなスキルに蒸留してRAG的に再利用し、トークンを削減しながら精度を維持する。数学・コーディング実験の結果と実務実装パターンを解説する。

2026.05.08