たきびAIラボ TAKIBI · AI · LAB
📰AIニュース ニュース 公開 2026.05.26

RLはLLMに新しい推論能力を教えない

—ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態(arXiv 2605.06241)

USC・DEVCOM ARLが2026年5月公開のarXiv 2605.06241は、RLがLLMに新たな推論能力を与えるのではなく、ベースモデルが既に持つ解法の確率分布を再配分するだけ(Sparse Policy Selection)と実証。提案手法ReasonMaxxerはRL訓練コストを約1000倍削減しながらフルRLに匹敵する性能を示す。

読了 約12分
RLはLLMに新しい推論能力を教えない——ReasonMaxxer論文が明かすSparse Policy Selectionとコスト1000倍削減の実態(arXiv 2605.06241)

「o1のような推論モデルは、強化学習(RL)によって新しい数学的思考能力を獲得している」——これはAIエンジニアの間で広く共有されてきた直感だ。しかし2026年5月7日にarXivへ投稿された論文は、この直感に正面から疑問を投げかけている。

USC(南カリフォルニア大学)とDEVCOM ARL(米陸軍研究所)の研究者が公開した論文「Rethinking RL for LLM Reasoning: It’s Sparse Policy Selection, Not Capability Learning」(arXiv 2605.06241)は、RLがLLM推論を改善する仕組みを3つのモデルファミリー・6スケール・6つの数学推論ベンチマークで精査し、驚くべき結論を導いた。RLは新しい推論スキルを教えていない——それどころか、RL効果の大半は生成トークンのわずか1〜3%に集中しているというのだ。


論文の概要:誰が・何を・どうやって調べたか

  • タイトル: Rethinking RL for LLM Reasoning: It’s Sparse Policy Selection, Not Capability Learning
  • 著者: Ömer Faruk Akgül(USC)、Rajgopal Kannan(DEVCOM ARL)、Willie Neiswanger(USC)、Viktor Prasanna(USC)
  • 公開日: 2026年5月7日(arXiv プレプリント、査読前)
  • 原論文: https://arxiv.org/abs/2605.06241

本論文の出発点は単純な問いだ。「RLファインチューニングされた推論モデルは、ベースモデルが持っていない推論能力を本当に習得しているのか?」

この問いを検証するため、著者らは3つのモデルファミリーを複数スケールで比較し、MATH-500・GSM8K・AMC 2023・AIME 2024・Minerva Mathなど6つの数学推論ベンチマーク上でRL前後の振る舞いを分析した。さらに、生成トークン列のどの位置でRL訓練による確率変化が集中しているかを定量的に計測している。


何が新しいのか:「能力学習」から「疎な方策選択」へ

RLによる推論改善の従来理解は「RL訓練がモデルに新しい数学的ステップの踏み方を教える」というものだった。しかしこの論文が示すのは、まったく異なる絵だ。

ベースモデルはすでに正解への道筋を「知っている」。複数の正答軌跡(correct reasoning trajectories)が潜在的な確率分布として存在している。問題は、これらの正答軌跡が低い確率質量しか割り当てられていないことだ。RLはそこへ的を絞り、確率分布を再配分する——いわば「埋もれていた正答を表に引き上げる」作業をしているにすぎない。

著者らはこれを Sparse Policy Selection(疎な方策選択) と呼ぶ。

特に注目すべきは「疎(sparse)」という形容詞の意味だ。確率変化の大部分は、トークン列の中でも高エントロピーな分岐点——モデルが「どちらに進むか」と迷う瞬間——に集中している。そしてそのようなトークンは、全トークンのわずか**1〜3%**にすぎない。残り97〜99%のトークンについては、RL訓練前後でほとんど確率分布が変わっていない。

この発見が正しければ、RLは「脳全体を鍛え直す」ような全体的な学習ではなく、「意思決定の急所だけを矯正する」ごく局所的な操作ということになる。


提案手法:ReasonMaxxer

この理解が正しいなら、フルRLを回避しながら同等の効果を得られないか。著者らが提案するのが ReasonMaxxer だ。

ReasonMaxxerの設計思想はシンプルだ。「正答軌跡の確率を上げる」という目的だけを直接的に達成する軽量な訓練方式を用いる。具体的には**エントロピーゲート付き対比損失(entropy-gated contrastive loss)**を用いる。エントロピーが高いトークン位置——つまりモデルが迷っている分岐点——に絞って、正答軌跡の確率を上げ、誤答軌跡の確率を下げる対比的な学習を行う。

これにより、フルRLが伴う大量のオンライン rollout・報酬モデルの設計・PPOやGRPOといる複雑なアルゴリズムを使わずに、RL相当の効果を引き出すことを狙う。

実験上の特徴は次の通りだ。

  • ロールアウト数: 数百件(フルRLは通常数千〜数万件)
  • 訓練時間: 数分(シングルGPU)
  • 訓練コスト: フルRLの約1/1000

6ベンチマークでの結果として、ReasonMaxxerはフルRLに匹敵または超える性能を示した、と著者らは報告している。具体的なスコアについては原論文の表を参照されたい(arXiv 2605.06241の実験セクション)。


主な結果:何が実証されたか

論文の主な実験結果をまとめる。

分析実験(RL効果の局在化)

  • RL訓練前後で確率分布が有意に変化するトークンは、全生成トークンのわずか1〜3%
  • 変化が集中するのは、高エントロピーな「分岐点」トークン(次のステップが複数考えられる場所)
  • 低エントロピーなトークン(文法的・定型的な部分)への影響はほぼゼロ

ReasonMaxxerのベンチマーク性能

  • 数学推論6ベンチマーク(MATH-500、GSM8K、AMC 2023、AIME 2024、Minerva Math)でフルRLに匹敵または超える性能
  • 3モデルファミリー・6スケールで一貫した傾向
  • 訓練コストは約1000倍削減

ここで重要な留保を加えておく。この結果は数学推論タスクを対象にしたものだ。コーディング、自然言語推論、マルチモーダルタスクへの汎化については、論文内では主張されていない。


限界と注意点

この論文を実務に活かすにあたって理解しておくべき限界は3点ある。

1. 数学推論タスク中心
実験はMATH-500などの数学ベンチマークが中心だ。コーディング補助や文書要約など他のタスクでも同様のメカニズムが働くかは未検証であり、著者らも明示的に汎化を主張していない。

2. 査読前プレプリント
arXivへの投稿は2026年5月7日。独立した再現実験や国際会議での査読を経ていない。著者らの方法論の選択(エントロピーしきい値の設定など)が結果に与える影響についても、外部検証が必要だ。

3. ベースモデルの前提
「ベースモデルが既に正答軌跡を持っている」という前提に依存する。十分な事前学習を経ていないモデルや、まったく新しいドメインに適用する場合は、前提が崩れる可能性がある。


実務への示唆:MLエンジニアはどう受け取るべきか

それでも、この論文がもたらす実務上の示唆は小さくない。

推論モデルの訓練コスト最適化を検討している場合

現在、GPT-o1やDeepSeek-R1などの推論モデルを再現・改良しようとするとフルRLパイプラインが必要で、膨大なGPU時間とrollout生成が伴う。ReasonMaxxerの結果が再現されるなら、この負担を大幅に削減できる可能性がある。シングルGPUで数分の訓練というスケールは、大規模なインフラを持たない研究チームや中小規模の開発チームにも現実的な選択肢を開く。

ファインチューニング戦略の再考

Sparse Policy Selectionの知見は「どこに学習コストをかけるべきか」という問いへの答えを変える可能性がある。全トークンに均等に学習信号を流すのではなく、高エントロピーな分岐点に集中的に介入するアプローチは、他のファインチューニング手法にも応用できるかもしれない。

推論モデルの「能力」の解釈

「o1はRLによって真に新しい推論能力を獲得している」という前提でシステム設計をしているなら、この論文はその前提を見直す契機になる。推論モデルがベースモデルにない能力を持つと仮定している箇所は、再検証の余地がある。

一方で、実際の推論モデル(o1、DeepSeek-R1など)がRLを含む多段階の訓練を経ていることも事実だ。本論文の結果は「学習フェーズにおけるRLの役割の再解釈」であって、「現行の推論モデルがすべてSparse Policy Selectionで説明できる」という主張ではないことに注意したい。


周辺研究との関係

本論文は同時期に公開された関連研究といくつかの接点を持つが、焦点はまったく異なる。

TRS(arXiv 2604.21764)との違い
TRSは推論時(inference time)に過去の推論軌跡を再利用してトークンを削減する手法だ(TRS論文解説記事参照)。本論文は「学習フェーズ」の問いを扱っており、対象フェーズが根本的に異なる。

RL学習モデルのリワードハッキング研究(arXiv 2605.02964)との違い
RL学習モデルのリワードハッキングリスクは、RL訓練済みモデルがエージェント用途で意図しない抜け穴を悪用するリスクを定量化した研究だ。本論文はRLが何をしているかの機構解明であり、訓練後の振る舞いリスクではなく訓練過程の原理を問う。

どちらの論文も「RLとLLM」という交差点に位置するが、問い・方法・実務的含意はそれぞれ独立している。


FAQ

よくある質問

クリックで展開。

ReasonMaxxerはすでに使えますか?
「RL不要」という結論ですか?

そうではありません。論文が主張するのは「RLは新能力を教えるのではなく既存能力の確率分布を再配分している」という機構の再解釈です。また、ReasonMaxxerがRL相当の効果を軽量に得られる可能性を示しましたが、現行の商用推論モデルがRLなしで構築できるという主張ではありません。

数学以外のタスク(コーディング、文書要約など)にも当てはまりますか?

本論文の実験は数学推論ベンチマークに限定されています。著者らも他タスクへの汎化を主張していません。コーディングや自然言語推論への適用は独自の検証が必要です。

この論文がLLM実装に直接影響するのはいつごろですか?

プレプリント段階のため、まず独立した再現研究や学会での査読が必要です。実装への反映は数ヶ月〜1年以上かかる可能性があります。ただし、小規模な検証実験は今すぐ始められます。

「高エントロピーな分岐点」とは具体的にどういうトークンですか?

モデルが次のトークンを選ぶときに確率分布が均等に近い(平坦な)状態になる位置です。数学問題を解くときの「次の計算ステップをどう進めるか」「どの補題を使うか」といった判断の瞬間がこれに当たります。逆に「=」「。」などの定型的なトークンはエントロピーが低く、RL訓練の影響をほとんど受けないとされています。


まとめ

arXiv 2605.06241「Rethinking RL for LLM Reasoning」が提示した核心は、RLはLLMの推論能力を「生成」するのではなく、既存能力の「選択確率を調整」するにすぎないという洞察だ。そしてその調整は全トークンのわずか1〜3%に集中している。

この理解を出発点にして提案されたReasonMaxxerは、フルRLの約1000倍安価な訓練で同等の数学推論性能を示した。MLエンジニアにとっては「推論モデルを内製するときの訓練コストをどう削減するか」という実践的な問いへの、有望な仮説を提供している。

もちろん、これは査読前プレプリントだ。数値の独立検証、数学以外のタスクへの汎化、本番環境での安定性——確認すべきことは山積みだ。しかし「RLは何をしているのか」という根本的な問いに一つの答えを示した点で、今後のLLM訓練研究に影響を与える可能性のある論文だと思う。


次に読むおすすめ

この記事でRLと推論モデルの訓練コストについて全体像をつかんだら、次は実際のAIツール選びと活用に踏み込んでみてほしい。推論モデルを使いこなすには「どのモデルが何の用途に向いているか」を体感として知っておくと、開発・業務の両面で判断が早くなる。

noteで続きを読む


関連記事


参考リンク