久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強化穩定性與探索能力

每日快訊
2025
08/21
17:57
分享
評論

在大語言模型的競爭中,數學與代碼推理能力已經成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓練,到 DeepSeek 提出 GRPO 算法,我們見證了強化學習在推理模型領域的巨大潛力。然而,想要復現這些頂尖成果,并不只是“多喂點數據、跑幾輪訓練”這么簡單。現實是,很多中小規模的開源推理模型,在 AIME 這樣的高難數學競賽題、或 LiveCodeBench 這樣的復雜代碼評測中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語言大模型團隊推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在數學與代碼的多個權威基準測試中達到同規模模型的 SOTA 水平,并完整公開了訓練細節與全流程 pipeline。

論文鏈接:https://arxiv.org/pdf/2508.07629

Hugging Face:https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub:https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準測試中,不僅全面超越同規模的強力開源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績,直接登頂 8B 模型榜首。

在這些成果的背后,最核心的技術創新是Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法 ——一種在保留訓練穩定性的同時,大幅提升探索能力的強化學習優化方法。

傳統clip的隱性代價

在PPO和GRPO等常用的策略優化方法中,clip是控制訓練穩定性的重要手段,它通過限制策略更新幅度,避免模型一步走得太遠而導致崩潰。Klear團隊在實踐中發現,clip 機制在保護穩定性的同時,也切斷了模型獲取最有價值學習信號的通道,模型變得保守,不敢嘗試新路徑,遇到錯誤也修正遲緩。

GPPO方法:保留梯度的“溫和”方案

為解決以上問題,Klear團隊提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,GPPO的核心思想很直接:不丟棄任何梯度,并且對其進行溫和回傳。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。

在與現有方法的對比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數學和代碼任務上都表現出優勢。

數學強化學習訓練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對比。

實驗洞察

除了提出GPPO算法外,Klear團隊在論文中對訓練流程的多個關鍵環節進行了深入實驗與分析,揭示了長思維鏈推理模型成功背后的幾個核心要素,為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線:

·SFT階段:質量優先,數據可靠性比數量更重要

實驗表明,與數據量大但質量參差的數據源相比,來自少數高質量數據源的樣本更具訓練效率和效果優勢。

高質量數學數據Top-K子集組合對監督微調(SFT)性能的影響。

·SFT階段:高難樣本容錯反而能促進學習

對于簡單任務,錯誤樣本的引入會明顯影響性能,但對于高難度任務,保留部分帶瑕疵的推理路徑,反而能夠提升模型表現。

通過三組實驗分析了數據正確性對模型性能的影響,分別在簡單(Easy)、困難(Hard)和整體(Overall)任務集上對比了純正確數據(Only True)與含錯誤數據的混合數據(Mixed)的表現差異。表格中加粗數值標識了各組內的最優性能結果。

·RL階段:軟獎勵優于硬獎勵

在代碼任務的強化學習階段,使用軟獎勵(根據通過測試用例的通過率)比硬獎勵(完全通過得分,否則為零)更有效

代碼強化學習中軟獎勵與硬獎勵策略的對比。在軟獎勵設置中,獎勵值等于測試用例通過率;而在硬獎勵設置中,僅當所有測試用例均通過時給予正向獎勵,否則給予負向獎勵。

·RL階段:代碼數據測試用例過濾

在代碼RL數據準備階段,Klear團隊調用DeepSeek-R1-0120為每個prompt生成了16條回復,只有pass@16大于0.5的數據會被保留

在LiveCodeBench V5基準(avg@4指標)上,使用過濾與未過濾數據的代碼強化學習性能對比。Filter表示使用過濾數據的強化學習結果,而w/o Filter代表使用原始未過濾數據集的結果。

Klear-Reasoner 的推出,不僅是一份性能亮眼的開源權重,更為社區貢獻了一條可復現、可推廣的推理模型監督學習和強化學習路線。通過 GPPO,推理模型可以在穩定性與探索力之間找到新的平衡點,讓它們既敢于嘗試,也能迅速糾錯。這對于未來的數學、代碼,甚至其他RLVR任務,都有著重要的參考價值。

THE END
廣告、內容合作請點擊這里 尋求合作
理想汽車
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

相關推薦

1
3
久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

    9000px;">

      日韩欧美综合一区| 精品剧情v国产在线观看在线| 成人高清视频免费观看| 91美女精品福利| 777a∨成人精品桃花网| 久久婷婷色综合| 亚洲午夜一区二区三区| 国产乱淫av一区二区三区 | 欧美日韩不卡一区二区| 日韩美女视频在线| 亚洲黄色免费电影| 国产精品99久久久| 欧美狂野另类xxxxoooo| 亚洲国产高清aⅴ视频| 日韩av一区二| 在线视频一区二区三区| 久久婷婷成人综合色| 五月婷婷欧美视频| 99re成人精品视频| 2020国产精品| 免费人成在线不卡| 午夜久久福利影院| 成人免费视频视频在线观看免费 | 午夜电影网亚洲视频| 婷婷综合五月天| 波多野结衣在线aⅴ中文字幕不卡| 欧美一区二区视频在线观看2020 | 亚洲靠逼com| 成人一二三区视频| 欧美精品一区二区高清在线观看| 亚洲午夜久久久| 色婷婷综合久久久中文一区二区| 国产蜜臀97一区二区三区| 日本成人在线看| 国产精一品亚洲二区在线视频| 欧美精品tushy高清| 亚州成人在线电影| 欧美日韩一区小说| 婷婷综合另类小说色区| 欧美日韩激情在线| 亚洲国产精品一区二区www在线 | 色呦呦一区二区三区| 国产午夜精品一区二区| 韩国毛片一区二区三区| 日韩精品专区在线影院重磅| 图片区小说区区亚洲影院| 欧美日本一区二区在线观看| 亚洲成人激情av| 欧美人伦禁忌dvd放荡欲情| 亚洲国产日产av| 欧美日韩国产精品成人| 日韩精品免费专区| 日韩欧美一二三四区| 玖玖九九国产精品| 久久精品免费在线观看| av电影在线观看完整版一区二区| 成人欧美一区二区三区白人| 色综合激情五月| 日日欢夜夜爽一区| 久久久久亚洲蜜桃| 成人av电影免费观看| 欧美在线观看视频一区二区| 日韩电影在线观看网站| 激情五月婷婷综合| 成人黄色免费短视频| 精品一区二区国语对白| 国产传媒欧美日韩成人| 色综合久久久久久久久| 欧美日韩国产乱码电影| 久久色.com| 中文字幕一区二区三区不卡在线| 亚洲视频免费在线| 偷拍自拍另类欧美| 国产在线视频一区二区三区| 国产91对白在线观看九色| 日本电影亚洲天堂一区| 欧美精品日韩一本| 久久久久久久久久久久久久久99 | 亚洲精品成人在线| 色哟哟亚洲精品| 亚洲成av人片www| 日韩欧美电影一二三| 国产精品羞羞答答xxdd| 国产精品久久久久影视| 在线观看亚洲精品视频| 69精品人人人人| 国产在线麻豆精品观看| 国产精品乱人伦| 欧美日韩免费观看一区三区| 久久精品国产一区二区三区免费看 | 久久69国产一区二区蜜臀| 无码av免费一区二区三区试看| 亚洲国产va精品久久久不卡综合| 天堂资源在线中文精品| 毛片av一区二区| 亚洲一区在线视频观看| 国产欧美日韩综合| 亚洲黄色av一区| 日本不卡一二三区黄网| 国产福利精品一区二区| 一本到一区二区三区| 91麻豆视频网站| 91精品国产aⅴ一区二区| 精品国产一区二区三区不卡| 日本一区二区三区视频视频| 亚洲午夜一区二区三区| 国产精品一区二区三区乱码| 日韩精品一区二区三区在线 | 亚洲欧美日韩中文字幕一区二区三区| 欧美日韩精品免费观看视频| 日韩二区在线观看| 久久精品国产免费看久久精品| 成人中文字幕合集| 99久久精品国产精品久久| 欧美一区二区三区成人| 成人精品一区二区三区四区| 91福利视频网站| 久久久久久久综合| 亚洲成人免费av| 成人高清免费在线播放| 欧美一卡二卡三卡四卡| 日韩欧美123| 亚洲国产aⅴ天堂久久| 亚洲成在人线在线播放| 欧美高清精品3d| 日本高清无吗v一区| 麻豆免费看一区二区三区| 一区二区免费看| 成人免费小视频| 中文字幕乱码日本亚洲一区二区 | 在线观看成人小视频| av一二三不卡影片| 国产成人精品网址| 久久精品国产精品青草| 日韩二区三区四区| 日韩高清不卡在线| 亚洲免费观看高清完整版在线观看熊| 色综合中文字幕国产 | 91免费版在线看| 国产欧美一区二区精品性色 | 精品电影一区二区三区| 国产精品久久99| 处破女av一区二区| 欧美一区二区三区免费观看视频| 久久久午夜精品理论片中文字幕| 一区二区三区中文字幕电影| 成人ar影院免费观看视频| 国产免费成人在线视频| 亚洲线精品一区二区三区| 在线一区二区三区四区五区 | 91精品在线免费观看| 亚洲成av人片| 欧美精选一区二区| 麻豆精品一区二区三区| 大美女一区二区三区| 国产日韩欧美精品在线| 奇米777欧美一区二区| 欧美猛男男办公室激情| 男女性色大片免费观看一区二区| 99久久综合国产精品| 欧美丝袜第三区| 日韩精品成人一区二区在线| 欧美第一区第二区| 欧美日韩国产一二三| 在线视频国内自拍亚洲视频| 欧美性猛片aaaaaaa做受| 欧洲精品在线观看| 久久99国产精品麻豆| 午夜精品123| 国产一区二区福利| 91最新地址在线播放| 欧美亚洲丝袜传媒另类| 成人网在线免费视频| 色视频成人在线观看免| 岛国一区二区三区| 在线亚洲精品福利网址导航| 欧美三级在线视频| 精品不卡在线视频| 亚洲欧美综合色| 亚洲 欧美综合在线网络| 一区二区三区视频在线看| 国产嫩草影院久久久久| 欧美日韩国产不卡| 成人免费高清在线| 精品久久人人做人人爰| 日本韩国欧美国产| 国产在线国偷精品免费看| 久久国产精品99久久久久久老狼| 日韩欧美在线综合网| 久久精品人人做| 国产精品情趣视频| 午夜视频一区二区| 国产成+人+日韩+欧美+亚洲| 欧亚一区二区三区| 久久九九全国免费| 亚洲自拍偷拍九九九| 大胆亚洲人体视频| 欧美一区二区免费视频| 亚洲色图自拍偷拍美腿丝袜制服诱惑麻豆| 日韩二区三区在线观看|