久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強(qiáng)化穩(wěn)定性與探索能力

每日快訊
2025
08/21
17:57
分享
評(píng)論

在大語(yǔ)言模型的競(jìng)爭(zhēng)中,數(shù)學(xué)與代碼推理能力已經(jīng)成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓(xùn)練,到 DeepSeek 提出 GRPO 算法,我們見(jiàn)證了強(qiáng)化學(xué)習(xí)在推理模型領(lǐng)域的巨大潛力。然而,想要復(fù)現(xiàn)這些頂尖成果,并不只是“多喂點(diǎn)數(shù)據(jù)、跑幾輪訓(xùn)練”這么簡(jiǎn)單。現(xiàn)實(shí)是,很多中小規(guī)模的開源推理模型,在 AIME 這樣的高難數(shù)學(xué)競(jìng)賽題、或 LiveCodeBench 這樣的復(fù)雜代碼評(píng)測(cè)中,依然與閉源 SOTA 存在明顯差距。

最近,快手 Klear 語(yǔ)言大模型團(tuán)隊(duì)推出了全新的 Klear-Reasoner 模型,基于 Qwen3-8B-Base 打造,在數(shù)學(xué)與代碼的多個(gè)權(quán)威基準(zhǔn)測(cè)試中達(dá)到同規(guī)模模型的 SOTA 水平,并完整公開了訓(xùn)練細(xì)節(jié)與全流程 pipeline。

論文鏈接:https://arxiv.org/pdf/2508.07629

Hugging Face:https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub:https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準(zhǔn)測(cè)試中,不僅全面超越同規(guī)模的強(qiáng)力開源模型(包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B),更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績(jī),直接登頂 8B 模型榜首。

在這些成果的背后,最核心的技術(shù)創(chuàng)新是Klear團(tuán)隊(duì)提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法 ——一種在保留訓(xùn)練穩(wěn)定性的同時(shí),大幅提升探索能力的強(qiáng)化學(xué)習(xí)優(yōu)化方法。

傳統(tǒng)clip的隱性代價(jià)

在PPO和GRPO等常用的策略優(yōu)化方法中,clip是控制訓(xùn)練穩(wěn)定性的重要手段,它通過(guò)限制策略更新幅度,避免模型一步走得太遠(yuǎn)而導(dǎo)致崩潰。Klear團(tuán)隊(duì)在實(shí)踐中發(fā)現(xiàn),clip 機(jī)制在保護(hù)穩(wěn)定性的同時(shí),也切斷了模型獲取最有價(jià)值學(xué)習(xí)信號(hào)的通道,模型變得保守,不敢嘗試新路徑,遇到錯(cuò)誤也修正遲緩。

GPPO方法:保留梯度的“溫和”方案

為解決以上問(wèn)題,Klear團(tuán)隊(duì)提出的 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,GPPO的核心思想很直接:不丟棄任何梯度,并且對(duì)其進(jìn)行溫和回傳。通過(guò) GPPO,推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點(diǎn),讓它們既敢于嘗試,也能迅速糾錯(cuò)。

在與現(xiàn)有方法的對(duì)比中(包括DAPO的clip-higher以及MiniMax-M1的CISPO方法),GPPO在數(shù)學(xué)和代碼任務(wù)上都表現(xiàn)出優(yōu)勢(shì)。

數(shù)學(xué)強(qiáng)化學(xué)習(xí)訓(xùn)練中GPPO、GRPO(帶Clip Higher策略)與CISPO的對(duì)比。

實(shí)驗(yàn)洞察

除了提出GPPO算法外,Klear團(tuán)隊(duì)在論文中對(duì)訓(xùn)練流程的多個(gè)關(guān)鍵環(huán)節(jié)進(jìn)行了深入實(shí)驗(yàn)與分析,揭示了長(zhǎng)思維鏈推理模型成功背后的幾個(gè)核心要素,為社區(qū)貢獻(xiàn)了一條可復(fù)現(xiàn)、可推廣的推理模型監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)路線:

·SFT階段:質(zhì)量?jī)?yōu)先,數(shù)據(jù)可靠性比數(shù)量更重要

實(shí)驗(yàn)表明,與數(shù)據(jù)量大但質(zhì)量參差的數(shù)據(jù)源相比,來(lái)自少數(shù)高質(zhì)量數(shù)據(jù)源的樣本更具訓(xùn)練效率和效果優(yōu)勢(shì)。

高質(zhì)量數(shù)學(xué)數(shù)據(jù)Top-K子集組合對(duì)監(jiān)督微調(diào)(SFT)性能的影響。

·SFT階段:高難樣本容錯(cuò)反而能促進(jìn)學(xué)習(xí)

對(duì)于簡(jiǎn)單任務(wù),錯(cuò)誤樣本的引入會(huì)明顯影響性能,但對(duì)于高難度任務(wù),保留部分帶瑕疵的推理路徑,反而能夠提升模型表現(xiàn)。

通過(guò)三組實(shí)驗(yàn)分析了數(shù)據(jù)正確性對(duì)模型性能的影響,分別在簡(jiǎn)單(Easy)、困難(Hard)和整體(Overall)任務(wù)集上對(duì)比了純正確數(shù)據(jù)(Only True)與含錯(cuò)誤數(shù)據(jù)的混合數(shù)據(jù)(Mixed)的表現(xiàn)差異。表格中加粗?jǐn)?shù)值標(biāo)識(shí)了各組內(nèi)的最優(yōu)性能結(jié)果。

·RL階段:軟獎(jiǎng)勵(lì)優(yōu)于硬獎(jiǎng)勵(lì)

在代碼任務(wù)的強(qiáng)化學(xué)習(xí)階段,使用軟獎(jiǎng)勵(lì)(根據(jù)通過(guò)測(cè)試用例的通過(guò)率)比硬獎(jiǎng)勵(lì)(完全通過(guò)得分,否則為零)更有效

代碼強(qiáng)化學(xué)習(xí)中軟獎(jiǎng)勵(lì)與硬獎(jiǎng)勵(lì)策略的對(duì)比。在軟獎(jiǎng)勵(lì)設(shè)置中,獎(jiǎng)勵(lì)值等于測(cè)試用例通過(guò)率;而在硬獎(jiǎng)勵(lì)設(shè)置中,僅當(dāng)所有測(cè)試用例均通過(guò)時(shí)給予正向獎(jiǎng)勵(lì),否則給予負(fù)向獎(jiǎng)勵(lì)。

·RL階段:代碼數(shù)據(jù)測(cè)試用例過(guò)濾

在代碼RL數(shù)據(jù)準(zhǔn)備階段,Klear團(tuán)隊(duì)調(diào)用DeepSeek-R1-0120為每個(gè)prompt生成了16條回復(fù),只有pass@16大于0.5的數(shù)據(jù)會(huì)被保留

在LiveCodeBench V5基準(zhǔn)(avg@4指標(biāo))上,使用過(guò)濾與未過(guò)濾數(shù)據(jù)的代碼強(qiáng)化學(xué)習(xí)性能對(duì)比。Filter表示使用過(guò)濾數(shù)據(jù)的強(qiáng)化學(xué)習(xí)結(jié)果,而w/o Filter代表使用原始未過(guò)濾數(shù)據(jù)集的結(jié)果。

Klear-Reasoner 的推出,不僅是一份性能亮眼的開源權(quán)重,更為社區(qū)貢獻(xiàn)了一條可復(fù)現(xiàn)、可推廣的推理模型監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)路線。通過(guò) GPPO,推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點(diǎn),讓它們既敢于嘗試,也能迅速糾錯(cuò)。這對(duì)于未來(lái)的數(shù)學(xué)、代碼,甚至其他RLVR任務(wù),都有著重要的參考價(jià)值。

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
理想汽車
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

相關(guān)推薦

1
3
久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

    9000px;">

      久久综合九色综合久久久精品综合| 亚洲精品乱码久久久久久| 成人精品小蝌蚪| 91小视频在线| 欧美日韩国产成人在线91| 欧美日本国产视频| 久久精品在这里| 蜜臀av性久久久久蜜臀av麻豆| 久久99精品国产麻豆不卡| 久久久不卡网国产精品二区| 亚洲精品视频在线观看免费| 九色porny丨国产精品| 色视频一区二区| 欧美成人欧美edvon| 亚洲国产美国国产综合一区二区| 成人a免费在线看| 久久免费精品国产久精品久久久久| 亚洲国产中文字幕在线视频综合| 久久久久国产精品人| 欧美高清你懂得| 亚洲自拍都市欧美小说| 91免费版pro下载短视频| 在线观看精品一区| 一区二区三区成人在线视频| 99久久综合狠狠综合久久| 国产精品视频麻豆| 波多野结衣视频一区| 日韩av电影免费观看高清完整版 | 精品在线观看视频| 国产精品久久久久影院色老大| 91久久精品一区二区三区| 国产在线精品一区二区三区不卡| 亚洲国产视频一区二区| 久久久99精品久久| 欧美一二三四区在线| 欧美图区在线视频| 欧美色涩在线第一页| 91麻豆免费看| 欧美日韩免费高清一区色橹橹| 91欧美一区二区| 波多野结衣在线aⅴ中文字幕不卡| 精品无人码麻豆乱码1区2区| 天天综合天天综合色| 亚洲国产综合色| 午夜一区二区三区在线观看| 亚洲超碰精品一区二区| 亚洲亚洲人成综合网络| 婷婷国产在线综合| 国产永久精品大片wwwapp | 8v天堂国产在线一区二区| 日本韩国精品一区二区在线观看| 一本大道久久精品懂色aⅴ| 色综合久久久久综合99| 欧美怡红院视频| 日韩一区二区电影网| 国产精品久久久久久久久动漫 | 最新久久zyz资源站| 亚洲一区二区中文在线| 久久国产综合精品| 日本精品一级二级| 精品人在线二区三区| 色婷婷综合在线| 欧美一二三四区在线| 国产精品毛片大码女人| 日日夜夜精品视频免费| 成人精品gif动图一区| 欧美电影免费观看高清完整版在线| 国产精品美女www爽爽爽| 久久国产尿小便嘘嘘尿| 欧美精品在欧美一区二区少妇| 中文字幕精品一区二区三区精品| 日韩av一区二区三区四区| 在线免费不卡电影| 亚洲四区在线观看| 成人国产在线观看| 国产精品毛片大码女人| 91在线视频播放地址| 国产精品女主播在线观看| 国产在线不卡视频| 日本一区二区三区免费乱视频| 国产伦精一区二区三区| 久久综合九色综合欧美亚洲| 国产精品一区二区视频| 中文字幕乱码亚洲精品一区| 成人a区在线观看| 婷婷成人激情在线网| 日韩丝袜美女视频| 国产成人免费视频| 中文字幕一区二区三| 色综合久久久网| 丝瓜av网站精品一区二区| 欧美高清你懂得| 国产盗摄女厕一区二区三区| 亚洲欧美经典视频| 久久久久国产精品人| 色呦呦一区二区三区| 国产美女久久久久| 午夜久久久久久| 国产精品狼人久久影院观看方式| 欧美日韩精品高清| 色综合久久久久久久| 懂色av一区二区三区免费看| 另类小说综合欧美亚洲| 亚洲国产精品麻豆| 亚洲激情第一区| 亚洲摸摸操操av| 欧美日韩小视频| 欧洲精品在线观看| 不卡区在线中文字幕| 国产高清无密码一区二区三区| 视频一区二区三区在线| 五月婷婷激情综合| 亚洲国产精品嫩草影院| 亚洲h在线观看| 五月天激情综合| 午夜精品视频一区| 日韩电影在线免费| 精品一区二区三区影院在线午夜| 韩国理伦片一区二区三区在线播放| 亚洲一区二区三区影院| 亚洲国产日韩在线一区模特| 五月婷婷综合网| 国产乱人伦精品一区二区在线观看 | 不卡的av电影| 91社区在线播放| 欧美男男青年gay1069videost| 欧美日韩不卡一区二区| 欧美一级日韩一级| 国产精品免费免费| 丝袜美腿亚洲一区二区图片| 蜜臀av性久久久久蜜臀av麻豆| 国产精品中文有码| 欧美日韩大陆在线| 国产精品美女www爽爽爽| 手机精品视频在线观看| 成人免费观看男女羞羞视频| 精品污污网站免费看| 久久精品人人爽人人爽| 亚洲免费视频成人| 91浏览器打开| 国产精品电影一区二区三区| 亚洲国产欧美另类丝袜| 91色九色蝌蚪| 国产精品毛片久久久久久| 久草热8精品视频在线观看| 91久久精品国产91性色tv| 欧美激情一二三区| 成人午夜在线播放| 中文字幕免费一区| 99久久精品国产毛片| 日韩美女视频一区| 91久久精品一区二区二区| 国产精品不卡一区| 一本久久a久久精品亚洲| 午夜视频一区在线观看| 欧美无砖专区一中文字| 丝袜亚洲另类欧美综合| 26uuu国产日韩综合| 国产精品白丝jk黑袜喷水| 中文字幕免费一区| 欧美日韩另类一区| 国产精品99久久久久久宅男| 久久久久国产精品麻豆ai换脸| 成人av在线一区二区| 五月天欧美精品| 亚洲视频一区二区在线| 欧美一区二区在线播放| 国产剧情一区二区| 夜夜爽夜夜爽精品视频| 精品99一区二区三区| 91麻豆免费观看| 激情综合网av| 天天综合色天天| 顶级嫩模精品视频在线看| 91免费视频观看| 国产在线视频一区二区三区| 国产真实乱对白精彩久久| 99亚偷拍自图区亚洲| 欧美视频一区在线观看| 2024国产精品| 久久久久久久久蜜桃| 91精品国产一区二区三区香蕉| 在线视频你懂得一区| 欧美日韩免费电影| 欧美视频一区二| 日韩欧美中文字幕精品| 欧美一区中文字幕| 久久新电视剧免费观看| 久久久国产一区二区三区四区小说| 欧美mv日韩mv国产| 精品国产sm最大网站免费看| 国产精品久久久一区麻豆最新章节| 国产午夜精品理论片a级大结局 | 色哟哟一区二区在线观看| 另类小说一区二区三区| 成人污视频在线观看| 欧美精品tushy高清| 国产精品日韩成人| 日韩精品久久久久久| 国产不卡高清在线观看视频|