亚洲乱码国产乱码精品精,久久青青91费线频观青,欧美五月丁香六月综合合,国产成人三级片在线播放

32B小模型憑GRPO逆襲推理謎題,成本暴降100倍,Qwen小模型經(jīng)強(qiáng)化學(xué)習(xí),推理能力超預(yù)期

2025-03-07 16:14:58 50觀看

在超硬核的“時(shí)間線索”推理謎題中,32B小模型借助GRPO擊敗了其他模型,其推理能力超越了o1、o3 - mini、DeepSeek - R1等,并且訓(xùn)練成本大幅下降100倍。還介紹了研究人員如何對(duì)小模型進(jìn)行強(qiáng)化訓(xùn)練,以及在訓(xùn)練過程中的一些發(fā)現(xiàn),如模型推理長度的變化等內(nèi)容。tro壹木網(wǎng)-日常常見問題解答

在具有挑戰(zhàn)性的“時(shí)間線索”(Temporal Clue)邏輯謎題中,這一謎題脫胎于經(jīng)典桌游Clue并加入新維度,堪稱邏輯推理的“珠穆朗瑪峰”,它不僅考驗(yàn)?zāi)P突就评砟芰?,還能暴露頂級(jí)大模型軟肋?;趶?qiáng)化學(xué)習(xí)微調(diào)后的Qwen 2.5 32B,其推理能力完全碾壓o1、o3 - mini、R1,甚至追平Claude 3.7 Sonnet,整個(gè)模型推理成本暴降100多倍。前谷歌工程師、初創(chuàng)OpenPipe聯(lián)創(chuàng)Kyle Corbitt和團(tuán)隊(duì)將“時(shí)間線索”謎題作為模型的“終極試煉場(chǎng)”,提出小模型在復(fù)雜推理任務(wù)中能否逆襲的假設(shè)。他們選用開源的Qwen模型(14B和32B),通過GRPO強(qiáng)化學(xué)習(xí)進(jìn)行魔鬼式訓(xùn)練,小模型推理性能顯著提升。不過,團(tuán)隊(duì)還發(fā)現(xiàn)Qwen 14B的推理長度隨時(shí)間“隨機(jī)”增加,Qwen 32B的推理長度卻在減少,這發(fā)生在獎(jiǎng)勵(lì)機(jī)制完全不涉及長度的情況下。在AI推理領(lǐng)域,自去年OpenAI推出o系列推理模型后,強(qiáng)化學(xué)習(xí)掀起狂潮,諸多巨頭入局打造高級(jí)推理模型,很多基準(zhǔn)測(cè)試接近飽和,但邏輯推理仍是難題。為此,OpenPipe兩位聯(lián)創(chuàng)決定用RL微調(diào)后的小模型挑戰(zhàn)復(fù)雜推理題。研究人員打造了新基準(zhǔn)“時(shí)間線索”,將謎題轉(zhuǎn)化為單人邏輯謎題。他們先對(duì)頂尖大模型進(jìn)行測(cè)試,包括DeepSeek - R1、o1、o3 - mini、Claude Sonnet 3.7以及開源的Qwen 14B和32B,結(jié)果Claude Sonnet 3.7表現(xiàn)最優(yōu),開源DeepSeek - R1與o1、o3 - mini性能相當(dāng),未經(jīng)調(diào)優(yōu)的Qwen 2.5 Instruct模型表現(xiàn)平平。那么如何將較小的開源模型訓(xùn)練到前沿水平呢?答案是強(qiáng)化學(xué)習(xí)。這里L(fēng)LM是智能體,謎題是環(huán)境。研究人員選擇了由DeepSeek開發(fā)的GRPO算法,它簡化訓(xùn)練過程且性能強(qiáng)大。為加速實(shí)驗(yàn)省略Kullback - Leibler(KL)散度懲罰。在訓(xùn)練過程中,有諸多環(huán)節(jié),如生成模型對(duì)謎題任務(wù)的響應(yīng)、對(duì)響應(yīng)評(píng)分等基本步驟。在生成響應(yīng)時(shí)使用vLLM推理引擎,Prefix caching很重要,還需解決向vLLM發(fā)送過多請(qǐng)求的問題。處理完成內(nèi)容時(shí)使用標(biāo)準(zhǔn)的HuggingFace Transformers AutoTokenizer。Qwen模型雖經(jīng)過預(yù)訓(xùn)練和指令微調(diào),但還不能可靠解決“時(shí)間線索”謎題,不過偶爾成功就夠了。研究人員通過增加良好推理概率、減少“不良”推理概率,將模型引導(dǎo)至“偵探大師”級(jí)水平,采用策略梯度方法計(jì)算損失調(diào)整權(quán)重,使用torchtune庫訓(xùn)練。雖然主要用Qwen模型,但也對(duì)8B和70B的Llama模型進(jìn)行實(shí)驗(yàn)。torchtune提供多種節(jié)省內(nèi)存和提升性能的工具。模型在經(jīng)過超過100次迭代訓(xùn)練后實(shí)現(xiàn)SOTA級(jí)演繹推理能力。訓(xùn)練過程中性能提升遵循冪律分布,研究人員推測(cè)模型可能過早收斂于初期有效的貪婪策略。輸出長度在訓(xùn)練期間有有趣變化,剛開始響應(yīng)長度逐步增加后趨于穩(wěn)定,后期14B模型響應(yīng)變長,32B模型響應(yīng)長度顯著減少。為定性評(píng)估邏輯推理能力提升,團(tuán)隊(duì)用Claude Sonnet 3.7分析Qwen 32B模型解謎推理能力,發(fā)現(xiàn)訓(xùn)練后模型邏輯推理能力提升。團(tuán)隊(duì)還根據(jù)Fireworks AI的無服務(wù)器定價(jià)方案估算Qwen模型成本,發(fā)現(xiàn)提出的方法改善了成本與準(zhǔn)確率的權(quán)衡關(guān)系。最后,團(tuán)隊(duì)發(fā)現(xiàn)僅用16個(gè)訓(xùn)練樣例就能實(shí)現(xiàn)10 - 15%的顯著性能提升。tro壹木網(wǎng)-日常常見問題解答

本文總結(jié)了在“時(shí)間線索”邏輯謎題中,小模型通過GRPO強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)推理能力的逆襲,包括超越部分大模型、推理成本大幅下降,還闡述了模型訓(xùn)練過程中的各種操作、遇到的現(xiàn)象以及最終取得的成果,如實(shí)現(xiàn)SOTA級(jí)演繹推理能力、改善成本與準(zhǔn)確率的權(quán)衡關(guān)系等。tro壹木網(wǎng)-日常常見問題解答

本文鏈接:http://m.zh1234.com/news5303.html32B小模型憑GRPO逆襲推理謎題,成本暴降100倍,Qwen小模型經(jīng)強(qiáng)化學(xué)習(xí),推理能力超預(yù)期

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com。天上從來不會(huì)掉餡餅,請(qǐng)大家時(shí)刻謹(jǐn)防詐騙
博爱县| 轮台县| 南澳县| 琼结县| 化隆| 兴安县| 察隅县| 斗六市| 开远市| 金坛市| 视频| 巧家县| 津南区| 芜湖市| 德昌县| 措勤县| 石屏县| 涟水县| 西乌珠穆沁旗| 微博| 铜鼓县| 昆山市| 迁安市| 湄潭县| 南通市| 建瓯市| 田阳县| 昌图县| 文登市| 田东县| 南安市| 凤阳县| 安陆市| 锦屏县| 富民县| 宁海县| 和政县| 茌平县| 汉阴县| 嘉祥县| 东乡族自治县|