在超硬核的“時(shí)間線索”推理謎題中,32B小模型借助GRPO擊敗了其他模型,其推理能力超越了o1、o3 - mini、DeepSeek - R1等,并且訓(xùn)練成本大幅下降100倍。還介紹了研究人員如何對(duì)小模型進(jìn)行強(qiáng)化訓(xùn)練,以及在訓(xùn)練過程中的一些發(fā)現(xiàn),如模型推理長度的變化等內(nèi)容。
在具有挑戰(zhàn)性的“時(shí)間線索”(Temporal Clue)邏輯謎題中,這一謎題脫胎于經(jīng)典桌游Clue并加入新維度,堪稱邏輯推理的“珠穆朗瑪峰”,它不僅考驗(yàn)?zāi)P突就评砟芰?,還能暴露頂級(jí)大模型軟肋?;趶?qiáng)化學(xué)習(xí)微調(diào)后的Qwen 2.5 32B,其推理能力完全碾壓o1、o3 - mini、R1,甚至追平Claude 3.7 Sonnet,整個(gè)模型推理成本暴降100多倍。前谷歌工程師、初創(chuàng)OpenPipe聯(lián)創(chuàng)Kyle Corbitt和團(tuán)隊(duì)將“時(shí)間線索”謎題作為模型的“終極試煉場(chǎng)”,提出小模型在復(fù)雜推理任務(wù)中能否逆襲的假設(shè)。他們選用開源的Qwen模型(14B和32B),通過GRPO強(qiáng)化學(xué)習(xí)進(jìn)行魔鬼式訓(xùn)練,小模型推理性能顯著提升。不過,團(tuán)隊(duì)還發(fā)現(xiàn)Qwen 14B的推理長度隨時(shí)間“隨機(jī)”增加,Qwen 32B的推理長度卻在減少,這發(fā)生在獎(jiǎng)勵(lì)機(jī)制完全不涉及長度的情況下。在AI推理領(lǐng)域,自去年OpenAI推出o系列推理模型后,強(qiáng)化學(xué)習(xí)掀起狂潮,諸多巨頭入局打造高級(jí)推理模型,很多基準(zhǔn)測(cè)試接近飽和,但邏輯推理仍是難題。為此,OpenPipe兩位聯(lián)創(chuàng)決定用RL微調(diào)后的小模型挑戰(zhàn)復(fù)雜推理題。研究人員打造了新基準(zhǔn)“時(shí)間線索”,將謎題轉(zhuǎn)化為單人邏輯謎題。他們先對(duì)頂尖大模型進(jìn)行測(cè)試,包括DeepSeek - R1、o1、o3 - mini、Claude Sonnet 3.7以及開源的Qwen 14B和32B,結(jié)果Claude Sonnet 3.7表現(xiàn)最優(yōu),開源DeepSeek - R1與o1、o3 - mini性能相當(dāng),未經(jīng)調(diào)優(yōu)的Qwen 2.5 Instruct模型表現(xiàn)平平。那么如何將較小的開源模型訓(xùn)練到前沿水平呢?答案是強(qiáng)化學(xué)習(xí)。這里L(fēng)LM是智能體,謎題是環(huán)境。研究人員選擇了由DeepSeek開發(fā)的GRPO算法,它簡化訓(xùn)練過程且性能強(qiáng)大。為加速實(shí)驗(yàn)省略Kullback - Leibler(KL)散度懲罰。在訓(xùn)練過程中,有諸多環(huán)節(jié),如生成模型對(duì)謎題任務(wù)的響應(yīng)、對(duì)響應(yīng)評(píng)分等基本步驟。在生成響應(yīng)時(shí)使用vLLM推理引擎,Prefix caching很重要,還需解決向vLLM發(fā)送過多請(qǐng)求的問題。處理完成內(nèi)容時(shí)使用標(biāo)準(zhǔn)的HuggingFace Transformers AutoTokenizer。Qwen模型雖經(jīng)過預(yù)訓(xùn)練和指令微調(diào),但還不能可靠解決“時(shí)間線索”謎題,不過偶爾成功就夠了。研究人員通過增加良好推理概率、減少“不良”推理概率,將模型引導(dǎo)至“偵探大師”級(jí)水平,采用策略梯度方法計(jì)算損失調(diào)整權(quán)重,使用torchtune庫訓(xùn)練。雖然主要用Qwen模型,但也對(duì)8B和70B的Llama模型進(jìn)行實(shí)驗(yàn)。torchtune提供多種節(jié)省內(nèi)存和提升性能的工具。模型在經(jīng)過超過100次迭代訓(xùn)練后實(shí)現(xiàn)SOTA級(jí)演繹推理能力。訓(xùn)練過程中性能提升遵循冪律分布,研究人員推測(cè)模型可能過早收斂于初期有效的貪婪策略。輸出長度在訓(xùn)練期間有有趣變化,剛開始響應(yīng)長度逐步增加后趨于穩(wěn)定,后期14B模型響應(yīng)變長,32B模型響應(yīng)長度顯著減少。為定性評(píng)估邏輯推理能力提升,團(tuán)隊(duì)用Claude Sonnet 3.7分析Qwen 32B模型解謎推理能力,發(fā)現(xiàn)訓(xùn)練后模型邏輯推理能力提升。團(tuán)隊(duì)還根據(jù)Fireworks AI的無服務(wù)器定價(jià)方案估算Qwen模型成本,發(fā)現(xiàn)提出的方法改善了成本與準(zhǔn)確率的權(quán)衡關(guān)系。最后,團(tuán)隊(duì)發(fā)現(xiàn)僅用16個(gè)訓(xùn)練樣例就能實(shí)現(xiàn)10 - 15%的顯著性能提升。
本文總結(jié)了在“時(shí)間線索”邏輯謎題中,小模型通過GRPO強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)推理能力的逆襲,包括超越部分大模型、推理成本大幅下降,還闡述了模型訓(xùn)練過程中的各種操作、遇到的現(xiàn)象以及最終取得的成果,如實(shí)現(xiàn)SOTA級(jí)演繹推理能力、改善成本與準(zhǔn)確率的權(quán)衡關(guān)系等。
本文鏈接:http://m.zh1234.com/news5303.html32B小模型憑GRPO逆襲推理謎題,成本暴降100倍,Qwen小模型經(jīng)強(qiáng)化學(xué)習(xí),推理能力超預(yù)期