亚洲乱码国产乱码精品精,成人影院点击即入爽不停,大黑鸡巴破处血淋淋视频,被男人屌逼视频

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1

2025-02-07 17:00:09 124觀看

成本不到150元,訓(xùn)練出一個(gè)媲美DeepSeek-R1和OpenAI o1的推理模型?!nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

這不是洋蔥新聞,而是AI教母李飛飛、斯坦福大學(xué)、華盛頓大學(xué)、艾倫人工智能實(shí)驗(yàn)室等攜手推出的新杰作:s1。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

在數(shù)學(xué)和編程能力的評(píng)測(cè)集上,s1的表現(xiàn)比肩DeepSeek-R1和o1。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

而訓(xùn)一個(gè)這樣性能的模型,團(tuán)隊(duì)僅僅用了16個(gè)英偉達(dá)H100,訓(xùn)練耗時(shí)26分鐘。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

據(jù)TechCrunch,這個(gè)訓(xùn)練過(guò)程消耗了不到50美元的云計(jì)算成本,約合人民幣364.61元;而s1模型作者之一表示,訓(xùn)練s1所需的計(jì)算資源,在當(dāng)下約花20美元(約145.844元)就能租到。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

怎么做到的???nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

s1團(tuán)隊(duì)表示,秘訣只有一個(gè):蒸餾。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

簡(jiǎn)單來(lái)說(shuō),團(tuán)隊(duì)以阿里通義團(tuán)隊(duì)的Qwen2.5- 32B-Instruct作為基礎(chǔ)模型,通過(guò)蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實(shí)驗(yàn)版,終得到了s1模型。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

為了訓(xùn)練s1,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)包含1000個(gè)問(wèn)題(精心挑選那種)的數(shù)據(jù)集,且每個(gè)問(wèn)題都附有答案,以及Gemini 2.0 Flash Thinking實(shí)驗(yàn)版的思考過(guò)程。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

目前,項(xiàng)目論文《s1: Simple test-time scaling》已經(jīng)掛上arXiv,模型s1也已在GitHub上開(kāi)源,研究團(tuán)隊(duì)提供了訓(xùn)練它的數(shù)據(jù)和代碼。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

150元成本,訓(xùn)練26分鐘nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

s1團(tuán)隊(duì)搞這個(gè)花活,起因是OpenAI o1展現(xiàn)了Test-time Scaling的能力。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

即「在推理階段通過(guò)增加計(jì)算資源或時(shí)間,來(lái)提升大模型的性能」,這是原本預(yù)訓(xùn)練Scaling Law達(dá)到瓶頸后的一種新Scaling。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

但OpenAI并未公開(kāi)是如何實(shí)現(xiàn)這一點(diǎn)的。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

在復(fù)現(xiàn)狂潮之下,s1團(tuán)隊(duì)的目標(biāo)是尋找到Test-time Scaling的簡(jiǎn)單方法。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

過(guò)程中,研究人員先構(gòu)建了一個(gè)1000個(gè)樣本的數(shù)據(jù)集,名為s1K。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

起初,在遵循質(zhì)量、難度、多樣性原則的基礎(chǔ)上,這個(gè)數(shù)據(jù)集收集了來(lái)自MATH、AGIEval等諸多來(lái)源的59029個(gè)問(wèn)題。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

經(jīng)去重、去噪后,通過(guò)質(zhì)量篩選、基于模型性能和推理痕跡長(zhǎng)度的難度篩選,以及基于數(shù)學(xué)學(xué)科分類的多樣性篩選,終留下了一個(gè)涵蓋1000個(gè)精心挑選過(guò)的問(wèn)題的數(shù)據(jù)集。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

且每個(gè)問(wèn)題都附有答案,以及谷歌Gemini 2.0 Flash Thinking實(shí)驗(yàn)版的模型思考過(guò)程。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

這就是終的s1K。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

研究人員表示,Test-time Scaling有2種。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

第1種,順序Scaling,較晚的計(jì)算取決于焦躁的計(jì)算(如較長(zhǎng)的推理軌跡)。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

第2種,并行Scaling,be like計(jì)算獨(dú)立運(yùn)行(如多數(shù)投票任務(wù))。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

s1團(tuán)隊(duì)專注于順序這部分,原因是團(tuán)隊(duì)“從直覺(jué)上”認(rèn)為它可以起到更好的Scaling——因?yàn)楹竺娴挠?jì)算可以以中間結(jié)果為基礎(chǔ),從而允許更深入的推理和迭代細(xì)化。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

基于此,s1團(tuán)隊(duì)提出了新的順序Scaling方法,以及對(duì)應(yīng)的Benchmark。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

研究過(guò)程中,團(tuán)隊(duì)提出了一種簡(jiǎn)單的解碼時(shí)間干預(yù)方法budget forcing,在測(cè)試時(shí)強(qiáng)制設(shè)定大和/或小的思考token數(shù)量。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

具體來(lái)說(shuō),研究者使用了一種很簡(jiǎn)單的辦法:nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

直接添加“end-of-thinking token分隔符”和“Final Answer”,來(lái)強(qiáng)制設(shè)定思考token數(shù)量上限,從而讓模型提前結(jié)束思考階段,并促使它提供當(dāng)前思考過(guò)程中的佳答案。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

為了強(qiáng)制設(shè)定思考過(guò)程的token數(shù)量下限,團(tuán)隊(duì)又禁止模型生成“end-of-thinking token分隔符”,并可以選擇在模型當(dāng)前推理軌跡中添加“wait”這個(gè)詞,鼓勵(lì)它多想想,反思反思當(dāng)前的思考結(jié)果,引導(dǎo)佳答案。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

以下是budget forcing這個(gè)辦法的一個(gè)實(shí)操示例:nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

團(tuán)隊(duì)還為budget forcing提供了baseline。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

一是條件長(zhǎng)度控制方法(Conditional length-control methods),該方法依賴于,在提示中告訴模型它應(yīng)該花費(fèi)多長(zhǎng)時(shí)間來(lái)生成輸出。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

團(tuán)隊(duì)按顆粒度將它們分為Token-conditional控制、步驟條件控制和類條件控制。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

Token-conditional控制:在提示詞中,指定Thinking Tokens的上限;nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

步驟條件控制:指定一個(gè)思考步驟的上限。其中每個(gè)步驟約100個(gè)tokens;nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

類條件控制:編寫兩個(gè)通用提示,告訴模型思考短時(shí)間或長(zhǎng)時(shí)間。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

二是拒絕抽樣(rejection sampling)。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

即在抽樣過(guò)程中,若某一生成內(nèi)容符合預(yù)先設(shè)定的計(jì)算預(yù)算,就停止計(jì)算。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

該算法通過(guò)其長(zhǎng)度來(lái)捕捉響應(yīng)的后驗(yàn)分布。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

而s1模型的整個(gè)訓(xùn)練過(guò)程,只用了不到半個(gè)小時(shí)——nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

團(tuán)隊(duì)在論文中表示,他們使用Qwen2.532B-Instruct模型在s1K數(shù)據(jù)集上進(jìn)行SFT,使用16個(gè)英偉達(dá)H100,訓(xùn)練耗時(shí)26分鐘nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

s1研究團(tuán)隊(duì)的Niklas Muennighoff(斯坦福大學(xué)研究員)告訴TechCrunch,訓(xùn)練s1所需的計(jì)算資源,在當(dāng)下約花20美元就能租到。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

研究新發(fā)現(xiàn):頻繁抑制思考會(huì)導(dǎo)致死循環(huán)nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

訓(xùn)出模型后,團(tuán)隊(duì)選用3個(gè)推理基準(zhǔn)測(cè)試,把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通義Qwen2.5系列/QWQ、昆侖萬(wàn)維Sky系列、Gemini 2.0 Flash Thinking實(shí)驗(yàn)版等多個(gè)模型進(jìn)行對(duì)比。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

3個(gè)推理基準(zhǔn)測(cè)試如下:nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

AIME24:2024年美國(guó)數(shù)學(xué)邀請(qǐng)考試中使用的30個(gè)問(wèn)題nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

MATH500:不同難度的競(jìng)賽數(shù)學(xué)問(wèn)題的基準(zhǔn)nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

GPQA Diamond:生物、化學(xué)和物理領(lǐng)域的198個(gè)博士級(jí)問(wèn)題nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

整體來(lái)說(shuō),采用了budget forcing的s1-32B擴(kuò)展了更多的test-time compute。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

評(píng)測(cè)數(shù)據(jù)顯示,s1-32B在MATH500上拿到了93.0的成績(jī),超過(guò)o1-mini,媲美o1和DeepSeek-R1。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

不過(guò),如下圖所示,團(tuán)隊(duì)發(fā)現(xiàn),雖然可以用budget forcing和更多的test-time compute來(lái)提高s1在AIME24上的性能,在AIME24上比 o1-preview高提升27%。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

但曲線終在性能提升6倍后趨于平緩。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

由此,團(tuán)隊(duì)在論文中寫道:nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

過(guò)于頻繁地抑制思考結(jié)束標(biāo)記分隔符,會(huì)導(dǎo)致模型進(jìn)入重復(fù)循環(huán),而不是繼續(xù)推理。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

而如下圖所示,在s1K上訓(xùn)練Qwen2.5-32B-Instruct來(lái)得到s1-32B,并為它配備了簡(jiǎn)單的budget forcing后,它采用了不同的scaling范式。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

具體來(lái)說(shuō),通過(guò)多數(shù)投票在基礎(chǔ)模型上對(duì)test-time compute進(jìn)行Scale的方法,訓(xùn)出的模型無(wú)法趕上s1-32B的性能。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

這就驗(yàn)證了團(tuán)隊(duì)之前的“直覺(jué)”,即順序Scaling比并行Scaling更有效。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

此外,團(tuán)隊(duì)提到,s1-32B僅僅使用了1000個(gè)樣本訓(xùn)練,在AIME24上的成績(jī)就能接近Gemini 2.0 Thinking,是“樣本效率高的開(kāi)源數(shù)據(jù)推理模型”。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

研究人員還表示,Budget forcing在控制、縮放和性能指標(biāo)上表現(xiàn)佳。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

而其它方法,如Token-conditional控制、步驟條件控制、類條件控制等,均存在各種問(wèn)題。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

One More Thingnx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

s1模型,是在一個(gè)1000個(gè)精挑細(xì)選的小樣本數(shù)據(jù)集上,通過(guò)SFT,讓小模型能力在數(shù)學(xué)等評(píng)測(cè)集上性能飆升的研究。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

但結(jié)合近期刷爆全網(wǎng)的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窺見(jiàn)模型推理技術(shù)的更多值得挖掘之處。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

模型蒸餾技術(shù)加持下,DeepSeek-R1的訓(xùn)練成本震撼硅谷。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

現(xiàn)在,AI教母李飛飛等,又一次運(yùn)用「蒸餾」,花費(fèi)低到令人咋舌的訓(xùn)練成本,做出了一個(gè)能媲美頂尖推理模型的32B推理模型。nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

一起期待大模型技術(shù)更精彩的2025年吧~nx2壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

本文鏈接:http://m.zh1234.com/news43569.html成本不到150元!26分鐘訓(xùn)出個(gè)推理模型 媲美o1和R1

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com。天上從來(lái)不會(huì)掉餡餅,請(qǐng)大家時(shí)刻謹(jǐn)防詐騙
男女爽爽无遮拦午夜视频| 欧美精品人区一区二区3| WWWSSS手机视频。| 自拍偷拍视频一区二区三区| 插美女逼逼网站网址大全| 真实的男女日皮全黄视频| 裸体跪着被主人公开调教| 精品人妻av中文字幕乱码| 新狼窝色av性久久久久久| 清纯唯美亚洲综合五月天| 国产大臿蕉香蕉大视频女| 国产又爽又黄又刺激视频| 日本在线一区二区三区电影| 国产不卡视频一区在线观看| 亚洲图片小说视频在线观看| 青娱乐免费视频成人自拍| 男人的天堂亚洲AⅤ无码| 想要大鸡巴插进去的视频| 日韩 欧美 一区二区在线| 精品四虎国产在免费观看| 国产一级特黄aa大片野外| 亚洲地址一地址二地址三| 肏肥熟妇要大黑鸡巴好爽| 中文字幕无码乱aⅴ免费| 成人av日韩av麻豆av| 国产v亚洲v欧美v专区| 缺钾的人每天吃几根香蕉| 国产美女直播亚洲一区色| 男子鸡巴草美女在线观看| 国产区综合另类亚洲欧美| 日本欧美一区二区三区视频| 国产精品96久久久久久a| 激情文学巨乳人妻中文字幕| 夫妻性生活真人真事视频| 亚洲中文字幕在线观看一区| 日美女高潮骚b| 黄色靠逼视频网站免费看| 成人精品一区二区三区在线| 把圣采儿操出水| 欧美肥老大BBwBBW| 亚洲av啊啊啊在线观看|