就在前天,Manus 在國(guó)內(nèi)媒體間爆火,其號(hào)稱(chēng) “ 全球首個(gè)通用 AI 智能體 ”。
官方也曬出了幾十個(gè)Demo,供大家玩賞。
網(wǎng)友們驚艷于其效果后當(dāng)然躍躍欲試,卻發(fā)現(xiàn)試用需要邀請(qǐng)碼。我們問(wèn)了一圈 AI 專(zhuān)家,都說(shuō)沒(méi)用過(guò),也沒(méi)聽(tīng)自己哪個(gè)同行用過(guò),“ 目前都是媒體在用吧?”
到這里就需要謹(jǐn)慎了,沒(méi)有較大規(guī)模公開(kāi)測(cè)試、沒(méi)有專(zhuān)家實(shí)名自發(fā)背書(shū)過(guò)的技術(shù)或產(chǎn)品( ChatGPT、NotebookLM、DeepSeek 等都是有的 ),實(shí)力終歸是存疑的。
從產(chǎn)品體驗(yàn)來(lái)看,Manus 雖然效果驚艷,但是很多人其實(shí)不買(mǎi)賬,因?yàn)閷?xiě) PPT、寫(xiě) HTML、Python 數(shù)據(jù)分析、生成 Excel、搜索等功能目前各個(gè)通用模型都能做。即便 Manus 說(shuō)自己比 OpenAI 的 DeepResearch 更厲害,但這和 Cursor 說(shuō)自己比 Claude 更厲害有什么區(qū)別??jī)烧叩目杀刃允窍鄬?duì)錯(cuò)位的。
功能上,Manus 是整合了 Computer use、虛擬機(jī)、Multi agent 協(xié)同的套殼產(chǎn)品。技術(shù)實(shí)現(xiàn)上是基于 Claude 模型生成能力、開(kāi)源模型后訓(xùn)練增強(qiáng)的規(guī)劃能力,再結(jié)合各種預(yù)制的 Agent,按照設(shè)定好的工作流構(gòu)建 todo 清單、新建虛擬機(jī)環(huán)境、調(diào)用工具、結(jié)果整合、自我檢查、輸出結(jié)果,來(lái)解決任務(wù)。
所以,Manus 技術(shù)上有其復(fù)雜性,但沒(méi)有太多創(chuàng)新,當(dāng)然,其功能多樣性導(dǎo)致工程量極大,業(yè)內(nèi)專(zhuān)家認(rèn)為很有可能是基于 MCP 協(xié)議的聚合模式。
過(guò)去 Agent 更多是在專(zhuān)業(yè)領(lǐng)域做深耕,而 Manus 通過(guò)工程上極致整合、酷炫低門(mén)檻的 UI 交互套殼產(chǎn)品想讓 Agent 直接出圈了。
總有人說(shuō),套殼到極致就是勝利,就是價(jià)值,確實(shí),至少?gòu)?Manus 的演示視頻來(lái)看,是這樣。
既然有價(jià)值,那么很快就會(huì)有人跟上,這不,為了實(shí)現(xiàn) Manus 的價(jià)值,MetaGPT 團(tuán)隊(duì)花費(fèi)了 3 小時(shí)開(kāi)發(fā)了 OpenManus 并開(kāi)源,無(wú)需邀請(qǐng)碼就能使用。
項(xiàng)目地址https://github.com/mannaandpoem/OpenManus<;/p>
在項(xiàng)目的演示視頻中,輸入提示詞“對(duì) Karpathy 的網(wǎng)站( https://karpathy.ai/ )進(jìn)行全面的 SEO 審核,并提供詳細(xì)的優(yōu)化報(bào)告,包括可操作的改進(jìn)建議。”
接下來(lái),OpenManus 會(huì)展開(kāi)思考,拆分執(zhí)行步驟
檢查網(wǎng)站,收集基本信息;
分析關(guān)鍵SEO要素;
檢查 SEO 技術(shù)方面的問(wèn)題;
整理優(yōu)化建議;
接下來(lái)就是一步一步地執(zhí)行任務(wù)了。
可以看到,演示視頻展示的結(jié)果遠(yuǎn)不如 Manus 那么細(xì)致和豐富,OpenManus 目前功能還很初級(jí),但團(tuán)隊(duì)還公開(kāi)了后續(xù)的開(kāi)發(fā)路線,照這個(gè)路線,基本上全面復(fù)刻 Manus 不是問(wèn)題
更優(yōu)的規(guī)劃系統(tǒng)
實(shí)時(shí)演示功能
運(yùn)行回放
強(qiáng)化學(xué)習(xí)微調(diào)模型
全面的性能基準(zhǔn)測(cè)試
OpenManus 是怎么來(lái)的?
兩個(gè)月前的一次邊吃飯邊頭腦風(fēng)暴的過(guò)程中,我們想到,一個(gè)極簡(jiǎn)的 Agent 框架,應(yīng)該是可插拔的 Tools 和 System Prompt 的組合,之后我們沿著這個(gè)思路,寫(xiě)了一個(gè)完整的 Agent 迷你框架。
前天晚上看到 Manus 時(shí),凌晨就和同事商量,下班后的晚上就可以搞一個(gè),應(yīng)該 3 小時(shí)夠了。
為什么要采用可插拔的 Tools 和 System Prompt?
決定一個(gè) ReAct Agent( Reasoning and Action Agent,一種結(jié)合了反應(yīng)和行動(dòng)規(guī)劃能力的智能體 )的效果的關(guān)鍵是 Prompt( 提示信息 )和 Action( 行動(dòng) ),Prompt 控制了 Agent 整體的行為邏輯,Tools 給定了 Agent 的行動(dòng)空間,二者被定義就能完整詮釋一個(gè) ReAct Agent。
可插拔的優(yōu)點(diǎn)是可組合,我可以把幾個(gè)不同場(chǎng)景下的 Tools 組合到一起來(lái)創(chuàng)造一個(gè)新的 Agent,定義也很方便,不需要單獨(dú)寫(xiě)內(nèi)部邏輯,只需要修改動(dòng)作空間( Tools )。Tools 本身就該是可組合的,我們的工作是把抽象做得更干凈,目前 HuggingFace 的 Smolagents 也是類(lèi)似的思路了。
Manus 效果上讓大家覺(jué)得很新奇,實(shí)際上主要是由于 Browser Use 和 Computer Use 的使用,所以只要給了 Agent 這兩個(gè)工具,那它就都能做到。
OpenManus 在實(shí)現(xiàn)中,有哪些關(guān)鍵技術(shù)挑戰(zhàn)?
在 OpenManus 的實(shí)現(xiàn)中,前端界面的實(shí)現(xiàn)很關(guān)鍵。Manus 很出彩的地方是產(chǎn)品展示很漂亮,我當(dāng)時(shí)打算用 Streamlit 寫(xiě)前端,方便做類(lèi)似的展示,但 Streamlit 的底層和 Browser Use 沖突,后來(lái)就換了 Gradio,但信息展示有一些問(wèn)題,當(dāng)時(shí)沒(méi)辦法做到實(shí)時(shí)更新,后還是改成了 log,直接在命令行里做展示。
如何有效復(fù)現(xiàn)和優(yōu)化 PlanningTool 的使用也是非常重要的一環(huán),這樣才能充分發(fā)揮 Agent 的規(guī)劃和工具調(diào)用能力,探索其能力上限。
Manus 的用例展示了 Agent 在線性任務(wù)規(guī)劃中的強(qiáng)大表現(xiàn),而 OpenManus 需要解決如何設(shè)計(jì)更復(fù)雜的規(guī)劃結(jié)構(gòu)( 如使用 DAG 有向無(wú)環(huán)圖表示任務(wù)依賴(lài)關(guān)系 ),以及如何讓 Agent 動(dòng)態(tài)更新規(guī)劃以適應(yīng)變化的需求,這不僅考驗(yàn)技術(shù)實(shí)現(xiàn),還涉及算法設(shè)計(jì)和智能體的自適應(yīng)能力。
目前 OpenManus 的規(guī)劃設(shè)計(jì)與 Manus 保持一致,都是線性的,而DAG規(guī)劃對(duì)于處理現(xiàn)實(shí)世界中更復(fù)雜的任務(wù),在一定程度上會(huì)更準(zhǔn)確,Data Interpreter 就是一個(gè)很好的例子。
聽(tīng)起來(lái) OpenManus 的規(guī)劃已經(jīng)有要超越 Manus 的苗頭了,你們對(duì)這個(gè)產(chǎn)品有什么期望嗎?
OpenManus 前期目標(biāo)打算達(dá)到原始 Manus 的相同的效果,后續(xù)會(huì)不斷優(yōu)化 Computer Use、Browser Use 和 Planning Use,以及工具調(diào)用的能力,從而超越 Manus。
Manus 產(chǎn)品交互做的挺好的,有很多技術(shù)也值得學(xué)習(xí),比如對(duì)后訓(xùn)練技術(shù)的結(jié)合,流程設(shè)計(jì)上比如規(guī)劃、Multi Agent 系統(tǒng)也是很優(yōu)秀的,具體細(xì)節(jié)我們還在研究。至于 OpenManus 我們沒(méi)有單獨(dú)調(diào)效果,目前達(dá)到的效果其實(shí)很一般。后續(xù)主要靠開(kāi)源社區(qū)小伙伴來(lái)貢獻(xiàn),我們希望開(kāi)源協(xié)作能帶來(lái)更高的智能涌現(xiàn)~
好了,到這里知危編輯部與 MetaGPT 團(tuán)隊(duì)的溝通就到這里了,我們也可以期待一波 OpenManus 未來(lái)的效果。
后,或許我們可以探討一下到底什么應(yīng)該是好的 Agent ?
Manus 有優(yōu)點(diǎn)、有亮點(diǎn),但有夸大之嫌。人們?cè)谠囉玫臅r(shí)候,還是能發(fā)現(xiàn) Manus 有不少毛病,用錯(cuò)了假數(shù)據(jù)、來(lái)源引用錯(cuò)誤、表格讀取錯(cuò)誤等等毛病一個(gè)不落,幻覺(jué)問(wèn)題還是不小。
Agent 應(yīng)用的一大通病是,自動(dòng)化執(zhí)行過(guò)程越復(fù)雜,錯(cuò)誤發(fā)現(xiàn)和查找原因就越困難,而且 Agent 的執(zhí)行需要經(jīng)過(guò)多個(gè) LLM,每個(gè) LLM 的幻覺(jué)一路累積下來(lái)的誤差將是巨大的,比如 95% 的準(zhǔn)確率,連續(xù)經(jīng)過(guò) 10 個(gè) LLM,后準(zhǔn)確率能直接降到約 60% 。
在全面擁抱 Agent 之前,我們首先還是得多關(guān)注一下,目前市面上的通用大模型,它們的幻覺(jué)率仍然不是一般的高。
所以,想實(shí)現(xiàn)真正好用的 Agent,我們?nèi)匀灰タ舜竽P偷讓幽芰Φ奶嵘?。里子不夠好,套太多的殼也沒(méi)用。
與此同時(shí),我們還需要強(qiáng)調(diào)的一點(diǎn)是,追求 Agent 的過(guò)程中,我們一定是要回歸實(shí)用主義的不是所有問(wèn)題都需要用 Agent 來(lái)做。
Devin 前不久還被爆出出錯(cuò)率極高并且出錯(cuò)方式?jīng)]有規(guī)律可循,還不如用 Cursor 一步一步來(lái),加上之前的演示造假事件,過(guò)于激進(jìn)的 Agent 產(chǎn)品越來(lái)越受到質(zhì)疑。
與此同時(shí),Agent 的一大通病是,步驟拆解越多,token 消耗量越大,對(duì)所有任務(wù)一律無(wú)腦使用 Agent,對(duì)于企業(yè)的成本控制而言具有極大的風(fēng)險(xiǎn)。
Agent 的關(guān)鍵的作用就是工作流編排,簡(jiǎn)單的任務(wù)其實(shí)并不需要 Agent 的參與,反而會(huì)導(dǎo)致客戶(hù)等待時(shí)間過(guò)長(zhǎng)。
Anthropic 就曾經(jīng)分享過(guò)構(gòu)建智能體的基本原則,就是 “ 簡(jiǎn)單為王,實(shí)用至上 ”,能用 API 就不要用工作流,能用工作流就不要用智能體。
這些都是手段,哪個(gè)不能交付結(jié)果呢?
Agent 終究是一個(gè)產(chǎn)品概念,不像 LLM 有無(wú)法預(yù)測(cè)的潛在價(jià)值( 比如推理能力的發(fā)現(xiàn)和增強(qiáng) )值得冒極大風(fēng)險(xiǎn)押注。
所以回過(guò)頭來(lái)看,我們應(yīng)該更多關(guān)注開(kāi)源社區(qū)的新技術(shù),比如阿里在 Manus 發(fā)布同一天剛開(kāi)源的 QWQ-32B 模型,就像前文講的那樣,在追求 Agent 的路上,我們更應(yīng)該關(guān)注模型的突破。
本文鏈接:http://m.zh1234.com/news43996.html對(duì)話OpenManus團(tuán)隊(duì):他們是如何3小時(shí)復(fù)刻Manus的