智譜AI于3月4日宣布發(fā)布CogView4這一開源文生圖模型。該模型在DPG - Bench基準(zhǔn)測(cè)試綜合評(píng)分排名第一,達(dá)到SOTA,且是首個(gè)遵循Apache 2.0協(xié)議的圖像生成模型。文章詳細(xì)介紹了CogView4的能力、技術(shù)特點(diǎn)、案例展示以及未來規(guī)劃等內(nèi)容。
智譜AI在3月4日發(fā)布了一個(gè)令人矚目的開源文生圖模型,名為CogView4。
這個(gè)CogView4可不簡(jiǎn)單,它在DPG - Bench基準(zhǔn)測(cè)試中的綜合評(píng)分位居榜首,在開源文生圖模型里達(dá)到了SOTA(當(dāng)前最優(yōu)水平),而且它還是首個(gè)遵循Apache 2.0協(xié)議的圖像生成模型呢。
CogView4有著很強(qiáng)的能力。它具備強(qiáng)大的復(fù)雜語義對(duì)齊和指令跟隨能力,無論是中文還是英文,它都能接受任意長度的輸入,然后生成在給定范圍內(nèi)任意分辨率的圖像,同時(shí)它的文字生成能力也不容小覷。
DPG - Bench(Dense Prompt Graph Benchmark)可是專門用來評(píng)估文本到圖像生成模型的基準(zhǔn)測(cè)試,重點(diǎn)關(guān)注模型在復(fù)雜語義對(duì)齊和指令跟隨能力方面的表現(xiàn),而CogView4能在這個(gè)測(cè)試?yán)锇蔚妙^籌,足以證明它的優(yōu)秀。
CogView4有兩大關(guān)鍵的技術(shù)特性。
首先呢,它支持中英雙語提示詞輸入。它尤其擅長理解和遵循中文提示詞,是第一個(gè)能夠在畫面里生成漢字的開源文生圖模型。這在廣告、短視頻等領(lǐng)域可太有用了,能夠很好地滿足創(chuàng)意需求。在技術(shù)實(shí)現(xiàn)上,它把文本編碼器從純英文的T5 encoder換成了具備雙語能力的GLM - 4 encoder,并且通過中英雙語圖文對(duì)進(jìn)行訓(xùn)練,才具備了這樣的雙語提示詞輸入能力。
給大家舉兩個(gè)例子吧。案例1:CogView4能夠非常自然地把中英文字符融入畫面,這讓海報(bào)、文案配圖的創(chuàng)作變得更加方便快捷。
案例2:它很擅長理解和遵循中文提示詞,比如說能畫出古詩文中的那種意境。
其次,CogView4支持輸入任意長度的提示詞,還能夠生成在范圍內(nèi)任意分辨率的圖像。這不僅讓用戶在創(chuàng)作的時(shí)候更加自由,而且還提高了訓(xùn)練的效率。CogView4模型實(shí)現(xiàn)了任意長度的文本描述(caption)和任意分辨率圖像的混合訓(xùn)練范式。
這里面又有很多具體的技術(shù)內(nèi)容哦。
1、圖像位置編碼:CogView4采用二維旋轉(zhuǎn)位置編碼(2D RoPE)來構(gòu)建圖像的位置信息,并且通過內(nèi)插位置編碼的方式來支持不同分辨率的圖像生成任務(wù)。
2、擴(kuò)散生成建模:模型采用Flow - matching方案進(jìn)行擴(kuò)散生成建模,并且結(jié)合參數(shù)化的線性動(dòng)態(tài)噪聲規(guī)劃,這樣就能適應(yīng)不同分辨率圖像的信噪比需求。
3、架構(gòu)設(shè)計(jì):在DiT模型架構(gòu)上,CogView4延續(xù)了上一代的Share - param DiT架構(gòu),還為文本和圖像模態(tài)分別設(shè)計(jì)獨(dú)立的自適應(yīng)LayerNorm層,以此來實(shí)現(xiàn)模態(tài)間的高效適配。
4、多階段訓(xùn)練:CogView4采用多階段訓(xùn)練策略,包括基礎(chǔ)分辨率訓(xùn)練、泛分辨率訓(xùn)練、高質(zhì)量數(shù)據(jù)微調(diào)以及人類偏好對(duì)齊訓(xùn)練。這種分階段的訓(xùn)練方式不僅覆蓋了廣泛的圖像分布,還能保證生成的圖像有很高的美感,并且符合人類的喜好。
5、訓(xùn)練框架優(yōu)化:從文本角度來看,CogView4突破了傳統(tǒng)固定token長度的限制,允許更高的token上限,還大大減少了訓(xùn)練過程中的文本token冗余。當(dāng)訓(xùn)練caption的平均長度在200 - 300 token時(shí),和固定512 token的傳統(tǒng)方案相比,CogView4減少了大概50%的token冗余,并且在模型遞進(jìn)訓(xùn)練階段實(shí)現(xiàn)了5% - 30%的效率提升。
混合分辨率訓(xùn)練讓這個(gè)模型能夠支持很大范圍內(nèi)的任意分辨率生成,這極大地提高了創(chuàng)作的自由度。目標(biāo)分辨率只要滿足下面的條件就行:
- $$512leq H,Wleq 2048, Htimes W leq 2times1024^2$$
- $$H, W == 0 (mod 32)$$
再給大家舉兩個(gè)例子說明一下。案例1:用故事作為超長提示詞,就能生成四格漫畫。
案例2:就算是超復(fù)雜的提示詞,也能生成精細(xì)的畫面。
CogView4模型支持Apache2.0協(xié)議,后續(xù)還會(huì)逐漸增加ControlNet、ComfyUI等生態(tài)支持,一整套的微調(diào)工具包也會(huì)推出呢。而且最新的CogView4 - 6B - 0304版本會(huì)在3月13日上線智譜清言(chatglm.cn)。
智譜AI表示,作為國內(nèi)最早的開源大模型公司,一直都在努力推動(dòng)AI的普惠。2025年是智譜開源年,還會(huì)陸續(xù)開源基礎(chǔ)模型、推理模型、多模態(tài)模型、Agent模型等。
智譜AI發(fā)布的CogView4開源文生圖模型在多個(gè)方面表現(xiàn)卓越,在基準(zhǔn)測(cè)試中排名第一且達(dá)到SOTA,具有雙語輸入、生成漢字、任意分辨率圖像生成等能力,其技術(shù)包含多種創(chuàng)新點(diǎn),還有豐富的案例展示其功能強(qiáng)大之處,同時(shí)該模型支持Apache2.0協(xié)議且后續(xù)有一系列發(fā)展規(guī)劃,智譜AI也將在2025年持續(xù)推動(dòng)開源工作。
本文鏈接:http://m.zh1234.com/news5260.html智譜AI的CogView4開源文生圖模型:多項(xiàng)能力領(lǐng)先 CogView4:首個(gè)能生成漢字且遵循Apache 2.0協(xié)議的開源文生圖模型