【#區(qū)塊鏈# #全球最強「開源版Gemini」誕生!全能多模態(tài)模型Emu2登熱榜,多項任務刷新SOTA#】
原文來源:新智元
圖片來源:由無界 AI?生成
最強的全能多模態(tài)模型來了!就在近日,智源研究院重磅發(fā)布了開源界的「Gemini」——Emu2,一口氣刷新多項SOTA。
過去的18個月里,我們見證了AI領域許多重要的時刻。
Llama、Alpaca等眾多開源模型競相發(fā)布,不僅與閉源模型的性能相媲美,同時為每個人提供了投身AI的機會:
- 2022年8月,Stable Diffusion問世,讓DALL·E的神秘光環(huán)不再遙不可及,每個人都能夠召喚出自己的數(shù)字達芬奇;
- 2023年2月,Meta的Llama及其后續(xù)的語言模型大軍,讓ChatGPT的獨角戲成為群星爭輝;
- 2023年12月6日,Google DeepMind揭開多模態(tài)巨星Gemini的面紗。
僅僅兩周后,智源研究院便發(fā)布了最新一代生成式多模態(tài)開源模型——Emu2。
很快,這一開源多模態(tài)領域的工作便引起了國際社區(qū)的廣泛關注,并登上了HN熱榜第三。
Emu2在HackerNews榜單上引發(fā)關注
HuggingFace?大V AK轉發(fā)
據(jù)悉,這一模型即將推出更輕量的版本,讓技術玩家也在本地運行。
Emu2,通過大規(guī)模自回歸生成式多模態(tài)預訓練,顯著推動了多模態(tài)上下文學習能力的突破。
Emu2在少樣本多模態(tài)理解任務上大幅超越Flamingo-80B、IDEFICS-80B等主流多模態(tài)預訓練大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在內的多項少樣本理解、視覺問答、主體驅動圖像生成等任務上取得最優(yōu)性能。
Emu2模型和Flamingo、GPT-4V、Gemini等模型能力對比情況一覽
相較2023年7月發(fā)布的第一代「多模態(tài)to多模態(tài)」Emu模型,Emu2使用了更簡單的建??蚣?,訓練了從編碼器語義空間重建圖像的解碼器、并把模型規(guī)?;?7B參數(shù)實現(xiàn)模型能力和通用性上的突破。
與此同時,依然采用大量圖、文、視頻的序列,建立基于統(tǒng)一自回歸建模的多模態(tài)預訓練框架,將圖像、視頻等模態(tài)的token序列直接和文本token序列交錯在一起輸入到模型中訓練。
值得一提的是,Emu2是目前最大的開源生成式多模態(tài)模型,基于Emu2微調的Emu2-Chat和Emu2-Gen模型分別是目前開源的性能最強的視覺理解模型和能力最廣的視覺生成模型:
- Emu2-Chat可以精準理解圖文指令,實現(xiàn)更好的信息感知、意圖理解和決策規(guī)劃。
- Emu2-Gen可以接受圖像、文本、位置交錯的序列作為輸入,實現(xiàn)靈活、可控、高質量的圖像和視頻生成。
現(xiàn)在,Emu2的模型、代碼均已開源,并提供Demo試用。
項目:https://baaivision.github.io/emu2/
模型:https://huggingface.co/BAAI/Emu2
代碼:https://github.com/baaivision/Emu/tree/main/Emu2
Demo:https://huggingface.co/spaces/BAAI/Emu2
論文:https://arxiv.org/abs/2312.13286
多項性能刷新SOTA
通過對多模態(tài)理解和生成能力的定量評測,Emu2在包括少樣本理解、視覺問答、主體驅動圖像生成在內的多個任務上取得最優(yōu)性能。
在少樣本評測上,Emu2在各個場景下顯著超過Flamingo-80B,例如在16-shot TextVQA上較Flamingo-80B 超過12.7個點。
經(jīng)過指令微調的Emu2可以對圖像和視頻輸入進行自由問答,以統(tǒng)一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余個圖像和視頻問答評測集上取得最優(yōu)性能。
在零樣本的DreamBench主體驅動圖像生成測試上,較此前方法取得顯著提升,例如比Salesforce的BLIP-Diffusion的CLIP-I分數(shù)高7.1%, 比微軟的Kosmos-G的DINO分數(shù)高7.2%。
多模態(tài)上下文學習
生成式預訓練完成后,Emu2具備全面且強大的多模態(tài)上下文學習能力。基于幾個例子,模型可以照貓畫虎的完成對應理解和生成任務。
例如在上下文中描述圖像、在上下文中理解視覺提示(覆蓋圖像上的紅圈)、在上下文中生成類似風格的圖像、在上下文中生成對應主體的圖像等。
強大的多模態(tài)理解
經(jīng)過對話數(shù)據(jù)指令微調的Emu2-Chat,可以精準理解圖文指令、更好的完成多模態(tài)理解任務。
例如推理圖像中的要素、讀指示牌提供引導、按要求提取和估計指定屬性、回答簡單的專業(yè)學科問題等。?
基于任意prompt序列的圖像生成
經(jīng)過高質量圖像微調的Emu2-Gen,可以接受圖像、文本、位置交錯的序列作為輸入,生成對應的高質量圖像,這樣的靈活性帶來高可控性。
例如生成指定位置、指定主體的熊和向日葵:?
生成指定位置、指定主體、指定風格的寵物狗和小鴯鹋的合影圖像:
更多的根據(jù)圖文序列生成的例子:
基于任意prompt序列的視頻生成
進一步的,Emu2支持基于任意prompt序列的視頻生成。
基于文本、圖文交錯、圖文位置交錯的序列,可以生成對應的高質量視頻。?
統(tǒng)一的生成式預訓練
Emu2的訓練方法是在多模態(tài)序列中進行生成式預訓練。
使用統(tǒng)一的自回歸建模方式,根據(jù)當前已生成的 token 預測下一個視覺或文本token。
相比Emu1,Emu2使用了更簡單的建??蚣堋⒂柧毩烁玫膹奶卣髦亟ㄔ瓐D的解碼器、并把模型規(guī)?;?7B參數(shù)。
參考資料:
https://baaivision.github.io/emu2/
小編推薦下載
相關文章
更多>>資訊排行
同類軟件下載
熱門標簽