21日,北京智源人工智能研究院(以下簡稱“智源研究院”)正式發布原生多模態世界模型Emu3。據悉,該模型實現了視頻、圖像、文本三種模態的統一理解與生成。Emu3成功驗證了基于下一個token(詞元)預測的多模態技術范式,釋放出大規模訓練和推理的潛力。
據了解,下一個token預測被認為是通往人工通用智能(AGI)的可能路徑,但這種范式在語言以外的多模態任務中沒有被證明。此前,多模態生成任務仍然由擴散模型主導,而多模態理解任務則由組合式方法主導。人工智能要想進入各行各業,必須建設一個“大一統”的多模態模型。
據介紹,Emu3只基于下一個token預測,無須擴散模型或組合式方法,把圖像、文本和視頻編碼為一個離散空間,在多模態混合序列上從頭開始聯合訓練一個Transformer架構。在圖像生成、視覺語言理解、視頻生成任務中,Emu3表現出超過其他開源模型的優勢。
智源研究院院長王仲遠在接受科技日報記者采訪時說:“Emu3證明了下一個token預測能在多模態任務中有高性能的表現,這為構建多模態AGI提供了廣闊的技術前景。Emu3有機會將基礎設施建設收斂到一條技術路線上,為大規模多模態訓練和推理提供基礎,這一簡單的架構設計將利于產業化。未來,多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。”