近日,以“共創產業智能新高度”為主題的多模態人工智能產業聯合體第二次會議在武漢召開,會上發布了由中國科學院自動化研究所、武漢人工智能研究院、華為技術有限公司牽頭的《多模態基礎大模型技術白皮書》。
“當前,人工智能正從單模態、有監督學習,邁向多模態、自監督學習的時代?!敝袊茖W院自動化研究所研究員、武漢人工智能研究院院長王金橋表示,“多模態人工智能的未來必將風光無限?!?/span>
對數據標注的依賴性降低了一個數量級以上
要了解多模態人工智能,首先需要明白何為模態,“一般來說,每一種信息的來源或者形式,都可以稱為一種模態?!蓖踅饦蛘f。
人類在信息獲取、環境感知、知識學習與表達等方面都是采用多模態的輸入、輸出方式。比如,如果一個人要在一片草坪上找到一朵盛開的花朵,既可以通過視覺這一模態來尋找,也就是直接用眼睛看;也可以通過嗅覺這一模態來搜索,也就是用鼻子聞;還可以通過觸覺這一模態來探尋,也就是用手觸摸。面對尋找花朵這個問題,一般來說,人們會采取視覺、嗅覺等多模態的方式來進行?!澳撤N程度上說,多模態的輸入、輸出方式正是人類智慧的重要體現之一?!蓖踅饦虮硎?。
目前的網絡數據包括圖像、視頻、文字、音頻等不同模態。對于人工智能來說,要想更好地掌握、分析、利用網絡上的數據,就需要能夠對這些多模態的數據進行系統的統籌和分析。
王金橋表示:“技術創新是推動多模態人工智能產業發展的重要動力之一。自20世紀70年代多模態學習起步以來,伴隨著近年來生成式預訓練、基于Transformer的雙向編碼器表達等大規模預訓練模型的快速涌現,人工智能研究領域正在經歷一場有監督學習向無監督學習條件下‘大數據+大模型’的大規模預訓練范式轉變,多模態人工智能發展迎來了新的巔峰?!?/span>
近年來,多模態人工智能在場景泛化性、對數據的依賴性等方面都取得了巨大的技術突破。
“多模態人工智能通過自監督的學習方式對海量無標注數據進行學習,同時面向特定任務場景進行小數據的標注學習和微調。相對于單模態人工智能,其對數據標注的依賴性降低了一個數量級以上。”王金橋說。
“多模態大模型+小模型”模式或成主流
2017年,國務院制發《新一代人工智能發展規劃》,由人工智能技術引發的產業變革正在加速演進。目前,各行各業利用人工智能技術打造的產業新應用、新業態、新模式不斷涌現,我國的人工智能產業化勢頭迅猛,多模態人工智能產業也取得了許多突破。
如今,多模態人工智能產業正大步走向場景化、實用化。“目前,模型參數與數據規模不再是各研發機構的比拼重點,多模態人工智能產業正在走向場景應用的新階段?!蓖踅饦虮硎?。
“例如,‘全媒體多模態大模型’就是基于中國科學院自動化研究所‘聞海’多模態媒體大數據和‘紫東太初’三模態大模型的技術積累,結合新華社全媒體的海量數據積累和媒體融合業務場景而建立的?!襟w多模態大模型’將加速推動人工智能在視頻配音、語音播報、標題摘要、海報創作等多元媒體業務場景的應用。”王金橋說。
此外,在智慧城市、金融科技、民生服務等許多領域,多模態人工智能也有著廣闊的應用場景。
王金橋表示,未來“多模態大模型+小模型”的模式或將成為多模態人工智能的主流,該模式可以有效解決需求碎片化、多樣化等問題。
王金橋表示,我國應該打造工業化范式的多模態大模型生態,持續完善國產基礎軟硬件支撐體系,加大人工智能與醫學、材料、氣候等科學研究領域的結合力度,健全人工智能產業應用政策標準,大力培養人工智能復合型人才。