股融通配资,线下配资平台,线上股票配资炒股,10大配资公司

Monkey:實現更準確的“看圖說話”

信息來源:科技日報更新時間:2024-01-08

1月5日,從華中科技大學獲悉,該校軟件學院白翔教授領銜的VLRLab團隊正式發布多模態大模型——Monkey。該模型可精確描述圖片內容,并和人類就圖片內容進行深入交流。

多模態大模型是一類可以同時處理和整合多種感知數據(如文本、圖片、音頻等)的AI架構。近年來,它在眾多場景中展現出較大潛力。據介紹,Monkey在18個數據集上的實驗中表現出色,在圖片描述、視覺問答任務以及文本密集的問答任務中具有優勢。

據介紹,目前,幾乎所有多模態大模型都需要運用網上爬取的圖文對數據集。這些數據集只能讓大模型完成簡單的圖文描述任務,難以充分挖掘圖片分辨率日益增加的優勢。

為解決上述問題,Monkey研發團隊利用現有工具構建了一種多層級的描述生成方法。通過依次對圖片進行整體簡述、空間定位、模塊化識別、描述賦分選取和最終總結,該方法可大幅提升圖片描述的準確性和豐富程度。

“一個個工具就好比不同的零件,合理排列組合才能使其發揮最大作用。”白翔說,他所在的團隊從2003年就開始從事圖片識別研究。他們一起反復討論,嘗試了10余種方案后才確定Monkey的最終方案。

白翔介紹,Monkey的另一亮點是能處理分辨率高達1344×896像素的圖片,這是目前其他多模態大模型所能處理的最大尺寸的6倍。這意味著Monkey能對更大尺寸的圖片進行更準確、豐富、細致的描述甚至推理。

據悉,目前業內能處理的圖片最大分辨率為448×448像素。若想進一步提升多模態大模型的圖片處理能力,需投入高昂的算力成本。該團隊成員劉禹良介紹,為解決上述問題,團隊采用創新性的“裁剪”方法。他們將原始輸入圖片分割成多個圖片塊,每個圖片塊的尺寸小于448×448像素。他們還為每個圖片塊配備了一個“放大鏡”,將“放大鏡”放到圖片塊合適的位置即可“看”清更多細節。多個“放大鏡”同時工作,分別“放大”不同的圖片塊,就能提取更多圖片局部特征。

相關推薦
MORE