速途網7月5日消息(報道:李楠)今日,在2024世界人工智能大會“可信大模型助力產業創新發展”論壇上,螞蟻集團公布了其自研的百靈大模型最新研發進展:百靈大模型已具備能“看”會“聽”、能“說”會“畫”的原生多模態能力,可以直接理解并訓練音頻、視頻、圖、文等多模態數據。原生多模態被認為是通往AGI的必經之路,在國內,目前只有為數不多的大模型廠商實現了這一能力。
記者從大會現場的演示看到,多模態技術可以讓大模型更像人一樣感知和互動,支撐智能體體驗升級,百靈的多模態能力已應用于“支付寶智能助理”上,未來還將支持支付寶上更多智能體升級。

(螞蟻集團副總裁徐鵬介紹百靈大模型原生多模態能力)
據了解,百靈大模型多模態能力,在中文圖文理解MMBench-CN評測集上達到GPT-4o水平,在信通院多模態安全能力評測達到優秀級(最高),具備支持規?;瘧玫哪芰Γ苤С諥IGC、圖文對話、視頻理解、數字人等一系列下游任務。
多模態大模型技術能夠使AI更好地理解人類世界的復雜信息,也讓AI落地應用時更符合人類的交互習慣,在智能客服、自動駕駛、醫療診斷等多個領域展現出巨大的應用潛力。
螞蟻集團有著豐富的應用場景,百靈大模型的多模態能力,也已被應用在生活服務、搜索推薦、互動娛樂等場景。在生活服務上,螞蟻集團使用多模態模型實現了ACT技術,讓智能體具備一定規劃執行能力,比如根據用戶語音指定直接在星巴克小程序下單一杯咖啡,目前這一功能已在支付寶智能助理上線。在醫療領域,多模態能力為用戶實現復雜任務的操作,可以對超過100多種復雜的醫學檢驗檢測報告進行識別和解讀,還可以檢測毛發健康和脫發情況,對治療提供輔助。

(觀眾在螞蟻展廳現場體驗使用支付寶智能助理點咖啡)
發布現場,螞蟻集團副總裁徐鵬展示了新升級的多模態技術可實現的更多應用場景:通過視頻對話的自然形式,AI助理能為用戶識別穿著打扮,給出約會的搭配建議;根據用戶不同的意圖,從一堆食材中搭配出不同的菜譜組合;根據用戶描述的身體癥狀,從一批藥物中,挑選出可能合適的藥,并讀出服用指導,供用戶參考等。
基于百靈大模型多模態能力,螞蟻集團已在探索規模應用落地產業的實踐。
論壇上同時發布的“支付寶多模態醫療大模型”,便是這一探索的實踐。據了解,支付寶多模態醫療大模型添加了包含報告、影像、藥品等多模態信息在內的百億級中英文圖文、千億級醫療文本語料、以及千萬級高質量醫療知識圖譜,具備專業醫學知識,在中文醫療 LLM 評測榜單 promptCBLUE 上,取得 A 榜第一,B 榜第二的成績。
基于百靈大模型多模態能力,由螞蟻集團與武漢大學聯合研發的遙感模型SkySense,也在論壇上公布了開源計劃。SkySense是目前參數規模最大、覆蓋任務最全、識別精度最高的多模態遙感基礎模型。
“從單一的文本語義理解,到多模態能力,是人工智能技術的關鍵迭代,而多模態技術催生的‘看聽說寫畫’的應用場景,將讓AI的表現更真實,更接近人類,從而也能更好地服務人類。螞蟻會持續投入原生多摸態技術的研發?!毙禊i說。