經過一年時間追趕,國產大模型正在逐步實現對ChatGPT的領先和超越。
過去一年,中國已發布的大模型數量已達158個,10億級參數以上大模型數量超80個,大模型數量與美國不相上下,成為全球人工智能的又一座高峰。
在底座能力上突發猛進的同時,市場也逐步達成共識:大模型本身并不產生價值,它的價值必須通過賦能千行百業來實現。
近日,國務院發展研究中心國研經濟研究院就開展了一項大模型行業應用能力測評,來對比國產大模型與國際一流大模型的行業表現,并在此基礎上提出我國大模型產業高水平發展的政策建議。
據了解,此次測評選取星火大模型3.0版、ChatGPT、GPT-4及國內其他大模型為測評對象進行對比,測評行業方面選擇了知識密集型的生產性服務業(法律服務與工業設計)、個性化需求高的生活性服務業(醫療、教育與零售)以及部分制造業(汽車工程、計算機),并基于臨床執業醫師資格考試、中醫執業醫師資格考試、國家統一法律職業資格考試、機動車檢測維修專業技術人員執業資格、全國計算機技術與軟件專業技術資格等權威職業資格考試構建了測評題目,以評估大模型在行業知識、技能掌握水平、生產經營場景理解能力等維度的表現。
經過對比測評,科大訊飛最新發布的訊飛星火3.0綜合能力已達國際一流水平,在所有7個測評行業中表現均大幅超越ChatGPT,并在部分行業優于GPT-4,國內領先。

(圖:各行業綜合準確率對比)
從具體的測評結果來看,星火大模型3.0版在醫學、法律、教育、零售、汽車工程、計算機和工業設計的綜合準確率分別達到69.3%、71.4%、82.2%、61.2%、78.4%、76.9%和66.4%,平均準確率達72.3%,在所有測評行業中表現均優于GPT3.5版,并且與GPT4.0各有優劣,且相對落后項的差距也均在10%以內。
國研經濟研究院在報告中總結:“星火大模型3.0版的知識儲備與語言理解能力已具備獨立完成部分行業任務和輔助人類完成復雜任務的能力。”
在醫療、法律、教育等行業,星火大模型表現更是格外突出。報告稱,星火3.0在醫療、法律領域的中文領域知識和語言理解能力已分別超越GPT4表現5.3%和4.1%,在教育領域基礎能力的表現與GPT4的表現差距小于1%。
從應用能力上看,星火大模型的行業知識掌握水平較高,且已經初步具備處理行業內復雜問題的能力。星火大模型在各行業基礎知識與領域知識問答中的表現突出,在所有測評行業中準確率均超過GPT3.5。
其中,醫學臨床診斷、法律案例判決和零售企業戰略制定等考核領域屬于較為復雜的題目,需要模型在具備行業知識的同時從給定場景中提取出關鍵信息,并作出判斷。星火大模型在該類問題中的表現優異,正確率分別達到65.2%、63.0%、66.7%,均優于GPT3.5表現,在醫學臨床診斷、法律案例判決中的正確率與GPT4.0表現接近,僅在零售企業戰略制定方面略弱于GPT4.0。
星火大模型在醫療場景下的領先并非一蹴而就。事實上,早在2017年訊飛智醫助理就已經通過國家執業醫師資格考試,排名超過96.3%的人類考生,并且已經向基層醫院及等級醫院的醫生提供幫助。據了解,訊飛的醫療能力已經在全國400多個縣區實現了規模化的成功應用,累計為醫生提供了6.9億次輔助診斷,并修正了100多萬次基層醫生的首次不合適診斷。
但因為醫療場景的特殊性,“需要非常嚴謹地對待”,星火醫療大模型一直未對外公開。直到近期打磨成熟,醫療整體超越GPT4才對外正式發布。據了解,科大訊飛的醫療大模型是首個通過信通院和國家衛健委制定的醫療健康大模型標準規范測評的大模型。
國研經濟研究院指出,行業應用將是大模型未來發展的必由之路,而隨著大模型底座技術的不斷提升,探索賦能不同行業場景的落地方式將成為我國大模型企業快速發展的重要方向,而行業應用價值也將成為評判大模型的核心指標。
上海財經大學校長劉元春此前在接受媒體采訪時指出,對于通用人工智能,大模型的長期價值將通過行業應用實現,而應用場景是關鍵。清華大學人工智能研究院視覺智能研究中心主任、教授鄧志東同樣表示,大模型的價值在于應用,而只有在多樣化的實際應用場景中賦能智能經濟與智能社會的發展,才能找到產業價值。
今年年中,高盛研究院在一份報告中指出,生成式AI具有巨大的經濟潛力,預計在未來十年內廣泛應用后,每年可提高全球勞動生產率超過1個百分點以上。通過使用生成式AI,企業可以提高生產效率、降低成本,甚至創造全新的商業模式。
然而,想要實現這一大規模的轉型并不容易。對于大多數企業而言,面向垂直場景、垂直行業、垂直領域探索基于大模型的應用創新,都將是未來重點攻克的方向。
國研經濟研究院總結道,參照移動互聯網的發展路徑,唯有出現成千上萬個解決生產、生活真實需求的AI原生應用,大模型才能真正由“樣板間”變為“商品房”,深入社會經濟的各個角落,助力各行各業的產業升級,推動中國經濟的快速復蘇,深刻改變人們的生活方式。