
人工智能大模型是指使用海量數據和強大計算力訓練出來的具有強大泛化能力和生成能力的人工智能模型。大模型的出現,一舉打破了數據資源有限、算力投資難度大、模型泛化能力差、高水平人才稀缺的發展瓶頸,重新點燃了行業對于人工智能技術應用的興趣。
今年以來,大模型如雨后春筍般涌現, “百模大戰”的行業競爭格局正在形成,每家大模型企業一方面不斷探索著大模型能力的邊界,同時也在尋找大模型與實體產業結合的觸點。
例如,自然語言處理和語義理解的能力大模型在醫療健康領域可以用于疾病診斷和個性化治療;數據分析和預測的能力能夠用于數字零售;智能決策和優化的能力能夠在智能交通等領域大放異彩。
今天,國際數據公司(IDC)正式發布《AI大模型技術能力評估報告2023》(后簡稱《報告》)中,圍繞大模型市場發展前景、行業應用、技術趨勢、產品能力、成本情況和優缺點,全面剖析AI大模型的發展情況。
大模型之家注意到,此前,行業內仍缺少統一的大模型評估標準,大多數企業依舊在拼參數量級,通過更大的參數量來提升模型的準確度。然而,隨著大模型的數據量級達到萬億規模,數據的多少和模型的性能收益之間容易出現邊際效應遞減的現象,為大模型的應用部署帶來了挑戰。
為此, IDC在報告中提出了一套技術評估標準,重點評估AI大模型代表廠商的技術和商業能力,從這份評估結果中,我們不僅可以看到各家企業的大模型產品技術的深度,還可以看到大模型與行業深度融合的廣度。
無愧大模型國家隊隊長,百度文心綜合評分第一
據了解,IDC在《報告》中,重點調研了百度、阿里巴巴、科大訊飛、第四范式、瀾舟科技、云從科技、智譜AI、中國電信智科以及中科聞歌9家中國市場主流大模型技術廠商,此外還包括360、minimax、華為、商湯、騰訊等。
通過將大模型評估標準分為產品技術、服務生態以及行業應用三層指標,對每一層的能力進行測評,主要考察指標為算法模型、通用能力、創新能力、平臺能力、安全可解釋、大模型的應用行業以及配套服務和大模型生態等指標。每項指標最高5分,得分越高代表實力越強。

從評估數據可以看到,這9家企業所推出的大模型,能力上各有千秋。其中,百度旗下的文心大模型在綜合成績上位列《報告》評估的國內大模型之首。
值得注意的是,百度文心大模型在算法模型、通用能力、創新能力、平臺能力、生態合作能力以及行業覆蓋7大指標中表現突出,均取得了最高的評級。其中,算法模型、行業覆蓋兩項指標,更是本次參加評估的大模型中,唯一取得滿分的大模型。七項滿分、三個絕對第一,體現了百度文心大模型的基礎技術深度和產業應用覆蓋廣度。
在衡量生成式AI最底層的技術基礎的產品分數上,憑借著國內唯一滿分的“算法模型”優勢,百度文心大模型展示了其在模型能力上的技術領先。這種優勢的根源可以追溯到百度在人工智能領域長期以來的技術積累,尤其在模型能力、工具平臺、生態布局以及行業覆蓋方面表現出明顯的優勢。

首先,百度在人工智能領域擁有完整的四層架構布局,包括芯片層、框架層、模型層和應用層。這種端到端的布局和優化使得百度能夠在框架層和模型層之間實現協同優化,從而提升文心大模型的模型效果、訓練速度和推理速度。并基于百度自研的深度學習平臺飛槳(PaddlePaddle),為大模型的高效訓練和推理提供了強力支持。通過整合不同層次的技術和資源,百度能夠更好地滿足大模型產品的需求,提供更出色的用戶體驗。
同時,知識增強作為文心大模型的核心特色之一,通過融合海量知識和數據進行學習,使得模型具有更高的效率、更好的效果和更強的可解釋性。百度持續進行技術創新,并將其廣泛應用于各個領域,如自然語言處理(NLP)、計算機視覺(CV)和跨模態等。通過布局這些大模型技術,大模型覆蓋了文本、視覺、跨模態等多個領域,并在180多個權威公開評測集上刷新了SOTA(State-of-the-Art)結果。這種技術和生態的投入使得百度能夠在大模型產品中處于領先地位,滿足用戶對于復雜任務和多樣化需求的需求。
得益于全棧布局的優勢,百度能夠保持大模型能力的快速迭代。今年3月,百度正式發布文心一言作為國內率先推出對標 ChatGPT 的大模型,集知識增強、檢索增強、對話增強技術創新于一體。而僅在3個月后,迭代上線的文心大模型3.5,經過飛槳與文心大模型的協同優化,更是在能力上取得了進一步突破,模型效果提升50%,訓練速度提升2倍,推理速度提升30倍。
在AGIEval、C-Eval等中英文權威測試集和MMLU英文權威測試集中,取得了超過ChatGPT和LLaMa、ChatGLM等其他大模型的分數表現,在中文評測項中超越了GPT-4,綜合能力走在世界前列。

不僅如此,文心大模型3.5還能通過插件方式擴增了大模型的能力邊界:例如默認內置插件“百度搜索”,使得文心一言具備生成實時準確信息的能力;“ChatFile”插件可基于長文檔進行問答和摘要。成功將百度作為國內最大的搜索引擎的技術積淀與大模型技術相結合,使模型效果及場景適配能力進一步顯著提升。
文心大模型與產業實踐深度融合,行業覆蓋脫穎而出
大模型出現之前,AI最被詬病、落地最難的是,實際產業環境場景碎片化。但在基礎大模型下,不需要太多精調數據,不需要訓練太多輪數,就可以獲得非常好的結果,大大降低了企業使用人工智能的門檻,為企業布局人工智能技術實現降本增效帶來了空前的機遇。
在《報告》中,IDC指出,大模型的通用性顯著降低了 AI 的應用門檻,為人工智能的工程化落地提供了更多可能性。從產業應用來看,大模型為企業提供生產優化與創新的新路徑,并已經在搜索、地圖、數字人、智能對話、推薦以及業務流程優化等場景表現出巨大的潛力。
不過,想要保持大模型技術的領先,不僅需要算力、有數據、有經驗豐富的AI工程師的長期積累,仍然要持續在技術生態高強度投入。以百度為例,過去10年,百度在AI方向投入已超過1000億元。百度作為一家技術公司,每年研發投入的營收占比都超過20%。
每個企業都需要用大模型,但并非每家企業都需要從零開始做大模型。因此,作為技術企業,推動大模型與行業深度融合,支撐起產業轉化,實現以虛促實,成為行業亟待解決的問題。
大模型之家認為,在實際應用中,大模型需要綜合考慮多個因素來確定最適合的模型規模。針對不同行業的場景特點,進行有針對性的知識增強在解決現階段問題中將發揮重要作用。通過與不同行業的場景特點通過將大模型與知識庫相鏈接,進行知識增強,可以使大模型具備更強的專業知識和推理能力,從而提高大模型在特定領域的表現和適應性。
目前,大模型已經具備較高的識別準確率和較強的場景遷移性,在多模態的任務下也有明顯的突破,并已在金融、電商、能源等行業試水成功,并逐步向千行百業滲透。
百度文心大模型源于產業實踐,服務于產業實踐。在近年的大模型技術探索與產業實踐中,百度文心形成了支撐大模型產業落地的關鍵路徑,構建文心大模型層、工具平臺層,以及以基于文心大模型構建的系列產品與社區,能夠為用戶提供更多樣化、更高效的大模型產品,并已提前進入商業化落地探索階段。

在IDC《報告》中,也針對大模型行業覆蓋層面,以及面向具體行業給出了詳細的打分。其中,百度文心大模型在中行業覆蓋指標中,成為了唯一取得滿分5分的模型。另外,在行業相關的能源領域,百度文心大模型在能源中脫穎而出,取得了行業滿分的成績。

百度7項滿分、綜合評分第一
IDC在報告中指出:百度文心大模型源于產業實踐,服務于產業實踐。在近年的大模型技術探索與產業實踐中,百度文心形成了支撐大模型產業落地的關鍵路徑,構建文心大模型層、工具平臺層,以及以基于文心大模型構建的系列產品與社區。
在模型層,文心大模型包含30多個大模型,涵蓋基礎大模型、任務大模型、行業大模型的三級體系,全面滿足產業應用需求。在工具與平臺層,全面升級大模型開發套件、文心 API、提供全流程開箱即用大模型能力的 EasyDL 和 BML 開發平臺,全方位降低應用門檻。這些模型能力為百度的產品、服務帶來巨大變化,推動云計算加速進入AI時代,加速實現百度智能云提出的“云智一體”戰略。
目前,百度“文心一言”大模型+飛槳深度學習框架,已聯合國網、浦發、泰康、吉利、哈爾濱市、深圳燃氣、TCL、上海辭書出版社等行業客戶合作打造了11個行業大模型,涵蓋電力、燃氣、金融、航天、傳媒、城市、影視、制造、社科等行業大模型,加速推動行業的智能化轉型升級。
例如,與吉利汽車合作構建了智能客服知識庫、汽車領域知識庫等,節省了75%的研發人力成本。此外,文心一言自3月份內測以來,百度已經陸續接到了超過15萬家客戶的接入請求。
2023年5月,全球首個一站式企業級大模型生產平臺“文心千帆大模型平臺”發布,不但提供包括文心一言在內的文心大模型及第三方大模型服務,還提供大模型開發和應用的整套工具鏈。目前文心千帆可以支持公有云服務、私有化部署多樣的交付模式。企業可根據自身業務需求,選擇適合自身的模型服務方式。
以能源電力為例,在全球最大的公用事業企業–國家電網有限公司,面向復雜電網的專業場景,基于百度文心大模型,百度與智研院聯合訓練電力行業大模型,在電網設備、客服等實際業務場景進行試點驗證,可以顯著增強電網運營的精細化、自動化、智能化水平。百度也和深圳燃氣聯合發布了燃氣行業大模型,破解燃氣企業運營場景繁雜、安全風險識別困難等難題。
隨著大模型落地千行百業,將成為推動我國高質量發展的核心動力。大模型不僅為行業創新和發展注入了新的動力,也推動著技術的突破和商業模式的創新。在這一過程中,在以百度等為代表的中國科技公司們的積極推動下,其前景亦令人充滿期待。在大模型產業的持續創新之下,將為行業貢獻更多價值,引領我國在數智化的征程中取得更大的成功。