作為2025世界人工智能大會(WAIC)的重要組成部分,青年菁英交流會之“下一代大模型架構演進”于7月27日下午在上海世博中心607會議室隆重舉行。本次活動由上海人工智能行業協會主辦,是WAIC青年菁英交流會系列活動的核心環節之一,旨在匯聚人工智能領域的青年學者,深入探討大模型架構演進的前沿理論與技術突破。活動遵循“學術引領、前沿思辨、范式創新”理念,聚焦大模型發展的理論根基與未來方向,構建兼具理論深度與實踐價值的學術對話平臺。
會議由上海交通大學嚴峻池教授主持,西安電子科技大學徐偲副教授、上海交通大學林洲漢副教授、復旦大學熊昊助理教授作為特邀嘉賓進行了專題分享,并與現場觀眾進行了深度交流。
模型不確定性量化 從傳統模型到大模型的跨越
從貝葉斯統計到深度學習,不確定性量化始終是機器學習領域的核心挑戰。傳統機器學習模型通過概率分布、置信區間等方法量化預測不確定性,但在大模型時代,亟需量化大模型輸出的置信度,避免過度自信的回答產生嚴重后果。
西安電子科技大學徐偲副教授深入探討了這一轉變的核心矛盾:如何在保持大模型性能的同時,準確評估其預測的置信度?隨著大模型在自動駕駛、醫療診斷等零容錯率場景的應用,不確定性量化已從學術問題轉變為安全底線。徐教授分享了其在可信多模態深度學習方面的最新研究成果,探討如何通過證據理論、動態證據融合等技術,在大模型規模下實現可靠的不確定性估計。
“如何讓智能系統具備一定的自知能力”這句看似簡單的話語,道出了徐教授對可信人工智能的終極追求。在人工智能日益滲透人類生活的今天,”自知能力”承載著比技術指標更為深層的價值內涵——它關乎智能系統的自我認知、決策透明,以及人機協作的和諧共生。
徐教授的這句金句,實際上是對其開創性研究成果《Reliable Conflictive Multi-view Learning》的哲學升華。當傳統多視圖學習假設不同視圖嚴格對齊時,現實世界中的沖突數據往往被簡單消除或替換。徐教授敏銳地意識到,真正的”自知能力”不是回避沖突,而是直面沖突并給出可靠的決策結果和不確定性度量。
在醫療診斷場景中,當MRI模態與指標模態出現沖突時,傳統方法可能直接刪除沖突數據,但徐教授提出的證據沖突多視圖學習(ECML)方法卻能夠為沖突數據提供決策結果和附加可靠性。這種方法通過狄利克雷分布建模視圖特定的不確定性,通過沖突意見聚合策略精確模擬多視圖的公共和特定可靠性關系,讓智能系統具備了”自知能力”——不僅能夠給出預測結果,更能量化表達自己的置信程度。
徐教授深入研究了不確定性產生的三個階段:在數據標注階段,多模態數據本身存在內在隨機性,收集與表示過程中可能出現信息丟失;在模型的構建與訓練階段,模型本身存在缺陷,對某些輸入或情況缺乏充分的知識與信息;在模型應用階段,訓練數據分布與實際應用分布之間存在差異。這種系統性的不確定性分析為構建真正可信的人工智能系統提供了理論基礎。
徐教授的研究涵蓋了可信多模態深度學習的多個關鍵方面:從《Trusted Multi-View Classification with Dynamic Evidential Fusion》到《Uncertainty-aware Multi-view Deep Learning for Internet of Things Applications》,再到《Dynamic Evidence Decoupling for Trusted Multi-view Learning》,他系統地解決了多模態學習中模態區分能力不同、證據融合復雜、沖突數據處理等核心問題。這些工作為構建真正可信的人工智能系統提供了理論基礎和技術路徑,讓AI從”黑盒”走向”透明盒”,從”盲目自信”走向”理性謙遜”。
自注意力機制及其衍生方法 突破計算瓶頸的探索
自注意力機制自2017年提出以來,已成為大模型成功的關鍵技術。然而,其O(n2)的計算復雜度成為制約模型規模擴展的瓶頸。當序列長度達到數萬甚至數十萬時,傳統注意力機制的內存需求呈平方級增長,這直接限制了模型處理長文本的能力。
上海交通大學林洲漢副教授聚焦這一技術難題:如何在保持注意力機制核心優勢的同時,顯著降低計算復雜度?林教授享其在關系感知的自注意力機制、用于圖的核化自注意力機制、用于檢索重排的自注意力機制等方面的突破性進展。這些方法從不同角度擴展了自注意力機制的應用邊界,為處理復雜結構化數據、圖數據、檢索任務等應用場景開辟新路徑。
如何讓大模型既懂圖的結構,又保持生成能力?道出了林教授對AI技術融合創新的深刻洞察。在自然語言到SQL轉換等關鍵任務中,傳統方法面臨著根本性挑戰:基于圖神經網絡的方法對數據庫結構化信息建模好但代碼生成能力弱,基于大語言模型微調的方法代碼生成能力強但丟失數據庫結構信息。林教授敏銳地意識到,真正的突破不是選擇其中一條路徑,而是通過RASAT技術實現“怎樣把兩條路線的好處都利用上?”的目標。林教授的這句金句,實際上是對其開創性研究成果RASAT(Relation-Aware Self-Attention)的哲學升華。從在Mila實驗室師從Yoshua Bengio教授,到如今在上海交通大學John Hopcroft中心擔任副教授,林教授始終保持著對前沿技術的敏銳嗅覺。他長期從事機器學習與自然語言處理領域的研究,專注于自監督學習、大語言模型預訓練方法、模型記憶能力等方面,目前累計發表論文70余篇,Google Scholar引用量過萬。
林教授提出的解決方案,體現了其深厚的理論基礎和工程實踐能力。通過關系感知的自注意力機制(RASAT),他解決了自然語言到SQL轉換中數據庫結構信息丟失的問題,通過向自注意力機制的key和value中引入關系向量,涵蓋schema encoding、schema linking、question dependency structure、coreference between questions、database content mentions五大類關系,顯著提升了SQL代碼與實際數據庫的貼合度。
通過Cluster-wise Graph Transformer,他提出了Node-to-Cluster注意力機制,解決了圖分類任務中傳統Graph Coarsening過程導致的節點信息丟失和聚類表征同質化問題。通過保留原始節點參與運算而保護節點信息,并通過核化方法保持線性復雜度,實現了更高效的圖結構處理。
通過Gumbel Reranking,他實現了可微的檢索重排過程,解決了RAG系統中檢索器和LLM分立導致中間步驟不可微的問題。通過將reranking過程看做hard attention(0/1分類),使用Gumbel Softmax使不可微操作變得可微,實現了端到端優化reranker,在BGE、RankT5等標準設定下顯著超越傳統方法。
這種”關系向量”的創新理念,實際上是對AI技術融合本質的深刻踐行。它超越了簡單的技術優化,觸及了智能系統設計的根本問題——如何在保持大模型強大生成能力的同時,增強其對結構化信息的理解?如何通過架構創新實現不同技術范式的優勢互補?林教授的研究為構建更高效、更可擴展的大模型架構提供了理論基礎和技術路徑,讓AI從”單一能力”走向”融合智能”,從”技術割裂”走向”優勢互補”。
物理啟發的大模型 從經驗主義到理論驅動的范式轉換
無人機從地點A到地點B的最優控制問題,涉及控制量、飛行時間、耗電量等多個維度的復雜約束,如何做到最優控制?
當前大模型的發展主要依賴經驗主義和工程優化,但隨著技術發展進入深水區,這種方法的邊際效益急劇下降。與此同時,物理學中的對稱性原理、守恒定律、變分原理等深刻洞察,為構建更高效、更可解釋的智能系統提供了理論指導。
復旦大學熊昊助理教授探討了這一前沿方向:如何將物理學原理有效融入大模型架構設計?物理啟發的方法有望解決當前大模型在泛化能力、計算效率、可解釋性等方面的根本挑戰。熊教授分享了其在智能科學計算方面的創新成果,展示如何通過物理先驗知識指導模型設計,實現從數據驅動到理論驅動的范式轉換。
熊教授的這個設問,道出了他對物理啟發AI方法本質的深刻洞察。在傳統最優控制理論面臨根本性挑戰的今天,物理啟發的AI方法為求解復雜動態系統提供了全新的思路。當傳統最優控制方法面臨三個根本性挑戰時——動力系統的不確定性、迭代式求解復雜度高、求解器只能解決一類問題且隨環境變化會出現覆蓋不到的問題,熊教授敏銳地意識到,真正的突破不是回避這些挑戰,而是直面它們并給出基于物理啟發的AI求解方案。
在“AI for Science”方面,熊教授專注于高維PDE演化算子學習和最優控制問題算子學習。他提出的SINGER方法通過神經網絡代理解滿足三個關鍵性質,在熱方程和HJB方程等8組5-20維方程仿真數據上實現了精度提升約1個數量級的突破性成果。
在最優控制問題算子學習方面,熊教授提出了基于自適應譜方法+神經算子的AI求解器。該方法通過NASM架構,在7組仿真數據和1組真實數據上實現了求解速度相對傳統算法加快1000倍的突破性進展,同時保持了優異的泛化性能。
在“Science for AI”方面,熊教授探索了分子動理學啟發的網絡架構、優化器,以及量子啟發的高階算子等前沿方向。這些物理啟發的方法不僅能夠提升模型的泛化能力和計算效率,更重要的是為AI系統提供了可解釋的理論基礎。
在分子動理學啟發的網絡架構方面,熊教授提出了KITINet方法。與傳統神經網絡中簡單的加法操作不同,KITINet引入了基于碰撞理論的交互機制,通過碰撞機制產生新的速度和位置,這種基于PDE仿真方法的網絡架構顯著提升了模型的表達能力。
在分子動理學啟發的優化器方面,熊教授提出了KO優化器。該優化器通過”碰撞(熵增)抵消凝聚”的機制,有效防止了模型訓練過程中的模式崩塌問題。在ImageNet-1K數據集上,ResNet50+KO相比傳統優化器在Top-1準確率上實現了顯著提升。
在量子啟發的高階算子方面,熊教授提出了HOLinear高階線性映射算子。該方法通過構建高階嵌入表征,將傳統的1階表示擴展為包含0階、1階、2階直至K階的完整表示體系。在LLaMA2 7B模型的微調實驗中,C2Q-SFT方法在多個下游任務上均實現了相對于標準SFT的正向改進,特別是在數學推理任務GSM8k上實現了+5.61%的顯著提升。
這種從具體問題到通用求解器的發展路徑,實際上是對AI技術演進規律的深刻洞察。正如熊教授所探索的無人機最優控制問題,通過將具體的工程問題抽象為數學優化問題,再通過物理啟發的AI方法求解,可以構建出在特定任務上表現卓越的”特長生”系統。
這種物理啟發的研究范式,實際上是對科學交叉融合的深刻踐行。它超越了簡單的技術優化,觸及了智能計算的本質問題——如何從具體的工程問題中抽象出數學本質?如何構建能夠適應環境變化的智能求解器?熊教授的研究為構建更高效、更可持續的智能系統提供了理論基礎和技術路徑,讓AI從”經驗主義”走向”理論驅動”,從”暴力堆參”走向”精妙設計”。
圓桌思辨 大模型架構演進的未來路徑
在三個專題分享后,嚴峻池教授主持了圓桌思辨環節,四位教授與現場青年菁英進行了深度交流。嚴峻池教授拋磚引玉,圍繞大模型架構演進的核心議題提出了系列問題,帶動與會嘉賓積極討論。
與會專家首先深入探討了強化學習思維鏈的改進與泛化能力提升問題。專家們認為強化學習本身在泛化性方面比注意力機制更具優勢,通過模型自我認知、自我反省機制,結合檢索知識對問題進行補充,能夠有效提升模型性能。針對如何克服模型高幻覺、低泛化的問題,專家們分享了各自的實踐經驗,檢索器在針對不同模型時的重要性也得到了充分討論。
針對SFT存在的兩重約束——非真實環境交互和標注數據限制,專家們分享了通過交互形式學習提高模型準確性的實踐經驗。基于思維鏈的冷啟動學習能夠實現更好的泛化性,利用較少的標注數據改進強化學習算法成為討論焦點。與會專家一致認為,交互式學習與數據效率的平衡是當前大模型發展面臨的重要挑戰。
在多模態融合的架構挑戰方面,與會專家探討了視覺數據和人造眼技術對改進多模態能力的貢獻。專家們強調訓練方法的改進比技術本身更為重要,多模態在訓練困難、對齊困難等方面的挑戰需要系統性解決方案。盡管應用前景廣闊,但多模態技術面臨的根本性挑戰不容忽視,需要從架構設計層面進行根本性突破。
專家們還分析了多模態在本地端側云測異構環境中的高效部署問題。多系統協同是大模型落地的現實情況,涉及分布式計算、西電東算等國家戰略。與會專家討論了異構大模型的未來發展方向,以及如何設計適應異構環境的優化算法,包括手機NPU等新型架構的應用前景。
隨著國產AI芯片的快速發展,與會專家討論了其在大型模型訓練中的應用潛力。專家們分析了國產芯片在算力、能效比、生態適配等方面面臨的挑戰和機遇,探討了如何通過架構優化和算法適配,充分發揮國產芯片在大模型訓練中的優勢。國產芯片生態的完善對大模型技術自主可控的重要意義得到了充分認可。
在可解釋性方面,專家們深入討論了如何通過架構設計提升模型的推理透明度和決策可追溯性。徐教授從不確定性量化的角度指出,可解釋性不僅需要模型能夠解釋其決策過程,更需要量化表達決策的置信度。物理啟發的方法為構建可解釋的AI系統提供了新的思路,與會專家探討了如何平衡模型性能與可解釋性之間的關系,評估了可解釋性技術在實際應用中的價值和局限性。
當前,大模型技術正處于從“工程化應用”向“理論根基重構”的關鍵拐點。傳統基于經驗的調參方法已接近極限,理論突破成為推動技術發展的核心動力。在這一歷史性時刻,青年專家的創新思維和理論突破將決定AI技術的未來走向。
從不確定性量化到注意力機制優化,從物理啟發方法到跨學科融合,這場匯聚青年智慧的學術盛宴,成為了觀察大模型架構演進方向的重要窗口。7月27日下午,與會嘉賓共同見證了這場聚焦未來的思辨之約,見證了大模型技術從理論根基到架構創新的歷史性跨越。青年專家們用他們的創新思維和理論突破,正在為AI技術的未來發展開辟新的道路,引領著人工智能技術邁向更加輝煌的新紀元。