速途網3月15日訊(報道:喬志斌)今天凌晨,OpenAI 發布了多模態預訓練大模型 GPT-4。GPT-4 實現了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風格變化。

GPT-4 是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回復。實驗表明,GPT-4 在各種專業測試和學術基準上的表現與人類水平相當。OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經驗教訓對 GPT-4 進行迭代調整 ,從而在真實性、可控性等方面取得了有史以來最好的結果。
在過去的兩年里,OpenAI 重建了整個深度學習堆棧,并與 Azure 一起為其工作負載從頭開始設計了一臺超級計算機。一年前,OpenAI 在訓練 GPT-3.5 時第一次嘗試運行了該超算系統,之后他們又陸續發現并修復了一些錯誤,改進了其理論基礎。
OpenAI 今天還開源了 OpenAI Evals,這是其用于自動評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點,以幫助 OpenAI 進一步改進模型。
有趣的是,GPT-3.5 和 GPT-4 之間的區別很微妙。當任務的復雜性達到足夠的閾值時,差異就會出現 ——GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。

許多現有的機器學習基準測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力,研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中,GPT-4 優于 GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能。
不僅如此,GPT-4還加入了識圖的功能,允許用戶指定任何視覺或語言任務。例如,給 GPT-4 一個長相奇怪的充電器的圖片詢問笑點在哪?


不過,OpenAI方面也指出,盡管功能已經非常強大, GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會產生幻覺、生成錯誤答案,并出現推理錯誤。
目前,使用語言模型應謹慎審查輸出內容,必要時使用與特定用例的需求相匹配的確切協議(例如人工審查、附加上下文或完全避免使用) 。