
在2023年的最后一個月,谷歌在社交平臺上“低調”的官宣了新一代大模型Gemini。不過Gemini一經上線便吸引下了行業內外人士的廣泛關注,很多觀點都表達出Gemini將成為GPT-4最強勁的對手,甚至碾壓GPT-4的存在……
根據官方介紹Gemini已經實現各項參數超越GPT-4,特別是多模態領域包括圖像、視頻音頻等領域都有著突出的領先優勢。并且Gemini是第一個在MMLU(大規模多任務語言理解)方面優于人類專家的模型,而MMLU也是測試AI模型知識和解決問題能力的最流行方法之一。

從數據上來看,Gemini在自然語言處理、智能對話系統、信息檢索等領域,可以使其更好地適應和解決復雜的語境和任務。強大語言處理能力還可以為人們提供更高效、精準的信息和服務。
今天,谷歌官方表示Google AI Studio和Google Cloud Vertex AI將把Gemini模型集成到應用程序中。同時,用戶可以在Bard中體驗集成了Gemini Pro的測試版本大模型。值得一提的是,在Gemini AI官方介紹Gemini是Google即將推出的AI模型,由DeepMind和Google Brain聯合AI團隊的專家創建。同時Gemini AI也鄭重聲明“Gemini AI”的名稱是 Google 的財產,且不隸屬于 Google AI。
視覺新體驗,多模態功能成新發力點
在眾多功能展示中,Gemini最受業內外人士以及媒體關注的便是其多模態能力帶來的體驗,在官方介紹視頻中,Gemini可以對正在變化的視頻進行分析和理解,并且形成相應的描述。同時,在給出相應文字介紹時,Gemini還通過音頻的形似對文字內容進行復述,在復述的過程中還包含了一些擬人形態的氣口、停頓以及趣味性的對話,使得模型與使用者的交流更加順暢自然。

在大模型之家的體驗中,大模型之家使用對集成了Gemini Pro的大模型Bard給出了部分《清明上河圖》的圖片作為指令,讓Bard進行識別。Bard也清晰的給出了對于圖片的識別和描述。

除了介紹了《清明上河圖》的內容,集成了Gemini Pro的大模型Bard還總結了《清明上河圖》的主題。它表示:畫中描繪了北宋汴京城的繁華景象,展現了北宋時期的經濟繁榮和社會穩定。
Gemini能夠同時處理多種類型的數據,包括文本、圖像和視頻,從而實現更豐富和全面的信息理解和表達。這種能力的實現,依賴于Gemini的底層架構可以將不同的數據源轉換為相同的向量表示,然后再根據不同的任務生成相應的輸出。這種架構的優勢在于,它可以利用不同數據源之間的關聯性和互補性,提高模型的泛化能力和創造力。

在圖像識別和描述能力上,Gemini通過多模態架構與應用相結合,使用了一些先進的計算機視覺和自然語言處理的技術,如目標檢測、場景分割、圖像字幕、文本摘要等,來實現圖像到文本的轉換,并且在文本中包含一些圖像的重要信息和細節。這種結合的優勢在于,它可以提高模型的準確性和完整性,展示模型的分析和理解能力。
多尺寸部署,為商業化打好前站
在首批公開的信息中,Gemini同時提出了三種不同尺寸的大模型,由大到小分別為Gemini Ultra、Gemini Pro以及Gemini Nano。

其中,Gemini Ultra是Gemini系列中最大、最強的模型,擁有超過1000億的參數,可以處理高度復雜的任務,例如高級推理、規劃、理解等。而通過MMLU的測試的也正是Gemini的Ultra版本。
據大模型之家了解,谷歌采用了自研TPU為Gemini的提供模型訓練,根據Gemini模型的大小和配置,谷歌為其配置了大型的TPUv4加速器群,用于進行機器學習和深度學習任務。TPU的設計旨在提供高效的張量計算,使其在訓練和推理深度學習模型方面能夠取得卓越的性能。

TPUv4加速器的部署方式,即以4096芯片為單位的”SuperPods”。每個SuperPod都與專用光纖交換機連接,能夠在短時間內動態重新配置芯片,形成3D環形拓撲結構。而Gemini Ultra,在每個SuperPod中保留一小部分芯片,以支持熱備份和滾動維護。谷歌通過采用自主研發的硬件加速器成功擺脫對英偉達等企業的算力依賴,從而在算力方面取得了更好的成本效益。這不僅實現了降低成本,還提高了效率。
而作為現在就可以體驗到的Gemini Pro也是Gemini系列中最平衡的模型,它擁有約100億的參數,可以擴展到多種任務,例如文本生成、圖像描述、代碼編寫等。在集成到Bard后,大模型之家明顯的感覺到Gemini Pro任務處理速度以及多模態能力的提升。
除此之外,Gemini 還推出了可以運行在設備端,例如移動手機、平板電腦等場景的小尺寸模型Gemini Nano,擁有約10億的參數,可以為用戶提供一些便捷的AI功能,例如摘要、翻譯、智能回復等。

目前,Gemini Nano已經接入谷歌旗下手機產品Pixel 8 Pro,用戶可以通過Recorder和Gboard等應用來體驗Gemini Nano。Gemini AI設計了專為設備端部署而設計的Gemini Nano 1和Nano 2兩個模型。Nano-1和Nano-2模型的參數規模分別僅為1.8B和3.25B。盡管規模相對較小,但在檢索相關任務上表現出色,并在推理、STEM(科學、技術、工程、數學)、編碼、多模態和多語言任務中顯示出顯著的性能。這些模型在摘要生成和閱讀理解任務中表現優秀,并通過每個任務的微調來進一步優化性能。

在商業化道路上,Gemini系列的多尺寸模型允許谷歌為不同行業和用戶需求提供定制化的解決方案。Gemini Ultra的大規模模型適用于處理復雜的高級任務,可以提供個性化的服務,而Gemini Pro和Nano則更靈活,適用于廣泛的應用場景,包括移動設備、智能家居等,為用戶提供更加個性化、綜合性的體驗。
通過多重部署方式,Gemini模型擴大了對所有人的可訪問性。大模型之家認為Gemini模型的多尺寸設計有助于構建更為強大和多樣化的AI生態系統。將不同尺寸的Gemini模型引入到開發者和合作伙伴生態系統中,可以為谷歌激發更多創新,鼓勵開發者在各個領域中應用Gemini模型,從而進一步擴大其在人工智能領域的影響力。
隨著Gemini的落地,谷歌想要在大模型領域,鞏固大廠“強者恒強”的優勢。對于OpenAI的GPT與Meta的LLama而言,谷歌Gemini在模型規模、訓練數據、優化策略等方面,Gemini都表現出了領先的優勢,這無疑帶來了壓力和挑戰。與此同時,國內的百度、騰訊、阿里等大廠也在積極投入大模型的研究和開發,并持續在底層技術上進行創新。
然而,在大模型的角力中,單純的技術優勢并不足以保證在大模型領域的長期領先,大模型的產業實踐,也決定了大模型所能影響的廣度。例如OpenAI即將在明年年初上線的GPT商店,便是擴展生態,探索多領域專業大模型落地的重要一步。與此同時,國內的百度、騰訊、阿里等大廠也在積極投入大模型的研究和開發,推出了各自的大模型產品,并持續在底層技術上進行創新。
而縱觀整個大模型格局,國內大模型的研發和應用仍然需要長期且持續的中文語料數據和行業數據的澆灌,同時在基礎設施層面增強先進、有效的算力的開發。大模型之家堅信,隨著未來越來越多優質大模型走進生成式AI的“深水區”,將推動各大廠商在技術研發和創新上的投入,技術上的角力,引領產業迎來良性發展的循環。