
速途網(wǎng)9月6日訊 今日,百川智能舉行了題為“匯聚百川,攜手開(kāi)源”的大型發(fā)布會(huì)。會(huì)上,百川智能宣布正式開(kāi)源了經(jīng)微調(diào)的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat以及它們的4bit量化版本,全部均可免費(fèi)商用。
此次百川智能還宣布開(kāi)源模型訓(xùn)練的核心Check Point,并承諾將發(fā)布Baichuan 2技術(shù)報(bào)告,深入介紹Baichuan 2的訓(xùn)練細(xì)節(jié),以協(xié)助大型模型的學(xué)術(shù)機(jī)構(gòu)、開(kāi)發(fā)者和企業(yè)用戶更全面地了解其訓(xùn)練過(guò)程,從而更好地推動(dòng)大型模型的學(xué)術(shù)研究和技術(shù)社區(qū)的發(fā)展。

百川智能的Baichuan 2-7B-Base和Baichuan 2-13B-Base是基于2.6萬(wàn)億條高質(zhì)量多語(yǔ)言數(shù)據(jù)進(jìn)行訓(xùn)練的,它們?cè)诒A袅松弦淮_(kāi)源模型的出色生成與創(chuàng)作能力、流暢的多輪對(duì)話能力以及易用性等多個(gè)特點(diǎn)的基礎(chǔ)上,還在數(shù)學(xué)、編碼、安全、邏輯推理和語(yǔ)義理解等方面實(shí)現(xiàn)了顯著的提升。特別是Baichuan 2-13B-Base,相比上一代的13B模型,數(shù)學(xué)能力提高了49%,編碼能力提高了46%,安全能力提高了37%,邏輯推理能力提高了25%,語(yǔ)義理解能力提高了15%。
這兩個(gè)模型在各種主要評(píng)估指標(biāo)上表現(xiàn)出色,在MMLU、CMMLU、GSM8K等多個(gè)權(quán)威評(píng)估基準(zhǔn)中,它們憑借絕對(duì)優(yōu)勢(shì)領(lǐng)先于LLaMA2,與其他相同參數(shù)規(guī)模的大型模型相比,表現(xiàn)也非常突出,性能明顯超越了LLaMA2等競(jìng)爭(zhēng)對(duì)手。


更值得一提的是,根據(jù)MMLU等多個(gè)權(quán)威英文評(píng)估基準(zhǔn)的評(píng)分,Baichuan2-7B在英文主流任務(wù)上表現(xiàn)與130億參數(shù)的LLaMA2持平。王小川表示,對(duì)于Baichuan2-7B和Baichuan2-13B,不僅對(duì)學(xué)術(shù)研究完全開(kāi)放,開(kāi)發(fā)者們只需通過(guò)郵件申請(qǐng)官方商用許可即可免費(fèi)商用。
國(guó)內(nèi)首次全程開(kāi)源模型訓(xùn)練Check Point,助力學(xué)術(shù)研究
大型模型的訓(xùn)練過(guò)程包括獲取大規(guī)模高質(zhì)量數(shù)據(jù)、穩(wěn)定的訓(xùn)練集群、模型算法優(yōu)化等多個(gè)環(huán)節(jié)。每個(gè)環(huán)節(jié)都需要大量的人力和算力資源,從零開(kāi)始訓(xùn)練一個(gè)模型成本極高,這阻礙了學(xué)術(shù)界對(duì)大型模型訓(xùn)練的深入研究。

因此,百川智能以協(xié)作和不斷改進(jìn)的態(tài)度,開(kāi)源了模型訓(xùn)練從220B到2640B的完整Check Point。這對(duì)于科研機(jī)構(gòu)來(lái)說(shuō)是極具價(jià)值的資源,可以幫助他們研究大型模型的訓(xùn)練過(guò)程、持續(xù)訓(xùn)練和模型的價(jià)值觀對(duì)齊等問(wèn)題,將極大地推動(dòng)國(guó)內(nèi)大型模型的科研進(jìn)展,開(kāi)源訓(xùn)練模型過(guò)程在國(guó)內(nèi)開(kāi)源生態(tài)領(lǐng)域具有重要意義。
目前,大部分開(kāi)源模型在公開(kāi)過(guò)程中僅公開(kāi)自身的模型權(quán)重,很少涉及訓(xùn)練細(xì)節(jié)。企業(yè)、研究機(jī)構(gòu)和開(kāi)發(fā)者只能在現(xiàn)有開(kāi)源模型的基礎(chǔ)上進(jìn)行有限的微調(diào),很難進(jìn)行深入研究。
百川智能秉持更加開(kāi)放和透明的理念,為了幫助從業(yè)者更深入地了解Baichuan 2的訓(xùn)練過(guò)程和相關(guān)經(jīng)驗(yàn),更好地推動(dòng)大型模型社區(qū)的技術(shù)發(fā)展,宣布公開(kāi)Baichuan 2的技術(shù)報(bào)告。這份技術(shù)報(bào)告將詳細(xì)介紹Baichuan 2的全過(guò)程,包括數(shù)據(jù)處理、模型結(jié)構(gòu)優(yōu)化、Scaling law、過(guò)程指標(biāo)等方面的內(nèi)容。
百川智能自公司成立之初就一直致力于通過(guò)開(kāi)源方式促進(jìn)中國(guó)大型模型生態(tài)的繁榮。不到四個(gè)月的時(shí)間里,他們相繼發(fā)布了Baichuan-7B、Baichuan-13B兩款免費(fèi)開(kāi)源的中文大型模型,以及一款搜索增強(qiáng)大型模型Baichuan-53B。這兩款開(kāi)源模型在多個(gè)權(quán)威評(píng)估榜單上表現(xiàn)出色,目前已經(jīng)被下載了超過(guò)500萬(wàn)次。

值得一提的是,在今年成立的大型模型公司中,百川智能是唯一一家根據(jù)《生成式人工智能服務(wù)管理暫行辦法》備案的公司,正式向公眾提供服務(wù)。憑借領(lǐng)先業(yè)界的基礎(chǔ)大型模型研發(fā)和創(chuàng)新能力,他們的兩款Baichuan 2大型模型得到了上下游企業(yè)的積極響應(yīng),騰訊云、阿里云、火山方舟、華為、聯(lián)發(fā)科等眾多知名企業(yè)都參與了本次發(fā)布會(huì)并與百川智能達(dá)成了合作協(xié)議。
未來(lái),百川智能將繼續(xù)深耕開(kāi)源大型模型領(lǐng)域,分享更多技術(shù)能力和前沿創(chuàng)新,與更多合作伙伴一起助力中國(guó)大型模型生態(tài)的繁榮發(fā)展。