比LLaMA更小,比LLaMA(65B)更強(qiáng)!

5月27日,阿拉伯聯(lián)合酋長(zhǎng)國(guó)技術(shù)創(chuàng)新研究院(TII)發(fā)布了史上最強(qiáng)大的基礎(chǔ)模型:FalconLM。
值得注意的是,該模型目前在Huggingface排行榜上排名第一

除了不斷增大的模型外,TII還發(fā)布了一個(gè)用于訓(xùn)練模型的數(shù)據(jù)集。該數(shù)據(jù)集包含1.5萬(wàn)億個(gè)參數(shù),

Falcon LLM是一個(gè)基礎(chǔ)性的大型語(yǔ)言模型(LLM),在一萬(wàn)億個(gè)令牌上訓(xùn)練了400億個(gè)參數(shù)。TII現(xiàn)已發(fā)布獵鷹LLM——40B型號(hào)。

該模型僅使用GPT-3訓(xùn)練計(jì)算的75%、Chinchilla的40%和PaLM-62B的80%。
可以肯定的是FalconLM模型目前超越所有其他開(kāi)源模型(如Redpajama、MPT、LLaMA等)。
該模型使用RoPE嵌入、閃電注意力和多查詢(xún)注意力進(jìn)行訓(xùn)練,因此其推理效果得到了優(yōu)化。它有7B和40B兩個(gè)版本可用。此外,該模型還提供了針對(duì)指令執(zhí)行進(jìn)行優(yōu)化的Instruct版本,但不適用于微調(diào)。
另外,他們還推出了一個(gè)前瞻性的許可證。它允許商業(yè)使用,但對(duì)于任何使用該模型的用例所產(chǎn)生的收入超過(guò)100萬(wàn)美元的部分,他們要求收取10%的版稅。