速途網(wǎng)消息,在近日舉行的2023 世界人工智能大會上,聯(lián)匯科技發(fā)布了基于大模型能力的自主智能體(Auto AI Agent)——OmBot歐姆智能體,并首次發(fā)布針對智能體的 OmBot OS操作系統(tǒng),同時并針對典型場景需求,推出了首批應(yīng)用—— 視頻小歐、文檔小歐和AIGC小歐,其自主研發(fā)的歐姆大模型也升級至3.0版本。
聯(lián)匯科技發(fā)布OmBot歐姆智能體
何為自主智能體?聯(lián)匯科技給出了明確的回答——智能體是能夠感知環(huán)境、自主決策并且具備短期與長期記憶的計算機(jī)模型,它能夠模仿人類大腦工作機(jī)制,根據(jù)任務(wù)目標(biāo),主動完成任務(wù)。
聯(lián)匯自主智能體包含了認(rèn)知、記憶、思考、行動四大核心能力,作為一種自動、自主的智能體,它以最簡單的形式中在循環(huán)中運(yùn)行,每次迭代時,它們都會生成自我導(dǎo)向的指令和操作。因此,它不依賴人類來指導(dǎo)命令,具備高度可擴(kuò)展性。

自主智能體核心能力
據(jù)了解,視頻小歐可以成為新零售場景中的智慧店長。通過與攝像頭視覺信息結(jié)合,利用歐姆大模型智能識別店內(nèi)發(fā)生的一切,形成機(jī)器人記憶,并自主決策提示交互信息。
文檔小歐可以成為個人和企業(yè)的學(xué)習(xí)助理。面對電力、石油、醫(yī)學(xué)等行業(yè)專業(yè)知識學(xué)習(xí)成本高、查詢困難的痛點(diǎn),文檔問答機(jī)器人可以將專業(yè)知識有效集成到向量數(shù)據(jù)庫,并存儲記憶,形成專業(yè)機(jī)器人,通過多模態(tài)內(nèi)容理解與內(nèi)容生成,智能回復(fù)用戶問題,并給出專業(yè)的回答。
AIGC小歐可以成為媒體、文化、游戲等行業(yè)的剪輯助手。通過 AIGC 實(shí)現(xiàn)媒體視頻素材的一鍵成片,針對視頻主題,語言模塊完成視頻內(nèi)容文案生成,隨后拆分為更加細(xì)節(jié)的視頻鏡頭描述,依托語言理解能力,對素材庫視頻進(jìn)行搜索、剪輯和生成,最終大幅降低視頻制作門檻。
現(xiàn)場,聯(lián)匯科技行還發(fā)布了基于 OmBot 歐姆智能體與大模型技術(shù)的行業(yè)級智慧文旅底座,為文旅全行業(yè)提供包含元宇宙、AIGC、智慧助手等典型場景快速賦能。
正式推出歐姆大模型 3.0
值得一提的是,聯(lián)匯科技正式推出歐姆大模型 3.0。歐姆大模型支持對視覺圖像、視頻進(jìn)行標(biāo)簽全開放識別。預(yù)訓(xùn)練中已經(jīng)包含了數(shù)十億的高質(zhì)量圖文匹配數(shù)據(jù),包含大量的環(huán)境背景,目標(biāo)類型,目標(biāo)屬性與行為特征,疊加全圖細(xì)粒度級別的理解,圖文的語義匹配,圖文問答等多任務(wù)的訓(xùn)練,使歐姆大模型 3.0 具備了能力涌現(xiàn)的保障。
可以說,歐姆大模型 3.0 不再局限于固定的目標(biāo)類型清單,而是通過語義理解去理解視覺中的任意目標(biāo),甚至是描述的方式去定義目標(biāo)。

OmModel V3 正式發(fā)布
視覺問答方面,構(gòu)建了私有的十億級媒體數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù),包括無人機(jī)視角,監(jiān)控視角等,通過多任務(wù)訓(xùn)練,歐姆大模型 3.0 將包括自然語言解析、邏輯推理、圖像理解以及自然語言生成等 AI 能力進(jìn)行深度融合。將視覺模型和語言模型進(jìn)行細(xì)粒度的對齊,讓其可以理解人類指令,并合理作答。
另外,歐姆大模型可以在針對圖片進(jìn)行問答之后進(jìn)行多輪對話推理,并擴(kuò)充視覺之外的信息。
認(rèn)知推理方面,通過不斷提升歐模大模型的內(nèi)容理解與多模態(tài)的語義對齊的能力,結(jié)合語言模型的能力,歐模大模型能夠做到基于視覺認(rèn)知的推理,并由此支撐智能體所需要的認(rèn)知與推理能力。
在開放識別、視覺問答的基礎(chǔ)上,認(rèn)知推理的能力能夠賦能智能體從被動的識別轉(zhuǎn)為主動推理,進(jìn)行思考與決策,并提出相應(yīng)的智能解決方案。
高效微調(diào)方面,針對傳統(tǒng)全參數(shù)微調(diào)消耗大量 GPU 計算與存儲資源的情況,聯(lián)匯從模型訓(xùn)練和模型推理兩方面入手,使得歐姆大模型能夠好用、易用。
在模型訓(xùn)練上,聯(lián)匯自主設(shè)計 PEFT 羽量微調(diào)技術(shù),與標(biāo)準(zhǔn)全參數(shù)微調(diào)相比,僅微調(diào)模型參數(shù)的一小部分,訓(xùn)練參數(shù)量小于 1%,在大幅降低計算和存儲成本的同時,實(shí)現(xiàn)媲美全參數(shù)微調(diào)的性能表現(xiàn)。這樣的做法能夠真實(shí)降低大模型的微調(diào)訓(xùn)練門檻,快速適配用戶長尾場景的訓(xùn)練需求。

訓(xùn)練參數(shù)量小于 1%
在模型推理上,聯(lián)匯推出針對多模態(tài)大模型的推理運(yùn)行系統(tǒng) ——Hydra 九頭蛇部署架構(gòu),通過多卡集群部署蛇身,由多個公用的底座模型組成,而各個算法任務(wù)只需要部署羽量級的蛇頭模型,實(shí)現(xiàn) MaaS 架構(gòu)。在推理時,蛇頭模型可與任意公用蛇身模型結(jié)合產(chǎn)生識別結(jié)果,且新增算法任務(wù)只需增加羽量級蛇頭模型。從而實(shí)現(xiàn)了 GPU 集群資源的高效利用,并突破算法任務(wù)部署顯存資源的上限。
基于由效果評估、升級策略、數(shù)據(jù)回流、優(yōu)化升級構(gòu)成的人在環(huán)路指令學(xué)習(xí)進(jìn)化體系,歐姆大模型可以對底座模型進(jìn)行有效的指令學(xué)習(xí)、迭代升級,從而在現(xiàn)有的算法任務(wù)上有更好的表現(xiàn)。這也意味著每隔幾個月,歐姆大模型都會迭代進(jìn)化得更加強(qiáng)大。
此外,為了幫助用戶更好、更快的使用大模型技術(shù)與產(chǎn)品,聯(lián)匯正式發(fā)布歐姆大模型工具軟件集合,并首次發(fā)布針對智能體的 OmBot OS 操作系統(tǒng)。開發(fā)者可以基于靈活的模塊配置,將多模態(tài)大模型、向量數(shù)據(jù)庫、人機(jī)交互認(rèn)知架構(gòu)進(jìn)行深度融合,為構(gòu)建基于多模態(tài)數(shù)據(jù)感知、認(rèn)知、思考與行動的智能體奠定基礎(chǔ)。