速途網8月24日消息(報道:李楠)近日,騰訊首個AI開源項目Angel正式發布3.0版本。Angel 3.0嘗試打造一個全棧的機器學習平臺,功能特性涵蓋了機器學習的各個階段:特征工程,模型訓練,超參數調節和模型服務。
Angel的特征工程模塊基于Spark開發,增強了Spark的特征選擇功能,同時使用特征交叉和重索引實現了自動特征生成。這些組件可以無縫地整合進Spark的流水線。為了讓整個系統更加的智能,Angel 3.0新增了超參數調節的功能,目前支持3種算法:隨機搜索,網格搜索和貝葉斯優化。在模型服務方面,Angel 3.0提供了一個跨平臺的組件Angel Serving, Angel Serving不僅可以滿足Angel自身的需求,還可以為其他平臺提供模型服務。
在生態方面,Angel也嘗試將參數服務器(PS)能力賦能給其他的計算平臺,目前已經完成了Spark On Angel和PyTorch On Angel兩個平臺的建設。這兩個平臺各有優勢和側重, Spark OnAngel使用的是Angel內置的算法核心,主要負責常見推薦領域的機器學習算法和基礎圖算法。 PyTorch On Angel使用PyTorch作為計算核心,主要負責推薦領域深度學習算法和圖深度學習算法。
Angel (https://github.com/Angel-ML)是基于參數服務器架構的分布式計算平臺,致力于解決稀疏數據大模型訓練以及大規模圖數據分析問題,它由騰訊與北京大學聯合研發,兼顧了工業界的高可用性和學術界的創新性。
自2016年年初在騰訊內部上線以來,Angel 已應用于微信支付、QQ、騰訊視頻、騰訊社交廣告及用戶畫像挖掘等業務。
2017 年 6 月, Angel 在 Github 上低調開源。開源兩周,這個項目在 Github 上已收獲 183 Watch,1693 Star,389 Fork,也吸引了許多業界工程師關注與貢獻。
2018年9月,Angel 2.0版本發布,支持千億級模型維度訓練,同時算法庫也更加豐富,首次引入了深度學習算法和圖算法。同年,Angel加入Linux旗下深度學習基金會(現已更名為 LF AI 基金會(LF AIFoundation)),結合基金會成熟的運營,全面升級的Angel 2.0與國際開源社區繼續深入互動,致力于讓機器學習技術更易于上手研究及應用落地的目標。
截至目前,Angel在GitHub上Star數已超過4200,Fork數超過1000。Angel項目目前總共有38為代碼貢獻者,其他包括8位committer,他們總共提交了超過2000個commit。而騰訊開源在GitHub上整體的項目數也已突破80個,涵蓋AI、云計算、安全等多個領域,累計獲得了超過23萬Star。
從1.0到3.0,Angel從一個單一的模型訓練平臺發展到涵蓋機器學習各個流程,包含自己生態的通用計算平臺,代碼量也超過了50萬行。為了后續維護和使用的方便,Angel將拆分成8個子項目,統一放在Angel-ML目錄下(https://github.com/Angel-ML):angel,PyTorch On Angel,sona(Spark On Angel),serving,automl,mlcore,math2和format。