導語:
隨著生成式AI模型不斷拓寬AI應用的場景邊界,模型在線服務的數量級快速增長,AI推理環節亟需精細化的資源管理。
近日,阿里云機器學習平臺PAI宣布全面升級模型服務平臺PAI-EAS,面向文圖生成、大語言模型等各類模型提供彈性穩定的推理服務,并推出全新規格GU30,與傳統規格相比價格平均優惠45%。
全新推理規格GU30問世,釋放技術紅利
在AI工程化鏈路中,推理服務是打通“模型到應用最后一公里”的重要環節,并持續伴隨業務成長。
PAI-EAS是PAI推出的彈性推理服務平臺,提供異構硬件 (CPU/GPU) 模型加載和服務部署,支撐達摩院、淘寶、高德等業務大量級模型服務,并廣泛服務阿里云上企業客戶。結合推理優化技術和云原生生態,PAI-EAS進一步提升異構資源集群整體利用率,規模化地實現服務效率與性能提升,擴大讓利空間。
新推出的PAI-EAS GU30系列規格,專用于深度學習異構推理場景,較PAI-EAS同等性能的傳統規格價格下降45%。
GU30可適配不同復雜程度的模型,支撐文圖生成、大語言模型、多模態模型、NLP、CV、ASR等的推理需求。付費模式上,EAS同時支持預付費和靈活的按量付費,用戶可以通過彈性擴縮容、彈性資源池等能力精細化地按需管控推理資源。

Serverless化覆蓋多樣推理場景
作為云上AI推理服務平臺,PAI-EAS在基礎設施層、容器調度層、模型部署層都提供豐富的產品功能,貼合不同場景的個性化需求。
? 實時同步推理場景,例如個性化推薦或類ChatGPT對話應用等,用戶可通過一鍵壓測得到服務的QPS和時延閾值,并結合灰度發布和藍綠部署功能,在不影響線上業務的情況下進行性能驗證并順滑切換。
? 近實時異步推理場景,例如文圖生成或視頻處理等,涉及較為復雜模型的推理,單次推理時間從十幾秒到幾十分鐘不等,PAI-EAS在推理服務內部集成服務維度的消息隊列,并支持面向隊列長度實現推理的自動彈性擴縮容,滿足資源利用率提升及免運維需求。
? 離線批量推理場景,例如語音數據批量文本轉換等時延不敏感的場景,PAI-EAS可通過搶占型資源實例的方式幫助用戶控制批量推理成本。

PAI-EAS最新活動
從2023年4月中旬起,阿里云產品試用中心將正式開放PAI-EAS同等算力的試用規格,提供最長3個月的模型在線服務免費體驗包。點擊PAI-EAS產品頁官網(鏈接:https://www.aliyun.com/activity/bigdata/pai/eas),可在PAI-EAS產品官網獲得最新活動信息。