速途網訊 數據是生成式AI的基石。生成式AI的基礎模型誕生于大規模、高質量的數據集,現今的模型已經達到了前所未有的規模,這為企業提供了強大的基礎。然而,數據與基礎模型的結合才能產生真正的價值。通過將企業內部數據與基礎模型結合,企業可以創造出獨特的應用,滿足用戶需求,提高用戶體驗。同時,企業需要高效管理這些新數據,確保它們能夠為應用的持續發展提供支持。

近日,亞馬遜云科技 “無數據,不模型——生成式AI時代的數據基座”技術媒體溝通會在京成功舉辦。溝通會上,亞馬遜云科技重點介紹了在數據基座構建方面的核心能力和解決方案,以及企業在生成式AI時代構建數據基座的重要性和必備條件。
亞馬遜云科技大中華區產品部總經理陳曉建表示:“企業需要的是懂業務、懂用戶的生成式AI應用,而打造這樣的應用需要從數據做起。亞馬遜云科技構建數據基座的三大核心能力涵蓋從基礎模型訓練到生成式AI應用構建的重要場景,能夠幫助企業輕松應對海量多模態數據,提升基礎模型能力。作為全球云計算的開創者和引領者,亞馬遜云科技正在幫助各個行業、各種規模的企業打造強健的數據基座,在確保用戶業務和數據安全的前提下,將數據的獨特價值賦予基礎模型和生成式AI應用,加速企業業務增長。”
亞馬遜云科技構建的數據基座具備三大核心能力:第一,為模型微調和預訓練提供高質量數據處理能力。這包括了數據存儲、清洗和治理,而亞馬遜云科技的各項服務,如Amazon S3和Amazon Glue等,為企業提供了高效、快速的數據處理方案。
陳曉建指出,生成式AI基礎模型誕生于大規模、高質量數據集。如果一本書按500KB算,現在的500T參數的模型已經有332億本,相當于現存每個人類擁有4本書。數據結合基礎模型會產生獨特價值,企業需要高效管理飛速發展的生成式 AI 應用產生的新數據。
例如亞馬遜打造的Rufus,作為一款以生成式AI為核心的專業購物助手,能夠解答客戶的購物疑問、提供產品比較,并根據對話情境進行推薦。它將為亞馬遜商城超過2億的Prime 會員提供服務,在提升客戶體驗的同時也會產生大量新的數據。
第二,是將數據與模型快速結合,讓企業專有數據釋放更大價值。目前,通過數據定制基礎模型的方式主要分為三大類:檢索增強生成(RAG)、微調和持續預訓練。RAG的數據來源是企業內部文檔庫、數據庫、數據倉庫、知識圖譜;微調數據來源為私域知識;持續預訓練數據來源為公開的數據集或企業各部門的數據。
亞馬遜云科技將向量搜索的支持功能加入到主流的數據服務中,通過將數據和向量存儲在一起來提升數據查詢性能。這能夠讓企業輕松利用RAG技術將專有數據提供給基礎模型,從而釋放更大價值。此外,亞馬遜云科技還為圖數據庫Amazon Neptune推出了分析數據庫引擎,以結合圖數據庫與大模型的優勢,從而能夠快速從圖形數據中獲取洞察,并進行更快的向量搜索。

第三,有效處理生成式AI應用的新數據,降低模型頻繁調用成本并提升性能。亞馬遜云科技推出了Amazon Memory DB內存數據庫和Amazon OpenSearch Serverless服務,其中。Amazon Memory DB內存數據庫通過緩存之前問答生成的新數據,實現對類似問題的快速響應和準確回答,同時有效降低基礎模型的調用頻率。Amazon Memory DB能夠存儲數百萬個向量,只需要幾毫秒的響應時間,能夠以99%的召回率實現每秒百萬次的查詢性能。

會上,北京靈奧科技CEO厲啟鵬與店匠科技(Shoplazza)首席科學家謝中流博士也進行了演講,分享了企業運用亞馬遜云科技的相關技術實現業務賦能的更多實踐。
在交流中,謝中流指出 Shoplazza的核心業務就是幫助商戶建立獨立的電商平臺,已服務了超過36萬跨境電商客戶,覆蓋了全球150多個國家,其中40%的消費者來自于歐美地區。
通過亞馬遜云科技的強大基礎設施和技術支持,Shoplazza得以實現海量營銷素材的存儲和管理,為模型訓練提供數據支持,以及通過分布式任務和流式計算技術實現實時數據處理和清洗。亞馬遜云科技的各項服務,如Amazon S3、Amazon EMR、Amazon OpenSearch等,為Shoplazza提供了完善的技術基礎和數據支持,使其能夠更好地滿足用戶的需求。
此外,Shoplazza也在探索與亞馬遜云科技在AI領域的更深度整合。通過引入生成式AI技術,Shoplazza開發了一系列創新產品,包括BetaCreator營銷素材創作工具、智能建站服務、智能客服解決方案以及智能推薦與搜索等。這些產品的引入,大大提高了電商營銷素材的創作效率,簡化了網站建設流程,并實現了智能化的客戶服務和個性化的推薦與搜索功能。
厲啟鵬在演講中表示:“如果企業能夠解決好數據問題,就能夠解決大部分AI應用落地的核心挑戰。”他指出,企業在構建AI應用時面臨諸多挑戰,包括業務數據的理解、數據的質量和安全合規等方面。
他還強調了數據在實時業務決策中的重要性,并提到了與亞馬遜云科技的深度合作,使Vanus得以基于亞馬遜云科技的強大基礎設施和技術支持提供更優質的服務。例如幫助ERP企業通過Vanus AI構建AI Copilot,提升客戶服務效率;或是幫助服飾電商企業利用VanChat提升銷售和客戶滿意度。
厲啟鵬還介紹了Vanus如何利用亞馬遜云科技的各項服務,如Amazon S3、Amazon DocumentDB等,實現海量數據存儲、實時業務感知和數據處理等功能。他表示,借助亞馬遜云科技的彈性計算和高可用性服務,Vanus能夠實現企業客戶的高效運營和成本節約。
通過為企業提供先進的數據處理能力,亞馬遜云科技推動企業在生成式AI應用領域的發展,為全球用戶提供了更加優質的音樂體驗。厲啟鵬表示,未來他們將繼續與亞馬遜云科技合作,在模型領域和數據庫領域深化合作,探索更多創新解決方案,為用戶提供更好的AI產品和服務。