面對越來越復雜多變的市場,為了能在激烈競爭中保持優勢,企業需要更及時的數據洞察和快速的反應能力,構建實時基礎設施成為數字化時代的企業必修課,現代技術棧正加速轉向支持實時化。
比如,Uber的實時基礎設施每天產生多個PB級的數據和數萬億條信息,這些數據持續不斷從Uber司機、乘客和其他用戶那里收集而來。Uber的移動應用、內部儀表盤、機器學習模型和臨時數據探索工具都有實時用例。而Netflix的實時基礎設施每天基本處理數十萬億次的事件。
伴隨著企業實時需求增多,新的數據技術概念也如雨后春筍般長了出來。比如近兩年火熱的實時數倉,豐富了實時數據處理的應用場景,未來數據棧將會向著怎樣的趨勢發展?
今天,我們來對話偶數科技解決方案部總監張立群,共同探討新技術、新趨勢、新應用。
實時分析三大場景
技術的變革往往是因為業務的需求推動,反過來,變革后的技術也將促進業務創新增長。
目前,實時業務場景越來越多,比如運營層面的實時營銷,當日分時業務分析,千人千面的實時推薦頁面,金融領域的實時風控,生產層面的實時系統監控等。而隨著5G等新技術發展,未來海量的實時數據處理需求只會更多。
張立群介紹,其實從技術角度來看,參照去年年底Gartner給出的定義,按照事件發生的時間先后順序,實時數據處理的需求可以分為實時流處理、實時按需分析、離線分析三類。

實時分析處理三大場景
其中,實時流處理,可以理解為連續實時處理,24小時不停采集數據和處理實時流數據。按需實時則是根據用戶不定時提出需求,能夠做到及時響應。“簡單概括來說,實時數倉必須具備實時計算的能力。這里在數倉中進行的實時計算指的是面向實時流數據和歷史數據相結合的按需實時處理,而非僅進行連續的實時處理。”張立群強調,實際上,當用戶在業務中提出按需的實時數據處理需求時,不僅需要實時數據處理,也需要實時數據與歷史數據結合的實時處理,即需要按需的實時+離線分析,客戶要的不僅是T+0,而是T+X,這里的X包括從實時到幾秒,幾分鐘,幾個小時,幾天等。
張立群介紹,目前,單純的流計算引擎如Flink、Spark Streaming受限于處理的數據規模,只能做到連續的實時流處理,不具備按需實時處理的能力,按需實時只能在數倉中進行,這就要求實時數倉除了保存Flink、Spark Streaming實時處理的結果數據,還需要自身具備高性能的按需實時處理能力。

實際上偶數科技的實時數倉并非單獨的數倉產品,而是一體化的云數據平臺——Skylab,該平臺擁有四大產品組件,包括云原生數據庫OushuDB、機器學習平臺LittleBoy、數據管理平臺Lava和數據分析與應用平臺Kepler。通過ANCHOR六大特性比較,偶數Skylab具備了 All Data Types( 支持多類型數據)、 Native on Cloud( 云原生)、 Consistency( 數據一致性)、 High Concurrency( 超高并發)、 One Copy of Data( 一份數據)、 Real-Time( 實時 T+0)。
對外服務時,可以根據用戶需求以新一代全實時數據處理架構Omega組合應用,比如將OushuDB與Lava結合起來就可以構成一個基礎的實時湖倉方案,具有實時數倉能力。其中數據管理平臺Lava會集成Flink、Spark Streaming引擎。

據悉,Omega架構融合了Lambda架構和Kappa架構處理流數據的優勢,增加了實時按需智能和離線按需智能數據處理的能力,以及高效處理業務應用系統獲取的可變更數據實時快照的能力。這使得偶數科技的實時數倉方案可以實現按需實時計算與按需離線批處理相結合。
張立群介紹,由于企業的IT系統都是分階段建設,比如某企業先有了數倉,然后建設了大數據平臺,為了實時處理可能又在Hadoop基礎上建設了Flink計算引擎。目前大部分企業的技術棧還沒有形成體系化,依然處于割裂的狀態。不同的系統有各自的計算與存儲,傳統架構下MPP橫向擴展能力弱,且計算與存儲不分離,Hadoop橫向擴展能力強,但是計算不支持橫向擴展,這些不足會成為海量數據爆發下實時分析處理的掣肘。OushuDB采用存算分離架構,并支持虛擬計算集群技術,具有多租戶能力,由此打造的實時數倉方案可以實現彈性擴展,提高資源利用效率。
未來數據技術融合的原則
面對復雜多變的新業務場景,隨著數據技術不斷成熟,新的實時技術棧會出現,數據技術也會經歷分離與融合。目前,融合的趨勢比較明顯。如湖倉一體、實時數倉,將實時處理能力融入數據倉庫中。
那么湖倉一體與實時數倉有什么異同?
張立群介紹,原來的數據倉庫計算引擎的優勢與數據湖的分布式存儲優勢結合形成了新一代湖倉一體的數據平臺技術,基于這種技術研發的產品同時具備了湖的分布式可擴展存儲能力和數據倉庫的高性能分析處理能力,而在湖倉一體的基礎上,添加流計算處理能力便形成了實時湖倉一體,實時湖倉一體本質上還是湖倉一體,同時具備了實時計算能力,能更好的滿足業務應用對海量數據高性能實時數據分析的需求。
天下大勢分久必合合久必分,張立群認為,數據平臺技術棧的建設應該遵循三條基本原則:
一是,架構層面要保持靈活開放,支持多種技術兼容性并存。目前,企業已經部署了多個系統,有自己的一套架構體系,技術融合落地時需要最大化利用企業原有IT資產,保護客戶投資。
二是,有效利用資源,降本增效。原來傳統的技術棧,所有資源參與計算,造成IT資源浪費。比如,云原生資源池化,可以實現資源隔離與動態管理,便于最大化利用資源。
三是,滿足更高的用戶體驗。從用戶角度來看,在技術條件具備的前提下,比如高性能、高并發、實時性更強,便具備了更強的信息加工能力,能夠在很短的時間內滿足用戶各種各樣的數據服務需求,提升用戶體驗。
隨著實時分析場景日益增多,實時數倉等具備實時處理能力的產品與解決方案將會得到更廣泛的應用。