
智能運維、自動化運維發展到現在,已經有將近7成的IT管理者學會利用大數據、人工智能產品及解決方案賦能團隊,在生產效率、適應性和決策能力等層面實現了切實有效的正向轉型。
今天的中國企業,已經在云端新基建、數字化轉型的浪潮中實現降本增效和商業創新,海量的新應用、新技術不斷沖擊著傳統IT運維的陳舊壁壘。傳統的IT運維如何向智能運維進階?這是優維人持續思考和實踐的重要課題。
近日,優維科技聯合創始人兼CTO黎明結合優維科技7年實踐經驗,全面剖析了優維AiOps的技術哲學。以下為訪談實錄。
問:運維管理的發展歷程都會經歷哪些階段?能否談談優維在運維領域的發展路徑和現狀?
黎明:我認為IT運維管理的發展大致會經歷5個階段,分別是標準化、工具化、自動化,數字化、最終是智能化運維。
結合優維多年在構建智能化運維平臺的實踐經驗,這是一個相對客觀且環環相扣的路徑,我們沒有直接跳到智能化階段去,因為智能化的底層是以數據、標準以及自動化的能力為基礎的。
另外,智能化實際上是為一些特定的場景服務的,并不是說單純研發一個算法就能解決所有的問題。
這里我提一個與異常檢測相關的場景:故障自愈。目前業界也有不少有益的探索和積累,總的來說落地效果還收到比較多的因素影響,比如金融行業因為受到合規性的監管要求限制,相當多必要的措施很難在短期內得到大規模的普及。以目前的技術發展程度來看,主要起到輔助的作用,實際上并不能完全代替人工快速定位出問題的根源。
問:優維科技在AiOps在容量規劃和異常檢測方面的場景應用表現如何?
黎明:談到AiOps,大家經常會探討容量規劃和異常監測方面的場景應用。優維在這方面積累了非常豐富的落地經驗。
首先,優維早在建設智能化的能力之前,就已經在數字化、標準化、自動化這幾個層面打好了基礎。在過去的幾年中,我們給客戶提供的方案也有意識地傾向于數字化運維、標準化運維以及自動化運維這“三駕馬車”,我們的產品策略就是在夯實基礎能力的前提下,再按需去做智能化的落地提升。
說到容量規劃這個層面,首先我們要明確它可以解決什么問題?假設客戶在運營一個大型的資源池,我們可以通過對用量數據、負載數據等歷史數據的分析,實現對容量或者資源用量的一個預測。
這個預測不但支撐著擴容的需求,同時還要承擔起容量規劃的重任——例如說有的容量分配得太多了,就有必要進行適當的回收;或者階段性的容量需求暴增,就需要提前做好采購計劃。這是很典型的容量規劃或者容量管理的場景。
根因定位也是一個比較有效的場景。我們用AiOps來平衡降低平均故障修復時間(MTTR)和延長系統無故障時間(MTBF)的相對關系。在這個語境里,MTBF引申出MTTR,在MTTR里又包含幾個相關聯的指標,比方說故障識別時間、故障定位時間、故障修復時間以及故障驗證時間,只有把這些指標全部優化之后,才能達成MTTR、MTBF的優化。
這種根因定位可以有效的幫助客戶減少故障定位的時間,從而使得MTBF、MTTR的指標得到系統性的優化。
問:優維科技在異常檢測、容量規劃、根因定位等這些層面的的規劃過程中,AI算法在技術層面是怎么體現的?
黎明:關于AiOps的規劃,其實并不會用到一些特別先進,或者市面上不曾出現過的算法和機制,都是對常用算法的調整優化。
容量管理的核心就是容量的預測,比如說存儲容量、網絡容量、計算容量的增長跟哪些指標有關系?本質上需要做相關性的分析,它的算法并不深奧。但是場景對于數據的準確性和質量的要求是非常高的,在對某一個應用、集群進行容量管理之前,首要工作就是明確該應用、集群本身的資源圖譜有沒有構建好。如果我們連一個應用、一個集群所覆蓋的資源都沒有精確的數據描述的話,那么所謂的AI算法得出來的結果肯定是不準確的。
問:在優維產品的規劃當中,從您對產品的定義角度看,容量規劃是否包含在AIiOps和智能運維這個模塊里?
黎明:實際上我們的產品體系中并沒有去規劃某一個叫做AiOps的模塊。
早在2016年AiOps這個概念剛剛誕生的時候,大家都認為這個概念就是應該以智能算法體系為主,但是經過這幾年的實踐,有了太多的踩空經驗之后,大家突然發現并不是這樣的。
第一,所謂的這種智能肯定是面向場景的;第二,智能不是一個通用的概念——優維在這么多年的實踐中總結了一個表達方式,我們稱之為“大場景,小算法”。例如說在我們的監控資源里對相應的指標趨勢進行預測,本質上是把智能的功能揉到場景中去,它并不是一個脫離場景單獨存在的產品。
問:作為一家以DevOps解決方案起家的科技企業,優維科技跟AiOps重疊的部分是哪一塊?
黎明:優維對AiOps的定位,是在現有能力的基礎上做智能化功能的延伸。業界有一種現象,不論原先是做ITSM的、做監控的還是做APM的,大家后來都轉身去做了AiOps,說實話真的做得很成功嗎?我覺得未必!這是一個很尷尬的事情。
所以,優維在這方面的策略相對“保守”一些,我們會在主要的產品線中加入智能的成分或者智能的功能,但我們不會對外宣稱我們在做AiOps、智能運維、無人運維這種東西,我們是真正把AI的技術融到每一個產品的功能里面。
所以你會看到,我們把整體解決方案稱作“智能化運維能力中臺”,除此之外,優維其他的產品里并沒有著重突出“智能”的概念,但是你能說我們的產品不智能嗎?顯然不能。因為我們確實賦予了它非常實用的智能化色彩。
問:現在也有一些傳統IT廠商在做核心系統,它也會涉及到用AI的能力去為傳統的IT系統或者解決方案賦能。優維在這個方面有什么創新性的做法嗎?
黎明:很多傳統IT廠商做核心系統的時候會面臨傳統IT系統和解決方案的AI化轉型的問題,這是兩種賦能的方式。
第一個方向是給現有的IT系統或解決方案賦能,在過去、現在以及未來的一兩年內,作為一家提供產品和解決方案的DevOps廠商,我們還是會專注于為產品和場景注入AI能力,這是我們一直堅持深耕的方向。
第二個方向以AI能力來改變整個運維體系,或者以AI為動力去推進運維解決方案的創新,想要短期內實現還為時過早。
坦白講,這是一個很難的事情。我們在過去幾年接觸了大量成熟的金融客戶,也做了不少落地的AiOps項目,但是在生產環境中的使用表現并沒有想象中樂觀。
問:很多銀行和傳統的金融IT廠商也組建了專門做運維的團隊,對金融行業而言,容量預測和異常檢測在Ai賦能IT運維的過程中,哪個難度更大一些?
黎明:比如說我們在做指標監控的時候,按傳統的做法需要設置系統的閾值,而部分指標的閾值是很難判定的。在這樣的場景需求下,我們通過機器學習或者數據分析就可以判定出合理的閾值,通常說的異常檢測,實際上就是一種基于動態基線或者動態閾值的異常檢測。
當然了,具體的效果還是看具體的場景。另外,我并不認為容量預測和異常檢測這兩者哪一個更難一些,嚴格來說它們背后的技術實現難度都差不多。
問:優維在生產環境中應用最廣泛的技術有哪些?
黎明:
第一,IT資源圖譜,實際上就是新一代的CMDB。因為無論是要做預測還是做自動化,都需要有IT資源的圖譜數據。這個是優維應用最廣泛的一個產品。另外,優維在圍繞構建資源圖譜相關的一些技術,比如自研的圖數據庫引擎,在行業內都是比較高階的存在。
第二,DevOps。其實DevOps底層還有一個支撐——AutoOps,只有實現了自動化,才能在自動化的基礎上去構建DevOps。
第三,服務觀測。我們從應用的角度看運維:第一它是否健康?第二它的資源運行狀態怎么樣?一旦出現問題,是否可以快速幫助運維人員定位問題源頭,同時判斷這個事件可能會影響到什么系統?歸根結底到底什么才算智能?
我認為不一定非得用到智能算法、數據分析的才算智能,只要是能提高現有的運維效率的,并且是傳統工具、傳統手段做不到的,都可以認為是智能。
問:業界普遍認為,優維的產品服務覆蓋的客戶比較廣,優維的核心技術維度主要應用在哪些行業?這些行業對優維解決方案的需求是剛性的嗎?
黎明:主要在金融行業,同時也在其他行業做了大量的布局,但我們并不會特別關注行業屬性,而是側重產品在”雙態”運營中的表現。
一般來說,像金融、保險、物流等大型業態,甚至國企、央企等國家巨頭企業,基本上都是處于一種穩態的現狀,但是在當前的“新常態”下,穩態的同時它又要做數字化轉型,這必然會帶來敏態業務。
所以很多企業,無論當下它是處在敏態還是穩態,都會面臨“雙態運維”的場景需求,基本上優維做的就是解決穩態的問題,至于敏態,因為原生服務技術本身已經具備解決問題的能力,其實就不需要重復解決。
但我們早在去年就已經推出了SaaS化和訂閱化產品,也就是逐漸被大家所熟知的HyperInsight超融合持續可觀測解決方案,這款產品在行業里屬于新生事物。我們認為企業IT管理中所面臨的問題和需求,是可以被標準化和針對性解決的。
對于企業的敏態需求,我們的SaaS產品輸出的是開箱即用的精細化套件式服務,體量小,開發需求輕量化,但解決問題快準狠。這很符合優維科技的產品哲學,我們很樂于把技術創新精神發揮在客觀實際當中,去解決實實在在的問題。
問:就敏態來說,現在很多企業都是混合IT的架構,會涉及跨云管理需求,那么優維在這方面有沒有提供相關的解決方案?
黎明:優維目前沒有“跨云管理”或者“多云管理”平臺產品,但是我們的IT資源圖譜是完全可以橫向覆蓋敏態和穩態管理要求的。
因為無論是敏態還是穩態,它們的應用都離不開IT資源的支撐,云上資源也好,本地自有資源也好,支撐資源和應用組成資源圖譜,然后再做自動化衍生場景,邏輯上歸根結底都是相通的。
問:關于分布式系統、算法、數據管理等,優維有沒有比較突出的、先進性的概念或理念?優維最大的優勢和技術特點是什么?
黎明:首先,優維把數據治理的理念引入運維體系建設中,把IT資源圖譜作為驅動整個運維體系的主數據中心,這個理念在業界是領先的。因為通常情況下大家很難想到運維數據之間到底有什么必然的聯系,但我們對這個梳理得很清楚。
第二,圍繞著資源圖譜,我們有自主可控的自有技術,包括但不限于基于圖譜數據庫的存儲引擎、基于圖譜的查詢等完全自主知識產權的技術。
第三,我們具備“能力化”的建設能力,優維帶給客戶的不是具體的哪個產品或功能組件,而是賦予其能力。
第四,優維特別注重場景建設,我們賦予客戶的能力一定要用到場景里去,離開場景談能力是一種空談。例如我們面向場景開發的護網、巡檢、切換等微應用,對于客戶來說是非常有價值的。
第五,優維在交付方案和產品的同時,也非常注重給客戶進行DIY賦能。例如我們運維的低代碼開發平臺,本質上就是提供給客戶的技術工具,客戶借助低代碼平臺技術可以定制自己的微應用,從而滿足其頻繁變動的運維需求。
“授人以魚”也“授人以漁”,這是優維在過去的六七年中總結出來的服務理念和產品思路。
問:未來的三到五年,AiOps的規劃方向在哪里?AI在實際的運維場景中還會有哪些拓展?
黎明:現在運維數字中臺的技術已經非常成熟了,在未來的三五年的發展中一定會是普及的趨勢,也會有越來越多的企業逐漸認識到數據治理、數據運維在整個運維體系中的重要性。
優維在AI運維場景領域的拓展方向一定還是“賦能”,我們有個理想叫“AI anywhere”,就是把AI技術用到每一個角落里去,不斷落地“大場景,小AI”的運維哲學。
如果說AI領域技術有所突破的話,我們肯定也會跟進。
但就目前而言,AI技術還不具備思維能力,雖然在日常生活場景中我們可以做到指紋識別、人臉識別、聲音識別等等這些識別動作,但對于運維行業來說,我們還在等待AI技術質的飛躍,期待AI真正能為我們的運維業務帶來思考和決策的能力,這個才是AiOps最為浪漫的時代。
目前的AI技術離那一天還有很長的路要走,我們會持續努力。
伴隨著大數據平臺、機器學習等關鍵技術的日臻完善,智能運維勢必乘風而起,成為運維領域未來的重點演進方向。目前,智能運維在國內仍處于初始發展階段,但從Gartner發布的IT運營技術成熟度曲線變化來看,智能運維在國內的發展快于全球的進展。這既是巨大挑戰,同時也是全新機遇,或將實現國內運維發展從跟隨到引領的重大跨越。
知大勢,行致遠,我們在智能運維的大道上一起向未來!