背景
隨著互聯網的高速發展與普及,網絡已經成為日常生產生活的基礎設施。在數字化轉型的大環境下,人們的衣食住行均與互聯網產生交集,每個交集的背后都有數據在流動,但同時數據泄露、個人隱私泄露、數據違規使用也層出不窮,如何更好的保障數據安全性,已成為網絡空間安全的新課題。
字節跳動長久以來持續重視數據安全,以最小化原則為宗旨,采用分類分級管控的基本手段,基于公司統一的安全制度和策略,面向全媒介不斷強化多粒度數據的安全防控能力,旨在不斷探索安全與效率平衡的最優解。
字節跳動數據平臺是公司大數據體系的核心,承載了大數據的全生命周期操作。為了防范大數據場景下的數據安全風險,數據平臺除了常規的分類分級、加密脫敏、數據銷毀能力,還創新的在訪問控制方面落地了“智能審批”能力,強化權限審批中的深層風險洞察能力。
目標設定
數據平臺的訪問控制體系(如圖 1),構筑于 IBAC(基于身份的訪問控制)、RBAC(基于角色的訪問控制)和 OBAC(基于組織的訪問控制)相融合的復合訪問控制模型,為了保障高效的審批,數據平臺于 2021 年上線了自動審批能力,節省審批時長近 40%,截止至 2022 年 6 月底已累計節省 411 萬+小時。

圖 1. 字節跳動數據平臺訪問控制體系概覽
基于屬性設置的自動審批策略(ABAC 思想)確保了多樣化、細粒度的管控能力,由審批人配置低風險場景判定規則,轉換人工審批為自動審批+事后審計的工作流,有效提升了數據使用效率,但無法做到人工審批的風險決斷準確性,難以洞察到深層風險。為了進一步打通上下游風險信息,深化審批人場景全局風險感知,數據平臺需要在自動審批的基礎上額外構筑全方位、高精度、易理解的風險洞察和透傳能力。
體系與實踐
字節跳動數據平臺于 2021 年下半年開始對接公司內部風險感知能力,協同搭建了智能審批模型,基于 HBAC(基于歷史的訪問控制)的思想,利用歷史數據訓練模型、實時數據作為請求輸入,逐步構筑了如圖 2 的智能審批功能體系。

圖 2. 智能審批功能體系(綠色為“低風險” 工單流轉,紅色為“高風險”工單流轉)
數據平臺的智能審批功能是在原有“權限申請-正常審批流程-結果處置及返回”流程的基礎上,對第二環節進行改造,提交工單數據給智能審批模型,并基于返回結果中的風險評分和標簽分級處置——“低風險”的工單智能審批通過,無需人工操作;“中風險”的工單依據自動審批策略正常執行自動審批或人工審批;“高風險”的工單忽略自動審批配置、透出風險標簽,并實施人工審批。
上述智能審批模型采用離線數據自動化迭代的方式,解耦平臺后端和模型以實現輕量化模型升級成本,應用時間衰減函數根據風險比例動態調整風險標簽閾值,并建立相應風險分布監控和報警機制,確保符合最新安全態勢。每次訪問均基于傳入工單,實時獲取其他風控相關數據源,秒級響應,計算并返回風險評分與標簽。
當前的智能審批模型基于聚類算法、相似度算法等基礎能力構建,最終形成了多層次的風險度量模型,主要包含人員風險模型、資源風險模型和人員-資源關聯模型三個方面。其中人員風險模型基于獲權人的人力資源狀態、獲權人數據平臺和其他辦公應用行為風險、當前權限留存和使用情況等方面進行訓練;資源風險模型基于資源的密級、數據生產層級、使用熱度、當前權限留存和使用情況等方面進行訓練;人員資源管理模型方面,則是先基于當前權限得出人員聚類和資源聚類,以表示“人員 × 人員”關聯度和“資源 × 資源”關聯度,再通過計算同群組內其他人員和對應資源群組的重合度,得出“人員 × 資源關聯度”,也即同類人員已有該(類)資源權限超過一定閾值(例如:90%以上),則關聯度高,否則關聯度低,權限必要性和合理性可能較低。
成效與展望
字節跳動數據平臺的智能審批能力上線以來,有效地幫助更多審批人進行數據安全風險判斷,截止至 2022 年 6 月底,實現了高風險場景 4.92 個百分點的識別率提升,并累計節約低風險工單審批時長 4.25 萬小時。
目前,數據平臺中的數據應用、數據開發套件、數據引擎均已上線火山引擎大數據系列產品矩陣中,努力為用戶構建安全可靠、高效易用的數據全生命周期。
將來,數據平臺還會在智能審批的模型中引入更多風險因子并持續優化、迭代,繼續強化對用戶數據、公司數據的安全保障,以知情同意和合理必要為底線,不斷壓縮數據泄露風險,并減少合規數據使用的審批耗時。
作為字節跳動數據平臺背后的安全治理與合規團隊,火山引擎云安全將持續建立健全公司信息安全管理體系,嚴格滿足隱私合規要求,做用戶個人數據的守護者,讓每個用戶都可以安心的體驗數字化轉型下的新時代。