背景
隨著數字經濟的發展,數據成為各機構的核心資產之一,通過數據流通提升數據資產價值的需求不斷增多,與此同時,國家和相關機構對數據安全和隱私保護方面的要求和監管都日益嚴格,如何打破“數據孤島”,在保護隱私滿足合規要求的前提下實現數據流通,成為備受關注和亟待解決的問題。
典型的如廣告行業,廣告主和廣告平臺擁有各自的用戶數據,出于保護商業機密和滿足安全隱私合規要求的考慮,需要在不直接共享雙方用戶數據的情況下,進行精準營銷和廣告效益評估等業務。例如在精準營銷場景,廣告主持有廣告投放的粗篩目標人群包,希望針對特定用戶群進行推薦。若直接將粗篩人群包全部發送給廣告平臺并進行處理,會使得平臺獲取到粗篩人群包中未落入目標人群的數據,導致特定集合以外的用戶信息發生泄漏,無法保護數據的隱私安全,也不符合安全合規的要求。
Jeddak數據安全沙箱
為了應對上述挑戰,字節跳動安全研究團隊自研了Jeddak數據安全沙箱,沙箱以可信執行環境(Trusted Execution Environment,TEE)為核心,提供安全、高效、通用的廣告精篩、歸因分析等隱私計算能力。目前Jeddak數據安全沙箱已通過火山引擎對外提供服務,并為某頭部金融公司在國內某廣告平臺投放過程的用戶隱私,提供安全保障。

Jeddak數據安全沙箱提供的保障來自于兩個層面:
在計算層面,沙箱實現了廣告投放全流程的密文計算,廣告主與廣告平臺只需要分別加密各自數據,安全傳輸給沙箱的Enclave進行數據融合。Enclave是一個由TEE硬件安全技術所保護的“安全保險箱”,這個保險箱中運行著隱私計算下的廣告投放服務。在Enclave的安全特性的保障下,其他實體無法修改運行的服務邏輯,也無法窺探在保險箱中的數據。計算任務完成后,平臺側僅可獲取到預期的精篩人群包或歸因分析的結果,這規避了廣告主數據直接提供給平臺的合規風險。
在數據層面,沙箱希望可以進一步打消用戶對于方案的選型顧慮,如單純信任TEE硬件技術這一道保障。對此我們創新性地設計并引入了“信任分割”技術——在廣告投放時,由廣告主與(甚至多個)平臺之間協商得到的秘密參數,基于秘密參數對傳入沙箱的數據進行混淆處理,這樣便使得即使攻擊者獲取到沙箱Enclave里的中間態數據,仍然無法逆推出原始信息,從而通過信任分割將沙箱轉化為弱敏感數據的計算節點進行使用,這一特性緩解了由于側信道攻擊帶來的硬件系統風險。

火山引擎對沙箱方案進行了包括分治、多進程在內的實現優化,相對于純軟件隱私保護方案,在性能方面已體現出顯著的優勢,例如人群包篩選服務,初步優化后的沙箱方案比現有軟件最佳實踐方案快10倍以上,在1小時內可完成廣告主千萬級別與廣告投放平臺十億級別的篩選任務,大幅減少金融客戶廣告投放任務的執行效率,并為后續廣告歸因、實時定價、用戶群行為建模提供安全高效的實施渠道。

總體來看,數據安全沙箱結合可信硬件和信任分割機制,保障工作模式安全性,既可以防范純硬件方案的單一信任風險,又可以解決純軟件方案算法適配性、開發效率與執行效率低等難題。
其他領域實踐
除了應用在廣告投放領域,目前沙箱產品也已在聯合營銷、政務疫情防控、生信大數據分析等場景下,幫助客戶安全合規地使用數據,挖掘多方數據價值。
面向多元場景,沙箱構建了通用的計算引擎和算法倉庫,例如支持基于Tensorflow/Pytorch的多源數據融合下的機器學習、支持基于Spark進行大數據分析處理、基于聯盟鏈的狀態存證與驗證能力,方便用戶在不同場景下定制和使用隱私計算。沙箱兼容多種安全運行時,并將逐步適配多種底層TEE硬件平臺,從而降低用戶開發部署TEE應用的門檻。
此外,數據安全沙箱研發了融合加速引擎,可以定制化地為多方安全計算、聯邦學習等多種計算過程提供加速能力,能夠提升純軟件隱私計算方案的執行效率,目前數據安全沙箱可以數十倍地提升隱私集合求交、縱向聯邦學習等過程的執行效率。

結語
路漫漫其修遠兮,如何有效打破“數據孤島”,完成隱私合規要求下數據要素的安全流通,實現真正高效、易用的數據“可用不可見”過程,仍然是Jeddak數據安全沙箱不斷探索和嘗試突破的長期命題。
在面向開源、通用、自主可控的方向,火山引擎除了提供Jeddak數據安全沙箱產品外,還將深入行業實際應用場景,進一步豐富云安全系列產品矩陣,努力為用戶帶來豐富和便捷的安全計算功能。