2020年,我國數字經濟規(guī)模達到39.2萬億元,占GDP比重為38.6%,目前位居于世界第二,其增速是GDP的三倍以上。
這一組數據來自于中國信息研究院發(fā)布的《中國數字經濟發(fā)展白皮書(2021)》。按前述所言,可毫不夸張地說,數字經濟時代已然到來,成經濟增長的主要動力。
不過,數字經濟要想行穩(wěn)致遠,核心前提是維護好安全這一“基石”。畢竟虛擬數字世界不斷擴張之時,現實生活中存在著泄露個人隱私的風險。
且于9月1月實施的《數據安全法》中明確,“鼓勵數據要依法合理有效利用,保障數據依法有序自由流動,促進以數據為關鍵要素的數字經濟發(fā)展。”
而在科技賦能金融數字化轉型過程中,金融機構如何在保護個人隱私的前提下推動數據間協(xié)作?這成為擺在行業(yè)面前的一道坎。
值得一提的是,對于解決“數據孤島”的難題,在行業(yè)普遍認知中,聯(lián)邦學習技術成為有力的“武器”。
挖掘“跨域”數據價值
近些年,越來越多的企業(yè)意識到數據分析的重要性。在大數據“喂養(yǎng)”下,人工智能得以快速發(fā)展。換言之,深度學習的代表——人工智能之所以應用到各行各業(yè),離不開數據支持。
不過,企業(yè)若不想囿于私域數據,被限制在“一隅”,且又要滿足數據合規(guī)問題的話,需要采用聯(lián)邦學習技術,方能挖掘“跨域”數據價值。
而所謂的“聯(lián)邦學習”是一種分布式機器學習技術,在不交換數據樣本的情況下,在多個分散的邊緣設備和服務器上訓練算法,以達到在數據“可用不可見”的基礎上進行安全聯(lián)合建模。
簡單來說,聯(lián)邦學習具有眾籌和協(xié)作之意,搭建的系統(tǒng)具有聚合功能,其在推動數據融合,解決“數據孤島”難題上,釋放更多數據動能。
于企業(yè)而言,除私域數據之外,其還可將多維度的外域數據作為參考,并以此為基礎做出更為準確的決策。
且目前,聯(lián)邦學習已在醫(yī)療、金融、物聯(lián)網等領域有所應用。
其中,醫(yī)療行業(yè)中,國內三甲醫(yī)院保存的醫(yī)療數據量非常可觀,可涉及隱私問題,科技公司想要直接采集多家醫(yī)院的數據用于訓練并不現實。而聯(lián)邦學習解決人們最為關心的隱私安全問題,醫(yī)療機構也才能放心將醫(yī)療數據用于AI訓練,突破了隱私的圍城。
另外,聯(lián)邦學習已在金融行業(yè)中一些關鍵領域上取得了進展,聯(lián)合反洗錢建模、聯(lián)合信貸風控建模、聯(lián)合權益定價建模、聯(lián)合客戶價值建模等。
提升金融機構運營、風控效率
以薩摩耶數科為例,作為與眾多流量方、金融機構有著業(yè)務往來的公司,其充分利用自身與合作方優(yōu)勢,可對獲客、運營、風控等效果提升有顯著幫助。
基于業(yè)界的開源聯(lián)邦學習框架Fate,薩摩耶數科構建起了聯(lián)邦學習平臺。該平臺上各個參與方信息保留在本地,不泄露隱私也不違反法規(guī)。且在聯(lián)邦學習的體系下,各個參與者的身份和地位相同,建模效果與將整個數據集中放在一起的建模效果相同。
此外,該平臺將聯(lián)邦學習集成到了薩摩耶數科AI平臺,可以更容易地實現聯(lián)邦模型的訓練、上線以及模型管理等功能,使聯(lián)邦學習更簡單易用。兩者結合后還獲得了可視化聯(lián)邦拖拽建模、模型管理及模型監(jiān)控。
具體來講,薩摩耶數科AI平臺統(tǒng)一了從特征工程、算法建模、模型訓練、模型評估、模型發(fā)布等全流程,實現界面配置,便于模型的統(tǒng)一管理和維護,節(jié)省模型從訓練到發(fā)布的上線周期。同時,參考了業(yè)界主流AI平臺設計思想,用組件化開發(fā)實現各個業(yè)務功能流程,做到自定義可配置可擴展,同時也用Kubernetes實現容器化彈性快速部署。
且薩摩耶數科的AI平臺還具有私有化、開放性、組件化的算法庫、代碼和組件相互轉換、進行自定義預處理、靈活定制不同模型的監(jiān)控指標、支持Spark、TensorFlow等分布式框架、自動機器學習功能(Auto ML)、跨平臺(Windows、Linux)使用、線上線下統(tǒng)一特征管理等亮點。
值得一提的是,開源版聯(lián)邦學習Fate提供了豐富的縱向與橫向開源算法及優(yōu)秀的調度Fate_Flow,可在易用性上給用戶造成很大的影響,即使用者在使用開源版幾個月后仍不能熟悉和快速地使用Fate進行聯(lián)合建模。
而聯(lián)邦學習算法集成到薩摩耶數科AI平臺主要從兩個方面入手:一是改進Fate易用性,從上傳數據、訓練模型到在線預測上線模型三大主要階段,通過簡單前端操作一鍵執(zhí)行,并且對訓練模型這個主要的模塊進行前端拖拽建模,在線預測模塊進行一鍵發(fā)布、停止、跑批等功能,并和薩摩耶數科AI平臺保持一致。
聯(lián)邦學習集成到薩摩耶數科AI平臺的第二階段,將開發(fā)自動建模平臺AUTOMAN算法聯(lián)邦化,目前Fate聯(lián)邦學習的算法是一些常用算法組件,相比AUTOMAN在風控建模方面的算法還是相對較少,后面將部分AUTOMAN算法進行聯(lián)邦化,并集成到AI平臺。
據了解,薩摩耶數科旗下的AUTOMAN自動建模平臺是將人工智能應用在模型設計領域,使模型開發(fā)周期減少60%-80%,最短可在1周內完成千萬級樣本建模任務,極大地縮短原始樣本與經營決策的距離,實現整體降本增效。
未來,薩摩耶數科聯(lián)邦學習平臺將實現AUTOMAN自動建模平臺的聯(lián)邦化,以此提供更加豐富的模型。同時,結合使用聯(lián)邦學習商業(yè)版FDN技術支持軟件,提供更多模型維度,使得模型準確度大幅提升。