Categories
程式開發

同樣是解決數據問題,為什麼需要聯邦學習?


近兩年,聯邦學習技術發展迅速。作為分佈式的機器學習範式,聯邦學習能夠有效解決數據孤島問題,讓參與方在不共享數據的基礎上聯合建模,從技術上打破數據孤島。但是,目前這一技術在很多企業落地遇到了困難,InfoQ 將通過選題的方式逐一介紹各大公司如何在金融領域落地實踐該技術。

發展至今,聯邦學習技術在眾多領域均有落地,尤以金融領域居多,並且取得了不錯的效果。但是,依舊有不少企業對是否要部署該技術存在疑問,有技術層面的原因,也有對效果的擔憂。

根據康威定律,技術發展與其組織存在必然聯繫,聯邦學習的技術推動是否也和組織有關係?同樣是解決數據問題,聯邦學習和數據中台的關係是什麼?落地時要如何打通?針對這些問題,InfoQ採訪了京東數字科技集團金融科技事業部技術部智能數據負責人王知博,深入了解京東數科聯邦學習的發展過程,在金融領域的落地實踐以及對企業落地的建議。

數據中台和聯邦學習的關係是什麼?

過去一年,中台相關話題甚囂塵上,不僅是互聯網企業,很多傳統企業都參與到了數據中台的建設中,基於數據提高企業運營效率。從 Hadoop 集群的開發運維,到構建大數據平台,再到數據中台建設,這是很多大型互聯網公司大數據的建設歷程。

如今,聯邦學習同樣打著“解決數據孤島”問題的旗號出現,不免讓開發者心生疑慮:同樣是為了解決數據問題,我真的需要這麼多東西嗎?

對此,王知博表示,數據中台和聯邦學習是有本質區別的,聯邦學習需要使用數據,而數據的治理和加工需要有數據中台的支持。如果企業中還沒有建設好數據中台,那麼只要把相關使用到的數據準備好,同樣可以支持聯邦學習技術應用。簡言之,數據中台為聯邦學習提供了良好的數據環境。

聯邦學習是一種分佈式機器學習框架。所謂“聯邦學習“,是不同於機構之間擁有獨立的數據和獨立的模型,聯邦學習通過技術手段將機構之間的建模過程聯繫在一起,同時又保持機構之間的數據獨立,在數據不共享的情況下共同建模,提升模型效果,這樣就解決了傳統手段下數據安全防控的問題。

王知博補充道,具體來說,聯邦學習通過密碼學技術,在數據加密的情況下可以完成數據的安全計算,確保數據的隱私性。技術原理的示意圖如下:

同樣是解決數據問題,為什麼需要聯邦學習? 1

在技​​術細節上,主流的安全計算有PHE與Secure Share。對比PHE與Secure Share,PHE不需要將數據加密分片共享,減少信息的暴露,但是在訓練階段,PHE則需要更多的網絡傳輸,不過在PHE安全計算協議中,也存在明顯的缺點,即延展性攻擊風險。

如果企業已經具備數據中台,那麼在落地聯邦學習的過程中,首先遇到的問題是如何與企業數據中台打通,這涉及數據安全、合規問題,需要確定聯邦學習平台的數據范圍、數據顆粒度、數據脫敏、加密等問題。其次是機器資源成本問題,企業應利用內外部雲計算資源,部署聯邦學習所需要的大數據計算資源(實時計算,離線計算),降低機器和維護成本。最後,技術門檻較高,涉及技術眾多,例如:密碼學、分佈式網絡與計算,機器學習等,這都增加了聯邦學習探索應用的難度。實際應用過程中,也會遇到計算慢的問題,以GDBT模型為例,與傳統xgboost對比,訓練時間可以要多上數倍到數十倍,這需要學術上提出更好的解決方案。

聯邦學習是“一把手”工程嗎?

除了技術上的準備,聯邦學習在企業內部的推進也會遇到組織問題。王知博表示,任何事物的產生髮展都有其背景,人工智能時代,模型訓練需要大量的數據,但現實卻是數據獨立存在於不同機構當中,因為隱私安全等問題難以聚合在一起,難以將數據價值最大化,這應該是一個源於具體業務問題“自底向上”的技術解決方案。但是目前聯邦學習未形成行業標準,如:應該採取哪種加密方式,每個項目都是case by case,所以需要“一把手工程”從公司層面推進解決,做好頂層設計。

關於聯邦學習的標準,王知博表示,預計還需要一至兩年的行業探索與實踐,才可以製定出相關的標準與規範。聯邦學習大規模落地的核心還是對業務應用產生價值,以智能信貸風控為例,需要建立聯邦安全聯盟,通過合理的生態機制,引入更多的參與方,從而更全面的刻畫用戶,提升模型效果,有效識別信用風險,提升業務收益。

聯邦學習在金融領域的應用

如上文言,聯邦學習技術在金融領域有諸多落地案例,並且均取得了不錯的效果。眾所周知,在金融領域落地一項技術是非常謹慎的,尤其是和數據相關的技術。因為,金融領域屬於強監管領域,對數據安全要求很高,數據一般都涉及隱私,並分佈在不同的銀行和機構中,監管對這類數據管理很嚴格。

採訪中,王知博表示,目前,很多合作銀行在聯合建模的合作中擔心數據安全的問題,但也希望引入外部數據源進行補充。通過聯邦學習,可以在保證數據安全的同時,整合不同金融機構間強金融屬性數據,形成對用戶的較為完善動態的描述,這樣可以在信貸風控建模、營銷客戶價值與偏好等領域提升模型效果,促進業務發展,實現降本增效。

在金融領域,聯邦學習可以解決聯邦遷移學習、數據安全查詢、縱向聯邦、橫向聯邦等問題。在應用層面,縱向聯邦與數據安全查詢是比較容易看到效果的。以信貸風控、營銷聯合建模為例,聯邦學習可以在安全條件下,結合金融機構與外部數據源的數據,訓練機器學習模型,對比傳統聯合建模方式,可以學到更多信息,在聯邦學習聯合建模探索中,模型效果往往可以提升20%以上。

京東數科聯邦學習實踐

在聯邦學習的探索過程中,京東數科大致可分為如下兩個階段。

第一個階段,搭建一站式聯邦學習建模平台。

王知博表示,這個階段需要統一管理數據源與模型全生命週期,降低聯邦學習模型開發成本、提高開發效率。目前,京東數科已經完成一站式聯邦學習建模平台的建設。

第二個階段,服務業務落地。

目前,聯邦學習在信貸風控、智能營銷等方向均有一定應用,並在實踐中逐步驗證效果。在實踐的過程中,京東數科也發現一些問題:一是在多機構方參與場景下,如何讓各方理解並接受聯邦學習的效果,如何保證各方參與積極性是目前需要探索的;二是當前階段業內聯邦學習的實現方式較多,缺少統一的標準。

經過探索,京東數科旗下數字金融版塊有自有信貸類業務,實踐中需要對用戶的違約風險進行精準度量,因此積累了大量的數據建模經驗,並且京東數科正在將這樣的技術能力輸出給一些合作銀行,輔助其提升風控能力。對於銀行內部不活躍、數據覆蓋“薄”的弱識別用戶,補充外部平台的消費和金融數據,利用縱向聯邦GBDT算法進行訓練。示意圖如下:

同樣是解決數據問題,為什麼需要聯邦學習? 2

同樣是解決數據問題,為什麼需要聯邦學習? 3

銀行擁有用戶是否逾期的標識Y和客戶少量信息,京東數科側擁有關於用戶的各類標籤。雙方通過加密ID對齊技術找到用戶交集,在建模過程中傳遞的也是加密的梯度信息,訓練完成後雙方各持有一半模型,中間沒有數據出庫,真正做到數據可用不可見。因為補充了數據維度,同時,不同特徵交叉提供更多信息增益,最終,聯邦模型效果比各自建子模型再融合KS提升20%,這可以提高銀行信貸審批通過率,有效降低不良水平。

未來規劃

當前,聯邦學習技術在工業界已開始有落地嘗試和案例,各家企業的技術選型不同,聯邦學習標準也尚未統一。近日,京東數科宣布成立京東數字科技產業AI中心。該中心集成了京東數科集團旗下AI實驗室、數據智能實驗室、智能風控實驗室、AI機器人實驗室等多個科技研發機構的AI研發力量。隨著產業AI中心的成立,京東數科在聯邦學習技術上將會進行更深維度的挖掘和拓展。有理由相信,京東數字科技產業AI中心將為業界帶來聯邦學習技術的研究成果,未來可期。在研發與應用方面,王知博認為需要重點解決研發和應用層面的問題,比如,在研發方面提升聯邦學習平台的易用性、可用性、兼容性。在兼容性上,需要與企業數據中台體系打通、降低數據維護、開發成本。解決安全計算帶來的消息通信膨脹、網絡傳輸等問題。

在應用方面重點是深耕金融業務場景,以智能信貸風控為例,需要建立聯邦安全聯盟,通過合理的生態機制,引入更多的參與方,從而更全面的刻畫用戶,從而提升模型效果,有效識別信用風險,提升業務收益。

嘉賓介紹:

王知博,京東數字科技集團金融科技事業部技術部智能數據負責人,目前有10餘年互聯網分佈式研發經驗,2015年數科成立金融科技事業部後,帶領團隊開展數據智能相關工作,結合數科自身經驗與機器學習技術幫助銀行建設並拓展在線信貸風控能力,數字營銷能力。