Categories
程式開發

聯邦學習可能會帶來數據價值挖掘的下一個爆發點


近兩年,聯邦學習技術發展迅速。作為分佈式的機器學習範式,聯邦學習能夠有效解決數據孤島問題,讓參與方在不共享數據的基礎上聯合建模,從技術上打破數據孤島。但是,目前這一技術在很多企業落地遇到了困難,InfoQ 將通過選題的方式逐一介紹各大公司如何落地實踐該技術。

2016 年,谷歌正式提出聯邦學習的概念。同期,國內不少科技公司開始了對聯邦學習的探索,並已經成功應用在了業務中。任何技術都不是銀彈,聯邦學習也是如此。那麼,當一家企業具備哪些特徵或者出現哪些問題時可以嘗試聯邦學習?開發者如何參與進來?聯邦學習的未來有哪些值得開發者期待的可能變化?本文,InfoQ 有幸對數牘科技聯合創始人 & CTO 蔡超超進行了獨家採訪,了解聯邦學習在數牘科技的落地實踐及他對企業的部署建議。

數據孤島是 AI 發展的一大壁壘

從表面上看,近幾年的人工智能發展快速,無論是政府政策還是市場需求,人工智能都受到了很高的關注度。但事實是,儘管人工智能從 2012 年深度學習理論被實踐驗證後得到了飛速的發展,但我們現在仍然處於人工智能的初級階段。原因就是當前的人工智能,都是被數據所驅動的智能。本質上是被大體量數據不斷訓練出來,再通過算法模擬出來的“智能”,並非是機器真的有自己的判斷邏輯。

現階段,我們依賴數據。因而,數據孤島的存在成為人工智能發展的一大壁壘,這極大限制了企業可利用的數據量。採訪中,蔡超超表示,除了數據孤島,企業對數據的實際應用中也有保護核心高價值數據的需求,通過隱私計算和聯邦學習實現數據的所有權和使用權分離是一種有效的解決方式。具體來說,隱私計算和聯邦學習可以增加可用數據的總量,與人工智能一起形成螺旋式上升。人工智能產業的發展主要基於機器學習技術,難以脫離數據單獨前進,聯邦學習在解決內部數據不足問題上有很好的表現,可以助力人工智能企業的發展。同樣的,人工智能市場的繁榮發展讓更多終端場景產品的不斷落地也會收集更多數據會分佈在不同地點,促進聯邦學習更大規模的應用,如此看來,聯邦學習和人工智能一起形成螺旋式上升模式。

規範數據使用可以在匯聚更多數據的基礎上迎來價值挖掘的下一個爆發點,帶動 AI 的數據基礎設施進步,隱私計算未來會逐步成為 AI 的基礎設施。

具體來說,隱私計算或者說聯邦學習用到的技術包括:差分隱私、MPC、機器學習、TEE 等,這是數據科學、密碼學、分佈式計算與存儲的綜合工程,而不是單一的密碼學。蔡超超補充道,這個過程最大的挑戰是工程實踐和實際落地能力,需要數據科學和工程的經驗積累才能設計出真正工程可用的產品。

既然是解決數據孤島問題,那做個中台把數據打通可不可以?還需要聯邦學習嗎?

中台做不了聯邦學習的事兒

在數據中台的價值中,其中一條就是打通各業務線的數據。經過去年的“中台熱”,不少企業內部可能已經構建起了數據中台,並對解決數據問題信心滿滿。 “數據中台的存在可以為聯邦學習提供良好的數據環境,但並非必要條件”,蔡超超表示,“數據中台和聯邦學習是有本質區別的。

”如上文言,聯邦學習最早由谷歌於2016 年提出,用於解決安卓手機終端用戶在本地更新模型的問題,是一種分佈式的機器學習技術/ 框架。聯邦學習可以在不分享數據的基礎上,實現共同建模,並提升模型效果,適用場景包括單方樣品數量不夠充分,單方數據維度不夠豐富。整個學習訓練過程,沒有任何原始數據的洩露,起到保護數據隱私/ 核心價值的作用。

數據中台則更像是企業內部對現有數據流處理的一種綜合應用。

數據中台可以幫助企業內部實現業務數據的分層和水平解耦,沉澱出公共的數據資源。通常可將其劃分為三層:數據模型、數據服務與數據開發。數據建模幫助企業完成跨域數據整合和知識的沉澱;數據服務層可幫助實現對數據的封裝和開放功能,更靈活的滿足上層應用的要求;使用數據開發工具來滿足個性化數據和應用方面的需要。綜上,數據中台的存在可以為聯邦學習提供良好的數據環境,但並非必要條件。

聯邦學習是一個綜合工程

技術世界沒有銀彈,聯邦學習也不是萬能藥,並不是每家企業都需要即可部署。在採訪中,蔡超超表示,當企業遇到如下兩種情況可能需要通過聯邦學習解決問題:一是涉及到保護數據隱私和核心價值的場景,因為聯邦學習的整個學習訓練過程,沒有傳輸任何原始數據;二是多方數據補充的場景,這可能存在單方樣品數量不夠充分或單方數據維度不夠豐富的情況。

簡單來說,如果企業確實有對隱私數據核心價值保護以及數據對外協作的需求,可以考慮嘗試聯邦學習技術。但要清楚,聯邦學習不是簡單的機器學習技術,而是一個結合了數據科學、密碼學、分佈式計算與存儲的綜合工程,企業需要一個有綜合實力的研發團隊的支持,而且對個人的技術要求也比較高,需要充足的前期訓練以及良好的團隊配合,可能需要度過一個漫長的準備期。而且,聯邦學習項目本身與數據和計算相關,對數據和場景的理解也很重要,需要數據科學和工程的經驗積累才能設計出真正工程可用的產品,要為實用而加密,而非為了加密而加密。

此外,在過往的採訪中,不少企業對聯邦學習的部署效果存在擔憂,在最初的嘗試中,數牘科技同樣對此抱有擔憂。蔡超超表示:“我們在實踐的時候也發現初級版的聯邦學習確實有不少效果問題,例如模型不能很好的收斂, 或者是精度/ 效率問題。隨著技術的優化,特別是綜合數據科學,密碼學,分佈式技術後,整體的效果有了非常大的提高,在大部分場景下,模型整體精度基本和傳統方法沒有太大差別。”聯邦學習在數牘科技的實踐

在數牘科技,團隊對聯邦學習的探索和實踐分為如下三個階段:

  • 早期追踪階段:團隊成員在谷歌 2016 年提出聯邦學習的概念時就開始關注。

  • 實際探索使用:在 Facebook 劍橋門事件(Facebook 被報導不正當分享其用戶信息來影響美國總統大選的結果)中充分認識到聯邦學習帶來的獨特優點,並在內部產品開始實踐使用。團隊也注意到初級版本聯邦學習的挑戰,包括部分精度丟失、需要中間方協助更新、與加密學技術結合不夠完善、數據合作模式單一等問題。

  • 聯邦學習平台建立:團隊成員有著豐富的聯邦學習實踐和開發改進經驗。以此為基礎,融合多方安全計算等多項技術,搭建綜合性隱私計算平台。

蔡超超表示,原始的聯邦學習框架是在機器學習本身技術層面思考信息流的傳遞,並保護數據不出庫。如果結合密碼學技術,不僅可以保護原始數據,同時也可以對中間信息流進一步加密封裝,從而提高系統安全性,各項技術的結合使用能保證計算效率,實現工業級可用,比如:

  • 差分隱私,同態加密,秘密分享等技術的綜合應用,能對數據隱私實現端到端的閉環保護;

  • 分佈式計算的實踐效果可以讓平台具備支持海量處理的能力,可處理 10 億樣本量的常規模型;

  • 工程落地經驗和對代碼、算法的優化,可以把隱私計算系統也做到實時響應;

在金融風控場景中,銀行希望引入外部數據源做特徵補充來建立聯合模型。基於用戶授權,聯邦學習技術可以在保證數據安全不出庫的同時,整合不同機構間對用戶行為特徵不同維度的捕捉,以用戶為基礎,形成對個人的較為全面的描述。對比傳統模型方式,該模型可以學到更多用戶信息,從而提升模型效果,促進業務發展,實現降本增效。整體上,模型效果往往可以提升 30% 以上。

以個人信用風險評估項目為例,當前金融信貸業務中往往受限於數據不夠豐富,在數據可解釋性及穩定性、風控模型效果、風險策略和獲客成本等層面面臨諸多挑戰,借助聯邦建模可以在保護用戶信息不洩露的前提下將來自支付應用的消費數據、交通出行數據等更多維度納入聯合風控模型中,從而構建更精準大數據風控模型用以測算借款自然人。目前,數牘科技提供的聯邦學習技術,能幫助客戶在不分享原始數據的前提下,結合外部1000+ 數據特徵聯合建模,提高模型效果;可按需要將模型快速部署在任何一方或者多方,且對模型嚴格加密,避免策略洩露。實踐效果如下:

  • 評分卡模型交叉多方數據,增加模型入模變量,模型 AUC 提升近 0.1;

  • 提升客戶風險定價能力,輔助風險策略額外挖掘 2% 產品目標人群;

蔡超超補充道,數牘科技的聯邦學習平台可以在數據量子級保護的條件下,結合金融機構與外部數據源的數據訓練機器學習模型,提供信貸風控、營銷等方向的業務支持。

  • 數據單次隨機加密,量子級保護,防止線下字典攻擊;

  • 加密過程中無需犧牲數據精度,做到無損數據挖掘;

  • 去中心化結構,雙方原始數據出庫,充分保護數據的安全性。

聯邦學習的未來願景

衡量一項技術的發展,標準制定和大規模應用是兩個很重要的因素。

聯邦學習是為了解決跨機構間的數據融合問題,無論是從隱私安全方面,還是從保證數據格式統一層面講,標準的製定對聯邦學習的大規模落地具備重要意義。現階段,國內外都在相繼制定和推出聯邦學習的標準規範,如聯邦學習國際標準IEEE P3652.1(聯邦學習基礎架構與應用)、《聯邦學習白皮書2.0》等,數牘科技也正在與信通院等標準制定機構合作,參與企業外部數據合作相關標準的建立,提供技術顧問和隱私保護最佳案例的參考。

從整個數據產業看,聯邦學習可以增加可用數據的總量,能很好的解決現存數據孤島的問題;對企業自身而言,使用聯邦學習能簡單、合法且低成本的獲取外部有效的數據信息,快速解決某些因數據量或數據維度不足而導致的困擾,而且也不會造成合作企業間數據或商業機密的洩露。蔡超超認為,規範數據使用可以在匯聚更多數據的基礎上迎來數據價值挖掘的下一個爆發點,帶動 AI 的數據基礎設施進步,隱私計算未來會逐步成為 AI 的基礎設施。

現階段要用到聯邦學習的場景需求是很多的,但大規模落地還未到來,除了以上提到的政策和標準待完善的問題,還有就是對工程師的技能要求很高,例如使用聯邦學習做隱私建模等技術需要更多的知識普及和經驗積累,但隨著市場需求和技術解決方案的逐步清晰,相信越來越多的企業參與其中,聯邦學習助力數據流動,讓數據孤島聯結成網。

嘉賓介紹:

蔡超超,數牘科技聯合創始人 & CTO。曾先後任職於 Amazon、Facebook, 機器學習和聯邦學習專家。在 Facebook 廣告部門期間,作為技術主管主導了多平台圖譜、用戶畫像預測等項目,獲得 Facebook Distinguished Equity,30 多項美國國家專利。加州大學洛杉磯分校(UCLA)機器學習博士。

專題推薦:

為了解聯邦學習在金融領域的應用現狀、落地困境和破解之道,InfoQ先後採訪了平安科技、螞蟻金服、騰訊、微眾銀行以及京東數科。專題鏈接如下:

https://www.infoq.cn/theme/58