Categories
程式開發

如何有效地從AI訓練模型中刪除記錄?


無論用戶是否知情,人工智能算法都在收集用戶信息。全世界的公司、大學都在使用不知情民眾的病例、購物歷史和社交媒體的使用情況來訓練機器學習軟件。他們的目標可能是汲取科學見解,抑或是關注可疑人員。即使AI模型是從人們的數據中抽像出來得到一般性結論的,也能設法從模型中重構出輸入的個體數據信息,匿名性已經不復存在。

如何有效地從AI訓練模型中刪除記錄? 1

為了找回一部分隱私權,最近諸如《歐洲通用數據保護條例》《加州消費者隱私法案》等法律賦予了用戶一些權力。但是,如果想讓訓練過的AI模型刪除記錄,通常需要從頭開始,使用不包含這個人的數據再訓練一次,而新開始的訓練過程會花費幾週的時間。

有兩篇新論文提供了有效從AI模型中刪除記錄的方法,同時也許還能節省上兆瓦的能源開銷,使其看上去很有吸引力。 “我們或許需要一些新的算法來讓公司之間的合作變得更加容易,也讓他們再也沒有不遵守規定的藉口。”斯坦福計算機學家,同時也是第一份論文的作者之一,Melody Guan如是說。

因為關於有效刪除數據方面的文章很少,斯坦福的作者首先定義了這個問題,並描述了改良的四項設計原則。第一原則是“線性”,簡單的AI模型所做的僅僅是數字的加法和乘法,規避了所謂的非線性數學函數,也更容易部分解碼。

第二原則是“懶惰”,在需要預測之前,延遲大量的計算。第三是“模塊化”,盡可能將模型分成幾部分進行訓練,最後再將結果進行整合。第四是“量化”,將均值鎖定在附近的離散值上,這樣即使刪除一個貢獻數也不太可能會使均值偏移。

斯坦福的研究者在其中兩個設計原則應用到了一種叫做K-均值聚類的機器學習算法,這種算法將數據點歸類為自然聚類,可用於分析相似種群之間的遺傳差異。聚類的這項應用已經在UK Biobank的醫學數據庫中得到了實現,而論文的作者之一也收到過一些患者想要將他們的數據移出數據庫的消息。

研究員使用量化技術開發了一種被稱為Qk均值的算法,並將其在六個數據集中進行了測試,對細胞類型、手寫數字、手勢、森林覆蓋以及被黑客入侵的互聯網連接的設備進行了分類。以每次一個的頻率從每組中刪除1000個數據點,Q-k均值的運算速度是常規k均值的2到584倍,同時幾乎沒有精度損失。

通過模塊化原則,他們開發了DC-k-均值算法,DC是分治算法(Divide and Conquer)的縮寫。數據集中的點被隨機分為多個子集,然後在每個子集中進行獨立的聚類,最終將這些集群聚類,循環往復。從每個子集刪除一個數據點,其餘點不變,此時的速度倍數是從16到71,同樣,這種算法幾乎沒有損失精度。此項研究於去年底(2019年12月)在加拿大溫哥華的神經信息處理系統(NeurIPS)會議上發布。

多倫多大學向量學院的計算機專家Nicolas Papernot的評價是“這篇論文的優點在於他們能夠利用該算法(k-均值聚類)的一些潛在好處。”但有些小技巧在其他種類的算法,例如深度學習中的人工神經網絡上並不會起效。

上個月(2019年12月),Papernot及其合作者在arXiv上發布的的論文,提出了一種神經網絡也可以使用的訓練方法,將其命名為SISA訓練,SISA是分片(Sharded)、隔離(Isolated)、切片(Sliced)以及聚合(Aggregated)的縮寫。

SISA對模塊化的應用分了兩種不同的方法。第一種是將數據集分片,在所有子集上分別使用模型進行訓練。當模型進行預測時,將模型的預測進行匯總。這樣,一個數據的刪除只需要重新訓練一個模型。第二種方法,切片則對子集進一步分割,用於訓練該子集的模型繼續訓練子集的分片1,然後是分片1和2,然後是1,2,3,以此類推,在每步結束後封閉訓練模型。如果從分片3中刪除一個數據點,那麼就可以直接回到第三步再重新進行訓練。分片和切片“給了我們微調訓練模型的機會,”Papernot如是說。 Guan稱讚他們的方法很直觀,但這種記錄刪除的標準非常寬鬆。

多倫多的研究團隊在兩個大型數據集上測試了這種訓練方法,兩個數據集一個包含60多萬家庭地址數字的圖片,另一個包含30多萬購物歷史記錄。在刪除0.001%的數據後,20個分片的重新訓練在地址數據中速度提升了3.75倍,在購物歷史數據中則提升了8.31倍,在速度提升的同時精度也幾乎沒有損失。對比對像是在常規情況下訓練的模型,刪除數據點之後再重新開始訓練。進一步分塊之後為地址數據提速18%,為購物歷史數據提速43%,同樣沒有精度損失。

僅僅刪除0.001%的數據可能看起來不算什麼,但是Papernot認為,根據公開發布的數據顯示,這樣的數量級已經遠遠超過了像谷歌搜索等服務所需求的,而18%的加速可能看起來也不是很有吸引力。但是,對於巨型模型來說,這樣的提升可以節省大量時間和金錢。進一步來說,如果你已經知道某些數據很有可能在後期被要求移除,可以將這類數據歸於同一個分層或是分片,這能讓刪除更加有效。 Papernot表示,正在尋求利用關於數據集的相關知識去更好的調整SISA算法。

Guan說,這些人工智能方法是要讓記錄匿名,但是也會出現隱私之外的需求來讓AI遺忘某些特定數據。可能是人們不想為厭惡的公司貢獻利潤,或者是科學家們在訓練結束之後才發現有的數據有問題,後者可能是由於黑客添加了虛假記錄而污染了數據集。在這些情況下,能有效地進行數據刪除是非常必要的。

“當然,我們還沒有完全的解決方案,”Guan說,“但是我們認為成功定義數據刪除這個問題會帶來非常大的幫助。希望人們在設計算法的時候能夠記得數據保護。”

原文鏈接:

https://spectrum.ieee.org/tech-talk/computing/software/researchers-can-make-ai-forget-you