Categories
程式開發

一文看懂支付寶金融智能背後的AI技術


當下金融科技是一個非常熱門的話題,AI更是如此,AI+金融科技存在巨大的想像力,但金融場景跟傳統的推薦搜索廣告等場景又存在較大的差異。螞蟻金服在AI+金融領域經過了多年的探索,沉澱了較多經驗,螞蟻金服集團人工智能部總監周俊針對如何在金融場景中發揮AI的價值?如何讓AI更好賦能金融科技場景,幫助各個業務取得效果提升等問題進行了細緻的分享。

嘉賓介紹:

周俊,螞蟻金服集團人工智能部總監,目前負責螞蟻機器學習中台的研發。先後參與過XLib(阿里通用機器學習庫)、飛天(阿里分佈式操作系統)、ODPS(阿里數據處理平台)、大規模機器學習平台(Parameter Server)以及PAI(阿里機器學習平台)等幾大分佈式系統與算法平台的開發。在VLDB、WWW、SIGIR、AAAI、IJCAI、KDD等頂級人工智能相關會議上發表論文數十篇,提交人工智能專利和專利申請100餘項,獲浙江省科技進步一等獎1項。

我演講的內容分為三個大的議題:第一、金融服務面臨的挑戰;第二、金融 AI 能力;第三、金融 AI 的應用,下面我們來逐一講下:

金融服務面臨的挑戰

一文看懂支付寶金融智能背後的AI技術 1

首先來說說金融服務面臨的挑戰。金融服務和傳統依賴廣告搜索推薦的傳統電商有很大不同,尤其是場景數量上存在較大差異。很多做金融的企業都是以支付起家,支付本身會積累很多數據和用戶,通過支付本身帶來了很多用戶量之後,會延伸出保險、微貸、財富等大家能在支付寶中經常看到的一些場景,還會衍生出為這些錢“守門”的風控技術。這種典型的金融服務場景與傳統電商“以逛為主”的特點不太一樣。比如經常使用支付的人,不一定會經常使用金融場景中的保險”,而且保險的使用頻率也不會那麼高,一年的車險和個人保險在某個時間點購買好以後就不會再經常使用到保險這項服務了,貸款也是如此,用戶不太可能一年去貸幾十次,或者上百次,這是不太現實的。用戶跟系統交互過程積累了多樣化的信息,從這些數據中可以看出幾個問題:

第一、它對時間會比較敏感。比如說2018年和2017年的兩組數據差異還是較大的,差異的原因一方面來自國家宏觀層面上,確實發生了較多的大事。另一方面我們這兩年往外推服務的時候,接觸的用戶群體的差異也會比較大。還有一方面也比較好理解,就是大家的收入在增長,所以針對某些服務的體驗和感受也會有比較大的差異。

第二、海量數據。這些數據的體量是非常巨大的,就支付本身而言,它的數據體量都是十分龐大的,每一筆支付,或者是每一次用戶點開一個二維碼去付款,這背後的數據量是非常多的。但是支付和電商不太一樣的地方是,如果你把它剖開到更細化的場景來看,其實每個細化場景裡面的數據量又不是特別多,比如說前面講的保險,把數據量拆分到某個險種本身,它的數據量並不是那麼足夠,這個不夠是指面對中國這麼多互聯網人群來看它又是不夠的,它是一個比較好的矛盾體組合。

第三、業務多樣性。業務端前面已經講過了,它不是傳統的電商,只以單獨的CTR預估為場景,就可以做很多相關的事情。金融場景裡面,也要做CTR預估,要做新用戶拉新和增長,做完用戶增長之後,就要考慮怎麼去這些用戶轉化成金融場景中的用戶,所以它的業務會是多樣性的。

第四、系統風險。其實最大的風險還是系統的風險,我們希望今天做的事情,能夠防範系統風險。比如說我們不希望用戶A的本身最大能承擔金額只有800塊,他已經在某家銀行或者某個金融機構裡貸出了800塊,同樣的用戶A又跑到另外一個互聯網金融公司再去貸款800塊,這肯定是不合理的,因為他的履約能力只有800塊,今天已經有個金融機構給了他800塊了,他跑到你這來,如果你還貸給他800塊,這樣對整個大盤而言是個巨大的風險。如果整個大盤垮了,沒有任何一家能夠獨活。

最後,就是怎麼去防範系統性風險。這也是我們面臨的一個巨大的挑戰,強安全性肯定是十分必要的。所有的金融相關的數據和電商數據比起來,對安全和隱私的重視程度肯定會更高一些,大家都知道,金融數據本身比電商數據含金量更高一些,個人信息的敏感程度相應來說也會比較高,所以挑戰也比較大。那我們要如何去應對這些挑戰呢?我們來看下螞蟻打造的金融AI的能力。

金融AI的能力

一文看懂支付寶金融智能背後的AI技術 2

我們需要依賴很多信息、計算力去構建一些AI算法。這裡所展示的所謂的金融算法,是比較偏向機器學習算法的。這裡列了很多像自動機器學習(AutoML)這樣的算法,那麼,我們為什麼要去做AutoML?原因在於,首先,我們有很多比較分散的場景,無論是螞蟻金服還是360,或者其他別的公司,相信在面對那麼多複雜的場景時,並沒有那麼多的算法工程師可以投入;其次是這幾年算法工程師的人力成本漲幅很快,在高校裡面這個趨勢更為明顯。你去招聘時會發現現在市場上已經沒有做工程的人了,這個講起來其實挺可悲的。學校裡所有人都在做算法,這也不太正常。我們自己也在和自己革命,我們在思考可不可以做一些自動機器學習方法,在一些場景中,用算法去替代人工,或者至少讓算法在這樣的場景裡面能夠給人工提供比較好的Baseline。

圖推理,也是這幾年學界比較火的一個議題。以前大家傳統的做法是把一個樣本輸到一個模型裡面,這種方式比較合理,將這種以圖構圖的方式輸入到神經網絡裡面,能做的事情會更多一些,這也比較符合大家對強社交關係的認識。比如說你想預測自己的收入,那就把自己身邊最好六七個朋友的收入做個平均,基本上和你的收入非常接近,準確率能達到80%以上,這也是圖技術能夠應用在AI裡面的一個很重要的一點。

然後再來說說隱私保護,可能在三四年前大家對隱私保護關注還比較少。可能因為去年Facebook事件出來以後,以及國內相應的一些法律法規相繼推出來以後,大家對隱私保護關注越來越高。

另外,模型的可解釋性和信息連通也尤為重要。無論一家企業做得多大,還是會在某些點上存在很大的信息孤島。比如我們跟其他的一金融機構相比,可能我們有很多電商類的數據,而傳統金融機構有幾個很大的數據庫,例如收入數據和公積金數據。那麼,怎樣才能把這些數據孤島打通也是一個很大的挑戰。同時,我們希望能夠對算法提供一個可解釋性,能夠運用一些方法去對模型本身去做一些解釋,希望將人和機器能夠更好地結合起來。

至於其他的內容,如自然語言處理、圖像CV、生物識別虹膜、基於企業圖譜的信息服務,還有為用戶提供更好體驗的機器人服務等,我們會將它們打包成一個叫“金融大腦”的產品,用於服務各式各樣的場景,比如智能理財、智能風控,也會服務我們自己內部的一些場景,以及我們的合作夥伴。

金融AI的落地應用

一文看懂支付寶金融智能背後的AI技術 3

接下來我會具體講一講螞蟻是怎樣運用這些AI技術的。

智能風控

這裡面列出了一些case,解釋下如何利用深度學習技術去做智能風控。傳統的風控技術很多都是基於規則、基於經驗或基於傳統的機器學習在做。我們在思考,如何在不犧牲打攪率的情況下(不經常去打擾用戶),用一些深度學習的方法去提高機器學習的精度和準確率。

一文看懂支付寶金融智能背後的AI技術 4

智能風控主要應用的是業界講得較多的圖學習(Graph Neural Network)和傳統的GE(Graph Embedding)。應用這類圖學習的好處是這些數據在工業界和學術圈都是天然存在的,大家只要利用某個機構的一些服務,然後與服務建立鏈接,就可以在這個服務里合理地去構建出一個巨大的圖。有了這個圖以後,大家自然而然地就會去思考有沒有辦法在圖上面去進行機器學習,也就是深度圖學習。我們自己也是在這樣的圖數據上面去搭建相應的框架。因為所有AI算法都要跟這個工程去做結合。我們搭了這樣的一個框架,框架本身做的事情相對來說是比較靈活的,所以你可能要提供豐富算子,讓算法工程師能夠很好地基於這個框架搭出各式各樣的算法。這樣的圖學習技術可以應用到金融相關的一些風險中,比如有效打擊騙保等,同時這樣的技術也可以很好地去增加授信。

一文看懂支付寶金融智能背後的AI技術 5

圖表徵學習也跟前面提到的AI方法沒有太大區別。所有的AI的方法,最後都是希望能夠用一個向量去表徵,把向量送到一個模型裡面去進行學習,傳統CNN和RNN其實更多地是處理圖像和文本,至少目前可能無法更好處理這種複雜的異構圖。因此我們希望能夠構建這樣一個圖數據,其中的節點和邊的本身都​​可以用向量去表徵。也就是把這樣的深度網絡的結構送進去,通過相應的函數去做相應的運算。最後得到的結果是:每個節點上可能會有一個Embedding,或者每個邊上會有Embedding,或者預測這些邊是不是存在,通過這樣的方式生成一些Embedding。

一文看懂支付寶金融智能背後的AI技術 6

一文看懂支付寶金融智能背後的AI技術 7

訓練架構,這裡存在的一個難度較大的問題是如何去做一個圖存儲。業界有很多人在做這種相關工作,哪怕最簡單的怎樣合理地把一個圖切分成多片存在多個機器上,這個問題有很多人在研究。圖切割這個問題本身也並不簡單。

一文看懂支付寶金融智能背後的AI技術 8

具體來說,我們的算法庫既支持這種無屬性的網絡,就是節點和邊上它是沒有屬性的。慢慢地我們也可以支持有屬性和異質網絡。再往後,我們還支持了知識圖譜。所以我們的算法庫涵蓋了從無屬性網絡到知識圖譜這樣比較豐富的算法庫,從而提供給業務同學,讓他們去合理地使用這裡面的算法。

一文看懂支付寶金融智能背後的AI技術 9

我們自己本身也希望能夠提供一個比較好的可解釋性,在這裡面用的比較多的就是業界廣為流行的Attention機制。除了有Attention之外,我們還希望能夠對寬度和廣度做到自適應,並且它能夠對圖上面這些Path選出來一些比較重要的路徑。這麼做的好處就是,當我們把這個呈現給業務線同學時,他們就能合理地分析出商家所做出的行為背後的原因,為他們後續的工作提供靈感,這樣做也能比較好地實現人機協同。我們認為,人機協同在整個AI+金融裡面,都是非常重要的環節。讓人與機器完全脫離還是比較困難的,如今的一些算法能為他們提供靈感,幫助他們更好地完成交互,這對算法本身也是一種促進,算法能結合場景得到一個很好的提升。

一文看懂支付寶金融智能背後的AI技術 10

前幾年,支付寶做了很多線下支付的營銷。我們不能給所有的商家都發同樣的獎勵,這是不合理的。我們希望給那些參與度更高的商家發放更多獎勵金。所以這裡會用這樣的一個圖去找出哪些人是更活躍商家,哪些人對金額本身更敏感一些,以此來節約營銷成本。用這種方式,公司能夠用同樣一筆錢,讓這個活動多持續半年或者一年的時間,這是它的一個很重要的現實意義。它的另一個意義在於,我們今天去做企業​​授信會有很大的困難,由於數據的缺失,我們沒有辦法判定這個企業是不是有相應的一些上下游。我們自己做過一個數據觀測,如果一個企業有相應的上下游,那麼這個企業的還款能力和還款意願也會更強一些。所以我們就在思考能否利用圖的一些算法更好地去刻畫這種上下游關係推斷,去預測這些企業之間是不是存在一定的上下游。如果把企業換成個人,對個人的識別更精準些,能做的事情也會更多些。

一文看懂支付寶金融智能背後的AI技術 11

同時,除了以上落地場景以外,我們還落地了更多場景。比如螞蟻金服每年都會進行的五福紅包,後面會有一張刮刮卡,其實我們的目標是提升核銷率,以及在線下商戶去做一些拉新。還有當下比較火的刷臉支付,除了生物特徵上識別“你是你”之外,有沒有辦法在生物特徵之外的地方也用圖方法去做更好的輔助進行驗證。在應對欺詐方面也做出相應的動作,比如如果一個節點是黑的,那很大概率它的周邊以及周邊的周邊也是黑的,比如說怎麼去識別中介機構等等。利用這樣的圖方法可以使資產損失率也能有效下降。

智能營銷

一文看懂支付寶金融智能背後的AI技術 12

智能營銷除了前面講的機器學習的應用之外,這裡主要想講的是圖像和自然語言處理結合的方式。

智能營銷無非就是創意、渠道和人群三者之間的笛卡爾積。那麼如何把這件事做好?人群其實是固定的,所以要考慮如何在AI和創意間做些結合。我們想到的就是把文案和圖像之間做個聯動。過去很多營銷文案都是由營銷專家自己去寫的,我們希望之後對圖像有些理解之後,能夠和文案本身去產生一些聯動。原因是因為我們自己有著大量的金融語料,其次,我們也累計了很多泛行業營銷的模本。同時經過多年的積累,我們自己也有一些廣告術語,通過一個強化學習這種方式,以及後面可能會講到的用類似這種Bert這樣的模型去生成智能創意。以下是兩個案例:

一文看懂支付寶金融智能背後的AI技術 13

通過這種方式,最終為運營人員提供適當的文案,讓它能夠更好地生成創意文案,幫助他們去做營銷。

智能保險

一文看懂支付寶金融智能背後的AI技術 14

我要講的第三部分是智能保險。智能保險用在理賠上時,怎麼讓理賠的效率更精準、更快。我們自己推出了理賠寶這樣一種相互保障的產品。我們在尋找有沒有一種方法將AI和人結合起來,去提升理賠的效率。我們在想能不能用圖像的OCR識別去抽取出來其中的一些相應些信息。這種信息多數涉及病情,如果在背後做一個知識圖譜,在圖上去做查詢,或許能夠比較好的去幫助理賠人員提升效率。

一文看懂支付寶金融智能背後的AI技術 15

技術本身就是想要達到一個更好的理賠效率。在此過程中積累的大量數據對於AI模型本身的進化也是很大的一個助力。同時在圖譜平台沉澱下來一些經驗以後,在相互保理賠時就不用人工做出判定,系統就可以自動判定理賠是否合理,這樣保險業務本身也能發展更快。

智能客服

一文看懂支付寶金融智能背後的AI技術 16

第四部分是智能客服。前面做了很多都是想讓AI+金融服務能夠有個更好的體驗。這也是業界很多公司在做智能客服和智能助理相關工作的原因。

我們從2015年開始做智能助理,中間用了很多AI技術,目的是想提高自動佔比比例。希望能夠通過AI的方式,更直接、更快速地去回答問題,而對於某一些比較難的問題,我們還是會有一部分人工去做服務。

一文看懂支付寶金融智能背後的AI技術 17

今年,我們也把這種服務對外賦能,主要是通過釘釘這種方式,讓其他企業能夠具備智能客服的能力。裡面用的技術很多都是自然語言處理相關的一些技術。

智能金融

一文看懂支付寶金融智能背後的AI技術 18

一文看懂支付寶金融智能背後的AI技術 19

最後,講一下智能金融。這裡講的是中國農村最大的一個普惠金融機構之一,叫做中和農信。在中國農村很多地區,很多人享受不到金融服務,我們自己也做過統計,如今全世界的成年人裡面還有50%享受不到金融服務,這個數字放到中國的農村比例會更大。我們想跟這樣一個金融機構一起,把它原來傳統的信貸模式做一個升級。它原來傳統的信貸是通過線下人工走訪的方式放貸。所謂人工走訪,就是有一批信貸員去問借貸人一些問題,基於他們自己的行業經驗和理解,去判定這個人應該授信多少,他的風險利率是多少。這個模式的好處是經常在人群中走動能積累更多經驗,這種經驗會在其中起到一定作用。但同時它有一個劣勢,首先是它無法大規模擴展,如果想在中國鄉村去廣泛推廣這種服務,除非招更多的人,否則是做不到的。但人多了以後,也會帶來效率、風險上的一些問題。

我們是想把這個模式變成線上完全自動化的模式,做法就是把我們的信息和對方信息,通過一種叫做共享智能,或者隱私保護共享學習的方法,結合到一起。在保護了數據隱私的情況下,能夠做到數據可用不可見,用這樣的方式共同構建一個AI模型,再把這個模型的結果給到中和農信,部署到線上,讓中和農信可以基於這種線上方式去對農村信貸進行升級。通過這種方式,能夠很好地把這個模式推廣到全國更多的機構中,同時它本身也具有很強的示範意義,因為中國農村的很多地方確實需要一些普惠金融服務,可是卻享受不到,通過這種服務他們能更好、更合理去享受到這種金融服務。

總結

總體來說,AI和金融是相輔相成的。就像我們之前講的很多案例,AI可以通過Graph Neural Network或其他深度學習方式提高風控能力。比如在公司的授信金額在提升,營銷資金的節省上面,還有打擊黑灰產的程度上面都比較有效。它能比較好地與金融場景結合,在效率和體驗上,能夠給用戶提供一個更快、更精準的一個服務。

金融為AI提供的場景比較多,不像傳統的電商就幾個主場景,但是這個里面其實每個場景都不一樣。再舉個例子,在支付裡欺詐你的人,在信貸裡不一定會再去欺詐。這樣就牽涉到一個問題,就是Lable的定義也不一樣,數據的定義也不一樣,看起來很大的一個數據量的情況下,切分到一些小的場景裡面,數據量並不是那麼完美,甚至在很多的地方,我們還沒有Lable,比如說我們現在正在做的用AI的方法去打擊欺詐,實際上我們是沒有這方面Lable的,因為欺詐的數據很多不在我們體系範圍之內,是需要全社會全行業共同去打擊的。

那麼如何解決這個問題對AI本身來說也是一大考驗,但同時也會帶來機遇。比如說前面講的網絡,如果把網絡考慮成動態的話,它會更複雜一些。怎麼用動態的網絡去構建一個模型?這本身也是一件難度非常大的一個事情。因為規模和數據量一旦很大以後,哪怕做一個簡單的查詢,本身難度都非常大。

如果樣本量、特徵量翻個十倍一百倍,哪怕一個最簡單的線性回歸、邏輯回歸,也是一件難度非常大的事情。這背後又會牽扯到另外一個問題,今天可能有方式方法去應對這個大規模問題,然後申請了一堆機器放在那,那堆機器也是有成本的,怎麼讓那些機器的成本降得更低,讓那些機器的使用率上升上來,它絕對不是一個單點的問題,不是單點的算法問題,也不是單點的業務問題,而是一個系統性的問題。

還有對抗性問題。其實今天大家所用的每一筆支付、每一筆業務,都是人和系統背後的對抗。可能今天服務量越來越大了,那這個系統能不能撐住,今天是否有些人想在裡面薅羊毛,有些人是否能在裡面享受正常的服務,都是人和系統的對抗。還有個需要考慮的問題是人機協作。

從我們的觀點來看,至少在短時間內,在金融場景裡面很難把人給剔除掉。我們現在所做的很多事情都是想讓人和機器在當前情況下能更好地結合,讓AI的方法能夠提供一些靈感、一些觀點、一些解釋性,能夠幫助運營人員,策略人員從業務的角度提煉出更好的模式給到用戶,同時把這個正反饋建立好之後,也有助於AI能夠更好地落地。

當然,如何解決AI應用在金融領域中面臨的公平性、隱私性也是當前一大挑戰。正是有了這些機遇和挑戰,國內這幾年才有越來越多從業者願意來了解金融智能領域,願意一起去攻克面臨的問題。金融行業至少在整個世界行業來看,這個數字化程度是最高的,如今我國的智能金融領域還是走在世界前沿的,沒有樣本可以去模仿,那麼企業要怎麼去做金融+AI創新,就存在著巨大的挑戰和機遇。