Categories
程式開發

NLP在銀行業的應用現狀


銀行業作為高度數據化的行業,加之業務規則和目標明晰,是人工智能和雲計算等數據驅動技術的最好應用場景。本文作者 Raj Shroff 為我們講述了人工智能分支之一——自然語言處理落地銀行業的三個應用場景:智能文檔搜索、投資分析、客戶服務與洞見。 InfoQ 中文站翻譯並分享,以饗銀行業讀者。

為了實現某些文檔處理、分析和客戶服務活動的自動化,銀行業正在使用人工智能的一個分支,稱為自然語言處理(Natural Language Processing,NLP)。三種應用場景包括:

  • 智能文檔搜索:在大量掃描文檔中查找相關信息。
  • 投資分析:收益報告和新聞的日常分析自動化,以便分析師可以專注於超額回報。
  • 客戶服務與洞見:部署聊天機器人來回答客戶的詢問並了解客戶的需求。

在本文中,我們將介紹銀行業在這些方面的實際情況。首先,讓我們回顧一下自然語言處理的能力。

自然語言處理概論

自然語言處理是人工智能的一個分支,它使計算機能夠理解人類的語言,並作出相應的反應。這包括訓練計算機處理文本和語音,並根據上下文解釋單詞、句子和段落的含義。

人機交互

人機對話可以按如下方式進行細分(稍後我們將會講到具體的人工智能方法):

  1. 我們提供文本或語音輸入(例如,在聊天機器人界面鍵入或與智能音箱通話)

  2. 計算機將文本 / 語音轉換為它能理解的格式(例如,將語音轉換為文本,將單詞轉換為向量)。這有助於計算機對不同的單詞進行聚類和分類。

  3. 計算機利用自己的數據集理解語義和上下文。

  4. 計算機確定適當的響應,並將其轉換為我們能夠理解的文本或語音,然後對我們作出響應。

實際上,我們每天都與使用自然語言處理的應用程序進行交互:

  • Google 翻譯:我們輸入文本和語音,Google 就為我們進行翻譯。

  • Gmail 智能撰寫:你可能會注意到,當你開始鍵入句子後,Gmail 會給你提供句子其餘部分的建議。這個功能是使用電子郵件主題和以前的電子郵件來建議相關文字。有點嚇人是吧?但也有點炫酷。

  • Grammarly:這是一種流行的語法檢查器,很多人在用,因為它比 Microsoft Word 的拼寫檢查好用得多了。

  • 智能音箱:不,你和 Alexa 的對話並不是什麼魔術(抱歉哈,說了實話)。

理解、處理和生成語言

自然語言處理實際上是一個涵蓋性術語,包括兩個相關方法:自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language Generation,NLG)。

自然語言理解找出文本和語音背後的含義。你可以把這個想像成讀或者聽。這包括從人類那裡獲取非結構化文本和語音輸入,並將其轉換為計算機能夠理解的結構化格式。例如,當你向 Alexa 詢問天氣預報時,它就會使用自然語言理解來判斷你所說的內容。

自然語言生成是指計算機生成的文本和語音。自然語言生成將結構化數據轉換成人類能夠理解的文本和語音。繼續我們前面的例子,A​​lexa 使用自然語言生成來回答:“今天是晴天,你想訂購太陽鏡嗎?”

用於自然語言處理的人工智能方法

自然語言處理通常會與其他人工智能方法一起使用,如神經網絡深度學習光學字符識別。兩種流行的自然語言模型是 Word2vec詞袋模型(Bag of Words)。

如果不涉及技術問題,那麼神經網絡就是機器學習的一個子集。當用於自然語言處理時,它們可以對文本進行處理,對單詞進行分類,對相似的單詞進行聚類,並將單詞和短語與含義相關聯。深度學習方法(即多層神經網絡)也被使用,如遞歸神經網絡

光學字符識別(Optical character recognition,OCR)使計算機能夠識別掃描文檔中的文本。光學字符識別可以與自然語言處理一起用於分析掃描文檔或手寫文本。

使用各種自然語言技術來確定語法規則和詞義。語法分析(Syntax analysis)包括確定單詞的語法規則,並根據相似性對其進行聚類。語義分析(Semantic analysis)包括派生含義,並用於生成人類語言。語義分析頗具挑戰性,因為人類語言規則很複雜。單詞和短語在不同的上下文中有不同的含義。而口語、熟語和挖苦使問題變得更加複雜。

詞袋模型相關算法是流行的自然語言技術,可以根據類別或類型對短語和文檔進行分類。詞袋模型只是簡單地計算每個單詞在文檔中出現的頻率(即計數)。然後,該算法比較文檔並確定每個文檔的主題。這可以用來訓練神經網絡。據 Google 稱,前面提到的 Gmail 智能撰寫使用了詞袋和遞歸神經網絡模型。搜索引擎也使用了這些技術。

Word2vec 是另一種流行的自然語言模型。它是一個兩層神經網絡,對文本進行分類以確定其含義。它將單詞轉換為計算機可以理解的數學“向量”。向量轉換是必要的,因為神經網絡在使用數值輸入時效果會更好。

給定一個足夠大的數據集,將表示相似單詞的向量分組到一起,然後用數學方法來檢測相似單詞。如果部署得當,Word2vec 可以根據過去出現的情況以高精確度來推斷單詞的含義。這對於文檔搜索、情感分析、甚至是建議接下來是哪些單詞來完成一句話,都很有用。

銀行業如何使用自然語言處理

NLP在銀行業的應用現狀 1

銀行業可以將自然語言處理應用到大量的文本和語音數據,以提取信息、獲得洞見並簡化手工任務。雖然節省時間和成本是顯而易見的好處,但識別關鍵信息的能力(眾所周知的大海撈針般的能力)可以使銀行成為差異化競爭者。

以下是銀行業應用自然語言處理的三個領域。

智能文檔搜索

摩根大通(JP Morgan Chase)的 COIN(Contract Intelligence,意即合同情報)軟件使用自然語言處理來幫助銀行的法律團隊搜索和審查大量法律文件。

據報導,摩根大通的 COIN 可以為銀行的法律團隊節省 360000 小時(即 15000 天)的文檔搜索任務。例如,它可以提取關鍵數據和條款,以幫助信貸員審查商業貸款協議。

顯然,COIN 經過訓練,可以識別銀行法律團隊標記為重要文件中的關鍵信息(屬性)。這樣使得軟件能夠從不同結構的文檔中提取關鍵信息。摩根大通聲稱,它在數秒內從 12000 份商業信貸協議中提取了 150 個相關屬性。

這款軟件是摩根大通內部使用的,因此並不予公開軟件的具體細節。但我們可以推測,它可能是通過自然語言處理(在文檔內搜索)、光學字符識別(在掃描文檔中識別字符)和機器學習(對文檔中的數據進行分類和聚類,並隨著時間的推移改進搜索算法)提供支持。

這些方法可以應用於其他銀行業務。它可以幫助銀行提取他們沒有時間跟踪的客戶數據類型。這些數據可以幫助預測客戶的需求並識別交叉銷售的機會。它還可以加速需要文檔分析的了解客戶(Know Your Customer,KYC)流程,從而使客戶更容易上手。

譯註:了解客戶(Know Your Customer,KYC),要求金融機構實行賬戶實名制,了解賬戶的實際控制人和交易的實際收益人,同時要求對客戶的身份、常住地址或企業所從事的業務進行充分的了解,並採取相應的措施。

投資分析

銀行業的證劵研究部門正在使用自然語言處理技術,從堆積如山的公司報告和電話會議中尋找有價值的洞見。

銀行此前聘請了大量分析師來梳理收益報告和其他文件,並將相關數據輸入數據庫和估值模型。

現在,銀行業正在使用自然語言處理工具,可以做到一次“閱讀”數百份文檔,並為人類分析師總結關鍵信息。語音分析工具可以“監聽”分析師的電話會議,以確定公司管理層講話背後的基調和情緒,從而為股票分析提供洞見。這些工具節省了大量的時間,使分析師能夠專注於超額回報。

銀行業還使用自然語言處理進行情感分析。這些工具分析大量的新聞和社交媒體的帖子,從中提取關鍵的洞見,以確定公眾對公司的看法,或跟踪市場對重大事件的反應。這些及時的洞見可以為分析師的建議提供信息。

銀行要么使用內部開發的工具,要么使用供應商開發的工具。一家名為 Datminr 的供應商聲稱,他們可以通過分析社交媒體和財經新聞來識別相關信息,包括意外新聞、新興趨勢或風險。

例如,在銷售方面,自然語言生成工具會根據盈利報告和新聞主動生成報告。

客戶服務與洞見

各大銀行正在通過聊天機器人引入某種程度的客戶服務自動化。 2019 年初,美國銀行(Bank of America)推出了移動虛擬助理 Erica,很快通過美國銀行的移動應用積累了 100 多萬用戶

Erica 接受語音和文本命令,並結合預測分析和自然語言處理,以幫助客戶:

  • 查詢餘額和轉賬。
  • 按需搜索過去的交易記錄和賬戶信息。
  • 跟踪消費習慣(可能使用預測分析,這是鼓勵更多聊天機器人使用的增值手段)。
  • 幫助客戶管理定期還款(recurring payments)或延遲還款(late payments)。

聊天機器人讓客戶能夠訪問自己的賬戶信息,並在手機上進行基本交易,而不是使用網上銀行或訪問當地的分支機構。通過一個乾淨的聊天機器人界面進行交易,也可能花費更少的時間。

對銀行業來說,更大的勝利將是使用自然語言處理來獲取客戶洞見。使用上述與智能文件搜索和情感分析相關的方法,銀行可以更好地理解與預測客戶需求和痛點。情感分析工具可以監控社交媒體,了解公眾對銀行的評價。文檔搜索工具可以分析反饋表單和客戶信息,以相應問題,提供量身定制的產品,並增加客戶保留率。

銀行業高管的最大收穫

銀行業高管認識到,有了自然語言處理,日常文件分析、研究和客戶服務自動化才能實現自動化。

節省成本只是冰山一角。通過更快地分析文本和語音數據,提取更多關於客戶和市場的可操作的洞見,銀行可以更好地為客戶服務,進行更好的投資。更大的市場份額和收入的潛力才是真正的差異化因素。

儘管我們並沒有涵蓋所有可能的用例,但銀行業可以將自然語言技術應用於任何處理大量文本或語音數據的任何功能。例如,在合規性、風險管理或訂單執行方面就有許多應用程序。

關鍵的考慮因素包括,是在內部構建人工智能和自然語言處理工具,還是從人工智能供應商那裡獲得軟件許可證。如果在內部構建的話,則需要數據科學家、開發人員和組織人工智能策略。儘管這需要時間,但內部開發的解決方案可能比供應商產品更能滿足銀行的需求。此外,還必須解決跨部門的數據質量和可用性的問題。

鑑於自然語言處理可以應用於範圍廣泛的銀行業務,跨部門應用這些解決方案的銀行很可能會獲得更高的投資回報。

作者介紹:

Raj Shroff,撰稿人,專門撰寫有關人工智能和金融科技如何幫助企業和社會的文章。

原文鏈接:

https://towardsdatascience.com/natural-language-processing-in-banking-current-uses-7fbbaee837de