Categories
程式開發

NLP領域預訓練模型發展趨勢解讀


眾所周知,自然語言處理領域在最近兩年發生了天翻地覆的技術變革,進入了技術井噴的快速發展期,而這一巨變的引發者是由BERT 為代表的預訓練模型及新型特徵抽取器Transformer 的快速發展與普及帶來的。從BERT 的應用來看,已經在對話系統、機器閱讀理解、搜索、文本分類等幾乎大多數NLP 應用領域快速應用,並在部分應用領域取得了突破性的效果提升,而且各大互聯網公司都已開始普及應用BERT 模型。從預訓練模型改進的角度看,最近一年多也陸續出現了大量效果突出的改進模型,比如 XLNet、SpanBert、RoBERTa、ALBert、BART 等一系列改進。在眾多的BERT 預訓練改進模型中,RoBERTa 可能是目前為止最簡單有效的,它僅僅通過增加更大規模的高質量數據、延長訓練時間以及增大Batch Size 等簡單手段,就能將預訓練模型效果推到一個很高的精度,效果超過了很多其它的改進模型。這說明了:目前 BERT 採用的 Transformer 結構,從模型複雜度來說是足夠複雜的,表達能力也足夠強大,我們僅僅通過增加高質量數據、增加訓練時間,依然能夠極大幅度提升 BERT 的性能。相對提出新的複雜模型來說,這種改進更加簡潔有效。

從模型結構來說,以 Google T5、MASS、UniLM 以及 BART 模型為代表的預訓練網絡結構代表了目前為止較好的模型結構,相信以後 BERT 模型的結構會逐步收斂到這個結構上來。它們都採取基於 Transformer 的 Encoder-Decoder 網絡結構來進行模型預訓練:Encoder 採取雙向 Transformer,Decoder 則往往採取從左到右的序列生成結構 Transformer。這樣做的好處是:它能夠同時兼顧比如文本分類等判別類任務,也能夠解決 NLP 中另外一大類任務,即生成類任務。這樣就使得 BERT 的應用範圍更加廣泛。

從工程實用化角度看,因為 BERT 的基礎結構採用了 12 層或者 24 層的 Transformer,所以存在參數量大計算速度慢的問題,而真正要想使模型大規模落地應用,如何將預訓練模型做小做快是關鍵所在。目前在這方面的模型改進有幾種思路:一種思路以 ALBert 的做法為代表。它一方面將輸入單詞 Embedding 參數矩陣進行矩陣分解,一方面將 Transformer 各層參數共享。通過結合兩者來大量減少參數,但這種方案在計算量上並未減少,僅僅減少了模型參數;第二種是採用Teacher-Student 模式的知識蒸餾,通過訓練小的Student 模型來模擬大的Teacher 來減小模型大小,這樣可以同時減小模型參數及計算量,以此增加計算速度;除此外,在模型壓縮方面常見的剪枝、模型參數二值化等方法也同樣可以應用在BERT的預訓練模型上。總體而言,知識蒸餾是個相對更有前景的預訓練模型壓縮發展方向。

作為剛提出不久的新型研究範式,我們目前對Transformer 和BERT 為何有效的理解還比較淺顯,同時BERT 模型還有很多值得深入改進的方向,比如長文檔處理、知識圖譜的融合、多模態融合等,都需要進一步更深入的研究。相信隨著大家對BERT 的理解逐漸深入,對BERT 模型的快速改進以及更多領域更好的應用效果會成為NLP 領域的常態,我們在不遠的未來會看到NLP 領域更多新模型的出現,以及這些新技術推動實際應用場景的快速進步。

嘉賓介紹:

張俊林,中國中文信息學會理事,中科院軟件所博士。目前擔任新浪微博機器學習團隊 AI Lab 負責人。在此之前,張俊林曾經在阿里巴巴任資深技術專家並負責新技術團隊,以及在百度和用友擔任技術經理及技術總監等職務。他是技術書籍《這就是搜索引擎:核心技術詳解》(該書榮獲全國第十二屆優秀圖書獎)、《大數據日知錄:架構與算法》的作者。

他本科畢業於天津大學管理學院,之後在中科院軟件所直接攻讀博士學位,研究方向是信息檢索理論與自然語言處理,就學期間曾在 ACL2006、COLING2004、IJCNLP2004 等國際頂級會議發表多篇學術論文。另外,他在此期間領導設計的搜索系統曾在美國國防部 DARPA 主持的 TREC 高精度檢索系統評測中取得綜合排名第一名的優異成績。近年來,陸續在 Recsys2019 以及 ICDM2019 等國際會議發表多篇深度學習推薦系統相關論文。

張俊林老師將在 8 月份的 AICon 2020 上海站擔任“NLP 技術和應用“專場出品人,和你一起談談 NLP 在工業界的最新技術應用,想要跟張老師現場面基的同學千萬不要錯過。

另外,大會還設置有智能金融、推薦廣告技術及應用、AI 工程師團隊建設與管理、認知智能、大數據計算和分析、智能語音前沿技術等熱門專場,來自BAT、微軟、小米、華為、PayPal 、快手等50+ 一線AI 技術大咖將帶來更多精彩分享,目前大會限時5 折報名火熱進行中,更多內容歡迎諮詢票務小姐姐Amy:18514549229(同微信),我們8 月上海不見不散!

NLP領域預訓練模型發展趨勢解讀 1