Categories
程式開發

BigBird會是NLP 的另一個重要里程碑嗎?


本文最初發表在Towards Data Science 博客,經原作者Praveen Mishra 授權,InfoQ 中文站翻譯並分享。

去年,Google 研究人員發布了BERT,事實證明,這是繼RankBrain 之後效率最高、效果最好的算法改進之一。 從初步的結果來看,BigBird 也顯示出了類似的跡象。

基於Transformer 的模型概述

在過去的幾年中,自然語言處理取得了巨大的進步,基於Transformer 的模型在其中扮演了重要的角色。 儘管如此,仍然還有很多東西有待發掘。

Transformer 是2017 年推出的一種自然語言處理模型,主要以提高處理和理解順序數據的效率而聞名,比如文本翻譯和摘要等任務。

與遞歸神經網絡在輸入結束之前處理輸入的開始不同,Transformer 可以做到並行處理輸入,因此,計算的複雜性大大降低了。

BERT 是自然語言處理最大的里程碑式的成就之一,是一個基於Transformer 的開源模型。 2018 年10 月11 日,Google 研究人員發表了一篇介紹BERT 的論文,就像BigBird 一樣。

BERT(定向的Ë編碼器[R來自的陳述Ťransformers,代表Transformer 的雙向編碼器表示)是一種先進的、基於Transformer 的模型。 它是在大量數據(預訓練數據集)上進行預訓練的,BERT-Large 訓練了超過25 億個單詞。

話雖如此,但由於BERT 是開源的,任何人都可以創建自己的問答系統。 這也是BERT 廣受歡迎的原因之一。

但BERT 並不是唯一的上下文預訓練模型。 然而,與其他模型不同的是,它是深度雙向的。 這也是其取得成功和多樣化應用的原因之一。

BigBird會是NLP 的另一個重要里程碑嗎? 1

這種預訓練模型的結果確實令人印象深刻。 它已成功應用於許多基於序列的任務,如摘要、翻譯等。 甚至連Google 也採用了BERT 來理解用戶的搜索查詢。

但是,就像其他基於Transformer 的模型一樣,BERT 也有它自己的局限性。

以前基於Transformer 的模型的局限性

雖然基於Transformer 的模型,特別是BERT,比起遞歸神經網絡有很大的改進和效率提升,但它們仍然有也有一些局限性。

BERT 工作在一個完全的自註意力機制上。 這就導致了每一個新的輸入令牌的計算和內存需求的二次方的增長。 最大的輸入令牌長度一般為512,這意味著這個模型不能用於更大的輸入和大型文檔摘要等任務。

這基本上意味著,在將大字符串應用為輸入之前,必須將其拆分更小的段。 這種內容碎片化也會導致上下文的嚴重丟失,從而使其應用程序受到限制。

那麼,什麼是BigBird? 它與BERT 或其他基於Transformer 的自然語言處理模型有什麼不同呢?

BigBird 簡介:用於更長序列的Transformer

如前所述,BERT 和其他基於Transformer 的自然語言處理模型的主要局限性之一是,它們運行在一個完全的自註意力機制上。

當Google 研究人員在arXiv 上發表了一篇題為《BigBird:用於更長序列的Transformer》(Big Bird: Transformers for Longer Sequences)的論文後,情況發生了變化。

BigBird 是運行在稀疏注意力機制上的,允許它克服BERT 的二次依賴性,同時又保持了完全注意力模型的屬性。 研究人員還提供了BigBird 支持的網絡模型如何超越以前的自然語言處理模型以及基因組學任務的性能水平的實例。

BigBird會是NLP 的另一個重要里程碑嗎? 2

在我們開始討論BigBird 的可能應用之前,先看看BigBird 的主要亮點。

BigBird 的主要亮點

以下是BigBird 的一些特性,這些特性使它比以前基於Transformer 的模型更好。

  • 稀疏注意力機制

假設給你一張圖片,並要求你為這張圖片創建一個相關的標題。 你將從識別圖片中的關鍵對像開始,比如說,一個人在扔一個“球”。

對於我們人類來說,識別這個主要對像很容易,但是為計算機系統簡化這一過程在自然語言處理中卻是一件大事。 注意力機制的引入降低了整個過程的複雜性。

BigBird 使用稀疏注意力機制,使其能夠處理序列的長度比BERT 可能的長度多8 倍。 請記住,使用與BERT 相同的硬件配置就可以實現這一結果。

在BigBird 的那篇論文中,研究人員展示了BigBird 中使用的稀疏注意力機制是如何與完全自註意力機制(用於BERT)一樣強大的。 除此之外,他們還展示了“稀疏編碼器是如何做到圖靈完備的”。

簡單地說,BigBird 使用稀疏注意力機制,這意味著注意力機制是逐個令牌應用的,而不是像BERT 那樣,注意力機制只對整個輸入進行一次應用!

  • 可以處理多達8 倍長的輸入序列

BigBird 的主要特點之一是它能夠處理比以前長8 倍的序列。

研究小組設計BigBird 是為了滿足像BERT 這樣的全Transformer 的所有要求。

利用BigBird 及其稀疏注意力機制,研究小組將BERT 的複雜度$O(n^2)$ 降到$O(n)$。 這意味著原來限制為512 個令牌的輸入序列,現在可以增加到4096 個令牌(8*512)。

BigBird 的研究人員之一Philip Pham 在一次Hacker News 討論中表示:“在我們大部分論文中,我們使用的是4096,但我們可以使用更大的16K 以上。

  • 針對大數據集進行預訓練

BigBird會是NLP 的另一個重要里程碑嗎? 3

Google 研究人員在BigBird 的預訓練中使用了4 種不同的數據集:自然問題瑣事HotpotQA干擾器維基百科

雖然BigBird 的預訓練集遠不如GPT-3(訓練參數為1750 億個參數)大,但研究論文中的表3 顯示,它比RoBERTa 和Longformer 的性能更好。 RoBERTa 是一種穩健優化的BERT 預訓練方法,Longformer 是一種用於長文檔的類BERT 模型。

一位用戶請求Philip Pham將GPT-3 與BigBird 進行比較時,他說:“GPT-3 只是用了2048 的序列長度。 BigBird 只是一種注意力機制,實際上可能是對GPT-3 的補充。

BigBird 的潛在應用

最近,介紹BigBird 的論文於2020 年7 月28 日才發表,因此,BigBird 的全部潛力還有待確定。

但這裡有幾個潛在應用的領域。 BigBird 的作者在原始研究論文中也提出了其中的一些應用。

  • 基因組學處理

深度學習在基因組學數據處理中的應用越來越多。 編碼器將DNA 序列的片段作為輸入,用於諸如甲基化分析、預測非編碼變體的功能效應等任務。

BigBird 的作者稱:“我們引入了一種基於注意力的模型的新應用,在這種模型中,長下文是有益的:提取基因組序列(如DNA)的上下文表示。

在使用BigBird 進行啟動子區域預測(Promoter Region Prediction)後,論文聲稱最終結果的正確率提高了5%!

  • 長文檔摘要與問答系統

由於BigBird 現在可以處理多大8 倍長的序列長度,它可以用於自然語言處理任務,如更長的文檔格式的摘要和問答系統。 在創建BigBird 的過程中,研究人員還測試了它在這些任務中的性能,並見證了“最先進的結果”。

  • BigBird 用於Google Search

Google 從2019 年10 月開始利用BERT來理解搜索查詢,並為用戶顯示更多的相關結果。 Google 更新搜索算法的最終目的是比以前更好地理解搜索查詢。

由於BigBird 在自然語言處理方面的表現優於BERT,所以使用這個新建立的、更有效的模型來優化Google 的搜索結果查詢是有意義的。

  • Web 和移動應用程序開發

自然語言處理在過去十年中取得了長足的進步。 有了一個GPT-3 驅動的平台,你可以將簡單語句轉化為可運行的Web 應用程序(連同代碼),人工智能開發者可以真正改變你開發Web 和Web 應用程序的方式。

此處應為視頻,但我這裡顯示不出來。 請編輯註意核對此處。

由於BigBird 可以處理比GPT-3 更長的輸入序列,它可以與GPT-3 一起使用,為你的企業高效、快速地創建Web 和移動應用程序

結語

儘管BigBird 還有很多有待探索的地方,但它絕對具有徹底改革自然語言處理的能力。 你對BigBird 及其對自然語言處理的未來的貢獻有什麼看法?

參考文獻:

【1】 《BigBird:用於更長序列的Transformer》(大鳥:變形金剛更長的序列),Manzil Zaheer及其團隊,2020年,arXiv

【2】 《BERT:用於語言理解的深度雙向Transformer的預訓練》(BERT:用於語言理解的深度雙向變壓器的預訓練),Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova,arXiv

作者介紹:

Praveen Mishra,技術愛好者,具有創造內容的天賦。 熱衷幫助企業實現目標。

原文鏈接:

https://towardsdatascience.com/understanding-bigbird-is-it-another-big-milestone-in-nlp-e7546b2c9643