Categories
程式開發

招商證券BERT壓縮實踐:如何大幅提高模型推斷速度?


BERT,全稱Bidirectional Encoder Representation from Transformers,是一款於2018 年發布,在包括問答和語言理解等多個任務中達到頂尖性能的語言模型。它不僅擊敗了之前最先進的計算模型,而且在答題方面也有超過人類的表現。

招商證券希​​望藉助BERT提升自研NLP平台的能力,為旗下智能產品家族賦能。但是,BERT 在工程方面的表現還多少存在著一些問題,推斷速度慢正是其中之一。針對這一問題,招商證券信息技術中心NLP 開發組對BERT 模型進行了壓縮,大幅提高推斷速度,從而滿足上線要求。

本系列中,作者會從研發思路開始,講述如何對原始BERT進行改造以適應特定的領域方向,同時還會展示具體的模型壓縮解決方案及效果對比,和最終的線上效果。本文是系列第一篇,如果你對NLP實踐感興趣,這個系列你不容錯過!

以BERT[1]為代表的基於Transformer架構的預訓練語言模型,將NLP各項任務的處理能力提高到了一個新的高度。與此同時,NLP領域也開始進入了大模型時代,動輒上億乃至成百上千億1個的參數量,大大提高了訓練及部署所需的硬件成本和時間成本,尤其對於線上場景,過大的模型導致了過長的推斷時間,會直接導致服務失效。

原文鏈接:【https://www.infoq.cn/article/fyWR8cOmI7xtfEY3rqA3】。未經作者許可,禁止轉載。