Categories
程式開發

Facebook開源低延遲在線自動語音識別框架:速度更快,錯誤率更低


Facebook 人工智能研究院(FAIR)於當地時間1月13日表示,已經開源了基於深度學習的推理框架wav2letter @ anywhere,該框架可在雲或嵌入式邊緣環境中快速實現在線自動語音識別。 Wav2letter @ anywhere是由wav2letter和wav2letter ++這兩個基於神經網絡的語言模型構建的,在2018年12月發佈時,Facebook 人工智能研究院認為這兩款語言模型是目前可用的最快的開源語音識別系統

自動語音識別(ASR)可將語音轉換為文本,然後推斷出說話者的意圖從而執行任務。 wav2letter++存儲庫在GitHub上提供的API支持並發音頻流和廣泛使用的深度學習語音識別模型,如卷積神經網絡(CNN)或遞歸神經網絡(RNN),可以滿足在線ASR所需的規模。

Facebook開源低延遲在線自動語音識別框架:速度更快,錯誤率更低 1

據紐約市實驗室和Menlo Park總部的8名Facebook人工智能研究院研究員上週發布的一篇文章顯示,[email protected]的單詞錯誤率優於由雙向LSTM RNNs構成的兩個基線模型。雙向LSTM RNNs是目前被廣泛使用的控制延遲的方法。

研究人員稱:“該系統的吞吐量幾乎是調整好的混合ASR基準的三倍,同時系統的延遲和錯字率都更低。” “延遲控制雙向LSTM通常用於在線語音識別,將未來context與卷積結合在一起可產生更準確、延遲更低的模型。我們發現TDS卷積可以在有限的未來context下維持較低的WER。”

Facebook開源低延遲在線自動語音識別框架:速度更快,錯誤率更低 2

去年秋季,Facebook在2019年Interspeech上提出了一個降低延遲並在LibriSpeech(LibriSpeech是一個收錄了1000小時英語語音的數據集)上表現出優越性能的方法,該方法被稱之為“時深可分離卷積(TBS)”。由於卷積聲學模型——時深可分離卷積(TBS)模型的改善,低延遲取得有了一定進步。

用於語音推理的CNN和自然語言模型趨勢相去甚遠,自然語言模型更加聚焦遞歸神經網絡或者像Google基於BERT的雙向編碼器這種基於Transformer的模型,或者追求更好的性能。可分離模型因其在計算機視覺領域的諸多應用而最聞名,例如穀歌的MobileNet。

[email protected]是在Pythia圖像和語言模型框架、wav2vec在線語音識別和RoBERTa等新方法發布之後推出的(RoBERTa是一款基於谷歌BERT的模型,在2019年夏天GLUE benchmark排行榜上,RoBERTa攀升至第一位,但此後已跌至八位)。

wav2lette項目地址:
https://github.com/facebookresearch/wav2letter

RoBERTa項目地址:
https://github.com/brightmart/roberta_zh

原文鏈接:
https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/