Categories
程式開發

蘋果AI技術新突破:Siri可識別熱門單詞和多語種說話者


語音識別一直是蘋果迫切需要關注的領域。其跨平台Siri虛擬助手已服務了全球5億多客戶。因此,優化語音觸發檢測、說話者識別和多個說話者語言識別的技術成為蘋果亟待解決的問題。

過去一周,科技巨頭蘋果發表了一系列預印本研究論文,旨在優化語音觸發檢測、說話者識別和多個說話者語言識別的技術。

(編者註:預印本研究論文是指科研工作者的研究成果指尚未經過同行評議,還未在正式出版物上發表,而出於和同行交流目的自願先在學術會議上或通過互聯網發布的科研論文、科技報告等文章。)

說話者識別和語音觸發檢測

在論文的第一部分,蘋果研究人員提出了一種訓練好的AI模型,可同時執行自動語音識別和說話者識別的任務。正如研究人員在論文摘要中所解釋的那樣,基於語音個人助手識別的指令通常以觸發短語(例如,“嘿,Siri”)為前綴,檢測該觸發短語涉及兩個步驟:首先,AI需要判斷輸入音頻中的語音內容是否與觸發短語的語音內容相匹配(語音觸發檢測);其次,AI還需判斷說話者的語音與註冊用戶或用戶的語音是否匹配(說話者識別)。

這兩個任務通常被分開來看,但是論文的合著者認為,對說話者的了解可能有助於判斷聲音信號中的語音內容,反之亦然,這有助於對這兩種屬性進行評估。

研究人員設計了三套能夠學習語音和說話者信息的模型,並對一組數據集進行訓練,這組數據集包含1.6萬多小時的帶註釋的樣本,其中5000小時的音頻帶有語音標籤(其餘的僅帶有說話者標籤)。

蘋果AI技術新突破:Siri可識別熱門單詞和多語種說話者 1

此外,實驗還邀請了100多位說話者使用智能揚聲器設備在一系列聲學設置中為語料庫貢獻聲音,包括安靜的房間、來自房間內電視或廚房設備的外部噪音,以及用錄音機大聲播放音樂。同時,來自電視和廣播的2000個小時不包含觸發短語的連續音頻記錄也被添加進來,以此來測量“誤報”率。

經過測試,這類模型展示出了學習語音和說話者信息的能力,且在同等數量參數條件下,每個任務的精準性與基線模型相差無幾。實際上,在提出的三個模型中,其中一個在“多個”設置中的表現優於說話者識別基線,在執行與本文不相關的任務時比基線提高了7.6%。

研究人員寫道:“這些結果有個有趣的特徵——訓練模型時使用的是不相交的數據集,即每個音頻樣本要么具有語音標籤,要么具有說話者標籤,每個音頻樣本不會同時具有兩個標籤。通過對結果的觀察,研究人員提出了一種靈活的設計,可以通過連接不同任務的訓練數據去訓練多個相關任務的模型,而不是為每個訓練樣本獲取多個標籤。從實際的角度來看,這樣做能實現兩個任務之間的計算共享,從而節省設備上的內存、縮短計算時間或等待時間,並能節省消耗的電量/電池。”

錯誤觸發緩解

一項補充研究中減少了錯誤觸發的出現,在任務中,語音助手有意忽略了像Siri這樣的語音助手的語音。

合著者表示,他們使用了一種運行在圖結構上的AI模型——圖神經網絡(GNN),其中每個節點都與標籤相關聯,目標是在沒有實際事實的情況下預測節點的標籤,這樣做能減少87%的錯誤觸發。他們寫道:“語音觸發的智能助手在開始收聽用戶請求之前通常依賴於對觸發短語的檢測……錯誤觸發通常源自背景噪聲或聽起來與觸發短語相似的語音。” “減少錯誤觸發是構建以隱私為中心的非侵入式智能助手的重要一環。”

未來,該團隊計劃將基於GNN的處理擴展到用戶意圖分類等其他任務中。

多語種說話者識別

在另一篇論文中,蘋果研究人員探索了一種專門針對多語言說話者的語音識別系統。他們表示,語言識別系統對大多數語言的識別準確率比較高,但是,當同時識別多種語言時,語音識別系統的表現就差強人意了。

事實也的確如此。在《華盛頓郵報》委託進行的一項研究中顯示,市面上流行的由谷歌和亞馬遜開發的智能音箱,識別本土用戶的語音準確度比識別非美式口音準確度高出了30%。事實證明,像Switchboard這樣的語料庫更偏向於測量來自本國特定地區的說話者的語音,該語料庫是IBM和Microsoft等公司用來評估語音模型錯誤率的數據集。

為解決這一問題,合著者將使用模式相關內容整合到聽寫系統中,該聽寫系統能識別出60多個地區的說話者的語音。聲學子模型將根據語音信號傳遞的內容進行預測,上下文感知預測組件分析各種交互上下文信號,通過這兩方面的預測,來選擇最佳的單語種自動語音識別系統。

包含了發出聽寫請求情況下的相關信息,包括有關已劃定聽寫區域、當前選擇的聽寫區域以及用戶在發出請求之前是否切換了聽寫區域的信息。重要的是,在語音信號很短的情況下,它們能依靠聲學模型生成可靠的預測。例如,如果用戶安裝了英語和德語,那麼像“naln”這樣的短且模糊的語句在德語中可能被識別為否定詞“nein”,而在英語中被識別為數字“nine”。

為了評估該系統,研究人員開發了一個稱為“平均用戶準確度”(AUA)的自定義指標,他們表示,該指標可以更好地反映模型中的“說話者發音水平”使用模式。通過對多語言說話者的12.8 萬個帶有相應交互上下文的口述話語內部語料庫進行嚴格訓練,在所有語言組合中,它的平均準確率達到87%,而相對於基線,最壞情況下的準確率也提高了60%以上。值得一提的是,為平衡設備上運行模型的計算負載的準確性和延遲,研究團隊對參數進行了調整,調整後,平均延遲從2秒減少到1.2秒,而對AUA 的影響不超過0.05 %。

延展閱讀:https://venturebeat.com/2020/02/03/apple-details-ai-to-help-voice-assistants-recognize-hotwords-and-multilingual-speakers/