Categories
程式開發

小米語音技術負責人王育軍:小米智能語音技術從0到1的實踐之路


近年來,智能語音發展勢如破竹,各大廠紛紛推出智能語音助手試圖在市場上搶占一席之地,但此過程中也難免出現產品同質化嚴重、缺乏創新的問題,InfoQ希望藉AICon大會的前採來了解小米智能語音技術的實踐過程和應用難點。

從樂視到小米,一直在從事語音技術

2017年以前,在各大媒體報導中很少提及小米語音技術,當時小米還沒有自己的語音技術團隊。因為業界有很多成功的語音技術合作夥伴,所以小米認為與他們的合作是理性的、性價比也很高。但其實小米早已經有了自己的雲、大數據和AI平台,業務數據的集中化管理也做得可圈可點。

正是在這樣的背景下,2017年王育軍加入了小米人工智能部門,在人工智能實驗室語音組負責小米的語音識別、語音喚醒、聲紋識別和語音合成方面的研發工作。在入職小米之前,王育軍曾就職於樂視,負責為樂視電視和手機提供遠近場語音識別、語音喚醒聲紋識別和語義解析等技術。對開發者來說,研發的延續性尤為重要,由於之前一直從事語音技術工作,而當時小米也有電視業務,因此對他來說加入小米在技術上算得上是無縫“平移”。

小米語音技術負責人王育軍:小米智能語音技術從0到1的實踐之路 1

小米在智能語音上的應用實踐

從0到1:解決生存問題

小米的技術研發主要服務於產品,因此技術積累也緊跟產品發展趨勢。在小米語音技術的發展初期,團隊首先要考慮自身生存問題,所以必須盡快實現從0到1的突破。

小米的設備生態囊括了手機、電視、音箱、手錶、耳機等,由於當時需要盡快完成從0到1的技術突破,所以團隊選擇了可以熱啟動的、有經驗的項目,比如小米電視。據王育軍稱,他入職第一個月,就看到了小米語音生態的優勢。隨後語音組用4個月時間開發了小米第一個語音識別系統,上線到小米電視,因為小米電視的用戶、產品形態已經非常成熟了。當初團隊還只有4個人。他們將這段經歷戲稱為“444歲月”,意思是4個人,經過40多次試驗,歷時4個月,不但上線了語音識別系統,還發表了自己基於端對端語音識別的論文。

據王育軍介紹,在發展初期,小米訓練語音技術使用的數據都是真實業務數據,而應用到的語音識別工具是Kaldi。之所以選擇Kaldi,是因為小米語音團隊剛開始只有兩名正式員工和兩名實習生。要重新搭識別器,訓練模型都不現實。 Kaldi是大家公共的技術語言,這樣無論是開發還是招聘,上手成本都很低,並且直接遏制了打著“崇尚螺絲釘文化”旗號搞“技術自留地”的想法。

落地進入正軌,開始規劃新技術

隨著語音識別技術落地逐漸步入正軌,小米開始規劃語音喚醒、聲紋和語音合成技術。

經過幾年的發展,小米語音團隊從僅有4個人的“游擊戰”轉入了正規軍“陣地戰”。步入正軌後就不能只選擇熱項目了,必須把沒有數據、產品形態未知的冷項目也做好。這些冷項目“上線”後,小米麵臨著產品成本和性能的雙重挑戰。以小愛為例,小愛的用戶量一直在猛增,計算成本需要優化,每天各個渠道都會反饋Badcase 。所以團隊要廣攬人才,同時思考如何把這些事情盡量地系統化解決。模型需要自動更新,在線計算資源、優化算法和本地化要均衡發展。

繁華落盡,恰逢人員流失

在2018年到2019年期間,kaldi模型存在迭代機制不靈活、聲學語言不方便解耦的問題。算法離線化時,內存冗餘。當創業般的激情被繁瑣的工程細節和看似千篇一律的模型迭代消磨殆儘後,正逢所有團隊都必鬚麵臨的“兩年之癢。人員流失導致團隊無法再去逆行開發去解決過去遺留的問題,有限的人力不得不投入到新技術預研上。這是每個語音團隊必經之路,並非是小米語音團隊特有。從事語音技術的人都清楚,從0到1容易,但是從1到1.1就要付出比0到1多很多倍的人力和財力。

目前,小米的語音技術用已經應用在了小米手機、音箱、電視和其他40多品類的小米生態鏈設備中的語音識別、語音合成、語音喚醒和聲紋識別功能上。

在談到未來小米智能語音技術的發展規劃時,王育軍錶示:

從產品角度講,未來的規劃是圍繞用戶極致體驗對產品進行深度打磨,不停打磨算法效果,優化多語種的語音識別和語音合成,提高語音識別率和語音合成的友好度,提升語音喚醒率,降低誤喚醒率,讓聲紋技術廣泛地嵌入到其他語音技術中,讓用戶使用聲紋功能時能少註冊甚至不註冊,喚醒設備時可以做到少喚醒甚至是不喚醒直接交互。

從技術角度看,所有語音的技術都會進入小紅利期。我們希望看到的局面是語音識別只需要一個模型就可以直接處理多通道語音信號,語言和聲學模型不再異構,推理過程變得越來越簡單有效。我們也希望看到語音合成可以由精雕細琢,變成規模化生產任何聲音。這些都是端到端技術要解決的問題。在今天全民端到端的時代,交互領域內的人工智能技術同質化越來越重,語音技術中前後左右的融合技術模塊,包括語音技術自己的上游會逐漸交融。在短期內,語音技術和NLP可能會你中有我我中有你。搞清楚自己發展方向之前,首先需要開放地擁抱這些技術邊界的模糊化。

小米語音技術負責人王育軍:小米智能語音技術從0到1的實踐之路 2

語言識別、語音合成的技術發展脈絡

智能語音技術是最早落地的人工智能技術,也是在AI產品中應用最為廣泛的一項技術。自從深度學習引入到智能語音領域後,這項技術才真正地從不溫不火變為炙手可熱。深度學習的引入使語音識別文字的準確率從70%多,提升到了近90%。這些改變很大程度上得益於算法的改進以及模型的迭代。

在算法方面,語音識別技術主要經歷了隱含馬爾科夫模型的引進,統計模型的應用,基於模板的技術復興嘗試以及深度學習。深度學習之後的一些演變,都是應用場景的變遷推動的,近場->遠場->多通道語音識別,在王育軍看來,這不完全屬於算法演變。在模型方面,當下業界傾向於端到端語音識別模型,王育軍則認為這種模型與傳統識別模型只是形式上有所不同,但初衷相同,他表示:

大家理解的端到端是把多個小的並聯或者串聯的算法模塊用一個算法模塊(比如一個神經網絡)代替,端到端的初衷一是為了彌補傳統算法模塊中一些為了簡化問題提出的不實假設,二是防止不同模塊的假設和優化目標不同,帶來的錯誤傳播。傳統模型其實也一直在致力於解決這兩個問題,無論是模型層面還是數據層面。

在端到端之前,我們為了達成一個語音任務,不得不分段標註,分段優化,粗暴地上下左右看待問題:在時間序列上左右看,分割感知和認知的不同層面。端對端技術很“優雅(cu bao)”地把這些問題“化解了”。

如今的深度學習技術正在從自然語言處理、圖像、計算機方向不斷地向語音技術滲透,技術遷移以天為單位。

語音合成面臨的挑戰

任何一項技術發展到一定階段後都會迎來瓶頸期,語音技術也是如此。在語音合成方面,當前面臨的問題是把合成從藝術做成規模化產品:過去語音合成是用一位聲優,錄出盡量多的專業錄音數據,然後訓練聲學模型和聲碼器。目前研究者們需要時間來逐步論證數據採集、使用與標註的方法,使用戶可以聽見自己熟悉的聲音。甚至可以弱化合成和語音編碼,語音降噪的邊界。

語音識別技術難點

語音識別的難點從來都沒有變過,仍然是盡量使用戶可以“自由場景自由說”。場景中面臨的挑戰是混響、競爭說話人、極低信噪比等。在說話方式上面臨兒童發音不清楚、口音和方言多語言問題,這些挑戰會長期存在。各方都在呼喚一套可以“兼容”自由場景自由說的產品方案,拉近技術邊界和用戶預期。當然從算法的邏輯上講,無論是回歸問題還是分類問題,都會面臨“未見”的情況,這是永恆的難點。

解決跨設備“自由場景自由說”是當務之急

目前,語音技術也被應用在了很多不同的端上,比如智能家居場景中的很多終端,在王育軍看來,語音技術是整個語音交互生態中的一環,要應用的智能家居中,語音生態的掌舵者,和其他環節要做的努力遠比提升語音技術本身要多。具體到語音技術,我們面臨的問題還是要解決跨設備“自由場景自由說”。舉例來說,如果家居設備聯動做得不好,會讓用戶喚醒小愛同學的時候一呼多應,讓人欲言又止,無法自由說。再比如說聲紋技術本來初衷是簡化用戶的語音操作,但隨著聲控設備的增加,每個設備都需要做聲紋註冊,增加了用戶的使用成本。很多家居控制設備是家庭成員共享的,這些設備需要記住每個語音使用成員的偏好,上述提到的這些問題,小米的相關團隊都在努力優化中。

近幾年,業內討論較多的一個話題是,語音識別面臨的下一個突破要從技術上突破還是從應用場景上突破,對此王育軍認為,技術突破和主宰性的應用場景總是交替出現。作為技術從業人員,他更希望利用技術去驅動應用。但近年來更多的時候是主宰性的應用場景復活了技術。比如說在2007年,很多語音界的人開始關注到了GPU在其他領域的應用,並把GPU遷移到聲學模型訓練中和推理中;2011年,深度學習的成果已經在語音研究中逐漸形成,但直到Siri的出現才再次復活了手機語音助手;Google開啟了語音搜索和語音輸入,人們才廣泛地認可語音交互,算力也成為了炙手可熱的資源。 3G和第一大波移動互聯應用的才讓研究者第一次把所謂的“鐵三角”(場景,算力,數據)閉環。遠場和端到端語音技術也是伴隨著4G時代第二波移動互聯的應用,才回到在人們視野中的。那個時代有人說智能等於一個設備可以觸達的應用於服務。正是因為我們有了移動互聯新貴的出現,才讓手機和音箱更有“料”。

嘉賓介紹

王育軍,小米語音技術負責人,2000 年畢業於清華大學自動化系,隨後赴英國伯明翰大學電子系學習人機交互。 2002 至 2004 年就職於 NEC 電子,從事嵌入式語音識別與語音合成。隨後加入中軟國際從事聲學模型訓練技術。 2007 年到 2012 年在比利時魯汶大學電子係從事抗噪語音識別。回國後加入百度語音技術部。 2015 年就職於樂視,負責語音識別與自然語言理解技術。 2017 年加入小米,負責語音技術。