大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

在閱讀此文之前,辛苦您點擊一下“關注”,既方便您進行討論和分享,又能給您帶來不一樣的參與感,感謝您的支持!

文:奇史怪談

編輯:奇史怪談


最近AI輸入法圈簡直熱鬧翻了,國內外的產品都在搶地盤。

你手機里的輸入法可能早就悄悄加了AI功能,電腦上也冒出不少新選手。

今天就跟大家掰扯掰扯,這些新出的AI輸入法到底好不好用,咱們實測數據說話。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

國內外輸入法新動作

國內這邊,字節豆包輸入法算後起之秀。

之前內測了一陣,現在iOS和安卓應用商店都能下了。

這輸入法剛做幾個月,功能確實少得可憐,想要花里胡哨特效的朋友肯定看不上。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

但它的語音輸入是真猛,速度比其他主流輸入法快一大截,準確率也高,中文場景下算是移動端的佼佼者了。

微信輸入法就不用多提了,畢竟背靠微信生態。

它的完成度毫無疑問是最高的,AI功能加了不少,比如調說話風格、AI搜東西,甚至能把文字排成圖。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

微信用戶用它最順手,表情包推薦、跨設備複製粘貼這些功能,都是衝著社交場景來的。

本來想說說智譜AI輸入法,畢竟是大模型“六小虎”之一。

但後來發現,它剛內測,界面和引導流程跟海外的Typeless幾乎一模一樣,內核穩定性還差不少,怕是還得打磨一陣才能用

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

Wispr最近拿了2500萬美元A輪融資,累計都8100萬了,還服務了270家福布斯500強公司。

聽着挺厲害吧?可它中文場景表現真不行,延遲高不說,移動端連標點都不加,搞不清它咋跟中文用戶玩。

極端場景實測見真章

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

光說不練假把式,到底這些輸入法實戰能力咋樣?我們專門搞了個極端測試。

模擬的是科技公司產品經理焦慮時的會議發言,裡面混了生僻成語、互聯網黑話、中英混排,還有數字日期,比如“¥50,000.00”“2025年1月1日”這種,就是想難為難為它們。

延遲怎麼算?我們把說話結束的時刻叫t0,文字完全顯示不再變的時刻叫t1,兩者差就是延遲。

還畫了個四象限圖,左邊快右邊慢,上邊好下邊差,分了“全能型”“思考型”“急躁型”“低效型”四類,實測結果挺有意思。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

桌面端里,Typeless是“思考型”,延遲大概3秒多,但這段時間沒白費,口語里的廢話給刪了,英文大小寫也改對了,直接能當稿子用。

閃電說屬於“急躁型”,速度快還免費,用的是本地模型,數據不用傳雲端,隱私沒問題。

但遇到專業內容就歇菜了,“Sora”都沒識別出來,“最後期限”還認錯了,不過團隊迭代快,再看看後續吧。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

移動端這邊,豆包算是“全能型”,延遲2秒多,最牛的是它能分清“直到”和“知道”,其他輸入法都沒做到。

微信輸入法是“急躁型”,延遲才1秒多,跟人聊天的時候特別跟手,中文識別也穩,但專業術語排版就差點意思。

Wispr就慘了,歸到“低效型”,延遲居然超過10秒,中文成語還理解錯了,這體驗真是沒法說。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

對了,蘋果自帶的聽寫功能是對照組,表現最差,妥妥的“低效型”。

不過得說一句,這測試場景太極端,有些產品本來就不是為這場景設計的,結果僅供參考哈。

兩派玩法大不同

看完美測結果,再琢磨琢磨這些產品背後的套路,其實能分成兩派。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

一派是創業公司,比如Wispr和Typeless,它們專盯桌面端的知識工作者,靠訂閱收費。

這路子選得挺聰明,桌面端獲客成本低,用戶願意花錢,還能避開移動端複雜的場景,不用整天跟噪音、網絡問題較勁,專心打磨AI理解能力就行。

另一派是國內大廠,字節、微信這些,它們主要玩移動端。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

本來想不通為啥大廠不跟創業公司搶桌面端,後來發現它們根本看不上那點訂閱費,目標是覆蓋所有人。

輸入法對它們來說是入口,能連接自己的生態。

但移動端不好做啊,地鐵里的噪音、不穩定的網絡,還有iOS系統的限制,都得搞定。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

所以它們都選了“速度優先”,格式差點沒關係,只要響應快,用戶聊天的時候就願意用,還有些獨立開發者的產品,日子就不好過了。

技術升級改格局

為啥最近AI輸入法突然火了?核心還是技術變了。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

以前的語音輸入靠的是ASR技術,簡單說就是機器猜發音對應的字,同音詞分不清,中英混說也識別不好,還得把“嗯啊”這些廢話都記下來。

現在大模型一進來,情況就不一樣了,機器不只是聽發音,還能理解邏輯。

你說話結巴、帶方言,或者中英混着說,它都能忍,還能根據上下文改對。

大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

很顯然,這已經不是“語音轉文字”了,更像“語音轉思考”,你隨便說想法,它幫你整理好,這體驗提升太大了。

如此看來,未來的輸入法肯定會更智能,說不定能變成更自然的交互界面。

對咱們用戶來說,現在選輸入法也簡單,寫文檔選Typeless,記會議選豆包,日常聊天用微信輸入法就行。

後續可以關注下本地加雲端的混合模式,說不定能平衡速度、準確率和隱私,那才是真的好用。


大模型顛覆語音輸入,從“轉錄”到“思考”,體驗變了 -

不知道您對此有什麼看法呢?歡迎在下方評論區留下你的想法,喜歡文章記得點贊關注我們下期再見。

分享你的喜愛