大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

在閱讀此文之前，辛苦您點擊一下“關注”，既方便您進行討論和分享，又能給您帶來不一樣的參與感，感謝您的支持！

文：奇史怪談

編輯：奇史怪談

最近AI輸入法圈簡直熱鬧翻了，國內外的產品都在搶地盤。

你手機里的輸入法可能早就悄悄加了AI功能，電腦上也冒出不少新選手。

今天就跟大家掰扯掰扯，這些新出的AI輸入法到底好不好用，咱們實測數據說話。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

國內外輸入法新動作

國內這邊，字節的豆包輸入法算後起之秀。

之前內測了一陣，現在iOS和安卓應用商店都能下了。

這輸入法剛做幾個月，功能確實少得可憐，想要花里胡哨特效的朋友肯定看不上。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

但它的語音輸入是真猛，速度比其他主流輸入法快一大截，準確率也高，中文場景下算是移動端的佼佼者了。

微信輸入法就不用多提了，畢竟背靠微信生態。

它的完成度毫無疑問是最高的，AI功能加了不少，比如調說話風格、AI搜東西，甚至能把文字排成圖。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

微信用戶用它最順手，表情包推薦、跨設備複製粘貼這些功能，都是衝著社交場景來的。

本來想說說智譜AI輸入法，畢竟是大模型“六小虎”之一。

但後來發現，它剛內測，界面和引導流程跟海外的Typeless幾乎一模一樣，內核穩定性還差不少，怕是還得打磨一陣才能用。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

Wispr最近拿了2500萬美元A輪融資，累計都8100萬了，還服務了270家福布斯500強公司。

聽着挺厲害吧？可它中文場景表現真不行，延遲高不說，移動端連標點都不加，搞不清它咋跟中文用戶玩。

極端場景實測見真章

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

光說不練假把式，到底這些輸入法實戰能力咋樣？我們專門搞了個極端測試。

模擬的是科技公司產品經理焦慮時的會議發言，裡面混了生僻成語、互聯網黑話、中英混排，還有數字日期，比如“¥50,000.00”“2025年1月1日”這種，就是想難為難為它們。

延遲怎麼算？我們把說話結束的時刻叫t0，文字完全顯示不再變的時刻叫t1，兩者差就是延遲。

還畫了個四象限圖，左邊快右邊慢，上邊好下邊差，分了“全能型”“思考型”“急躁型”“低效型”四類，實測結果挺有意思。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

桌面端里，Typeless是“思考型”，延遲大概3秒多，但這段時間沒白費，口語里的廢話給刪了，英文大小寫也改對了，直接能當稿子用。

閃電說屬於“急躁型”，速度快還免費，用的是本地模型，數據不用傳雲端，隱私沒問題。

但遇到專業內容就歇菜了，“Sora”都沒識別出來，“最後期限”還認錯了，不過團隊迭代快，再看看後續吧。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

移動端這邊，豆包算是“全能型”，延遲2秒多，最牛的是它能分清“直到”和“知道”，其他輸入法都沒做到。

微信輸入法是“急躁型”，延遲才1秒多，跟人聊天的時候特別跟手，中文識別也穩，但專業術語排版就差點意思。

Wispr就慘了，歸到“低效型”，延遲居然超過10秒，中文成語還理解錯了，這體驗真是沒法說。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

對了，蘋果自帶的聽寫功能是對照組，表現最差，妥妥的“低效型”。

不過得說一句，這測試場景太極端，有些產品本來就不是為這場景設計的，結果僅供參考哈。

兩派玩法大不同

看完美測結果，再琢磨琢磨這些產品背後的套路，其實能分成兩派。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

一派是創業公司，比如Wispr和Typeless，它們專盯桌面端的知識工作者，靠訂閱收費。

這路子選得挺聰明，桌面端獲客成本低，用戶願意花錢，還能避開移動端複雜的場景，不用整天跟噪音、網絡問題較勁，專心打磨AI理解能力就行。

另一派是國內大廠，字節、微信這些，它們主要玩移動端。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

本來想不通為啥大廠不跟創業公司搶桌面端，後來發現它們根本看不上那點訂閱費，目標是覆蓋所有人。

輸入法對它們來說是入口，能連接自己的生態。

但移動端不好做啊，地鐵里的噪音、不穩定的網絡，還有iOS系統的限制，都得搞定。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

所以它們都選了“速度優先”，格式差點沒關係，只要響應快，用戶聊天的時候就願意用，還有些獨立開發者的產品，日子就不好過了。

技術升級改格局

為啥最近AI輸入法突然火了？核心還是技術變了。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

以前的語音輸入靠的是ASR技術，簡單說就是機器猜發音對應的字，同音詞分不清，中英混說也識別不好，還得把“嗯啊”這些廢話都記下來。

現在大模型一進來，情況就不一樣了，機器不只是聽發音，還能理解邏輯。

你說話結巴、帶方言，或者中英混着說，它都能忍，還能根據上下文改對。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

很顯然，這已經不是“語音轉文字”了，更像“語音轉思考”，你隨便說想法，它幫你整理好，這體驗提升太大了。

如此看來，未來的輸入法肯定會更智能，說不定能變成更自然的交互界面。

對咱們用戶來說，現在選輸入法也簡單，寫文檔選Typeless，記會議選豆包，日常聊天用微信輸入法就行。

後續可以關注下本地加雲端的混合模式，說不定能平衡速度、準確率和隱私，那才是真的好用。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了 -

不知道您對此有什麼看法呢？歡迎在下方評論區留下你的想法，喜歡文章記得點贊關注我們下期再見。

大模型顛覆語音輸入，從“轉錄”到“思考”，體驗變了

國內外輸入法新動作

極端場景實測見真章

兩派玩法大不同

技術升級改格局

相關帖子：

Related Posts:

國內外輸入法新動作

極端場景實測見真章

兩派玩法大不同

技術升級改格局

相關帖子：

Related Posts:

相關文章

油車的“智慧革命”，上汽大眾Pro家族能否開啟第二春？

華爾街看多百度，崑崙芯與自動駕駛能爭口氣嗎

10萬內唯一激光雷達，長安啟源Q05全系無門檻超級置換