本文來自微信公眾號:劃重點keypoints,作者:林易,編輯:重點君,題圖來自:ai生成
11月19日,谷歌發布gemini 3模型。deepmind首席執行官戴米斯·哈薩比斯(半個哈薩比斯)和gemini團隊負責人喬希·伍德沃德(喬什·伍德沃德)聯合接受專訪。
此次升級,gemini 3開始具備生成界面(生成式用戶界面)的能力。當用戶查詢梵高生平時,它能即時構建一個包含圖片和時間線的交互式頁面;當涉及複雜計算時,它能直接生成一個定製化的房貸計算器。
這種從回答問題向構建應用的躍遷,標誌着大模型應用正在跨越單純的對話框,進入動態軟件生成的階段。
gemini 3模型推理能力顯著增強。根據伍德沃德的說法,前代模型常在第5、6步推理時丟失思路,而 gemini 3能在複雜的稅務規劃或長代碼調試中維持10到15步的連貫邏輯,大幅提升了在處理複雜任務時的可靠性。
在被稱作“人類終極考試”(人類最後的考試)的跨學科博士級難題集考試中,gemini 3pro的得分從前代gemini 2.5pro的21.6%大幅上升至37.5%,遠超gpt-5.1的26.5%。在simpleqa verified測試中,gemini 3pro達到了72.1%的準確率,相較gpt-5.1和claude sonnet 4.5提升了超1倍,大幅減少此前模型常見的幻覺現象。
此次最具突破性的升級出現在視覺智能領域。gemini 3 pro在一項專門針對屏幕理解和ui交互的screenspot-pro 測試中,取得了72.7%的高分,幾乎是gpt-5.1性能的20倍。這意味着ai agent能夠區分按鈕、菜單、文本和上下文,而不僅僅是識別圖像中的物體,為ai agent實現更高級的自動化操作電腦提供了基礎,大幅提升了模型作為數字工作代理的實用性。
在衡量web開發能力的webdev arena排行榜上,gemini 3拿下了1487 elo的高分。伴隨gemini 3發布,谷歌推出了全新的代理開發平台“google antigravity”,由gemini 3作為“智能代理”去調用工具、編寫接口、調試bug,配合vibe coding的全新能力,用戶只需用自然語言描述需求,模型即可生成功能完整且設計美觀的代碼。
谷歌在戰略定位上表現得極為克制,拒絕了當下熱門的情感陪伴領域,將gemini定義為提升生產力的超級工具。其內部考核指標不是用戶粘性或情感依賴,而是今天幫用戶完成了多少項任務。在gemini agent的早期演示中:模型不僅能理解郵件語境,還能深度接入用戶郵箱,自動歸類並擬定回復,甚至幫助用戶徹底清空收件箱。從單純助手進化為能夠獨立工作的智能同事。
以下為訪談實錄:
羅茲:凱西,我們今天臨時加播一期特別節目,主題是gemini 3的發布。
牛頓:是的,凱文。這款模型在硅谷ai圈子裡期待已久,我們終於要親手體驗真正的成品了。
羅茲:我們之所以打破常規周五發布節奏,專門錄製這一期,主要有兩個原因。首先,我們獲得了與谷歌兩位ai核心負責人(deepmind首席執行官哈薩比斯和gemini團隊副總裁伍德沃德)的專訪機會。
其次,gemini 3的發布引發了業界強烈關注。我們聽到多個實驗室的內部消息稱,這款模型在某些關鍵領域實現了突破,可能對競爭對手構成實質性威脅。過去兩年,谷歌曾被視為追趕者,如今的問題是:他們是否已重返領跑位置?
牛頓:在正式進入訪談之前,我們先簡要介紹已知信息。谷歌在發布前舉行了閉門簡報會,gemini 3最引人注目的新能力包括:大幅提升的編碼與“氛圍編碼”能力;以及全新的交互界面生成功能。
它不再僅輸出文字,而是直接為用戶生成定製化的交互界面。例如,用戶詢問梵高生平時,模型會即時生成一個包含圖片、時間線和交互元素的完整學習頁面;又如生成百萬美元以上房產的按揭計算器。這些功能標誌着從“回答問題”向“構建體驗”的躍遷。
羅茲:在所有公開基準測試中,gemini 3均大幅超越gemini 2.5 pro。例如,在被稱作“人類終極考試”(人類最後的考試)這一跨學科博士級難題集上,前者得分僅21.6%,後者直接提升至37.5%。谷歌的總體表態是:任何你能在chatgpt、claude或其他舊版gemini上完成的任務,在gemini 3上都能做得更好。
牛頓:他們還展示了gemini agent的早期演示:模型可深度接入用戶郵箱,理解全部郵件內容,自動歸類、擬定回復,甚至幫助用戶徹底清空收件箱。
此外,本周起gemini 3將登陸gemini app和谷歌搜索的ai mode;美國大學生將獲一年免費高級版訪問權限。谷歌反覆強調的關鍵詞是“learn anything”(學習任何事物),這實際上是將gemini定位為終極個性化教育工具。
羅茲:德米斯、喬希,歡迎來到《hard fork》。兩年前,桑達爾·皮查伊(桑達爾·皮查伊)把bard比作“一輛改裝後的本田思域”,在與更強勁對手的賽道上競速。那麼,gemini 3是一輛什麼車?
哈薩比斯:我希望它比本田思域快得多。我不太習慣用汽車來比喻,或許更像一輛專業的拖曳賽車(飆車者)。它不是為日常駕駛或環形賽道設計的,它擁有純粹的、為某一特定目標所凝聚的巨大力量。它代表着我們最頂尖的研究成果與規模化算力的完美結合,目標就是要在智能前沿的這場競賽中,展現出無與倫比的瞬間爆發力。
羅茲:這很有趣。相比以往所有ai模型,gemini 3在具體層面上究竟能做什麼全新的事情?請給我們一些量化、實際的例子。
伍德沃德:有三點最為突出。第一,在多步推理上,它能同時思考更多步驟,我們將其可靠性提升到了一個全新的層次。前代模型常在進行到第5、6步複雜的邏輯推導時“丟失思路”或產生幻覺,而gemini 3能可靠地完成10到15步的連貫推理任務,例如複雜稅務規劃、跨國差旅的整體規劃與預訂,或是對一個擁有數百萬行代碼的龐大系統進行全面調試。
其次,它將首次大規模生成全新交互界面。用戶需求的不再是簡單的文字回答,而是定製化的軟件組件。比如你問它:“幫我設計一個可以追蹤我所有投資組合的儀錶板”,它會實時生成一個交互式的、可操作的儀錶盤界面,而不是一堆描述如何製作儀錶盤的文字。
第三,我們在編碼能力上投入巨大資源,尤其是前端與“氛圍編碼”,這意味着它可以根據自然語言的提示來生成功能完整、設計優美的用戶界面代碼。即將推出的google antigravity等新產品也將充分展示這一點,模型能夠動態地根據上下文改變用戶界面的布局和功能。
牛頓:許多人認為,對普通用戶而言,“聊天”這一用例已經基本解決。他們甚至想不出什麼新問題能讓gemini 3的回答與前代產生質的區別。你如何看待這種看法?
伍德沃德:我理解這種觀點。表面上看,基礎問答的準確率已經很高。但真正的區別在於可靠性、整合度與信息呈現方式。gemini 3的回答將更簡潔、更有表現力、信息呈現方式更易理解,這是大多數人立刻能感知到的變化。
更重要的是,模型開始與用戶其他數據源深度整合,例如與谷歌生態內其他產品聯動,真正超越單純的問答模式,成為用戶的“數字化大管家”。它能理解你整個郵箱的語境,從而在起草回復時,不僅回答問題,還能根據你過去的風格、你與收件人的關係來調整語氣和內容。
哈薩比斯:我完全同意。它的可靠性、風格與個性都經過精心打磨,更簡練、更切中要害。在“氛圍編碼”等場景已跨越實用性門檻。這是一種從“智能助手”到“智能同事”的轉變。我本人計劃用它在聖誕假期重拾遊戲編程,它現在不僅能寫出功能代碼,還能在設計初期就提供架構建議。
羅茲:德米斯,你在今年5月接受我們採訪時判斷阿吉仍需5至10年,並可能需要若干重大突破。gemini 3是否改變了這一時間表?
哈薩比斯:完全沒有。它完全符合我們過去兩年設定的軌跡。事實上,自gemini系列啟動以來,我們的進步速度已是行業最快。gemini 3令人驚艷,但仍在預期之內。
距離真正的通用人工智能,仍需在一致性、推理深度、記憶機制以及物理世界建模(如我們正在推進的sima與genie項目)上取得1至2次關鍵突破。我們現在做的是“系統1思維”(快、直覺式),但要實現agi,我們必須解鎖“系統2思維”(慢、深思熟慮、分析式)。
此外,模型需要具備長期的、選擇性的記憶機制,能夠回憶和應用數周、數月前的特定互動內容,而非僅僅局限於有限的上下文窗口。因此,5至10年的判斷不變。
牛頓:關於模型個性與用戶關係,業界正在熱議“ai伴侶”。你希望用戶與gemini 3建立何種關係?
伍德沃德:這是一個非常敏感但重要的問題。我們將其定位為“超級工具”而非情感伴侶,核心價值是幫助用戶高效完成日常任務,提升生產力。我們內部更關注一個新指標:今天我們幫你完成了多少項任務?這更接近初代谷歌搜索的核心價值——效率。我們認為,將模型推向情感伴侶的定位,既有安全風險,也偏離了谷歌作為信息和工具提供者的核心使命。
羅茲:你們放棄了“情色伴侶”這一病毒式增長機會,是否重大戰略失誤?
伍德沃德:無可奉告。我們的安全團隊對此有嚴格的規範和指導原則。
羅茲:過去幾周,競爭對手明顯緊張。你認為谷歌目前在ai競賽中是否已處於領先?
哈薩比斯:當前環境是史上最激烈的競爭。唯一真正重要的是進步速度,而我們對此非常滿意。我們從未失去研究領先地位,現在只是產品落地終於跟上。競爭對手在研究上很優秀,但在規模化分發和垂直整合上,他們無法複製我們的優勢。
我們正將gemini注入maps、youtube、android、搜索、workspace等數十億用戶產品,這個分髮網絡和終端數據反饋環是無法逾越的護城河。此外,我們在定製化tpu芯片上的全棧優勢,使我們的訓練成本和效率遠超依賴外部gpu資源的競爭者。
牛頓:關於規模定律與回報遞減的爭論,你怎麼看?有人認為,模型的規模越大,性能提升的邊際效益越低。
哈薩比斯:這是一個持續的辯論。我們對gemini 3相較2.5的提升非常滿意,完全符合預期。回報並非像早期那樣呈指數級爆炸式增長,但它帶來的實用性增量和可靠性提升仍遠高於我們的邊際成本,仍值得我們全力投入。在抵達agi所需的1至2次研究突破到來之前,通過最大規模的基礎模型持續推動性能,仍然是當前最有效的策略。我們相信,規模定律依然有效。
羅茲:我們是否正處於ai泡沫之中?
哈薩比斯:這是一個過於二元的問題。某些領域(例如數十億美元種子輪卻無實際產品、只講概念的公司)確實存在泡沫,估值與實際收入不成比例。但谷歌同時擁有短期變現(搜索、workspace、雲tpu)與長期萬億級新賽道(機器人、遊戲、藥物發現、材料科學等)。
例如,我們的alphafold等專業模型正在藥物發現領域創造實際價值,這是一個與消費者ai估值無關的萬億級市場。無論短期泡沫是否存在,我們都將勝出:繁榮時抓住機會,收縮時憑藉全棧優勢和深厚的現金流更具韌性。
牛頓:如果現在是感恩節聚會,有人想轉移政治話題,你會建議他們用gemini 3展示什麼功能來驚艷全場?
伍德沃德:我不知道它能不能拯救感恩節,但它能帶來歡笑。拿出手機自拍,然後讓gemini 3瘋狂編輯照片。
我們gemini中的圖像模型在全球範圍內仍然是最強的。你可以即時將家人合影變成任何滑稽的場景、風格或時代背景。絕對能引發全場大笑。隨後,當你展示它能如何幫你撰寫一封得體的辭職信或生成一個定製化的節日食譜計算器時,他們自然就會探索其他新功能了。
本文來自微信公眾號:劃重點keypoints,作者:林易,編輯:重點君
本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯繫 [email protected]。