少年鋒芒初試,競賽稱雄AI道
![]()
塗津豪2007年出生在上海,長在建平中學國際部那種英語門檻高到嚇人的地方。學校里天才扎堆,他成績穩當,但也沒到那種一枝獨秀的地步。說白了,他不是天生就閃閃發光的那種,早年更多是悶頭學AI,課餘時間泡在代碼堆裡。
轉折來得突然,2024年阿里巴巴全球數學競賽頭一遭加了AI賽道,全球563支隊伍蜂擁而上,有字節跳動的技術大牛,有西安交大、北大清華的聯合軍團,全是硬茬子。塗津豪呢?一個人單槍匹馬報了名,沒團隊,沒資源,就憑一台電腦和一腦子想法。
比賽規則簡單粗暴:用prompt引導模型解數學題,考的就是你怎麼讓AI多想想,別光顧著吐答案。塗津豪沒走老路,他琢磨人類思考那套路子,搞出個英文思維鏈prompt,先拆問題,再列假設,最後自查自糾。
光這還不夠,他加了自辯論的招,讓模型自己問自己答,還來回驗證,足足迭代80多輪。結果呢?這套Thinking Claude一出爐,直接把Claude 3.5的推理能力拉到o1那級別。 o1可是OpenAI砸重金堆出來的,多少工程師熬夜調試,他一個高中生愣是靠靈光一閃,玩出旗鼓相當的效果。
6月13日,成績單下來,塗津豪AI賽道全球第一,34分滿分刷屏。擊敗的不是小蝦米,全是頂尖團隊。這事一傳開,GitHub上他的開源項目star數蹭蹭上漲,開發者們蜂擁下載,試著優化自家模型。
塗津豪自己也低調,在博客裡捋了捋思路:思考過程才是王道,讓模型不確定時多慢下來查查,比硬懟答案靠譜多了。這話聽著接地氣,卻戳中AI痛點——模型總愛胡編亂造,他這招儿就是給它上緊箍咒。競賽獎金1萬美元到手,他沒聲張,轉頭就投到更多實驗上。
![]()
實習鑄煉真金,模型顛覆巨頭局
2025年初,DeepSeek拋出橄欖枝,給塗津豪兩個月實習機會。公司在北京,專注開源大模型,創始人梁文鋒那派頭低調務實。塗津豪一頭扎進去,直奔R1項目。這模型的核心是純強化學習,提升推理能力,不靠海量數據砸錢,轉而優化訓練流程。
塗津豪的Thinking Claude正好對路,他把自辯論機制移植進來,擴展成獎勵函數:模型每步自查準確,就加權反饋。團隊一看,這思路新鮮,立馬併入框架。 R1的訓練成本控制在30萬美元,低端GPU就能跑,性能卻直追頂級貨。
1月20日,R1開源上線,GitHub倉庫瞬間爆棚。全球開發者下載測試,基準分刷新高:GSM8K數學數據集95%以上,邏輯任務碾壓前代。矽谷那邊坐不住了,分析師拆解報告,指出DeepSeek低成本策略直接威脅硬件壟斷。
1月27日,美股開盤,英偉達股價崩盤16.97%,單日蒸發近6000億美元,一周累計超5000億。整個AI板塊跟著遭殃,AMD、超微全線綠盤。市場解讀,這波衝擊源於R1的效率革命——AI訓練門檻降了,GPU需求自然縮水。英偉達CEO黃仁勳在財報會上穩住陣腳,但股價曲線拉出長影,投資者拋售訂單如潮。
![]()
DeepSeek的R1不是空談,它用自動化RL重塑推理路徑,模型學會多步排除錯誤,輸出更可靠。塗津豪的貢獻嵌在核心:自辯論讓訓練更精煉,內存佔用降三成。論文後來詳述,所有作者從數據收集到實驗驗證,全程把關。
塗津豪雖是實習生,署名實至名歸,他優化了80%以上的迭代日誌。發布後,亞洲開發者熱情高漲,日本韓國論壇帖滿測試心得。矽谷初創跟進,fork倉庫提改進,R1成新基準。
這事對中國AI是場及時雨。過去總說咱們追趕慢,R1證明,低資源也能出精品。塗津豪的角色關鍵,他那prompt不光是工具,更是思維範式轉變。業內評價,Thinking Claude引導AI模擬人類深度過程,o1的影子裡藏著他的影子。 DeepSeek的策略接地氣,開源不藏私,換來全球認可。英偉達的損失聽著嚇人,實則暴露行業泡沫——靠硬件堆的日子該變變了。
塗津豪實習結束,帶走的不止經驗,還有對AI幻覺的獨到見解:模型出錯像人類創意,得平衡控制與創新。這話聽著辯證,卻透著成熟。兩個月時間,他從新人變骨幹,代碼行數上千,影響卻輻射全球。
封面鐫刻榮光,前程綻放新章
![]()
9月17日,Nature封面亮出DeepSeek-R1論文,這是中國大模型頭一遭經同行評議登頂國際頂級期刊。標題直白:通過強化學習激勵LLM推理能力。
塗津豪名字赫然在列,所有作者均參與數據整理、框架構建和結果討論。論文詳解R1的Self-Help機制,自動化生成思考軌跡,訓練效率翻倍。這突破不虛,審稿過程嚴苛,修改稿件層層把關。封面一出,全球科學圈刷屏,引用率一周破百。
塗津豪的故事隨之火起來,從高中生到Nature作者,跨度大得像科幻。但他沒停步,高中畢業直奔威斯康星大學麥迪遜分校,主修計算機科學。這學校低調,邏輯驗證系統全美第一,數據庫編程排前三,實驗室24小時開本科生。
塗津豪選這兒,不是衝名氣,而是實驗室開放,適合深挖AI未知區。他博客更新不斷,聊幻覺問題:人類也幻覺,這算創造力一環,得理性優化。學校課程緊,他選操作系統和數據庫,邊學邊實驗,申請計算資源跑模擬。
DeepSeek合作沒斷,遠程貢獻R1後續版,V3.1擴展了他的自辯論。開源社區,他的PR審查通過率高,star數破萬。 2025年10月,R1影響持久,市場穩定後英偉達反彈,但低成本模式成主流。中國AI新生代借勢起飛,塗津豪軌跡典型:競賽奪冠、實習突破、封面署名,全鏈條覆蓋。梁文鋒等前輩見證,他證明天賦加熱情,勝過學歷標籤。
這小子未來可期,11月系學術會上,他報告R1案例,掌聲陣陣。 AI變革中,中國力量正加速,塗津豪這樣的年輕人,站C位實至名歸。說到底,科技無國界,但實力說話。他用代碼改寫格局,激勵後輩:別急著標籤,多動手試。 DeepSeek的路還長,塗津豪的腳步更快。