Categories
程式開發

2017⇆2019 AI三年浮沉記


最近,“2017 vs 2019”成為熱題。回顧過往,人工智能技術也是更迭換代,風雲跌宕。年關將至,InfoQ也趁著這股小熱度總結了下2017年到2019年人工智能領域有哪些“暗潮湧動”。

據Gartner發布的2017年《技術成熟度報告》顯示,其中出現了 8 項新增技術成果,其中包括 5G、人工通用智能、深度學習、深度強化學習、數字孿生、邊緣計算、無服務器 PaaS 以及認知計算。時移世易,2019年技術的創新和發展已經超出了我們的想像,據人工智能行業分析機構CBInsights發布的《2019年AI趨勢報告》來看,人工智能正在以可見的速度滲透到各行各業中。

2017⇆2019 AI三年浮沉記 1

深度學習熱度過後的“冷思考”

2017年,人們對深度學習的發展寄予了厚望,認為它將會產生最多的利潤,眾多資本湧入人工智能的各個領域,最好的例子就是AlphaGo的勝利。 2017年5月,在中國烏鎮圍棋峰會上,AlphaGo與排名世界第一的世界圍棋冠軍柯潔對戰,以3比0的總比分獲勝。到2017年底,超強版AlphaGo Zero完全不依賴於人類數據,在只知道比賽規則的情況下自我對弈,3天訓練後就以100比0戰勝了AlphaGo。

2017⇆2019 AI三年浮沉記 2

在棋類游戲中,圍棋所包含的巨大的搜索空間(其狀態數遠遠超過整個宇宙中的原子數)一直是機器學習未能攻克的難題,甚至一度被認為在近期內是不可能被 AI 解決的。 AlphaGo的成功不僅讓人們看到了強化學習和隨機模擬技術(也稱“蒙特卡羅”技術)的魅力,也讓深度學習變得更加炙手可熱。冷靜之餘,人們認識到 AlphaGo 的算法更適用於大規模概率空間的智能搜索,其環境和狀態都是可模擬的。DeepMind 的創始人德米斯·哈薩比斯表示,對於那些環境難以模擬的決策問題(如自動駕駛),這些算法也無能為力。

NLP完成從量到質的躍遷

2017年是自然語言處理領域的重要一年,這一年的種種實踐(Word2vec和GloVe)證明:預訓練詞嵌入模型已經成為解決NLP問題的一類關鍵性工具。舉例來說,來自 Facebook AI Research(簡稱 FAIR)實驗室的 fastText 即提供包含 294 種語言的預訓練向量,這無疑給整個技術社區帶來了巨大的貢獻與推動作用。儘管已經實現了一定進展,但這方面仍有大量工作需要完成,這個領域需要更好的預訓練模型的出現。

2017⇆2019 AI三年浮沉記 3

2018年,谷歌發布了BERT,因其在問題答復到語言推理等不同任務上的卓越表現而引發關注。 BERT 是近期 NLP(GPT、GPT2、ULMFiT 和 roBERTa)等模型中的一部分,這些模型的系統性能較之前有了很大改進,因此一些研究人員會稱 NLP 正處於它的“高光時刻”。谷歌充分利用了 BERT 的優越性並且將其加入到了搜索引擎中,這也從側面說明了這些技術兼具了研究和商業價值。 2018年11月24日,谷歌正式放出BERT官方代碼和預訓練模型,包括模型的 TensorFlow 實現、BERT-Base 和 BERT-Large 預訓練模型和TensorFlow 代碼。

同樣,2018 年 6 月,OpenAI 發表論文首次介紹了自己的語言模型 GPT。 2019年年初,OpenAI 宣布開發出了一個大型語言模型,可以生成合成文本,名為 GPT-2。出於謹慎考慮,公司並沒有公開 GPT-2 的所有代碼,同時也是擔心它可能被誤用。 5 月,OpenAI 發布了一個 3.5 億參數的版本,並宣布將與有限的合作夥伴共享 7.62 億參數和 15 億參數,同時他們也在研究針對惡意使用 GPT-2 的對策。這款被業內傳為“最強假新聞生成器”的GPT-2 AI模型,從誕生開始就引起大量關注。時隔半年,GPT-2 的階段性開放終於進入尾聲。 11 月 6 日,OpenAI 正式放出 GPT-2 最後一個部分的完整代碼——包含 15 億參數的最大版本。

這兩個預訓練模型的開放解決了標註數據缺乏的問題,幫助NLP完成了從量的積累到質的飛躍的轉變。

聯邦學習的征途是星辰大海

2016年,谷歌提出了聯邦學習,原本是用來解決安卓手機終端用戶在本地更新模型的問題,其可使用的機器學習算法不局限於神經網絡,還包括隨機森林等重要算法。聯邦學習本質上是一種分佈式機器學習技術,或機器學習框架,目標是在保證數據隱私安全及合法合規的基礎上,實現共同建模,提升AI模型的效果。

2017⇆2019 AI三年浮沉記 4

過去幾年,這一技術的標准在不斷完善。 IEEE 聯邦學習國際標準項目應運而生,這一項目由微眾銀行發起,於去年 12 月獲批,是國際上首個針對人工智能協同技術框架訂立標準的項目,目前已經召開了四次工作組會議。聯邦學習標準草案預計將於 2020 年 2 月推出,正式標準預計將於 2020 年上半年出台。聯邦學習正在從“點到點的發展階段”轉向“應用落地、積累案例階段”。

在框架方面,2019年取得了重要進展,誕生了首個工業級開源框架FATE,這是微眾銀行AI 團隊自主研發的開源框架,FATE 在今年2 月份首發了0.1 版本,3 月份的時候有了第一位外部Contributor,同時GitHubStar 突破100,5 月份發布了0.2 版本,支持了聯邦特徵工程和在線推理,6 月份發布了0.3 版本,把主要的合作夥伴遷移到了FATE,並把FATE 捐獻給了Linux Fundation,8 月份發布了1.0 版本,支持FATE-Flow 和FATE-Board。 10 月31 日,FATE v1.1 版本正式發布,聯合VMware 中國研發開放創新中心雲原生實驗室團隊發布了KubeFATE 項目,通過把FATE 的所有組件用容器的形式封裝,實現了使用Docker Compose 或Kubernetes( Helm Charts)來部署。不到三年的時間,聯邦學習已經快速地發展了起來,而且在業界也得到回應,京東、騰訊雲、平安科技等等企業也已經加入到聯邦學習的隊伍中來。

在推廣聯邦學習的過程中,建立一致的標準是目前面臨的一大挑戰。就在近期,IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第四次會議於北京成功召開。北京大學、IEEE、微眾銀行、創新工場、京東、中國電信、騰訊、小米、阿里巴巴、依圖、星雲Clustar、第四範式、華為終端、VMWare、LogiOcean、SensesGlobal、Swiss Re、Intel、CETC BigData 、螞蟻金服、華夏基金、富數科技共22 家頭部企業與研究機構參與,會議聚焦於聯邦學習的場景分類與需求分類,著重對聯邦學習的安全測評與評級進行規劃,進一步探討聯邦學習標準制定,這可謂是聯邦學習發展的奠基性的貢獻。雖然目前聯邦學習還沒有迎來爆發式發展階段,但好在,未來可期。

自動駕駛既不是天使也不是魔鬼

2017 年中是自動駕駛新聞瘋狂爆漲的一年,幾乎每隔一個月就會爆出一條自動駕駛領域大事件。 6 月 13 日,通用宣布首批130輛搭載公司最新一代自動駕駛技術的測試版雪佛蘭 Bolt 純電動車在密歇根州的奧萊恩工廠下線。算上當時由 50 輛雪佛 Bolt 純電動車組成的測試車隊,通用已經擁有了一個由 180 輛 Bolt 組成的自動駕駛車隊,在舊金山、亞利桑那州斯科茨代爾以及底特律開展公共道路測試。 7 月 11 日,奧迪新款 A8 發布,其號稱是全球首款具備 L3 級自動駕駛功能的量產車型,可以實現 60km/h 以下的低速條件下,在擁堵路況中實現自動駕駛。同年年末,北京頒布《北京市關於加快推進自動駕駛車輛道路測試有關工作的指導意見(試行)》和《北京市自動駕駛車輛道路測試管理實施細則(試行)》這兩份紅頭文件,標誌著北京成為了中國首個開放公共道路自動駕駛路測的城市。

2017⇆2019 AI三年浮沉記 5

彼時,自動駕駛一片利好的大背景下,人們把自動駕駛技術比作解放雙手的“天使”。只是,好景不長。 2018 年,Uber 自動駕駛汽車發生了全球首例致死車禍,一名女子在過馬路的途中被撞身亡。此事隨即引發了全球對無人車的關注,尤其是安全問題,這起慘烈的事故讓人們意識到了一個最重要的事實——安全性重於一切,只預估科技能避免多少事故是絕對不夠的。同年 5 月,谷歌旗下自動駕駛公司 Waymo 也出了一次車禍,事故導致一名測試人員受傷。後續的調查顯示,這起車禍仍舊是人為因素導致的,測試員走神打盹,才沒能及時處理突發情況,進而引發了這起悲劇。

目前,一些車廠也已經實現了L3 級自動駕駛,最有名的案例莫過於特斯拉一直以來宣傳的自動駕駛功能。有不少用戶已經拍攝了相關的自動駕駛視頻上傳到了社交網絡,雖然是對自動駕駛技術的最佳宣傳,但是特斯拉官方仍然表示:並不支持用戶完全放開手腳進行自動駕駛,目前該功能仍然需要駕駛員隨時集中註意力觀察路況。而 L4 級別的自動駕駛則是目前大部分公司正在攻克的難關。如今,公眾也開始更加客觀地看待自動駕駛這項技術,它既不是無害的“天使”,也不是殘忍的”魔鬼”。

AI芯片從受制於人到“奮發圖強”

2016年中國芯片領域相關設計公司數量較2015年增長了600多家;到2017年末,國內共有約1380家芯片設計公司。根據Soopat數據,國內芯片相關專利每年公開數量都在上升,2018年至今已經公佈了18871件。然而,這些都還遠遠不夠。

2018年美國製裁中興事件給我們“狠狠上了一課”,隨後的華為在美受到種種針對進一步讓過渡依賴國外芯片進口的企業覺醒——落後就要挨打,在哪個領域都是如此。在核心技術上需爭高下,大企業需要當仁不讓,如果不掌握核心技術就是在別人的基礎上砌房子。種種困境讓中國科學界意識到“芯片當自強”的重要性。

2017⇆2019 AI三年浮沉記 6

2019年,意識到這些問題之後,不少中國芯片企業開始奮起直追,尤其在專用芯片領域取得了較為亮眼的成績。

在 9 月 25 日的杭州雲棲大會上,阿里巴巴集團首席技術官、阿里雲智能總裁兼達摩院院長張建鋒現場展示了的 AI 芯片——含光 800。阿里巴巴方面表示:在業界標準的ResNet-50 測試中,含光800 推理性能達到78563 IPS,比當時業界最好的AI 芯片性能高4 倍;能效比500 IPS/W,是第二名的3.3倍。

繼雙模5G芯片巴龍5000和全球首款5G基站芯片天罡問世後,華為今年推出了首款內置5G基帶的麒麟990 5G SoC——首顆商用5G旗艦芯片。不久前,芯片大廠聯發科也宣布推出5G芯片新品牌天璣,名源於北斗七星之一,其意為領先,並推出該品牌首款產品5G SoC芯片——天璣1000。國產芯片在嘗盡了“受制於人”的冷眼後也開始自立自強,可見,核心技術只有掌握在自己手裡,才能立於不敗之地。

5G 從技術萌芽走向大爆發

2017年12月21日(北京時間),第五代移動通信結束“5G NR”首發版在RAN第78次全會代表的掌聲中正式凍結並發布,這是5G標準化的一個重要里程碑。從年初3GPP通過5G網絡加速的提案,到年底收官3GPP宣布完成了首個可實施的5G新空口(5G NR)規範,這一年5G的發展速度飛快。

2017⇆2019 AI三年浮沉記 7

2019年5G已經從技術名詞真正走向商業落地。今年6月6日,我國對三大運營商及中國廣電發放 5G 牌照,這標誌著5G正式進入商用階段,基站部署速度大幅加快,這將為AI帶來很大的性能提升。

邊緣計算即將掀起波瀾

根據調研機構Forrester公司的調查,目前全球有32%的電信公司決策者正在部署或擴展邊緣計算設施,另外27%的決策者表示計劃在一年內部署邊緣計算設施。越來越多的企業開發和部署邊緣計算的主要動力來自帶寬、成本、網絡延遲的迫切性和敏感性。

2017⇆2019 AI三年浮沉記 8

邊緣計算是計算系統從扁平到邊緣,以及面向 5G 網絡架構演進的必然技術,同時也提供了一種新的生態系統和價值鏈。第三方數據分析機構 IDC 預測,到 2020 年,全球將有約 500 億的智能設備接入互聯網,其中主要涉及智能手機、可穿戴設備、個人交通工具等,其中 40% 的數據需要邊緣計算服務。邊緣計算有著強大市場潛力,也引起了各研究機構、標準組織、服務提供商和產業界極大的關注。

結語

對於瞬息萬變的技術領域來講,三年的時間已經足夠長。我們已經從人工智能即將改變未來的遙遠的夢境中逐漸清醒過來,能夠真正冷靜、客觀地考量技術發展的中的利與弊。那麼,作為一名技術從業者,你的2017到2019又發生了哪些變化?