Categories
程式開發

中國AI開源開放平台的現狀與挑戰


12月21日~22日,由鵬城實驗室(PCL)、新一代人工智能產業技術創新戰略聯盟(AITISA)主辦、OpenI啟智社區(OpenI)承辦的「OpenI/O 2019 啟智開發者大會」在深圳召開。本次大會以“平台築基、標準張脈、開源賦能”為主題,邀請了來自百度、騰訊、華為、鵬城實驗室、小米、微眾銀行等公司的產業界專家,與高文院士、黃鐵軍教授等多位學術界領袖,圍繞“AI開源基礎設施及環境”、“深度學習與強化學習”、“聯邦學習與開源數據湖”、“5G+AI+AVS及全國AI大賽”、 “AI開源教育與治理”、“Open Source Community Leadship”六大主題坐而論道,共同探討人工智能的邊界和方向。

中國AI開源開放平台的現狀與挑戰 1

新一代人工智能產業技術創新戰略聯盟(AITISA)秘書長、OpenI技術委員會主席、北京智源研究院院長黃鐵軍在會上發表了題為“堅持開源開放原則,築成新一代人工智能”的主題演講,詳細闡述了AI開源開放平台的使命,並指出了它的機遇與挑戰,以及具體的實施路徑。

InfoQ根據速記將演講內容整理如下(在不改變原意的基礎上略有刪減):

各位早上好!我稍微系統地給各位匯報一下OpenI的背景和進展情況。

中國的人工智能發展是有國家體系化的推進安排的,具體來說就是國務院2017年7月20號發布的《新一代人工智能發展規劃》。在這個文件裡,大家關注比較多的是中國在2020年人工智能要達到與世界先進水平同步,2025年要達到世界領先水平,2030年總體達到世界領先水平。但是怎麼實現這樣一個目標,媒體上報導的並不多。事實上,達到這個目標的路線在規劃裡也是有的,中國推進人工智能的四條原則分別是:科技引領、系統佈局、市場主導、開源開放。這16個字告訴了我們怎麼實現剛才提到的戰略目標。今天我會具體說到其中一個原則,就是開源開放。

中國的人工智能發展,並不像有人想像的,我們要組織多少團隊,在一些方向上領先。這也是一種路線,但是不全面。如果說全面的話,在開源開放的原則下,大家共同建設一個體系化的AI技術體系,這才是我們要達到目標的一個更重要的佈局。所以今天我們要落實的就是這樣一個原則,在這個原則的基本思想指導下展開工作。

《新一代人工智能發展規劃》於2017年7月20號發布,7月23號科技部就在國家指導下成立了新一代人工智能產業技術創新戰略聯盟。這個聯盟要做什麼?千頭萬緒,可以說聯盟產學研資用各方面的事情都可以做、都應該做,但是最核心的是怎麼把這些工作組織起來。我們成立的時候就明確了,新一代人工智能產業聯盟的核心工作就是建設人工智能的開源開放平台,用這個平台來把剛才說的產學研資用各方面的社會力量匯聚在一起,支撐國家新一代人工智能規劃的落實。

中國AI開源開放平台的現狀與挑戰 2

聯盟支撐國家規劃落地的核心工作叫“一體兩翼”,一體就是新一代人工智能開源開放平台,兩翼是各種工作組和推進組。

今年6月份,科技部有一本期刊《前沿科學》報導了我們國家新一代人工智能的進展,當時跟我約稿,我寫了一篇文章,我今天的題目也是來自這篇文章,叫做“堅定開源開放原則,築成新一代人工智能”。因為經過了差不多兩年的發展之後,大家對中國的人工智能怎麼發展已經有很多的討論,到底是開放還是封閉,大家有不同的看法。我用這個詞的意思就是堅定開源開放原則,不僅是開源開放,而且要更開放,這是當時定的原則。我們不能因為兩年之後國內外形勢有一些變化就退縮了,不應該這樣,而應該更堅定地做開源開放。而且開源開放不僅僅是一個機制,它本身就是一套技術體系,也是建成新一代人工智能最重要的一套推進體系。所謂中國新一代人工智能,到2025年、2030年大家想像的人工智能是什麼,這裡面當然有一些科技亮點、重大成果,但是它首先是一個整體的技術體系,這個體系才是新一代人工智能,它不是幾個閃光的點,它是像一個城市一樣,是一套堅實的體系。

為什麼要這麼做?當時分析了這麼幾個點:

第一是為什麼要做開源開放,有很多的理由,我認為最重要的理由有兩個,一是只有通過開源開放的方式,才能把技術的輻射性發揮出來,才能把國家的投入、社會的投入,以及大家的智慧,發揮最大效應。我們不能再走回一個公司做一個產品,自己保密,靠一件一件產品盈利的老路上。二是AI跟別的技術不同,AI是一個難以透徹理解的技術,在AI之前所有的技術,包括算法系統,其背後原理是可以理解的,且過程也是完全可控的,但是AI具有難以透徹理解的特性,它越發展,挑戰就越大。就像今天的深度學習工作得很好,大家就說我們要研究它的可理解和可解釋性,因為不知道為什麼工作得那麼好,但是它的性能很好,大家在實踐中就去用。這樣一種現象,未來不管什麼樣的AI新方法模型,都還會持續下去。因為它是智能的,智能是一種功能,是一種現象,它背後的機理的理解,是我們在探索智能科學和技術過程中永遠需要面對的一個問題。這類技術存在不能透徹解釋的特性,如果在現實中應用,還不開放,大家敢不敢放心去用?所以如果從理論上做不到可解釋,不能透徹地理解,至少我們在技術上要做到開放,讓大家心裡清楚這裡面沒有暗藏什麼東西,它只是一個技術。技術有這麼一個屬性,我們科學家可以去解釋它、探索它,但是技術上絕對不能封閉,封閉的東西是不可能有生命力、讓大家廣泛使用的。

第二是如何做好開源開放。實際就是要聯合在一起,某種程度上要放棄一部分個體與企業的商業利益,而讓大家能夠共享、共建,發揮最大效應。這個思維方式在開源社區大家是比較認同的,但是在整個社會領域,特別是在中國現在這樣的狀態下,大家對開源可能用的多,貢獻的相對少,這需要大家一起來持續推動。

第三是以開源開放提升創新質量。開源開放以前也存在,但是以前的開源開放和科技創新之間的關係通常是兩張皮,這種兩張皮的現象,希望通過AI這樣一個新的領域結合在一起。事實上我們講科研,確實有很多高水平的研究團隊在努力做創新工作,但是確實也有一部分團隊是拿項目作為目的,而不是以研究創新作為目的的,這種現像在中國也不少見。我們希望通過開源的方式,把這一類項目淘汰掉,不是為研究而研究,一定要做有意義、有價值的研究,一定要開放。

去年新一代人工智能重大科技項目,以及今年馬上要發布的重大科技項目的指南都很明確地提到,特別是搞理論研究的,必須要開源。你本來就是一個無人區或者是號稱前沿的探索,你不告訴別人你在做什麼,等到幾年之後交個報告,就說自己做得怎麼樣,這是有問題的。現在是一個開放的時代,一開始就應該打開這個過程。開源開放實際上是在提升創新質量,如果真是一流的研究,就不怕大家去知道、了解,甚至去參與、貢獻。只有那些自稱很好,事實上沒有什麼東西的研究,才不敢開源開放。我們也希望將這種方式用到後續國家項目的推進過程中。國家出的錢,或者是地方政府出的錢,公共資金做的東西,你有什麼理由把它封閉在自己手裡?你願意自己做,不用公眾的錢,那沒問題,愛做什麼就做什麼;既然拿公眾資金,就應該開源開放。我們希望通過這種方式把那些低水平重複的工作、沒有實質性創新的工作淘汰掉,來實現更高質量的創新,這也是我們要堅持開源開放的一個很重要的理由。

在國家新一代人工智能重大科技項目的部署中,軟件、硬件的體係就是很重要的一部分,它也是連接研究團體社區和開發應用,以及全社會的一個很重要的渠道,這條原則會在未來十多年的科技創新2030重大科技項目中不斷地貫徹下去。所以大家做開發並不僅僅是傳統的做一個操作系統或者代碼的開發,它跟我們AI的研究結合得越來越密不可分。

在去年新一輪人工智能重大科技項目的落實中,還有一個詞大家在媒體上也看到過,叫“開放創新平台”,由5家企業承擔了國家新一代開放創新平台,這5家企業是:百度、阿里、騰訊、訊飛、商湯,大家從不同的方向推動創新。開放創新肯定不等於開源,並不是說這些企業做的所有東西都要開源,但是他們也要開放,形成產業鏈。雖然一開始的時候有的開源,有的不開源,但是隨著它往下發展,他們其中有一部分,特別是公共部分是要開源的。為什麼要開源?因為相互之間要打通,要合作,要為整個社會人工智能的發展提供公共平台。

除了這些領頭企業之外,全世界做開源的企業,包括做研究的機構非常多,怎麼讓這些機構能夠深度地介入到這樣一個開放創新過程?如果一點都不開源是不可能做到的,除非你是一個壟斷一切的企業。但是我們今天沒有這樣的企業能夠壟斷一切,每一個都是這個社會創新的一個節點、一個部分,所以他們在一定程度上都是要開源的。這些開源的部分和我們剛才講的開源會形成一體,就像一個熱帶雨林一樣,有的植物比較大,有的植物相對比較小,但是最終的根係是連接在一起,在一個共同的生態裡生長。

為了做好這件事情,2018年3月31號聯盟發布了啟智開源許可證OIL,這個許可證本身的政策也一直在討論中,大家如果感興趣可以參與到它的維護和更新里來。

從2018年3月31號發布許可證到今天,不到兩年的時間裡面,聯盟組織了大量的工作,開了很多會,我就不一一說了,今天是一系列會議中最大規模的會議。

我們現在是一個開源開放的社區,在這個社區裡面有一套運行的機制,總體來說這是由會員組成的一套體系,這裡麵包括核心成員、高級成員、普通成員和合作夥伴。誰是高級、誰是核心,這就以貢獻論英雄,大家在建設這樣一個平台和構建這個社區的過程中,領導力會逐漸體現出來,單位的貢獻也會逐漸累積,大家都能看得到,根據這些貢獻逐漸形成我們的領導體系。

保障這套體系背後的是一些規則、文件和大家形成的共識,現在體系化的系統也已經建立起來了。

中國AI開源開放平台的現狀與挑戰 3

我今天是代表技術委員會來跟大家作報告,技術委員會已經做了很多技術討論。我在北大工作,更多的是搞研究,做一些科研方面的事情,一開始為了把這件事情推動起來,由我牽頭組織。技術委員會的曾煒來自鵬城實驗室,馬艷軍來自百度,黃之鵬來自華為,餘躍來自國防科大,劉祥龍來自北航,曹祥來自微眾。這些是第一屆委員,目的是把工作先做起來,希望後面有更多的貢獻者之後,我們會一個個逐漸被替代掉,將來大家憑貢獻來進入技術委員會。

從今年1月27號籌備這個技術委員會,討論OpenI背後的重要技術問題開始,我們正式的會議已經開了5次,進行了十幾次討論,多數是通過視頻會議的方式,因為大家來自全國不同地方、不同單位,很難集中在一個會場。 1月份開了第一次會議,後來又舉行了幾次重要技術問題的討論會議,7月19號開的是第二次正式會議,在這次會議上把我們的技術架構建立起來,9月份的會上我們討論了怎麼去建好一個開源的生態。最近這兩次會,一個今天的大會,另外一個是關於激勵機制怎麼建立起來的討論。

中國AI開源開放平台的現狀與挑戰 4

如上圖,第一屆技術委員會成員主要是來自貢獻比較多的單位,包括鵬城實驗室、智源、北大、國防科大、華為、百度和微眾銀行,還有其它的單位也在做貢獻。下面羅列的Logo是貢獻比較多的單位。

中國AI開源開放平台的現狀與挑戰 5

上圖是現在支撐OpenI運行的技術體系,是在6月份確定的。

我們可能跟大家通常理解的開源有區別,OpenI既不是像GitHub那樣支持各種開源項目的管理平台,也不是一個類似TensorFlow這樣的具體的開源框架,它是圍繞AI的一批開源項目,而且這些開源項目不僅要管理,支持大家在線開發,它還要運行。它不是一般的代碼開發、機器編譯運行就可以了,OpenI還需要強大的算力支持大模型的運行。所以我們在建立這個體系的時候,基礎設施就不僅僅是通常的雲計算或者是自己的機器,而是要有一個基礎系統。這個基礎的系統包括兩個方面,藍色的部分是訓練平台,橙色的部分是運行平台,也是通常大家理解的雲設施。目前提供算力最大的是來自鵬城實驗室的雲腦1號、2號。通常你要是開發一個AI模型,是在深圳計算的,聯網、分佈式調度正在進行中,未來會在全國各地陸續上線,提供更多的計算能力。華為雲是我們使用的開發體系,因為大家都是在全國各地、各個單位參與開發,因此我們通過華為雲來提供支撐服務。

新一代人工智能的基礎硬件、開源芯片也是我們開源體系的一部分,當然它還在起步階段,希望有一天它能夠成為支撐整個體系運行的重要組成部分。 9月25號我們上線了OpenI開源芯片項目,屬於基礎設施層。

中間層是軟件環境,包括三個方面:一是運行環境,就是為AI訓練提供基礎的軟件環境,章魚、珊瑚本身是開源項目,同時也是支撐我們運行的兩個重要項目;二是開發環境,就是啟智、磐石和華為軟開雲構建的環境,大家可以在上面上傳、調試代碼;三是數據協同環境,因為AI、特別是大數據類的AI,需要很多數據的共享、交換和分佈式訓練,因此我們6月18號上線了OpenI縱橫,它自身也是一個開源項目,同時它支撐OpenI數據方面的任務。

最上層是大家熟悉的開源框架,比如機器學習框架飛槳,這是百度貢獻的框架,還有視頻的開源項目,後續還會有一系列項目上線。

大家看我們過去一兩年構建的平台,主要是底層的基礎設施,它本身又是開源的,大家可以對這些基礎設施不斷地做出更新、貢獻,使這個平台越來越強大,我們也歡迎更多的開源項目出現。

整體我們有一個社區,這套社區體系基本上是完整的,也希望大家在未來的工作中繼續完善這樣一個體系,促進更多開源項目的培育、孵化、成長。

剛才高文院士講了啟夢計劃,實際上是激勵,也是近期技術委員會討論的一個很重要的任務,就是怎麼更好地激勵大家、支持大家開源開放的工作。以前開源很多的動力來自於志願者,大家天生就願意做這件事情,也來自一些企業的支持。既然新一代人工智能是國家支持的重要組成部分,支持範圍就會比傳統的更廣泛,包括剛才提到已經提供支持的鵬城實驗室等核心成員單位,可能幾天之後就會有國家科技部、發改委的支持啟動。這些國家的力量、企業的力量、社會的力量怎麼作用到貢獻者,這就涉及到怎麼激勵大家,激勵也是社區建設的一個重要的組成部分。我們剛才說的都是源頭,這些資源來了,比如說國家的項目來了,有這些核心單位牽頭啟動,最終它要落實到一個一個貢獻者身上,這就是所謂的激勵計劃。這套體係正在建立過程中,我們希望真正能夠讓這些願意支持開源的資源用到支持開源的技術人員身上,這就是啟夢計劃的一個基本想法。當然,貢獻大小怎麼去衡量,我們在社區裡邊建立好體系之後,資源就可以按照貢獻去匹配和落實到位。

開源許可證從去年3月份發布之後,到現在一直在討論,因為它是一個法律性很強的規則,儘管篇幅很長,但是它決定了我們將來這些代碼怎麼用,將來商業化使用是不是存在約束,以及大家的貢獻怎麼更好地體現,這樣一些最核心的權益,這也是社區裡面在討論的很重要的組成部分。到今天為止我們已經有一個2.0的Alpha版,在這兩天的會議期間大家也可以就這個問題進行討論,後續有更多的時間,還可以討論。其中主要的基本思想是,我們的許可證不像以前僅僅是對代碼的管理,在雲計算時代,不一定是把代碼拿去開發一個產品,很多本身就是服務,所以在這個時代怎麼做好開源的管理非常重要。

總結一下,從當初把開源作為聯盟的一項核心工作到現在,我們已經把整個體系建立起來了,開源就是驅動整個聯盟運行的核心力量。還有一個是標準,今天沒有時間展開講,但實際上關於標準的討論會是三個月舉行一次,到現在已經開了第七次會,馬上就要開第八次標準的討論會。我們開源的有些關鍵技術、關鍵接口需要跟其他接口互聯互通時,需要通過標準的方式去做。聯盟是國家團體標準的製定單位,也是國家標準,我們做的團體標準可以通過綠色通道上升為國家標準。這是國家標準委給我們的一個責任,這兩個結合在一起,會對將來的整個產業生態發揮重要作用。聯盟工作組、推進組,在這些方面也做了很多推動工作。

這套體系建立起來以後,就覆蓋了底層的理論、技術體系,這是一直以來國家和地方項目支持的;中間的開源開放平台,包括平臺本身以及我們的社區體系;上面的一套治理體系,比較偏軟性,但也是我們長期發展的一個很重要的基礎,希望為中國的人工智能發展,為全世界的人工智能發展構建一個良好的生態。

開源開放,共建共享,久久為功,這是一個長期的任務,希望通過我們這樣一個體係為中國人工智能2030世界領先做出基礎性的貢獻。