Categories
程式開發

2020年,大數據與AI結合的發展方向


從2003 年谷歌大數據“三駕馬車”論文的發表到現在,大數據技術歷經10 餘年,經歷了風口到落地再到大規模的普及應用,目前已經成為各大企業尤其是互聯網企業的基礎設施。十幾年中,早期Hadoop 的大力發展、中期Kafka、Spark 的異軍突起以及現在Flink 的強勢突圍,不僅推動大數據成為了企業應用的關鍵組件,同時為機器學習AI 技術的發展提供了強有力的保障。本文嘗試著分析和總結大數據技術與 AI 技術結合的現狀和發展方向。

實時大數據技術、實時機器學習技術和應用持續發展

早期Hadoop、Spark 等大數據技術主要解決批處理計算的問題,通過分佈式可擴展容錯的架構,對於數據規模的問題,大數據技術解決方案已經非常成熟,尤其云計算容器技術的發展更好地提供了資源的彈性擴展,使得數據規模問題的解決更加容易。然而,企業在應用好此類批處理、離線計算之後,對於數據和計算的實時性有了更迫切的要求,離線數據和批處理系統的高延時已經不能滿足業務發展的需求。實時性不僅是對於數據的要求,也是對於計算以及機器學習應用等系統組件的一致要求,這也更多反應在從數據的生成到產生價值反哺生產系統的時間延遲要求更短。

Kafka 作為異步消息系統的事實標準,基本壟斷了大數據實時系統數據傳遞與轉換的通道。 Flink 在實時大數據計算領域異軍突起,目前越來越多的實時應用以 Flink 為解決方案或是遷移到 Flink 上來。同時一個有趣的現像是,Kafka 和Flink 在自己的優勢場景之外,也在日益向外拓展邊界,Kafka 從消息系統到實時處理拓展,Flink 從實時處理到實時機器學習拓展,此外基於這些主流的實時系統組件,構建起實時特徵計算、實時機器學習系統也越來越容易,未來會有更成熟的一體化的實時端到端的解決方案和產品出現。

大數據底層技術基本格局已定,未來主要是大數據上層應用的發展

早期 Hadoop 佔據批處理計算的統治地位,目前主流已經是 Spark 的批處理應用,Hadoop 已經下沉到底層 HDFS 以及為基於其上的 HBase、Spark、Flink 等提供服務。 Kafka 在異步消息系統的統治地位短期也難以被撼動,基本上主流的實時計算框架或者快速數據流轉都是基於 Kafka 去構建。 Flink 在實時計算領域異軍突起,有一統此領域的趨勢。可以看到整體大數據技術基本格局已定,整個技術棧豐富且日趨成熟。基本上很難形成與這些組件的競爭,目前主要是隨著業務的需求與發展,大數據上層的應用會是一個趨勢。之前的大數據組件需要更多的是專家級的大數據工程師才能使用和構建,這也產生了很多問題,比如使用和排錯都存在門檻。可以預見到,大數據的用戶會從工程師向前更多地擴展到分析師、數據科學家甚至是非數據相關的產品、設計等等角色。基於這樣的需求,大數據上層的應用會越來越多。可以預見會有更多的高效的數據分析平台、可視化數據產品、端到端的可視化 AI 構建產品等上層應用出現。

存儲與計算分離、雲計算推動 AI 應用異構平台的發展

大家如果比較熟悉 Hadoop 就知道,它的一大特性是計算和數據的本地化,即把計算放到數據所在的機器運行。隨著數據量級的增長以及網絡帶寬的提高,計算與存儲分離的系統越來越多且並未成為計算的瓶頸。將計算和存儲分離還有另一大好處是可以更好的管控和隔離計算和存儲資源,提高整個平台的穩定性,這對一些線上大數據組件如線上HBase 等系統的穩定性可用性的支持尤為關鍵。

早期的大數據平台主要是商業機器為主,輔以強大的軟件容錯功能,並未有穩定性的損失。在存儲方面,SSD 價格持續走低,其上的應用和框架也越來越多,如 AeroSpike 可以通過 SSD 的擴展在不丟失延遲性能的同時極大的提高擴展性和降低純內存方案的成本。持久化內存 (Persistent Memory) 存儲產品開始面市,這對於整個的數據和存儲解決方案可能會帶來很大的革新。在計算方面,GPU 用以提高深度學習等計算密集型應用的計算效率,CPU 和 GPU 混布已經成為一個趨勢。雲計算技術尤其是容器化技術使得各種異構存儲和計算的融合成為可能,進而提高整個數據中心資源的使用效率。

AI 平台與大數據平台融合構建端到端的整體解決方案

機器學習 /AI 的發展尤其是在互聯網行業的應用推動了大數據平台和 AI 平台的融合。在以前,我們需要在大數據平台構建和實驗數據特徵,然後按照機器學習訓練的要求統一處理數據;然後上傳到AI 訓練平台訓練模型;經過反复超參數調節和特徵工程工作,訓練好模型再發布到線上系統做實時的預測和決策,進而支撐各種業務如廣告、推薦、風控等場景。可以看到,整個的流程需要各種平台之間的切換和數據傳遞,甚至是每一種數據處理、每一種實驗、每一個數據問題都可能會使得用戶在平台之間反復與切換,這不僅導致AI 應用構建的效率不高,甚至不能滿足日益發展的業務對於AI 應用的上線時間的要求。

構建整個端到端的大數據機器學習平台已經成為了迫切的需求用以解決上述的問題,目前基本上各大公司都在或者已經成功將大數據、機器學習、線上服務融合到一個端到端的平台。這樣,終端用戶甚至可以基於此平台無縫化的從數據開始,高效的構建起整個機器學習模型的管道,此過程中任何數據以及模型的更正,僅僅是一些簡單的操作就可以做到,真正做到了高效統一。另外,筆者在公司領導開發的系統更是做到了支持機器學習特徵和模型線上一鍵自動發布、驗證以及決策劃分。此外,整個底層計算系統的打通和共享,也解決了之前系統分離而資源不足的問題。

結語

最後對本文做一個簡單的總結:大數據經歷了較長時間的發展,目前已經進入了穩步的發展時期,主流的大數據計算框架已經成型,越來越多的基於這些主流框架的精細化上層應用會成為一個趨勢。此外機器學習、AI 的持續發展反過來也在推動大數據的規模、實時性以及平台化的發展。越來越多的企業構建起端到端的大數據機器學習平台以提高大數據 AI 落地效率,各大雲廠商更是構建出此類一體化產品希望能夠收穫更多的客戶和收益。

嘉賓介紹:

張彭善,2008 年碩士畢業於上海交通大學,2012 年加入 PayPal 風險管理平台部門至今。在 PayPal 主要負責實施和構建了大數據計算平台、離線機器學習平台以及實時機器學習平台用以支撐 PayPal 全球風險管理業務。目前除負責機器學習平台外,正帶領團隊構建 PayPal 實時圖計算平台用以加強風控數據維度。在大數據計算、分佈式系統實現和優化、大規模機器學習和深度學習系統優化以及高可用可擴展計算平台等領域有著豐富的實戰經驗。

張彭善老師將在 8 月份的 AICon 2020 上海站擔任“大數據計算和分析“專場出品人,和你一起談談大數據計算和分析領域的最新趨勢和最佳實踐,尤其是大數據與AI 的結合,想要跟張老師現場面基的同學千萬不要錯過。

另外,大會還設置有智能金融、推薦廣告技術及應用、AI 工程師團隊建設與管理、認知智能、計算機視覺、智能語音前沿技術等熱門專場,來自BAT、微軟、小米、華為、PayPal、快手等50+ 一線AI 技術大咖將帶來更多精彩分享,目前大會限時5 折報名火熱進行中,點擊閱讀原文了解更多,有問題歡迎諮詢票務小姐姐Amy:18514549229(同微信),我們8 月上海不見不散!

2020年,大數據與AI結合的發展方向 1