Categories
程式開發

一個通用的數據中台架構應該如何構建?


數據中台的目標是讓數據持續用起來,通過數據中台提供的工具、方法和運行機制,把數據變為一種服務能力,讓數據更方便地被業務所使用。

下圖為數據中台總體架構圖,數據中台是在底層存儲計算平台與上層的數據應用之間的一整套體系。數據中台屏蔽掉底層存儲平台的計算技術複雜性,降低對技術人才的需求,讓數據的使用成本更低。通過數據中台的數據匯聚、數據開發模塊建立企業數據資產。通過資產管理與治理、數據服務把數據資產變為數據服務能力,服務於企業業務。數據安全體系、數據運營體系保障數據中台可以長期健康、持續運轉。

一個通用的數據中台架構應該如何構建? 1

數據中台總體架構圖

數據匯聚

數據匯聚是數據中台數據接入的入口。數據中臺本身幾乎不產生數據,所有數據來自於業務系統、日誌、文件、網絡等,這些數據分散在不同的網絡環境和存儲平台中,難以利用,很難產生業務價值。數據匯聚是數據中台必須提供的核心工具,把各種異構網絡、異構數據源的數據能夠方便地採集到數據中台進行集中存儲,為後續的加工建模做準備。數據匯聚方式一般有數據庫同步、埋點、網絡爬蟲、消息隊列等;從匯聚的時效性來分,有離線批量匯聚和實時採集。

數據開發

通過數據匯聚模塊匯聚到中台的數據,沒有經過什麼處理,基本是按照數據的原始狀態堆砌在一起的,這樣業務還是很難使用。數據開發是一整套數據加工以及加工過程管控的工具,有經驗的數據開發、算法建模人員利用數據加工模塊提供的功能,可以快速把數據加工成對業務有價值的形式,提供給業務使用。數據開發模塊主要是面向開發、分析人員,提供離線、實時、算法開發工具以及任務的管理、代碼發布、運維、監控、告警等一些列集成工具,方便使用,提升效率。

數據資產體系

有了數據匯聚、數據開發模塊,中台已經具備傳統數倉平台的基本能力,可以做數據的匯聚以及各種數據開發,就可以建立企業的數據資產體系。之前說數據資產體係是中台的血肉,開發、管理、使用的都是數據。大數據時代,數據量大,增長快,業務對數據的依賴也會越來越高,必須考慮數據的一致性和可複用性,垂直煙囪式的數據和數據服務的建設方式註定不能長久存在。不同的企業因業務不同導致數據不同,數據建設的內容也是不同的,但是建設方法可以相似,數據要統一建設,筆者建議數據按照貼源數據、統一數倉、標籤數據、應用數據的標準統一建設。

數據資產管理

通過數據資產體系建立起來的數據資產還是一套偏技術的數據體系,業務人員比較難理解。資產管理是以企業全員更好理解的方式,把企業的數據資產展現給企業全員(當然要考慮權限和安全管控),數據資產管理包括對數據資產目錄、元數據、數據質量、數據血緣、數據生命週期等進行管理和展示,以一種更直觀的方式展現企業的數據資產,提升企業的數據意識。

數據服務體系

前面利用數據匯聚、數據開發建設企業數據資產,利用數據管理展現企業的數據資產,但是並沒有發揮數據的價值。數據服務體係就是把數據變為一種服務能力,通過數據服務讓數據參與到業務,激活整個數據中台,數據服務體係是數據中台存在的價值所在。企業的數據服務是千變萬化的,中台產品可以帶有一些標準服務,但是很難滿足企業的服務訴求,大部分服務還是需要通過中台的能力快速定制。數據中台的服務模塊並沒有自帶很多服務,而是提供快速的服務生成能力以及服務的管控、鑑權、計量等功能。

運營體系和安全體系

通過前面的數據匯聚、數據開發、數據資產、資產管理、數據服務,已經完成了整個數據中台的搭建和建設,也已經在業務中發揮一定的價值。運營體系和安全體係是數據中台得以健康、持續運轉的基礎,如果沒有它們,數據中台很可能像個一般項目一樣,一期搭建起平台、建設部分數據、嘗試一兩個應用場景之後而止步,無法正常地持續運營,不能持續發揮數據應用價值。這也就完全達不到建設數據中台的目標。

以上內容摘自機械工業出版社華章公司出版的《數據中台:讓數據用起來》一書,經出版方授權發布。