Categories
程式開發

如何從零開始建設數據中台?


數據中台對於許多傳統企業而言,依舊是很陌生的概念。

如何從零開始建設數據中台?

我們把它簡化為一個方程式,數據中台:正確的人+正確的工具+正確的事=降本增效,其中,三個要素缺一不可。

如何從零開始建設數據中台? 1

正確的人

數據中台在國內有完整實踐的企業不多,相關的人才也相對較少。企業在選擇數據中台時,需要有方法論、實踐經驗去指導,以避免從零摸索帶來大量人力物力的浪費。這也是企業在選擇服務商時需要留意的。

正確的工具

在這裡主要指的是狹義上的數據中台產品。市面上的產品五花八門,數據中台產品各型各樣,如何選擇非常關鍵。

正確的事

數據中台不是擺設,並不是說搭建一個產品意義的數據中台,企業就完成數字化轉型了。數據中台最終還是要為業務服務。我們要用數據中台做什麼,解決什麼業務痛點,需要考慮清楚。

這個方程式最終導向了我們建設數據中台的目的:為企業帶來降本增效。 “要么給老闆省錢(降本),要么給老闆掙錢(增效)”。

數據中台的選型與構建

首先需要強調的是,在這裡我們分享的只是一般情況,不同企業、不同數據情況和不同需求,不可一概而論。不管黑貓白貓,能解決痛點的就是好貓。

數據中台的底層是大數據架構,大數據架構如何去選型?

如何從零開始建設數據中台? 2

在架構選型時,成本、場景支持是我們考慮最關鍵的2個要素。

綜合實施週期、實施成本、是否支持實時計算、數據冗餘與數據一致性情況等因素,我們認為Lambda架構成本相對適中,又能滿足實時計算和離線計算兩個場景。

當然,選擇Lambda架構也會不可避免地面臨數據冗餘的問題,而目前大部分傳統企業用到實時計算的場景偏少一些,相對來說產生的數據冗餘也較少,可以通過數據治理等方式解決。

底層之上是引擎,包括離線計算引擎和實時計算引擎,又應當如何去選型?

離線計算:三種離線計算引擎各有特點,可以綜合企業的數據情況和需求,選擇合適的計算引擎。

如何從零開始建設數據中台? 3

實時計算:在批處理+流處理上,Flink備受青睞,穩定性較好、吞吐量較大。一般來說推薦使用Flink。

如何從零開始建設數據中台? 4

在架構上層,則涉及到了:數據模型應如何設計?

數據模型是為業務服務的。具體來說,就是把業務抽象化,提煉成數據模型,再通過數據解決業務問題。

建數據模型,會經歷業務建模、概念建模、邏輯建模和物理建模四個階段。

如何從零開始建設數據中台? 5

在模型選擇上,我們僅列舉兩種模型,星型模型與雪花模型。通常情況下,為了能下游能更好地理解業務,快速提供數據服務,我們會採用空間換時間的方式,從而選擇星型模型;而在維度信息變化非常頻繁,或者數據存儲成本非常高的情況下,我們可以採用雪花模型。歸根到底,數據模型沒有好壞之分,只有能否解決業務問題。

最後需要強調,對於技術和模型的選擇,我們做了一些推薦和優劣勢的介紹,但技術和模型本身沒有對錯之分,適合自己的才是最好的(能解決業務問題才是最好的)

數據中台的架構設計

我們把數據中台的架構分為三層,數據資產層、數據服務層、數據應用層。

如何從零開始建設數據中台? 6

這張圖從下往上看,首先通過數據治理、數據開發、借助數據倉庫,把數據轉化為可用的數據,即資產「數據資產化」;然後建立數據能力,把數據用起來,例如標籤工廠、模型分析等,即「資產服務化」;再通過智能化的場景給業務賦能,也就是「服務智能化」。

AI驅動的數據中台

奇點雲創立三年來,數據中台的實踐在零售、時尚、百購等行業相繼落地,在實踐經驗中,探索並檢驗出了數據中台的“王道”:AI驅動的數據中台。

所謂“AI驅動”,我們可以看到在架構中融入了獨創的“雲(智能)+端(感知)”的解決方案,從數據採集層的AIoT到數據服務層的算法服務、分析引擎再到頂部的數據智能應用,實現了“雲賦能端,端豐富雲”,既解決企業數據生產的問題,又解決企業數據使用的問題

如何從零開始建設數據中台? 7

在“AI驅動的數據中台”實踐中,奇點云自研了一站式大數據智能服務平台—DataSimba,其旨在為企業提供全鏈路的產品+技術+方法論服務。

DataSimba核心模塊包括全域數據採集、數據開發、數據治理、數據資產管理、數據API、數據科學、數據質量、標籤工廠,可以幫助企業快速搭建安全、易用的數據中台,最大化釋放價值,驅動業務增長與創新。

如何從零開始建設數據中台? 8