Categories
程式開發

全鏈路數據治理在網易嚴選的實踐


數據治理(Data Governance)的邊界非常的寬泛,通常會把數據的定義、存儲方式、使用規範、數據安全策略、數據質量等等都包括在其中。治理是一個很官僚化的術語,流程、評審、審計、規範這些令人昏昏欲睡的東西,構成了數據治理的常規手段和工具。因此,數據技術團隊往往對“數據治理”有些抗拒,而數據治理團隊往往覺得工作低效不好玩,吃力不討好。因此,對於數據治理團隊而言,我們除了要治理數據體系,提升其運轉效率;還要把工作變得高效而精彩。

為什麼要做數據治理?

隨著業務的快速發展,數據開發任務也會井噴式的增長,再加上大數據的服務鏈路是非常複雜多變的,涉及到收集、存儲、訪問、計算、數據加工、數據挖掘、對外服務等等場景。隨著數據規模、數據結構、使用場景隨時的變化,特別在互聯網公司,開發效率優先的工作模式下,數據體系的快速腐化是不可避免的。數據體系的快速腐化最終又會影響開發效率,甚至影響整個公司的決策效率。

全鏈路數據治理在網易嚴選的實踐 1

圖一網易嚴選數據技術體系1.0

圖一是網易嚴選數據技術體系,我們可以看到,數據從業務系統(業務日誌/數據庫)產生,經過數據的同步和集成,再經過數據開發的加工和整理,最後再被數據產品/算法/BI等服務和應用使用,整個鏈路非常長並且會依賴許多消息服務/計算/存儲/任務調度/資源調度等服務和組件。

原文鏈接:【https://www.infoq.cn/article/FOV6aEWRGNOfhD91YVcr】。未經作者許可,禁止轉載。