Categories
程式開發

網易大數據用戶畫像實踐


導讀: 網易大數據生態數量級巨大,且產品線豐富,覆蓋用戶娛樂、電商、教育等領域,並且APP活躍度高,積累了多維度的用戶行為數據。 通過集團數據資產構建全域用戶畫像,旨在服務於域內眾多業務場景,同時也在探索外部商業化方案。 今天藉此機會,同大家分享下網易在大數據用戶畫像中的實戰應用經驗。

今天的介紹會圍繞下面三點展開:

  • 網易生態數據介紹
  • 用戶畫像中心分類
  • 網易用戶畫像實戰案例

01 網易生態數據介紹

整個用戶畫像實踐經驗,都依賴於網易易數中台,所以首先給大家介紹下網易生態數據情況。

1. 網易數據總覽

網易大數據用戶畫像實踐 1

網易數據總覽特徵如下:

  • 數據量超億級,每日上億級賬號活躍,可觸達同人;
  • 服務場景多,生態較為複雜,覆蓋多行業產品線,包括遊戲、教育、電商、泛娛樂等;
  • 優質用戶平均標籤覆蓋率達70%以上;
  • 提供包括但不限於參與人、流量域、位置域、關係域等主題域解決方案,即能夠封裝用戶畫像在主題域的通用化模塊。

2. 網易產品線豐富

網易大數據用戶畫像實踐 2

網易產品線豐富,覆蓋從用戶娛樂、電商購物、教育、新聞資訊等各個維度用戶行為數據,APP活躍度高,涵蓋用戶群廣。 項目組整體目標是通過集團數據資產構建全域資產用戶畫像,已應用於網易生態圈內眾多業務場景,同時探索產品化及方法論,服務於生態圈外部合作機構,進行商業化操作。

3. 全鏈路數據中台產品矩陣

網易大數據用戶畫像實踐 3

全鏈路數據中台產品矩陣,包括底層日誌等數據源層,數據平台加工層,整體標籤的離線或實時加工、挖掘算法及監控,以及上層業務應用,如智能分析、增長運營、推薦搜索等一系列業務層應用,組成了網易數據中台產品矩陣。 網易易數產品矩陣,為網易用戶畫像起著極為關鍵的支撐作用,尤其是數據標準體系、數據治理平台等模塊,很好的承載著用戶畫像落地和質量保障。

02 用戶畫像中心分類

首先介紹下杭研用戶畫像整體數據架構及落地情況,主要分為三部分:其一為基礎的用戶畫像,基礎標籤( 如性別、年齡)、行為統計( 如活躍)、興趣偏好及預測等標籤;其二為關係庫部分,即IDMapping;其三為主題域部分,即對地域、社交、搜索關鍵詞等相關方面的工作。

1. 網易數據架構

網易大數據用戶畫像實踐 4

網易整體數據架構底層與各個業務方進行數據交換合作,共同建立公共數據中心,以數倉為藍本進行架構。

中間層為用戶畫像中心:

  • 用戶標籤的分類包括基礎標籤、行為標籤、偏好標籤以及預測標籤等,不同公司分類方法略有不同,如根據更新周期,分為靜態標籤( 性別等) 和動態標籤( 年齡等);偏好標籤包括用戶的長中短期偏好等,預測標籤主要應用於廣告投放部分,例如游戲達人,高價值用戶群等。
  • 關係庫主要是IDMapping,目前已經有較多的方案論和解決方案,例如多賬號的歸一用於後續的業務數據挖掘工作,提升對用戶的識別能力。 典型場景為兩個手機號對應只有其中一個有過註冊行為信息,另一個沒有註冊行為信息,但對於上層而言,應該打通他們作為同一個行為主體。 關係庫主要包括同機網絡( 同一設備多個ID的關係)、同人網絡( 同一個人多個設備信息) 以及社交關係( 人與人之間的關係) 等。
  • 主題域主要包括地域數據、廣告數據、關鍵詞和知識庫方向,其中知識庫和圖譜數據,主要應用於網易域內外內容知識打通。

頂層的應用場景包括增長運營、推薦搜索、廣告變現、營銷系統、用戶反欺詐及內容運營等方面,對業務方提供全方位的服務,不局限於單一應用場景。 還有數據規範和數據管理部分,作為數據標準化,沉澱經驗方法論。

2. 網易用戶畫像構建流程

網易大數據用戶畫像實踐 5

用戶畫像整體構建流程依託於網易易數中台,搭建起完整的業務數倉體系,融合多方業務數據源。 經過多年的探索實踐,已經形成完整的用戶畫像體系,從數據層面到產品層面,逐漸打磨,提供標籤管理、監控、報表、算法、開發及權限管理,融合在各業務產品體系。 諸如關係圖譜形成API的接口服務輸出各業務方;數據服務包括人群圈選、人群分析等運用於市場及運營團隊;特徵庫方面描述了用戶向量化的特徵相比標籤粒度更為細膩,適用於算法團隊迭代開發。 在此基礎上沉澱了多種數據應用,包括增長運營、廣告DMP、智能風控等方面。

3. 網易用戶標籤

網易大數據用戶畫像實踐 6

目前整體總標籤數達1000+,其中不包含單一業務行為數據。 標籤分類如下:

  • 基礎標籤,即對用戶的自然屬性描述,例如性別、年齡、教育背景、生活習慣( 早起晚起)、地理位置( POI信息)、職業狀況( 所屬行業)、經濟情況( 有車有房)、設備信息( 手機、運營商等)、會員信息( 各業務方會員等級)、衍生信息。 其中衍生標籤,如評估是否已婚,在原有的標籤體系下沒有此類標籤,但可以通過對多個標籤進行組合生成新的標籤,包括是否有小孩、30歲滿足某個條件等。
  • 行為標籤包括地域、廣告、搜索、全域、播放、點擊、評論、關注、收藏、購買等維度。
  • 偏好標籤包括出行購物、手機數碼、家裝家居、教育公益、文化娛樂、新聞資訊、金融理財、遊戲競技、動漫影視、明星藝人等維度。
  • 預測標籤包括利用算法等進行預測生成的標籤,包括是否出行,是否買車等等。

另外,標籤的枚舉值也相當重要,業務分析過程中很容易出現枚舉值的偏差,不符合實際業務邏輯。 除此之外還包括標籤間的衝突,例如年齡15歲,學歷卻是博士或者有小孩,策略類標籤是標籤領域較為有挑戰性的地方。

網易大數據用戶畫像實踐 7

用戶標籤案例:性別。 主要包括三種方案,其一為標籤傳播,根據用戶在各個業務場景,例如母嬰商品點擊行為標籤等進行item標記,構建User-Item的興趣網絡進行Graph Embedding,最後進行分類預測用戶的性別;其二為利用NLP算法對用戶的暱稱進行語義分析;其三為利用業務屬性自行填寫的內容進行判斷,此處需要對數據質量進行過濾,排除諸如出生為1990-01-01的參數異常值信息。 基於上述的三類算法特徵結果集進行模型的融合,然後對用戶的性別進行預測,同時判斷該用戶性別的準確率,大部分準確率在0.6+以上可以應用於實際業務場景中。 當然除了常見的算法融合,還包括數據融合、特徵融合等等。 其中需要突破的地方包括特徵的稀疏性,因為IDMapping打通後的數據覆蓋率僅20%左右,這個嚴重影響了模型的整體效果。

4. IDMapping

網易大數據用戶畫像實踐 8

IDMapping主要指用戶設備的打通,用於識別用戶的唯一性,現今採用的手段有兩種,其一通過工程層面打通,如SDK埋點,優點是準確率較高,缺點是還會存在一人多機等現象,導致了不能夠較好地完整描述一個用戶畫像;其二指數據層面打通,通過ID關係網,採用規則和算法結合的方法,進行同人識別,優點是很好解決一人多機現象,缺點是準確率難以評估。 本次分享,主要指數據層面打通。

網易大數據用戶畫像實踐 9

IDMapping整體的思路及方案,具體要結合各種賬戶、設備之間的關係對,以及設備使用規律等用戶數據,利用規則過濾+數據挖掘算法( 連通圖劃分及社區發現) 判斷賬號是否屬於同人。 在IDMapping過程中,常遇到的問題及對應解決方案如下:

  • 用戶有多個設備信息,定義相應的閾值進行關聯。 當然,社區發現當前應用於營銷場景,暫沒有用於風控或用戶運營等場景,因為會把一些異常的賬號關聯在一起,且會存在僅登錄使用過一次的設備信息。
  • 設備過期( 一般在2年半左右時間),設定衰減係數,對單用戶多設備加大衰減力度。
  • 當然也會存在一些異常數據信息,通過算法識別出包括但不限於以下場景,諸如借用朋友設備、設備臟數據、刷號等行為軌跡。

網易大數據用戶畫像實踐 10

IDMapping的存儲方式包括兩個ID類型( 關係對)、最近採集時間、最早採集時間、採集源數據、採集源列表、採集的頻次和周期。 其中共線關係的部分增加了時間衰減係數,同步遞減應用於結果,同時也增加了某些參數的權重部分用於提高業務的可選性和高可性。

5. 地域主題域

網易大數據用戶畫像實踐 11

地域主題域可以挖掘用戶的需求信息,包括是否有車,是否經常去4S店,通過WIFI、設備等信息獲取親戚、同事等關係,通過IP可以捕獲學校的學生信息,根據作息規律進行統計。 當然除此之外,地域主題域還用於反欺詐領域,針對黃牛等用戶群進行修改地域參數信息,規避系統檢測。

6. 用戶畫像管理與存儲

網易大數據用戶畫像實踐 12

用戶畫像管理與存儲在網易大數據經歷了多次迭代,包括前期字符串的拼接、手工標籤命名、明文關聯維表,再到現在利用JsonArray格式進行標籤類型管理,這種有個比較大的缺點,就是存在冗餘嚴重,正在嘗試新的方案設計。

7. 質量校驗與保障體系

網易大數據用戶畫像實踐 13

網易標籤包含真實的用戶數據及特徵用戶數據,利用無監督的算法模型預測姓名、年齡、有車、有房等,利用有監督進行提升數據質量,提升標籤的整體效果。 主要包括三方面的工作:

  • 利用實名認證數據,作為高可信的樣本集;
  • 利用強特徵用戶數據,通過GPSIP等用戶行為數據;
  • 利用外部數據,增加高置信用戶數據質量。

除此之外,還包括利用一些常見的算法,例如交叉驗證準確率和召回率,線上ABTest、算法離線驗證、運營活動驗證、真實數據驗證等等方案。

網易大數據用戶畫像實踐 14

質量保障標籤管理方法論,包括以下四點:

  • 每個標籤定義第一責任人,用於快速響應業務需求,同時處理標籤異常問題;
  • 流程優化,標籤的流程較為漫長,需要了解業務、算法、開發的全流程,利用端到端的模式,通過快速響應增加標籤規範化的評審工作;
  • 測試監控方面,測試在標籤上線前對標籤規範和質量輸出測試報告,預測則是針對規範、枚舉值等範圍,建立監控預警機制;
  • 管理平台化,則是標籤生產、加工、處理、應用全流程體系化、標籤化、工具產品化,不斷迭代升級。

03 網易用戶畫像實戰案例

最後和大家介紹下網易用戶畫像實戰案例。

1. 應用場景豐富

網易大數據用戶畫像實踐 15

網易用戶的多元化數據,能夠精准定位用戶,覆蓋範圍廣,包括但不限於以下業務目標場景:

  • 市場營銷:為人群圈選、人群洞察等提升營銷價值;
  • 推薦搜索:為網易算法團隊提供數據輸入;
  • 增長運營:為用戶研究、數據運營等提供數據支撐;
  • 廣告投放:為廣告主提供人群定向投放功能;
  • 智能風控:為營銷反欺詐,諸如薅羊毛、資金風險、異常用戶識別提供特徵算法服務。

這裡重點講解下營銷反欺詐薅羊毛案例,此類用戶資源池有限,通過頻繁地切換IP、WIFI等設備信息,規避風險。 利用用戶畫像及其特徵,切入智能風控,能夠提升6%的風險用戶識別率,同時結合知識圖譜、IP黑名單、異常設備等方面的數據信息,能夠較好地擴大數據價值。

2. 用戶畫像案例

網易大數據用戶畫像實踐 16

通過覆蓋用戶出行、娛樂、設備、購買、地址等維度數據,基於基礎標籤、事實標籤以及預測標籤等標籤,應用於上述提及的多個業務場景中。 通過用戶畫像,可以知道用戶偏好,購買相關等偏好信息。

3. 實時全鏈路推薦案例

網易大數據用戶畫像實踐 17

網易用戶數據服務實時方案,打通各個業務場景的數據孤島信息,實時融合用戶的數據資產,深度洞察分析用戶屬性信息,支撐各個業務間數據打通和服務,實現了”採集+計算+調用”的實時全鏈路體系。 例如,在冷啟動新客階段,利用用戶畫像能力,將離線特徵放進HBase中進行實時計算,在多業務場景進行交叉,全鏈路支撐各業務數據打通和服務,為業務方提供二次服務。 另外,利用實時用戶畫像結合知識圖譜捕獲用戶行為軌跡,避免用戶流失後造成的無購買、點擊等行為,進行二次觸達,增加業務轉化效率。

4. 總結

網易大數據用戶畫像實踐 18

网易数据用户画像中台显著提高了数据生产力,逐步沉淀方法论和产品,赋能域内众多业务场景,探索外部商业化解决方案。

今天的分享就到這裡,謝謝大家。

作者介紹

張長江,網易大數據技術專家

本文來自DataFunTalk

原文鏈接

網易大數據用戶畫像實踐