Categories
程式開發

明略科技AI中台的技術應用與實踐


AI閉環與AI中台

明略科技AI中台的技術應用與實踐 1

人工智能,按照智能化程度,可分為5級。第一級,識別能力,通過泛在多維感知,將高質量的數據連接起來。第二級,理解能力,基於可積累的行業符號體系的智能抽取技術,構建千億知識網絡的知識圖譜數據庫。第三級,分析能力,通過知識圖譜、暴力挖掘對知識進行多維度分析推理,打造決策模型。第四級,決策能力,建立明確的行動計劃,指導行動,實現智能決策。第五級,創新能力,也就是智能的終極本質。從識別感知,到理解分析,再到決策行動,循環反饋,形成AI閉環。相應地,需要建設感知應用基礎設施,數據中台、AI中台、業務中台,行動系統,才能實現AI閉環的落地,其中數據中台、AI中台、業務中台,是核心,承擔AI大腦的角色。

在技​​術實踐中,明略科技採取的是數據中台、AI中台、業務中台微服務架構。底層是數據中台,包括數據接入、存儲、處理和輸出。中間層是AI中台,提供模型線上部署,包括推薦服務和識別相關的各類模型,以及自動參數優化等。上層是業務中台,通過算法統一打通,支持數據清洗、標籤、實時數據分析服務、洞察服務。

AI中台,本質上是AI應用全生命週期的開發和管理平台,用於數據分析與處理、模型訓練與評估、模型應用與監控。提供統一的數據存儲系統,和基於容器的異構計算資源管理系統、機器學習庫與模型訓練實驗管理系統以及模型部署與運行監控系統,採用分佈式模型訓練,大幅提升數據和模型的性能、效果、目標。

明略科技AI中台的技術應用與實踐 2

具體而言,AI中台具備六大能力。第一,統一的存儲空間,支持多數據源導入。第二,Pipeline可視化工作流管理與執行,支持數據科學家從數據建模階段開始的可視化管理,節省成本,快速體現數據科學家的價值。第三,基於容器的計算資源分配和軟件庫安裝,支持TensorFlow、PyTorch等各種框架。第四,支持GPU、TPU、CPU框架和基於異構計算的模型管理。第五,模型管理,支持新手快速上手,無需通過自己實現原始算法,只需要理解算法原理就可以通過調參實現。第六,AI Serving,模型一鍵封裝為API,一鍵部署。

AI中台,以實現業務智能為目標,為數據科學家團隊提供服務,加速用戶畫像、推薦系統、圖像識別、智能客服等智能應用開發。以此為基礎快速迭代,擴大AI應用覆蓋面,推動AI技術在其他行業領域的落地應用。

AI中台落地的技術挑戰與實現路徑

AI中台在實際落地過程中,卻存在著不少挑戰。首先,數據分散,以多種形式存儲在多個系統中,需要統一存儲。第二,流程複雜,相互依賴性強,需要統一流程。第三,存在Spark、TensorFlow、Pytorch、Lightgbm等多種多樣的軟件環境,需要統一協調。第四,模型訓練時間長,需要管理大量模型訓練實驗。第五,模型影響因素多,需要管理大量模型版本。第六,AI模型難部署,需要專用軟件環境,深度學習對算力要求高,資源管理難度大,需要多方面優化性能。

目前,國內外主流的AI平台架構,都在試圖解決這些問題。

第一類是BATJ、網易、小米、訊飛的開放AI平台,這類AI平台通常採用Docker+Yarn或者Docker +K8s架構,提供圖像、語音識別等應用能力,通過Restful API的方式,提供服務的使用,但數據必須要發給平台方。 BAT以外的廠商,一般只能提供某一方面的能力,如需使用多個能力,則需使用多個平台的產品,管理和開發的複雜度較高。 AI中台大部分部署在客戶私有集群、私有機房。

第二類是Acumos AI,通過把 AI 學習中的各環節微服務化,以MarketPlace 的方式實現發布和共享,但文檔缺失嚴重,部署和使用不方便,上手成本高。

第三類是MLflow,通過Tracking、Project、Models 3 個層面的抽象,整合所有的機器學習和人工智能算法和模型,但對於全流程集成的支持尚欠缺,比如數據導入和管理,模型的部署,資源的管理等。

第四類是OpenPAI,通過K8s實現雲、單機、集群的多環境,支持多種主流框架,具備資源管理的功能,但對於全流程集成尚欠缺。傳統的集群,數據科學家實驗室,沒有實線上突破,模型到線上部署很難實現。

明略科技從三個層次來進行AI平台的架構設計。

第一層,基礎設施,以滿足數據、算法模型和過程性能要求。第二層,容器集群,以計算調度引擎為主。第三層,由三部分構成,一是數據處理模型,二是模型訓練,涵蓋目前最流行的Parameter Server等模型,三是模型Serving,滿足Model Server、Model Converter相關的線上場景需求。

明略科技AI中台的技術應用與實踐 3

基於此,明略科技AI中台主要有以下特點。

第一,數據存儲和計算任務分離,計算任務通過內部高速網絡讀寫數據,避免數據再次“搬運”。

第二,ETL集成,拖拽式任務設計,支持定時任務和事件觸發,內建Mysql、HDFS、Kafka等多種數據源,Spark、Flink等計算引擎。把已有的MySQL、Kafka與系統完美融合,以可視化方式看到各種統計,這個理念與數據中台的理念一致,單獨的子系統可以實現可視化、監控、任務、管理。

第三,支持Notebook交互式開發,符合數據科學家習慣,促進業務價值。可實現Python based交互式場景,支持TensorFlow Pytorch等多使流行框架,CPU、GPU資源控制,單機集群計算資源。這是基於原生態的Jupyter notebook實現,數據科學家可以指定單機還是集成方式,快速解決實際問題,通過交互式數據開發環境,選擇不同Kernel 可連接到不同計算資源。

第四,Pipeline的實現,Docker based可複用,運行狀態可視化,比如,A數據科學家用的是Tensorflow,B數據科學家用的是Spark,保證兼容,每次運行結果存檔,生成DAG圖,快速看到邏輯和節點問題。

第五,彈性擴展的Model Serving,基於k8s和微服務技術,每個模型都部署一個微服務,同時支持RESTFul 和gRPC 協議訪問,自動解決了負載均衡和FailedOver的問題,可自動按負載動態擴縮容AutoScale,滾動升級和ABtest等多版本對比環境,支持Java、Pyhton、C++等多語言部署,靈活性高。

第六,語言和框架,支持TensorFlow、PyTorch、Spark、MPI、MXNet等框架,Python、R、Java等語言。

第七,提供圖像識別、推薦系統、NLP三大類別的內置模型分析。

第八,提供AI中台監控,可全面監控集群多項基礎指標以及各運行任務粒度資源使用情況,內置集成報警功能,可實現數據實時可視化。

總之,明略科技的AI中台最核心的三點優勢是,可與現有數據大數據平台無縫對接,支持異構計算和擴展框架。

AI中台技術實踐案例

在零售業,明略科技為行業領先的某新零售公司打造了AI中台,為客戶帶來了三方面的收益。首先,改變了探索方式和時間效率。原先類似拖拉式的方式,無法滿足數據科學家的需求,因為數據科學家寫代碼是交互式的,明略科技的AI中台賦予了探索方式極大的靈活,並且探索時間從15天減到7天。第二,改變了模型發布方式和發布效率。原先的做法是,算法工程師寫完一套,工程師重寫一遍,然後再上線,使用AI中台後,可快速上線同時做AB測試、滾動升級、小流量測試等。平均發佈時間也從15天大幅降低。第三,原先AB測試需要人工重度參與,且複用性差,現在則能輕鬆應對。

在銀行業,明略科技為國內某大型國有銀行打造了基於AI中台的從關鍵詞到知識圖譜相關的推薦系統。基於AI中台可以快速實現實時請求查詢,線下場景離線與AI中台無縫切換,模型Serving與數據中台、業務中台無縫對接,通過管理系統實時看到策略、排序等。

在對話機器人領域,明略科技基於知識圖譜和AI中台技術能力為客戶打造了客服機器人。客戶希望所有的流過程是可解釋的,雖然深度學習、神經網絡的算出的結果可能是準確的,但過程無法解釋,而知識圖譜是實體關係屬性,組成網狀結構,具有可解釋性。在構建知識圖譜時,將行業知識與客戶企業內部知識相結合,實現隱性關係的挖掘,快速解決問題。 AI中台把聊天客服機器人、算法、知識圖譜進行有機融合,確保了基於領域知識圖譜對話客服機器人的準確性和有效性。

作者介紹:

盧億雷,明略科技集團副總裁兼推薦/推理系統負責人