Categories
程式開發

vivo AI 計算平台的K8s填坑指南


背景

在2018年底,vivo AI 研究院為了解決統一的高性能訓練環境、大規模的分佈式訓練、計算資源的高效利用調度等痛點,著手建設AI計算平台。白駒過隙,將近兩年時間過去了,平台的建設和落地取得了很大的進展,成為了vivo AI領域的核心基礎平台。平台現在已經有超過500多個用戶,來自人工智能、影像、互聯網等多個部門。平台的容器集群有1000多台服務器,擁有50000多CPU核,1000多張GPU卡,GPU算力將近100 PFLOPS。每天運行1000多個的算法訓練任務,部署了100多個的模型推理服務和AI應用。這些訓練任務和應用都是以容器的方式運行。平台從當初服務深度學習訓練為主,到現在演進成包含VTraining、VServing、VContainer三大模塊,對外提供模型訓練、模型推理和容器化的能力。

計算平台的底座是VContainer,是基於Kubernetes構建的容器平台,對上提供了容器運行、資源調度等能力。 Kubernetes是平台最基礎最重要的組件,其穩定性對平台至關重要。本文是vivo AI計算平台技術演進系列文章之一,著重分享了平台在Kubernetes上遇到的疑難雜症和解決方法。

原文鏈接:【https://www.infoq.cn/article/2LCOXVLD0WxDN4itXj35】。未經作者許可,禁止轉載。