Categories
程式開發

K8s 為AI 應用提供大規模GPU 算力之實踐| QCon


華為雲CCI 服務管理數百個GPU 卡,為華為雲EI 服務及外部客戶提供AI 計算平台,在該過程中積累了大量面向AI 計算的優化經驗。 AI 計算加速的關鍵是GPU 管理,K8S 資源調度優化,面向AI 計算框架和模型的Job/Task 調度。通過這些優化手段可以使得128 塊GPU 卡的線性加速比達到0.8+。本次議題將介紹如何通過開源項目K8S + Kata 容器搭建AI 計算平台,更大化GPU 及AI 芯片算力的使用效率,並給出測試結果。最後我們也會對未來的技術改進做出展望。

聽眾受益

了解基於K8S 的AI 框架的現狀;
了解大規模GPU 在AI 分佈式訓練場景下的應用;
了解K8S 在人工智能場景下的優化思路。