Categories
程式開發

分佈式深度學習訓練


本talk將分享如何在IA架構服務器集群上利用基於英特爾優化的Tensorflow、MXNet、PyTorch 開源方案高效地搭建分佈式AI模型訓練系統,並利用其進行分佈式模型訓練。

演講提綱:

  1. 構建基於IA架構的容器或虛擬化服務器集群
  2. 如何在IA架構服務器優化分佈式任務性能
  3. 如何利用Horovod構建分佈式訓練代碼
  4. 如何優化分佈式訓練超參數

聽眾收益:

  1. 了解在IA架構服務器集群搭建分佈式AI模型訓練的原理

  2. 掌握在IA架構服務器優化分佈式性能的要點

  3. 獲得基於Horovod分佈式方案訓練的經驗分享

內容亮點:

  1. 現代Xeon處理器上的NUMA特性

  2. VM、Docker分佈式訓練環境

  3. Horovod分佈式訓練