Categories
程式開發

在Amazon SageMaker 管道模式下使用Horovod 實現多GPU 分佈式訓練


原始網址: https://aws.amazon.com/cn/blogs/machine-learning/multi-gpu-and-distributed-training-using-horovod-in-amazon-sagemaker-pipe-mode/

當前,我們可以使用多種技術通過少量數據訓練出深度學習模型,具體包括針對圖像分類任務的遷移學習、少樣本學習甚至是一次性學習等,也可以基於預訓練的BERT或GPT2模型對語言模型進行微調。但是,在部分應用用例中我們仍然需要引入大量訓練數據。例如,如果當前圖像與ImageNet數據集內的圖像完全不同,或者當前語言語料庫只針對特定領域、而非通用類型,那麼單憑遷移學習將很難帶來理想的模型性能。作為深度學習研究人員,您可能需要從零開始嘗試新的思路或方法。在這種情況下,我們必須使用大型數據集訓練出大型深度學習模型;在找不到最佳訓練方法的情況下,整個過程可能需要幾天、幾週甚至是幾個月。

在本文中,我們將一同了解如何在Amazon SageMaker的單一實例之上運行多GPU訓練,並討論如何在Amazon SageMaker上實現高效多GPU與多節點分佈式訓練。

原文鏈接:【https://www.infoq.cn/article/0867pYEmzviBfvZxW37k】。未經作者許可,禁止轉載。