Categories
程式開發

PyTorch 1.6发布,微软接管Windows版的开发工作


Facebook的深度学习开源框架PyTorch发布了1.6版本,带来了新的API和性能改进。与此同时,微软宣布将接管该框架Windows版本的开发和维护工作。

PyTorch团队在最近的一篇博文中强调了新版本的主要特性。本地自动混合精度(AMP)训练在Tensor Core GPU上可节省高达50%的内存,新的Beta版内存分析器为调试内存问题提供帮助。PyTorch支持的两个分布式训练范式(数据并行和模型并行)现在可以一起使用了,并且RPC框架包含了一个支持TensorPipe的新后端。在另一篇博文中,微软的一个团队宣布了其在PyTorch社区的角色,包括对PyTorch Windows版本的所有权、改进测试覆盖率和改进文档。根据团队的说法:

微软很乐意提供Windows的专业知识,并把PyTorch带到Windows上,使其达到最好的状态。

2017年1月,社区希望发布Windows版的PyTorch,并被包含在当年12月的0.3.0版本中。与其他很多开源项目一样,大部分Windows版的开发工作都是由社区贡献的,尤其是Jiachen Pu。然而,有限的可用资源意味着测试覆盖率低下、教程过时,而且一些特性(如分布式训练)根本不可用。微软的努力已经让核心PyTorch库和领域库TorchText、TorchAudio和TorchVision的Linux版本的测试覆盖率达到了“标准”。下一个工作领域将包括支持通过pip安装和分布式训练。

PyTorch支持两种分布式训练:数据并行(data-parallel)和模型并行(model-parallel)。前者在多台机器上训练模型的完整副本,每台机器上都有训练数据的分区,而后者的模型的不同部分在不同的机器上训练。模型并行训练对于无法加载到单台机器内存的超大模型非常有用。数据并行训练通过将工作负载分布在多台机器上,加快了整个训练过程,将它与模型并行训练相结合可以进一步加快训练。在版本1.4中,PyTorch引入了一个支持模型并行训练的分布式远程过程调用(RPC)系统,但是在最新的1.6版本之前,这两种类型的分布式训练还不能同时使用。新版本还更新了RPC系统,包括对TensorPipe的支持,这是一种“感知TensorPipe的点对点通信原语”,可以改进分布式训练集群中机器之间的数据传输。

混合精度训练是在训练过程中使用不同的比特数来表示不同的值。例如,一些层或操作可能需要完整的32位浮点数,而其他的可能只需要16位。PyTorch 1.6支持自动混合精度(AMP)训练,自动为每个值选择合适的精度。当在Tensor Core GPU上使用时,可以节省高达50%的内存。这个版本还包括了Autograd Profiler的Beta版本,它可以报告模型中CPU和GPU的内存使用情况。

在Reddit的一个讨论中,一位用户写道:

新的分析工具似乎是我很久以来一直想要的东西——PyTorch最烦人的一个地方就是神秘的内存泄漏。

PyTorch的源代码和1.6版本的发布说明可以在GitHub上找到。

原文链接

PyTorch 1.6 Released, Microsoft Takes over Windows Version