Model Distributed training的介绍

本周我们继续ML Platform的第五讲,感谢锅锅在百忙之中给我们带来的精彩讲座,相关内容的总结如下:

Slides

  1. 锅锅使用的Slides
    1. 锅锅发的参考链接
  2. ML Platform系列讲座总结:

Q&A

感谢Nancy提供的笔记供参考

异步训练模型如何合并

  1. 【扩展】强化学习中的并行(parallel)、异步(asynchronous)与分布式(distribute)
  2. 【扩展】强化学习异步分布式训练实现
  3. 【扩展】Pytorch 分布式模式介绍
  4. 【扩展】数据并行——ps

分布式训练的扩展阅读

  1. 【扩展】一文说清楚Tensorflow分布式训练必备知识
  2. 【扩展】[源码解析] 深度学习分布式训练框架 Horovod — (1) 基础知识
  3. 【扩展】分布式机器学习
  4. 【扩展】分布式 GPU 训练
  5. 【扩展】分布式训练架构-horovod
  6. 【扩展】PyTorch分布式训练简明教程
  7. 【扩展】pytorch分布式训练

再次感谢大家的参与,也希望大家有好的资源能联系我更新这篇文章,或者在下面留言。谢谢大家。

下周话题安排和往期话题回顾敬请参见《系统设计开荒小分队话题讨论简介

欢迎大家订阅公众号或者注册邮箱(具体方法见左右侧边栏),可以第一时间收到更新。

You may also like...

5 Responses

  1. July 17, 2022

    […] 第五讲:Model Distributed training的介绍 […]

  2. July 17, 2022

    […] 第五讲:Model Distributed training的介绍 […]

  3. July 31, 2022

    […] 第五讲:Model Distributed training的介绍 […]

  4. July 31, 2022

    […] 第五讲:Model Distributed training的介绍 […]

  5. August 1, 2022

    […] 第五讲:Model Distributed training的介绍 […]

Leave a Reply

Your email address will not be published.