Model Training with Kubeflow

本周我们迎来了k8s系列的最后一讲,同时也为下一个系列ML Platform做了引子,感谢张程的精彩讲座,相关总结如下:

Slides

  1. 张程使用的slides
  2. Kubernetes系列讲座总结:

Q&A

感谢张程亲自为我们做的笔记。

Kubefolw 和 airflow有什么区别? what’s the benefit and advantage of kubeflow over airflow?

  1. both are orchestration tool on the distribution cluster。Kubeflow更适用于模型训练,因为内置了很多调参机制,神经网络框架等。但是使用也更复杂一点;Airflow: 更适用于处理数据data processing,可以用来跑不同的spark jobs.
  2. 【扩展】What are the differences between airflow and Kubeflow pipeline? : StackOverflow上的讨论。
  3. 【扩展】最好的任务编排工具:Airflow vs Luigi vs Argo vs MLFlow vs KubeFlow

模型训练中的baseline是什么?

  1. 就是用现有模型训练和你的实验跑一样的数据来作参考。
  2. 【扩展】深度学习baseline模型_深度学习模型训练流程
  3. 【扩展】机器学习算法的baseline指的是什么呢?
  4. 【扩展】pipeline和baseline是什么?

Parameter server除了存储weight还有别的功能吗?每个task worker能独立处理一个layer吗?还是多个task worker合起来处理一个layer?

  1. 都可以, 看具体怎么设置。
  2. 【扩展】ParameterServer入门和理解
  3. 【扩展】最近比较火的parameter server是什么?
  4. 【扩展】深入浅出之「Parameter Server」架构

如果有多个人同时改动一个模型,为什么不能像git一样来提交更新?

  1. 事实上当多人,多组处理一个模型的时候,实际情况比git复杂的多。这并不是一个线性的问题,而是如何让模型融合不同组提出的不同改进方案的问题。里面必须要设定大量的规则,是不能用git这种简单的方式来解决的。

像gpt3这样超大模型,一台机器的内存放不下,如何进行inference?

  1. 【扩展】机器学习模型太大难部署?这里有 3 个解决方案
  2. 【扩展】搞定大模型训练
  3. 【扩展】GPT-3模型为何难以复现?这也许是分布式AI框架的最优设计

请问各位大神training data如果size太大了一般怎么解决?工业界一般都是如何去serve data给 model training?

  1. 大规模集群训练的解决办法很多,比如数据并行,或者更复杂的模型并行。一般是通过多台服务器分别计算梯度变化,通过同步或者不同步的方式来更新梯度。
  2. 【扩展】超大模型+分布式训练架构和经典论文
  3. 【扩展】如何需要对这个项目入门,Shusen Wang老师对并行计算与机器学习的基础解释的很非常好,这里是视频链接

Google的ML平台叫什么?

  1. VertexAI

再次感谢大家的参与,也希望大家有好的资源能联系我更新这篇文章。谢谢大家。

下周话题安排和往期话题回顾敬请参见《系统设计开荒小分队话题讨论简介

欢迎大家订阅公众号或者注册邮箱(具体方法见左右侧边栏),可以第一时间收到更新。

You may also like...

4 Responses

  1. June 21, 2022

    […] 第七讲:Model Training with Kubeflow […]

  2. June 21, 2022

    […] 第七讲:Model Training with Kubeflow […]

  3. June 21, 2022

    […] 第七讲:Model Training with Kubeflow […]

  4. June 21, 2022

    […] 第七讲:Model Training with Kubeflow […]

Leave a Reply

Your email address will not be published.