Model Training with Kubeflow
本周我们迎来了k8s系列的最后一讲,同时也为下一个系列ML Platform做了引子,感谢张程的精彩讲座,相关总结如下:
Slides
- 张程使用的slides。
- Kubernetes系列讲座总结:
Q&A
感谢张程亲自为我们做的笔记。
Kubefolw 和 airflow有什么区别? what’s the benefit and advantage of kubeflow over airflow?
- both are orchestration tool on the distribution cluster。Kubeflow更适用于模型训练,因为内置了很多调参机制,神经网络框架等。但是使用也更复杂一点;Airflow: 更适用于处理数据data processing,可以用来跑不同的spark jobs.
- 【扩展】What are the differences between airflow and Kubeflow pipeline? : StackOverflow上的讨论。
- 【扩展】最好的任务编排工具:Airflow vs Luigi vs Argo vs MLFlow vs KubeFlow
模型训练中的baseline是什么?
- 就是用现有模型训练和你的实验跑一样的数据来作参考。
- 【扩展】深度学习baseline模型_深度学习模型训练流程
- 【扩展】机器学习算法的baseline指的是什么呢?
- 【扩展】pipeline和baseline是什么?
Parameter server除了存储weight还有别的功能吗?每个task worker能独立处理一个layer吗?还是多个task worker合起来处理一个layer?
- 都可以, 看具体怎么设置。
- 【扩展】ParameterServer入门和理解
- 【扩展】最近比较火的parameter server是什么?
- 【扩展】深入浅出之「Parameter Server」架构
如果有多个人同时改动一个模型,为什么不能像git一样来提交更新?
- 事实上当多人,多组处理一个模型的时候,实际情况比git复杂的多。这并不是一个线性的问题,而是如何让模型融合不同组提出的不同改进方案的问题。里面必须要设定大量的规则,是不能用git这种简单的方式来解决的。
像gpt3这样超大模型,一台机器的内存放不下,如何进行inference?
请问各位大神training data如果size太大了一般怎么解决?工业界一般都是如何去serve data给 model training?
- 大规模集群训练的解决办法很多,比如数据并行,或者更复杂的模型并行。一般是通过多台服务器分别计算梯度变化,通过同步或者不同步的方式来更新梯度。
- 【扩展】超大模型+分布式训练架构和经典论文
- 【扩展】如何需要对这个项目入门,Shusen Wang老师对并行计算与机器学习的基础解释的很非常好,这里是视频链接。
Google的ML平台叫什么?
再次感谢大家的参与,也希望大家有好的资源能联系我更新这篇文章。谢谢大家。
下周话题安排和往期话题回顾敬请参见《系统设计开荒小分队话题讨论简介》
欢迎大家订阅公众号或者注册邮箱(具体方法见左右侧边栏),可以第一时间收到更新。
4 Responses
[…] 第七讲:Model Training with Kubeflow […]
[…] 第七讲:Model Training with Kubeflow […]
[…] 第七讲:Model Training with Kubeflow […]
[…] 第七讲:Model Training with Kubeflow […]