Model Training with Kubeflow

by admin · June 21, 2022

本周我们迎来了k8s系列的最后一讲，同时也为下一个系列ML Platform做了引子，感谢张程的精彩讲座，相关总结如下：

Slides

张程使用的slides。
Kubernetes系列讲座总结：
- 第一讲：kubernetes整体架构和配置介绍
- 第二讲：典型的k8s线上运维问题分享会
- 第三讲：Kubernetes Pod的介绍
- 第四讲：Kubernetes 核心组件的介绍
- 第五讲：Kubernetes的Auto Scaler介绍
- 第六讲：Kubernetes resource model introduction
- 第七讲：Model Training with Kubeflow

Q&A

感谢张程亲自为我们做的笔记。

Kubefolw 和 airflow有什么区别? what’s the benefit and advantage of kubeflow over airflow?

both are orchestration tool on the distribution cluster。Kubeflow更适用于模型训练，因为内置了很多调参机制，神经网络框架等。但是使用也更复杂一点；Airflow: 更适用于处理数据data processing,可以用来跑不同的spark jobs.
【扩展】What are the differences between airflow and Kubeflow pipeline? : StackOverflow上的讨论。
【扩展】最好的任务编排工具：Airflow vs Luigi vs Argo vs MLFlow vs KubeFlow

模型训练中的baseline是什么？

就是用现有模型训练和你的实验跑一样的数据来作参考。
【扩展】深度学习baseline模型_深度学习模型训练流程
【扩展】机器学习算法的baseline指的是什么呢？
【扩展】pipeline和baseline是什么？

Parameter server除了存储weight还有别的功能吗？每个task worker能独立处理一个layer吗？还是多个task worker合起来处理一个layer?

如果有多个人同时改动一个模型，为什么不能像git一样来提交更新？

事实上当多人，多组处理一个模型的时候，实际情况比git复杂的多。这并不是一个线性的问题，而是如何让模型融合不同组提出的不同改进方案的问题。里面必须要设定大量的规则，是不能用git这种简单的方式来解决的。

像gpt3这样超大模型，一台机器的内存放不下，如何进行inference？

请问各位大神training data如果size太大了一般怎么解决？工业界一般都是如何去serve data给 model training？

大规模集群训练的解决办法很多，比如数据并行，或者更复杂的模型并行。一般是通过多台服务器分别计算梯度变化，通过同步或者不同步的方式来更新梯度。
【扩展】超大模型+分布式训练架构和经典论文
【扩展】如何需要对这个项目入门，Shusen Wang老师对并行计算与机器学习的基础解释的很非常好，这里是视频链接。

Google的ML平台叫什么？

VertexAI

再次感谢大家的参与，也希望大家有好的资源能联系我更新这篇文章。谢谢大家。

下周话题安排和往期话题回顾敬请参见《系统设计开荒小分队话题讨论简介》

欢迎大家订阅公众号或者注册邮箱（具体方法见左右侧边栏），可以第一时间收到更新。

Post Views: 1,374

Tags: kubeflow model training

You may also like...

4 Responses

Comments0
Pingbacks4

Kubernetes 核心组件介绍 - 东哥IT笔记

June 21, 2022

[…] 第七讲：Model Training with Kubeflow […]
Kubernetes Pod的介绍 - 东哥IT笔记

June 21, 2022

[…] 第七讲：Model Training with Kubeflow […]
典型的k8s线上运维问题分享会 - 东哥IT笔记

June 21, 2022

[…] 第七讲：Model Training with Kubeflow […]
kubernetes整体架构和配置介绍 - 东哥IT笔记

June 21, 2022

[…] 第七讲：Model Training with Kubeflow […]

Leave a Reply Cancel reply