KServe和Triton的介绍 — realtime inference
本周我们继续ML Platform的第七讲,也是最后一讲,很高兴邀请到Way给我们带来的《KServe和Triton的介绍 》,相关内容总结如下:
Slides
- Way使用的slides
- ML Platform系列讲座总结:
Q&A
感谢Nancy帮忙做的总结:
- Model Mesh serving of KServe
- “ModelMesh addresses the challenge of deploying hundreds or thousands of machine learning models throsugh an intelligent trade-off between latency and total cost of compute resources. “
- Model Mesh是KServe 0.7版本提出的Multi-model serving方案,适用于大规模,高密度的model scenarios. ModelMesh致力于解决的问题主要有三类:1)sidecar等额外resource的开销;2)k8s有max pod的限制,好像一个cluster是1000pod;3)k8s 的max ip限制。
- Model Mesh有三种不同的serving runtime选择,triton是其中一种。这三种serving runtime给用户体验上没什么区别,都是multi model使用同一个endpoint,但有一些细小的区别,例如有的runtime不支持不同model同时运行,但是有的可以同时跑,例如triton。
- 用户在使用Model mesh时可以设定memory的threshold,然后在model loading中达到threshold后可以evict最不常用的model。此外,model serve可以对非常常用的model自动增加copy,并不需要用户额外设定。
- 以下是额外的学习链接:
- Inference graph of KServe Inference graph是Kserve最新版本0.9出来的feature。在此之前,Kserve最多支持一个single model加pre和post processing,但是model只能是一个。 2022年Q1提出这个方案,如今的0.9release版本就实现了,但是目前好像没有production在用这个feature。 Inference graph不仅可以ensemble inference,还可以在不同model间split traffic(按照某个比例),或者按照condition分发traffic到不同的model。
- 以下是额外的学习链接: (因为非常新,所以目前除官方文档外的介绍还比较有限)
再次感谢大家的参与,也希望大家有好的资源能联系我更新这篇文章,或者在下面留言。谢谢大家。
下周话题安排和往期话题回顾敬请参见《系统设计开荒小分队话题讨论简介》
欢迎大家订阅公众号或者注册邮箱(具体方法见左右侧边栏),可以第一时间收到更新。
4 Responses
[…] 第七讲:KServe和Triton的介绍 — realtime inference […]
[…] 第七讲:KServe和Triton的介绍 — realtime inference […]
[…] 第七讲:KServe和Triton的介绍 — realtime inference […]
[…] 第七讲:KServe和Triton的介绍 — realtime inference […]