KServe和Triton的介绍 — realtime inference

本周我们继续ML Platform的第七讲,也是最后一讲,很高兴邀请到Way给我们带来的《KServe和Triton的介绍 》,相关内容总结如下:

Slides

  1. Way使用的slides
  2. ML Platform系列讲座总结:

Q&A

感谢Nancy帮忙做的总结:

  • Model Mesh serving of KServe
    • “ModelMesh addresses the challenge of deploying hundreds or thousands of machine learning models throsugh an intelligent trade-off between latency and total cost of compute resources. “
    • Model Mesh是KServe 0.7版本提出的Multi-model serving方案,适用于大规模,高密度的model scenarios. ModelMesh致力于解决的问题主要有三类:1)sidecar等额外resource的开销;2)k8s有max pod的限制,好像一个cluster是1000pod;3)k8s 的max ip限制。
    • Model Mesh有三种不同的serving runtime选择,triton是其中一种。这三种serving runtime给用户体验上没什么区别,都是multi model使用同一个endpoint,但有一些细小的区别,例如有的runtime不支持不同model同时运行,但是有的可以同时跑,例如triton。
    • 用户在使用Model mesh时可以设定memory的threshold,然后在model loading中达到threshold后可以evict最不常用的model。此外,model serve可以对非常常用的model自动增加copy,并不需要用户额外设定。
    • 以下是额外的学习链接:
  • Inference graph of KServe Inference graph是Kserve最新版本0.9出来的feature。在此之前,Kserve最多支持一个single model加pre和post processing,但是model只能是一个。 2022年Q1提出这个方案,如今的0.9release版本就实现了,但是目前好像没有production在用这个feature。 Inference graph不仅可以ensemble inference,还可以在不同model间split traffic(按照某个比例),或者按照condition分发traffic到不同的model。

再次感谢大家的参与,也希望大家有好的资源能联系我更新这篇文章,或者在下面留言。谢谢大家。

下周话题安排和往期话题回顾敬请参见《系统设计开荒小分队话题讨论简介

欢迎大家订阅公众号或者注册邮箱(具体方法见左右侧边栏),可以第一时间收到更新。

You may also like...

4 Responses

  1. August 9, 2022

    […] 第七讲:KServe和Triton的介绍 — realtime inference […]

  2. August 9, 2022

    […] 第七讲:KServe和Triton的介绍 — realtime inference […]

  3. August 9, 2022

    […] 第七讲:KServe和Triton的介绍 — realtime inference […]

  4. August 9, 2022

    […] 第七讲:KServe和Triton的介绍 — realtime inference […]

Leave a Reply

Your email address will not be published.