各位算法工程师,你们平时在公司内部开发模型,做实验,上线模型的环境是什么样的?方便分享一下经验吗? 我们最近想在内部统一开发环境,这是我们初步的构想:
- 使用 jupyterhub 跑在 k8s 上为多位工程师自助式提供 jupyter 的环境
- 提供若干个常见的算法开发镜像,启动 jupyter 环境的时候可以选择( tensorflow ,pytorch 之类的)
- 使用 GPU 设备插件,来像算法同事提供带 GPU 的环境
- 鼓励大家使用 mlflow 来管理实验
- 使用kubeflow pipeline和 notebook 中的elyra 插件来使用多个 notebook 构建复杂的算法流程,方便重复实验
- 批量推理的话也是使用 kubeflow pipeline 来完成
- 在线推理的话使用kserve通过写 yaml 的方式完成
这套东西看起来很美好,就是组件比较多,比较大的依赖 kubeflow 这个项目,这个项目的成熟度不知如何。
不知道大家有什么最佳实践可以分享吗?公司属于中小规模,没有什么历史负担。已经在使用 k8s ,业务主要是提供各种定制化的 AI 服务 API ,所以对上线速度和开发效率比较看重。
谢谢