算法工程师的开发环境都是什么样的？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 1568 days ago, the information mentioned may be changed or developed.

各位算法工程师，你们平时在公司内部开发模型，做实验，上线模型的环境是什么样的？方便分享一下经验吗？我们最近想在内部统一开发环境，这是我们初步的构想：

使用 jupyterhub 跑在 k8s 上为多位工程师自助式提供 jupyter 的环境
提供若干个常见的算法开发镜像，启动 jupyter 环境的时候可以选择（ tensorflow ，pytorch 之类的）
使用 GPU 设备插件，来像算法同事提供带 GPU 的环境
鼓励大家使用 mlflow 来管理实验
使用kubeflow pipeline和 notebook 中的elyra 插件来使用多个 notebook 构建复杂的算法流程，方便重复实验
批量推理的话也是使用 kubeflow pipeline 来完成
在线推理的话使用kserve通过写 yaml 的方式完成

这套东西看起来很美好，就是组件比较多，比较大的依赖 kubeflow 这个项目，这个项目的成熟度不知如何。

不知道大家有什么最佳实践可以分享吗？公司属于中小规模，没有什么历史负担。已经在使用 k8s ，业务主要是提供各种定制化的 AI 服务 API ，所以对上线速度和开发效率比较看重。

谢谢

kubeflow

算法

pipeline

k8s

12 replies • 2022-04-12 00:49:18 +08:00

Calibans

Apr 9, 2022 via iPhone

同问

0x4F5DA2

Apr 9, 2022

现在做 cv 相关的算法，感觉整这些上手难度还挺大的。有时候想把最新论文的开源代码跑起来，在你这套框架下面就不知道怎么弄，目测工作量会很大。

之前实习过三家公司。有两家是在 docker 里跑 jupyter lab 或者 vscode ，提供终端和代码编辑，然后就能像用物理机一样用，也可以支持类 slurm 那样提交任务排队等调度；还有一家用的是 slurm ，需要在本地开发并调试好之后提交任务去跑。

0x4F5DA2

Apr 9, 2022

最简单的肯定提供物理机，然后一人一个账号，用来做开发和调试，然后写个脚本定期杀长时间的 gpu 任务。然后整一个 slurm 的集群，用来提交任务跑代码。

dayeye2006199

Apr 9, 2022 via Android

@0x4F5DA2 Jupyter 带 terminal 的环境，可以要一个带 GPU 的 lab 容器，然后 gitclone 开源代码到容器里调试运行，是否可以满足需要？

vscode 也可以作为开发环境提供。容器里面运行一个 coder 的进程，然后暴露给用户。

yzbythesea

Apr 9, 2022

上线模型都是基于云计算厂商已有服务搭建的。本地开发就是容器化。

tfdetang

Apr 9, 2022

1 、以前也用过 kubeflow 的方案。说实话维护起来还是蛮重的，学习成本也并不低；
2 、kubeflow+jupyterhub 那套用来做数据探索和模型 prototype 还是非常好用的。正式的训练任务还是写成代码工程进行版本管理的，用 notebook 串联还是觉得不是很严谨；
3 、我们现在实验管理也都是完全放在 mlflow 上了，还是很方便的。训练以后关键的配置文件和模型一起作为 artifacts 放到对象存储上，保证拉取模型的时候与配套的配置一起使用；

4 、推理那块我们用的是 Triton Serving 的推理框架(不过一些 tensorflow 的模型还跑在 TF serving 下)

0x4F5DA2

Apr 9, 2022

@dayeye2006199 我觉得吧，在不改变现有的使用习惯的前提下，提供新的功能，就还 OK

Jasonkkk

Apr 9, 2022 via iPhone

@0x4F5DA2 我们离线模型就是这样的，甚至没有 slurm 。也可以选择在公司级别的云平台上跑例行。可能我们是策略岗所以没这些环境，研究员可能专业点

zhoujinjing09

Apr 9, 2022

你们有专人维护 k8s 吗，kubeflow 维护起来还是比较麻烦的

dayeye2006199

Apr 11, 2022

各位老铁收藏很热情，回答的热情也走起来把

suixn

Apr 11, 2022

TME 之前开源了一套方案，可以参考下。
https://github.com/tencentmusic/cube-studio

dayeye2006199

Apr 12, 2022 via Android

@suixn 恩这个是在 kubeflow 的多个组件上进行了定制和二次开发吗？