深度学习模型部署问题

（ 1 ）有一种锁的机制，哪个线程拿到锁就进行推理，之后进行下一个线程的推理，实际上的串行。
（ 2 ）模型内部类似于函数调用，虽然有 GIL 但是每个线程的推理是实际上的并行，推理速度变慢，但都在慢慢进行。
另外当这个模型是使用 GPU 进行运算的时候，上面的情形下的处理逻辑是一样的吗？请大佬指点

线程

推理

模型

并行

5 replies • 2019-12-21 23:39:38 +08:00

Latin

Dec 18, 2019

用 gpu 只会加快算法处理速度，不会加快线程运行

lonelygo

Dec 18, 2019

tf 的 serving 可以看看
https://www.tensorflow.org/tfx/guide/serving

shicheng1993

Dec 18, 2019

谢谢两位
@Latin 额，我问的不是这个。是模型与进程线程并发之间的关系，不是运算速度。
@lonelygo tf 的 serving 这个会用，但是 rpc 调用时，传输预处理后的数据，相对于运算量开销太大，没有使用。他这个是黑箱，不能解决我上面手动部署中的疑问。

yangyaofei

Dec 18, 2019

GPU 内部已经把处理都拆成无数个线程了,感觉多线程意义不大...
如果是多线程的话,我觉得是计算的时候 python block,然后后端是并行的,所以看起来应该是并行的样子,但是 GPU 资源有限,最终没啥区别.用 tf serving 还是最理想的办法....不用处理 batching,优先级等等的问题

tedeyang

Dec 21, 2019

CPU 主进程加载模型，其他线程调用，这种情况下推理计算是串行的。就是传统的并发问题，你可以用 openvino/opencl 来做并行编程。
GPU 任何时间点基本只做一个模型的 predict，但模型内调用的 cuda 是有上万个 core 并行计算。