两个占用内存大小 20G+的矩阵做相乘， 10 块 GPU

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 1597 days ago, the information mentioned may be changed or developed.

计算逻辑很简单就是: a@b 想使用 pytorch 做 GPU 计算，10 块 GPU 的显存都是 10G ，想问问大家有好办法吗？

GPU

pytorch

计算

矩阵

14 replies • 2021-12-13 13:19:54 +08:00

Scirocco

Dec 11, 2021

说实话没怎么看明白。。就是普通的矩阵作乘法吗？那感觉没必要用 pytorch 呀？

gckend

Dec 11, 2021

@Scirocco 主要是为了方便做 GPU 计算，其他框架也可以

Scirocco

Dec 11, 2021

@gckend #2 或许可以考虑直接用 C 写 cuda 程序？

不过我也不知道 20G 这么大的矩阵怎么处理，以及多 GPU 怎么一起用。。只能提供思路，抛砖引玉 2333

mingl0280

Dec 11, 2021

https://chiemon.github.io/2020/02/06/CUDA-%E7%9F%A9%E9%98%B5%E4%B9%98%E6%B3%95-%E4%BC%98%E5%8C%96%E5%8F%8A%E6%80%A7%E8%83%BD%E5%88%86%E6%9E%90-%E4%B8%8A.html

miracleyin

Dec 11, 2021

如果是稀疏矩阵的话可以通过 TORCH.SPARSE 这样的 api 来写，如果是非稠密的可能得思考为什么会有那么大的矩阵乘法了。

gckend

Dec 11, 2021

@mingl0280 谢谢，不过这个并不适合我的场景。

@miracleyin 是稠密矩阵，应用场景如此，直接乘可能不行，想要找个合适的切割矩阵的方案。

Juszoe

Dec 11, 2021

可以考虑用矩阵分块乘法，可以将一次矩阵乘法分步计算，用 pytorch 应该不难实现，同时还能利用多块 GPU

hbdh5

Dec 11, 2021

简单分个块不就可以么，20g+的话分成 2x2 就行了，数据算完就取回内存或者先暂存到磁盘，乘的时候可以用 strassen 算法能减少一次子块乘

woctordho

Dec 11, 2021 via Android

原理无非就是分块，可以试试 Dask 这个包

c0xt30a

Dec 11, 2021

ABx = A(Bx)
如果有 x 这个向量的话

zhoujinjing09

Dec 12, 2021

分块就行了呀，就要手动分一下

dayeye2006199

Dec 12, 2021

这个需要 out of core computation
不考虑用 GPU 的话可以考虑

http://xarray.pydata.org/en/stable/dask.html
或者
https://docs.dask.org/en/stable/array.html

zhoujinjing09

Dec 12, 2021

或者精度要求不高的话可以考虑半精度，bfloat16 或者 tf32

necomancer

Dec 13, 2021

矩阵分块

|A B| |E F| = | AE+BG AF +BH|
|C D| |G H| |CE+DG CF+DH|