以下代码测试了pytorch中不同类型的tensor进行乘法运算的速度快慢([5, 5] * [5 * 10]
):
|
|
看上去整数乘法要比浮点数矩阵乘法快很多。但如果增大矩阵[3, 500, 768] * [768, 768]
:
|
|
在这种情况下,浮点数乘法又要比整数乘法快很多,合理推测是pytorch对浮点数乘法的底层进行了优化。
但如果将推理引擎由CPU换为GPU时,将会发生以下现象:
|
|
这说明目前的CUDA不支持直接加速整数矩阵乘法运算。
以下代码测试了pytorch中不同类型的tensor进行乘法运算的速度快慢([5, 5] * [5 * 10]
):
|
|
看上去整数乘法要比浮点数矩阵乘法快很多。但如果增大矩阵[3, 500, 768] * [768, 768]
:
|
|
在这种情况下,浮点数乘法又要比整数乘法快很多,合理推测是pytorch对浮点数乘法的底层进行了优化。
但如果将推理引擎由CPU换为GPU时,将会发生以下现象:
|
|
这说明目前的CUDA不支持直接加速整数矩阵乘法运算。