Blas GEMM launch failed: what does this error mean?
我在执行昨天运行良好的简单Tensorflow模型时遇到问题。 我怀疑,整个问题与给出的错误有关
1 | Blas GEMM launch failed |
在控制台中说:
1 | tensorflow/core/common_runtime/gpu/gpu_util.cc:343] CPU->GPU Memcpy failed |
我的印象是,这可能与我基于此的CUDA安装有关
TensorFlow:Blas GEMM启动失败
但是,我看不到如何运行simpleCUBLAS示例。 我是CUDA的新手。
我有4个1080ti GPU(Ubuntu 16.04,TensorFlow 1.3.0),但我还没有发现任何占用GPU内存的僵尸进程。 任何帮助是极大的赞赏。
所以在生气了几天后我找到了答案。 我先跑了
我这样做:
1 2 3 | cd /usr/local/cuda/samples/7_CUDALibraries/simpleCUBLAS make ./simpleCUBLAS |
检查我的CUBLAS安装。 它返回了CUBLAS初始化失败!!!
所以接下来我做了这个(基于建议)
1 | sudo rm -f ~/.nv |
而且有效。 希望这可以拯救别人。 看到它似乎很容易。
值得一提的另一件事是,此问题有时还会引发此错误:
1 2 3 | tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) |
这很神秘-每个人都认为这是一个内存问题,而且可以肯定的是,在我建立TF模型的过程中,我的GPU被python占用了。 但是正是CUBLAS错误使我找到了解决方案。