关于tensorflow:Blas GEMM启动失败:此错误是什么意思?

Blas GEMM launch failed: what does this error mean?

我在执行昨天运行良好的简单Tensorflow模型时遇到问题。 我怀疑,整个问题与给出的错误有关

1
      Blas GEMM launch failed

在控制台中说:

1
  tensorflow/core/common_runtime/gpu/gpu_util.cc:343] CPU->GPU Memcpy failed

我的印象是,这可能与我基于此的CUDA安装有关

TensorFlow:Blas GEMM启动失败

但是,我看不到如何运行simpleCUBLAS示例。 我是CUDA的新手。

我有4个1080ti GPU(Ubuntu 16.04,TensorFlow 1.3.0),但我还没有发现任何占用GPU内存的僵尸进程。 任何帮助是极大的赞赏。


所以在生气了几天后我找到了答案。 我先跑了

我这样做:

1
2
3
 cd /usr/local/cuda/samples/7_CUDALibraries/simpleCUBLAS
 make
 ./simpleCUBLAS

检查我的CUBLAS安装。 它返回了CUBLAS初始化失败!!!

所以接下来我做了这个(基于建议)

1
 sudo rm -f ~/.nv

而且有效。 希望这可以拯救别人。 看到它似乎很容易。

值得一提的另一件事是,此问题有时还会引发此错误:

1
2
3
    tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
    tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
    tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)

这很神秘-每个人都认为这是一个内存问题,而且可以肯定的是,在我建立TF模型的过程中,我的GPU被python占用了。 但是正是CUBLAS错误使我找到了解决方案。