Tensorflow-gpu训练SSD时遇到的问题及解决方法
训练环境与步骤参考链接:
https://www.cnblogs.com/hayley111/p/12918678.html
问题一:使用GTX2080的显卡,在batch_size只有8的情况下,训练速度只有2-3秒每步。
另开窗口使用如下指令查看GPU占用情况,指令如下:
nvidia-smi -l
结果如下:(如果你和我一样GPU占用率很低,说明cuda没有正常运行)
问题原因:cuda没有成功启动,只有cudnn在运行。
解决方法:
第一步:重新切换到cuda10.0
切换cuda版本 tensorflow1.12使用cuda9.0
yolo,tensorflow1.14等使用cuda10.0
cd /usr/local
删除之前的软链接
sudo rm -rf cuda
重新创建软连接到10.0
sudo ln -sf cuda-10.0 cuda
第二步:安装keras(我这里选的是2.2.4版本的)
pip install keras==2.2.4
第三步:修改train.py代码,增加几行代码如下:
import keras config = tf.ConfigProto() config.gpu_options.allow_growth = True keras.backend.tensorflow_backend.set_session(tf.Session(config=config))
添加位置如下:
重新执行你的训练指令就可以了。
正常使用GPU训练的情况下,GPU占用情况如下。
在我的训练中,成功启动cuda后,速度提升了10倍。
问题二:
慢慢补充ing
相关推荐
86417413 2020-11-25
星愿心愿 2020-11-24
bluecarrot 2020-11-23
82216135 2020-11-19
85276131 2020-11-18
82256036 2020-11-18
梁柏林 2020-11-16
80266038 2020-11-15
simonzhao0 2020-11-23
EdwardSiCong 2020-11-23
wfs 2020-10-29
bwyyziq 2020-11-22
CosEmon 2020-11-13
aydh 2020-11-12
NANGEBOKE 2020-11-23
yangkang 2020-11-12