深度学习中损失值(loss值)为nan（以tensorflow为例）

阳光非宅男

2020-04-20

我做的是一个识别验证码的深度学习模型，识别的图片如下

深度学习中损失值(loss值)为nan（以tensorflow为例）
验证码图片识别4个数字，数字间是有顺序的，设立标签时设计了四个onehot向量链接起来，成了一个长度为40的向量，然后模型的输入也是40维向量
用softmax_cross_entropy_with_logits(labels=,logits=)函数计算输出与标签的损失，发现损失值一直在增大，直到nan。
然后打印了输出值，发现也是很大。觉得是梯度爆炸的原因，用梯度裁剪、限制权重值等方法一通结束之后发现根本没什么改变。
最后只放入两张图片，发现模型拟合的仍然不够好。这么大的网络不能拟合好两张图片显然是不对的。我将正则化、droupout、滑动平均全部注释掉，将代码化简到最小，并且替换了之前的没有问题的别的模型，扔存在这个问题。想到了应该处在最原始的图片标签与损失函数上，检查了图片标签发现都能对应上，最后看损失函数发现softmax_cross_entropy_with_logits(labels=,logits=)损失函数算40维向量之间的损失的实际意义是计算40个分类中排名最靠前的4中可能，与分别计算4个10分类onehot值不同。总之是哪里出了问题，于是将标签与输出值都做了处理，分解成4个y=tf.reshape(y,[-1,4,10])。再用同样的损失函数处理。loss值立马下降。这里的问题我还没有太想明白，只是初步分析了一下解决的方法。如果有大神知道其中的缘由希望给予指点。

tensorflow 深度学习机器学习

安科网

深度学习中损失值(loss值)为nan（以tensorflow为例）

阳光非宅男

阳光非宅男

相关推荐

如何在PyTorch和TensorFlow中训练图像分类模型

TensorFlow Lattice：灵活、可控、可解释的机器学习

TensorFlow 2入门指南，初学者必备！

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

对比PyTorch和TensorFlow的自动差异和动态模型

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

TensorFlow推出新接口，简化 ML移动端开发流程

如何在浏览器中使用TensorFlow？

2020年深度学习框架对比速读

输入示例，自动生成代码：TensorFlow官方工具TF-Coder已开源

使用tensorflow进行音乐类型的分类

【tensorflow】常量和变量的定义

如何在tensorflow中判断tensor(张量)的值

TensorFlow会话常用的两种方式

Ｍnist手写数字识别 Tensorflow

TensorFlow被曝存严重bug，搭配Keras可能丢失权重，至今仍未修复

TensorFlow中超大的30个机器学习数据集

解决import tensorflow报错：ImportError: DLL load failed: 找不到指定的模块

Yolo v3 Introduction to object detection with TensorFlow 2

Sklearn 与 TensorFlow 机器学习实用指南第二版

阳光非宅男