训练回归网络时NaN损失

傅泉

2023-03-14

问题内容：

我有一个“一键编码”（全1和全0）的数据矩阵，具有260,000行和35列。我正在使用Keras训练简单的神经网络来预测连续变量。组成网络的代码如下：

model = Sequential()
model.add(Dense(1024, input_shape=(n_train,)))
model.add(Activation('relu'))
model.add(Dropout(0.1))

model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dropout(0.1))

model.add(Dense(256))
model.add(Activation('relu'))
model.add(Dropout(0.1))
model.add(Dense(1))

sgd = SGD(lr=0.01, nesterov=True);
#rms = RMSprop()
#model.compile(loss='categorical_crossentropy', optimizer=rms, metrics=['accuracy'])
model.compile(loss='mean_absolute_error', optimizer=sgd)
model.fit(X_train, Y_train, batch_size=32, nb_epoch=3, verbose=1, validation_data=(X_test,Y_test), callbacks=[EarlyStopping(monitor='val_loss', patience=4)] )

但是，在训练过程中，我看到损失下降得很好，但是在第二个时期的中间，它就变成了nan：

Train on 260000 samples, validate on 64905 samples
Epoch 1/3
260000/260000 [==============================] - 254s - loss: 16.2775 - val_loss:
 13.4925
Epoch 2/3
 88448/260000 [=========>....................] - ETA: 161s - loss: nan

我尝试使用RMSProp代替SGD，尝试tanh替代relu，尝试使用和不使用辍学，但都无济于事。我尝试使用较小的模型，即仅具有一个隐藏层，并且存在相同的问题（在不同的点它变得很困难）。但是，它确实具有较少的功能，即只有5列，并且给出了很好的预测。似乎有某种溢出，但我无法想象为什么-
损失根本不是不合理的大。

Python版本2.7.11，仅在CPU上的Linux机器上运行。我使用最新版的Theano进行了测试，并且我也得到了Nans，因此我尝试使用Theano
0.8.2并遇到了同样的问题。与最新版本的Keras具有相同的问题，并且也与0.3.2版本相同。

问题答案：

由于输出是无穷大的，因此难以使用神经网络进行回归，因此，您特别容易出现爆炸梯度问题（可能是nans的原因）。

从历史上看，爆炸梯度的一种关键解决方案是降低学习率，但是随着像Adam这样的每参数自适应学习率算法的出现，您不再需要设置学习率即可获得良好的性能。除非您是神经网络的恶魔并且知道如何调整学习时间表，否则几乎没有理由再使用SGD了。

您可以尝试以下操作：

通过分位数归一化或z评分对输出进行归一化。为严格起见，请根据训练数据而不是整个数据集计算此转换。例如，使用分位数归一化，如果示例位于训练集的第60个百分位数中，则其值为0.6。（您也可以将分位数归一化值向下移动0.5，以使第0个百分位数为-0.5，第100个百分位数为+0.5）。
通过增加辍学率或对权重添加L1和L2惩罚来增加正则化。L1正则化类似于特征选择，并且由于您说过将特征数减少到5可以提供良好的性能，因此L1也可以。
如果这些仍然无法解决问题，请减小网络规模。这并不总是最好的主意，因为它会损害性能，但是在您的情况下，相对于输入特征（35），您拥有大量的第一层神经元（1024），因此可能会有所帮助。
将批次大小从32增加到128。128是相当标准的，可能会增加优化的稳定性。

训练回归网络时NaN损失

相关阅读

相关文章

相关问答

相关工具

相关文档