用于回归问题的深度神经网络

tianbwin

2018-09-30

关注关注

用于回归问题的深度神经网络

神经网络对于分类问题是众所周知的，例如，它们用于手写数字分类，但问题是如果我们将它们用于回归问题会有成效吗？

在本文中，我将使用深度神经网络使用Kaggle的数据集来预测房屋定价。

您可以从此处下载数据集（https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data）

首先，我们将导入所需的Python依赖项：

from keras.callbacks import ModelCheckpoint
from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error 
from matplotlib import pyplot as plt
import seaborn as sb
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import warnings 
warnings.filterwarnings('ignore')
warnings.filterwarnings('ignore', category=DeprecationWarning)
from xgboost import XGBRegressor

处理数据集

我们不会深入处理数据集，我们要做的就是准备好将数据集输入到我们的机器学习模型中。

我们将摆脱任何缺失值的特征，然后我们将对分类特征进行编码，就是这样。

加载数据集：

将训练和测试数据加载到pandas DataFrames中
结合训练和测试数据一起处理它们

Python代码如下：

def get_data():
 #get train data
 train_data_path ='train.csv'
 train = pd.read_csv(train_data_path)
 
 #get test data
 test_data_path ='test.csv'
 test = pd.read_csv(test_data_path)
 
 return train , test
def get_combined_data():
 #reading train data
 train , test = get_data()
 target = train.SalePrice
 train.drop(['SalePrice'],axis = 1 , inplace = True)
 combined = train.append(test)
 combined.reset_index(inplace=True)
 combined.drop(['index', 'Id'], inplace=True, axis=1)
 return combined, target
#Load train and test data into pandas DataFrames
train_data, test_data = get_data()
#Combine train and test data to process them together
combined, target = get_combined_data()
combined.describe()

用于回归问题的深度神经网络

让我们定义一个函数来获得没有任何缺失值的列，Python代码如下：

def get_cols_with_no_nans(df,col_type):
 '''
 Arguments :
 df : The dataframe to process
 col_type : 
 num : to only get numerical columns with no nans
 no_num : to only get nun-numerical columns with no nans
 all : to get any columns with no nans 
 '''
 if (col_type == 'num'):
 predictors = df.select_dtypes(exclude=['object'])
 elif (col_type == 'no_num'):
 predictors = df.select_dtypes(include=['object'])
 elif (col_type == 'all'):
 predictors = df
 else :
 print('Error : choose a type (num, no_num, all)')
 return 0
 cols_with_no_nans = []
 for col in predictors.columns:
 if not df[col].isnull().any():
 cols_with_no_nans.append(col)
 return cols_with_no_nans

用于回归问题的深度神经网络

获取没有任何缺失值的列

num_cols = get_cols_with_no_nans(combined , 'num')
cat_cols = get_cols_with_no_nans(combined , 'no_num')

让我们看看我们得到了多少列，Python代码如下：

print ('Number of numerical columns with no nan values :',len(num_cols))
print ('Number of nun-numerical columns with no nan values :',len(cat_cols))

[out]:

Number of numerical columns with no nan values : 25

Number of nun-numerical columns with no nan values : 20

combined = combined[num_cols + cat_cols]
combined.hist(figsize = (12,10))
plt.show()

用于回归问题的深度神经网络

特征的直方图

特征之间的相关性

train_data = train_data[num_cols + cat_cols]
train_data['Target'] = target
C_mat = train_data.corr()
fig = plt.figure(figsize = (15,15))
sb.heatmap(C_mat, vmax = .8, square = True)
plt.show()

用于回归问题的深度神经网络

从上面的相关热图中，我们看到大约15个特征与目标高度相关。

分类特征进行One-hot编码

我们将使用One-hot编码对分类特征进行编码。Python代码如下：

def oneHotEncode(df,colNames):
 for col in colNames:
 if( df[col].dtype == np.dtype('object')):
 dummies = pd.get_dummies(df[col],prefix=col)
 df = pd.concat([df,dummies],axis=1)
 #drop the encoded column
 df.drop([col],axis = 1 , inplace=True)
 return df
 
print('There were {} columns before encoding categorical features'.format(combined.shape[1]))
combined = oneHotEncode(combined, cat_cols)
print('There are {} columns after encoding categorical features'.format(combined.shape[1]))

用于回归问题的深度神经网络

[out]:

There were 45 columns before encoding categorical features

There are 149 columns after encoding categorical features

现在，将dataFrame分解为训练数据和测试数据

def split_combined():
 global combined
 train = combined[:1460]
 test = combined[1460:]
 return train , test 
 
 train, test = split_combined()

用于回归问题的深度神经网络

制作深度神经网络

定义序列模型
添加一些dense 层
使用“ relu ”作为隐藏层的激活功能
使用“ normal”初始值设定项作为kernal_intializer
我们将使用mean_absolute_error作为损失函数
仅使用一个节点定义输出层
使用' linear '作为输出层的激活函数

NN_model = Sequential()
# The Input Layer :
NN_model.add(Dense(128, kernel_initializer='normal',input_dim = train.shape[1], activation='relu'))
# The Hidden Layers :
NN_model.add(Dense(256, kernel_initializer='normal',activation='relu'))
NN_model.add(Dense(256, kernel_initializer='normal',activation='relu'))
NN_model.add(Dense(256, kernel_initializer='normal',activation='relu'))
# The Output Layer :
NN_model.add(Dense(1, kernel_initializer='normal',activation='linear'))
# Compile the network :
NN_model.compile(loss='mean_absolute_error', optimizer='adam', metrics=['mean_absolute_error'])
NN_model.summary()

用于回归问题的深度神经网络

定义检查点回调：

Python代码如下：

checkpoint_name = 'Weights-{epoch:03d}--{val_loss:.5f}.hdf5' 
checkpoint = ModelCheckpoint(checkpoint_name, monitor='val_loss', verbose = 1, save_best_only = True, mode ='auto')
callbacks_list = [checkpoint]

训练机器学习模型：

NN_model.fit(train, target, epochs=500, batch_size=32, validation_split = 0.2, callbacks=callbacks_list)

用于回归问题的深度神经网络

# Load wights file of the best model :
wights_file = 'Weights-478--18738.19831.hdf5' # choose the best checkpoint 
NN_model.load_weights(wights_file) # load it
NN_model.compile(loss='mean_absolute_error', optimizer='adam', metrics=['mean_absolute_error'])

我们看到最佳模型的验证损失是18738.19

一点也不差，通过一些更多的预处理和更多的训练，我们可以做得更好。

尝试另一种机器学习（ML）算法：

现在，让我们尝试另一种机器学习（ML）算法来比较结果。

我们将使用随机森林回归和XGBRegressor。

将数据拆分为训练和验证数据

train_X, val_X, train_y, val_y = train_test_split(train, target, test_size = 0.25, random_state = 14)

我们将首先尝试随机森林模型：

model = RandomForestRegressor()

model.fit(train_X,train_y)

# Get the mean absolute error on the validation data

predicted_prices = model.predict(val_X)

MAE = mean_absolute_error(val_y , predicted_prices)

print('Random forest validation MAE = ', MAE)

Random forest validation MAE = 19089.71589041096

现在，让我们尝试XGBoost模型：

XGBModel = XGBRegressor()

XGBModel.fit(train_X,train_y , verbose=False)

# Get the mean absolute error on the validation data :

XGBpredictions = XGBModel.predict(val_X)

MAE = mean_absolute_error(val_y , XGBpredictions)

print('XGBoost validation MAE = ',MAE)

[out]:

XGBoost validation MAE = 17869.75410958904

我真的不认为神经网络会击败随机森林和XGBoost算法，但让我们尽量不要过于乐观，记住我们没有在随机森林和XGBoost模型上配置任何超参数，我相信如果我们这样做，这两个模型将超过神经网络。

总结：

我们加载并处理数据集
我们通过绘制一些直方图和特征的相关热图来熟悉数据集
我们使用了具有三个隐藏层的深度神经网络，每个隐藏层具有256个节点。
我们在输出层上使用了线性激活函数
我们还测试了另外两个模型
我们的深度神经网络能够超越这两个机器学习模型
如果我们调整它们的超参数，这两个模型可以击败深度神经网络模型。

test 深度神经网络 data

tianbwin

0 关注 0 粉丝 0 动态

关注关注

MySQL外键约束的实例讲解

MySQL的外键约束是用来在两个表之间建立链接的，其中一个表发生变化，另外一个表也发生变化。从这个特点来看，它主要是为了保证表数据的一致性和完整性的。也就是说，只要外键的每个非空值出现在指定的主键中，这个外键的内容就是正确的。

敏敏张 2020-11-11

详解MySQL alter ignore 语法

今天上班的时候，业务方问了我这样一个问题：我有一个表，需要添加一个唯一的字段，但是目前这个字段存在一些重复值，有没有好的解决办法。于是我详细询问了一下他的需求，最终得知，这个过程中重复的数据只需要保存一条就可以了，可以容忍一部分数据丢失，而重复的字段恰好是

SCNUHB 2020-11-10

nginx配置proxy_pass中url末尾带/与不带/的区别详解

proxy_pass配置中url末尾带/时，nginx转发时，会将原uri去除location匹配表达式后的内容拼接在proxy_pass中url之后。到此这篇关于nginx配置proxy_pass中url末尾带/与不带/的区别详解的文章就介绍到这了,更多

小木兮子 2020-11-11

PHP dirname(FILE)原理及用法解析

即使这个文件被其他文件引用，__file__始终是它所在文件的完整路径，而不是引用它的那个文件完整路径。dirname;得到的是__FILE__所在文件的上一层目录名。_FILE_ 得到的就是完整路径即 F:\Modoer_2.6_SC_UTF8\upl

wwwsurfphpseocom 2020-10-28

Yii中特殊行为ActionFilter的使用方法示例

'only' => ['test', 'test-one'], // 仅对 'test'、'test-one' 生效。Yii 中的 ActionFilter（过滤器）相当于 Laravel 中的 Middleware（中间件），beforeActio

WasteLand 2020-10-18

四种ABAP单元测试隔离(test isolation)技术

Hi friends, As far as I know test isolation is widely used in SAP internal to build unit test code, at least in my team. Test is

Cocolada 2020-11-12

shiro配合druid使用下URL拦截权限设置为anno时遇到的问题

在使用shiro做权限控制的一个系统中，其中有一个页面需要配置为无需登录就能访问，配置方法如下。这里配置的意思就是所有人都能直接访问 /test 这个路径，但是实际访问时，却报如下错误：

杜鲁门 2020-11-05

使用Java JUnit框架里的@Rule注解的用法举例

Suppose you need to repeatedly execute some test method in your unit test case, for example, you would like to test getPrice bas

shirleypaddy 2020-10-19

使用Java JUnit框架里的@SuiteClasses注解管理测试用例

Suppose I have four test cases in my project, the total methods to be tested: 7. Based on the blogRun only given sets of your un

qingmumu 2020-10-19

拥有此神技，脚本调试从此与 echo、set、test 说分手

为什么要为 Bash 脚本写单元测试？因为 Bash 脚本通常都是在执行一些与操作系统有关的操作，可能会对运行环境造成一些不可逆的操作，比如修改或者删除文件、升级系统中的软件包等。所以为了确保 Bash 脚本的安全可靠，在生产环境中部署之前一定需要做好足够

Testingba工作室 2020-09-15

Linux下 ls 命令的高级用法8例

在Linux下，ls这个命令大家肯定太熟悉了，良许相信只要是Linux工程师，每天都会离不开这个命令，而且一天会使用个几百次。但是，除了 ls -l 以外，你还知 ls 的哪些高级用法呢?良许今天为大家介绍 ls 命令的8种高级用法。在这里，-l 选项大家

周公周金桥 2020-09-13

GO语言复合类型专题

对于一般的语言使用者来说，20% 的语言特性就能够满足 80% 的使用需求，剩下在使用中掌握。基于这一理论，Go 基础系列的文章不会刻意追求面面俱到，但该有知识点都会覆盖，目的是带你快跑赶上 Golang 这趟新车。前面我们学习过 Golang 中基础数

专注前端开发 2020-08-16

Pytest如何使用skip跳过执行测试

传入condition参数为判断条件，可以选择传入非必须参数reason；如果多个标签一起使用，满足其中一个跳过条件则会跳过该测试函数。跳过测试类其实和跳过测试方法一样，使用@pytest.mark.skip()和@pytest.mark.skipif()

emagtestage 2020-08-16

使用alwayson后如何收缩数据库日志的方法详解

在使用了alwayson后，主从库实时同步，原理是通过事务日志同步的，所以造成主数据库的事务日志一直在使用，而且无法收缩主数据库的事务日志。因为这些操作，并不能用语句来实现自动化，所以一直是手动处理的。可能人都是比较懒的吧（人只有懒，才能促进机械自动化，才

heniancheng 2020-08-15

Linux下如何高效切换目录？

Linux 下对于目录的切换，大家肯定会想到一个命令：cd 命令。这个是 Linux 下再基本不过的命令，如果这个命令都不知道的话，赶紧剖腹自尽去吧。如果只会 cd 命令的话，那么就需要不停地 cd ，直到你发疯。良许给大家介绍三个命令：pushd 、

hanjinixng00 2020-08-12

test

计算机底层: 点子电路,计算机只能识别两个数 0 1 硬件: 处理器, 运行内存, 主板, 外部存储设备, 输入输出设备。第二行: 告诉python解释器, 应该以utf-8编码来解释py文件,在python2中执行py文件中有中文时不加会报错。C

小方哥哥 2020-08-09

数据归一化 scikit-learn中的Scaler

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)

83327712 2020-07-30

机器学习基础

换句话说，我们的模型一定是要经过样本数据对其进行训练，才可以对未知数据进行预测的。可想不是的，如果模型对原先的数据进行预测，由于模型本来就是从该数据中获取的，所以预测的精度几乎会是百分之百。所以想要评估模型的好坏，需要使用一组新数据对模型进行评估。需要从网

卖小孩的咖啡 2020-07-21

ffmpeg coco2d-x lua test

TOLUA_API int lua_yffmpeg(lua_State* L);int argc = 0;bool ok = true;tolua_Error tolua_err;if (!tolua_isusertable(tolua_S, 1, &q

wqiaofujiang 2020-07-05

python-高阶函数（map,reduce,filter）

#如果我们有一万个列表,那么你只能把上面的逻辑定义成函数。#如果我们的需求变了,不是把列表中每个元素都平方,还有加1,减一,那么可以这样。#可以使用匿名函数。#上面就是map函数的功能,map得到的结果是可迭代对象。#合并,得一个合并的结果。#报错啊,re

chaigang 2020-07-05

安科网

用于回归问题的深度神经网络

tianbwin

首先，我们将导入所需的Python依赖项：

处理数据集

制作深度神经网络

训练机器学习模型：

尝试另一种机器学习（ML）算法：

总结：

tianbwin

相关推荐

MySQL外键约束的实例讲解

详解MySQL alter ignore 语法

nginx配置proxy_pass中url末尾带/与不带/的区别详解

PHP dirname(FILE)原理及用法解析

Yii中特殊行为ActionFilter的使用方法示例

四种ABAP单元测试隔离(test isolation)技术

shiro配合druid使用下URL拦截权限设置为anno时遇到的问题

使用Java JUnit框架里的@Rule注解的用法举例

使用Java JUnit框架里的@SuiteClasses注解管理测试用例

拥有此神技，脚本调试从此与 echo、set、test 说分手

Linux下 ls 命令的高级用法8例

GO语言复合类型专题

Pytest如何使用skip跳过执行测试

使用alwayson后如何收缩数据库日志的方法详解

Linux下如何高效切换目录？

test

数据归一化 scikit-learn中的Scaler

机器学习基础

ffmpeg coco2d-x lua test

python-高阶函数（map,reduce,filter）

tianbwin