TensorFlow广度和深度学习的教程

Sophiafez

2017-12-01

在这篇文章中，我们将会介绍如何使用 TF.Learn API 同时训练一个广度线性模型和一个深度前馈神经网络。这种方法结合了记忆和泛化的优势。它在一般的大规模回归和具有稀疏输入特性的分类问题（例如，分类特征存在一个很大的可能值域）上很有效。如果你有兴趣学习更多关于广度和深度学习如何工作的问题，请参考研究论文 Wide & Deep Spectrum of Models现在，我们来看一个简单的例子。

上图展示了广度模型（具有稀疏特征和转换性质的 logistic 回归模型），深度模型（具有一个嵌入层和多个隐藏层的前馈神经网络），广度和深度模型（两者的联合训练）的区别比较。在高层级里，只需要通过以下三个步骤就能使用 TF.Learn API 配置广度，深度或广度和深度模型。

选择广度部分的特征：选择要使用的稀疏基本列和交叉列。
选择深度部分的特征：选择连续列，每个分类列的嵌入维度和隐藏层大小。
将它们一起放入广度和深度模型（DNNLinearCombinedClassifier）。

安装

如果想要尝试本教程中的代码：

1.安装 TensorFlow ，请前往此处。

2.下载教程代码。

3.安装 pandas 数据分析库。因为本教程中需要使用 pandas 数据。虽然 tf.learn 不要求 pandas，但是它支持 pandas。安装 pandas：

a. 获取 pip：

# Ubuntu/Linux 64-bit 


$ sudo apt-get install python-pip python-dev 


 


# Mac OS X 


$ sudo easy_install pip 


$ sudo easy_install --upgrade six

b. 使用 pip 安装 pandas

$ sudo pip install pandas

如果你在安装过程中遇到问题，请前往 pandas 网站上的说明。

4.执行以下命令来训练教程中描述的线性模型：

$ python wide_n_deep_tutorial.py --model_type=wide_n_deep

请继续阅读，了解此代码如何构建其线性模型。

定义基本特征列

首先，定义我们使用的基本分类和连续特征的列。这些列将被作为模型的广度部分和深度部分的构件块。

import tensorflow as tf 


 


gender = tf.feature_column.categorical_column_with_vocabulary_list( 


 "gender", ["Female", "Male"]) 


education = tf.feature_column.categorical_column_with_vocabulary_list( 


 "education", [ 


 "Bachelors", "HS-grad", "11th", "Masters", "9th", 


 "Some-college", "Assoc-acdm", "Assoc-voc", "7th-8th", 


 "Doctorate", "Prof-school", "5th-6th", "10th", "1st-4th", 


 "Preschool", "12th" 


 ]) 


marital_status = tf.feature_column.categorical_column_with_vocabulary_list( 


 "marital_status", [ 


 "Married-civ-spouse", "Divorced", "Married-spouse-absent", 


 "Never-married", "Separated", "Married-AF-spouse", "Widowed" 


 ]) 


relationship = tf.feature_column.categorical_column_with_vocabulary_list( 


 "relationship", [ 


 "Husband", "Not-in-family", "Wife", "Own-child", "Unmarried", 


 "Other-relative" 


 ]) 


workclass = tf.feature_column.categorical_column_with_vocabulary_list( 


 "workclass", [ 


 "Self-emp-not-inc", "Private", "State-gov", "Federal-gov", 


 "Local-gov", "?", "Self-emp-inc", "Without-pay", "Never-worked" 


 ]) 


 


# 展示一个哈希的例子： 


occupation = tf.feature_column.categorical_column_with_hash_bucket( 


 "occupation", hash_bucket_size=1000) 


native_country = tf.feature_column.categorical_column_with_hash_bucket( 


 "native_country", hash_bucket_size=1000) 


 


# 连续基列 


age = tf.feature_column.numeric_column("age") 


education_num = tf.feature_column.numeric_column("education_num") 


capital_gain = tf.feature_column.numeric_column("capital_gain") 


capital_loss = tf.feature_column.numeric_column("capital_loss") 


hours_per_week = tf.feature_column.numeric_column("hours_per_week") 


 


# 转换 


age_buckets = tf.feature_column.bucketized_column( 


 age, boundaries=[18, 25, 30, 35, 40, 45, 50, 55, 60, 65])

广度模型：具有交叉特征列的线性模型

广度模型是一个具有稀疏和交叉特征列的线性模型：

base_columns = [ 


 gender, native_country, education, occupation, workclass, relationship, 


 age_buckets, 


] 


 


crossed_columns = [ 


 tf.feature_column.crossed_column( 


 ["education", "occupation"], hash_bucket_size=1000), 


 tf.feature_column.crossed_column( 


 [age_buckets, "education", "occupation"], hash_bucket_size=1000), 


 tf.feature_column.crossed_column( 


 ["native_country", "occupation"], hash_bucket_size=1000) 


]

具有交叉特征列的广度模型可以有效地记忆特征之间的稀疏交互。也就是说，交叉特征列不能概括没有在训练数据中出现的特征组合。让我们采用嵌入方式来添加一个深度模型来修复这个问题。

深度模型：嵌入式神经网络

深度模型是一个前馈神经网络，如前图所示。每一个稀疏，高维度分类特征首先都会被转换成一个低维度密集的实值矢量，通常被称为嵌入式矢量。这些低维度密集的嵌入式矢量与连续特征相连，然后在正向传递中馈入神经网络的隐藏层。嵌入值随机初始化，并与其他模型参数一起训练，以最大化减少训练损失。如果你有兴趣了解更多关于嵌入的知识，请在查阅教程 Vector Representations of Words 或在 Wikipedia 上查阅 Word Embedding。

我们将使用 embedding_column 配置分类嵌入列，并将它们与连续列连接：

deep_columns = [ 


 tf.feature_column.indicator_column(workclass), 


 tf.feature_column.indicator_column(education), 


 tf.feature_column.indicator_column(gender), 


 tf.feature_column.indicator_column(relationship), 


 # 展示一个嵌入例子 


 tf.feature_column.embedding_column(native_country, dimension=8), 


 tf.feature_column.embedding_column(occupation, dimension=8), 


 age, 


 education_num, 


 capital_gain, 


 capital_loss, 


 hours_per_week, 


]

嵌入的 dimension 越高，自由度就越高，模型将不得不学习这些特性的表示。为了简单起见，我们设置所有特征列的维度为 8。从经验上看，关于维度的设定最好是从 \log_{2}(n) 或 k\sqrt[4]{n} 值开始，这里的 n 代表特征列中唯一特征的数量，k 是一个很小的常量（通常小于10）。

通过密集嵌入，深度模型可以更好的概括，并更好对之前没有在训练数据中遇见的特征进行预测。然而，当两个特征列之间的底层交互矩阵是稀疏和高等级时，很难学习特征列的有效低维度表示。在这种情况下，大多数特征对之间的交互应该为零，除了少数几个，但密集的嵌入将导致所有特征对的非零预测，从而可能过度泛化。另一方面，具有交叉特征的线性模型可以用更少的模型参数有效地记住这些“异常规则”。

现在，我们来看看如何联合训练广度和深度模型，让它们优势和劣势互补。

将广度和深度模型结合为一体

通过将其最终输出的对数几率作为预测结合起来，然后将预测提供给 logistic 损失函数，将广度模型和深度模型相结合。所有的图形定义和变量分配都已经被处理，所以你只需要创建一个 DNNLinearCombinedClassifier：

import tempfile 


model_dir = tempfile.mkdtemp() 


m = tf.contrib.learn.DNNLinearCombinedClassifier( 


 model_dir=model_dir, 


 linear_feature_columns=wide_columns, 


 dnn_feature_columns=deep_columns, 


 dnn_hidden_units=[100, 50])

训练和评估模型

在训练模型之前，请先阅读人口普查数据集，就像在《TensorFlow Liner Model Tutorial》中所做的一样。输入数据处理的代码再次为你提供方便：

import pandas as pd 


import urllib 


 


# 为数据集定义列名 


CSV_COLUMNS = [ 


 "age", "workclass", "fnlwgt", "education", "education_num", 


 "marital_status", "occupation", "relationship", "race", "gender", 


 "capital_gain", "capital_loss", "hours_per_week", "native_country", 


 "income_bracket" 


] 


 


def maybe_download(train_data, test_data): 


 """Maybe downloads training data and returns train and test file names.""" 


 if train_data: 


 train_file_name = train_data 


 else: 


 train_file = tempfile.NamedTemporaryFile(delete=False) 


 urllib.request.urlretrieve( 


 "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data", 


 train_file.name) # pylint: disable=line-too-long 


 train_file_name = train_file.name 


 train_file.close() 


 print("Training data is downloaded to %s" % train_file_name) 


 


 if test_data: 


 test_file_name = test_data 


 else: 


 test_file = tempfile.NamedTemporaryFile(delete=False) 


 urllib.request.urlretrieve( 


 "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test", 


 test_file.name) # pylint: disable=line-too-long 


 test_file_name = test_file.name 


 test_file.close() 


 print("Test data is downloaded to %s"% test_file_name) 


 


 return train_file_name, test_file_name 


 


def input_fn(data_file, num_epochs, shuffle): 


 """Input builder function.""" 


 df_data = pd.read_csv( 


 tf.gfile.Open(data_file), 


 names=CSV_COLUMNS, 


 skipinitialspace=True, 


 engine="python", 


 skiprows=1) 


 # 移除 NaN 元素 


 df_data = df_data.dropna(how="any", axis=0) 


 labels = df_data["income_bracket"].apply(lambda x: ">50K" in x).astype(int) 


 return tf.estimator.inputs.pandas_input_fn( 


 x=df_data, 


 y=labels, 


 batch_size=100, 


 num_epochs=num_epochs, 


 shuffle=shuffle, 


 num_threads=5)

阅读数据之后，你可以训练并评估模型：

# 将 num_epochs 设置为 None，以获得无限的数据流 


m.train( 


 input_fn=input_fn(train_file_name, num_epochs=None, shuffle=True), 


 steps=train_steps) 


# 在所有数据被消耗之前，为了运行评估，设置 steps 为 None 


results = m.evaluate( 


 input_fn=input_fn(test_file_name, num_epochs=1, shuffle=False), 


 steps=None) 


print("model directory = %s" % model_dir) 


for key in sorted(results): 


 print("%s: %s" % (key, results[key]))

机器学习 tensorflow 深度学习教程

安科网

TensorFlow广度和深度学习的教程

Sophiafez

Sophiafez

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

自动驾驶汽车深度学习如何应对挑战?

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

DJL 如何正确打开 [ 深度学习 ]

揭开AI、机器学习和深度学习的神秘面纱

用 Java 训练深度学习模型，原来可以这么简单！

面向深度学习的五大神经网络模型及其应用

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

Sophiafez