TensorFlow的权值更新方法

carbon0

2018-06-14

一. MovingAverage权值滑动平均更新

1.1 示例代码：

def create_target_q_network(self,state_dim,action_dim,net):
  state_input = tf.placeholder("float",[None,state_dim])
  action_input = tf.placeholder("float",[None,action_dim])

  ema = tf.train.ExponentialMovingAverage(decay=1-TAU)
  target_update = ema.apply(net)
  target_net = [ema.average(x) for x in net]

  layer1 = tf.nn.relu(tf.matmul(state_input,target_net[0]) + target_net[1])
  layer2 = tf.nn.relu(tf.matmul(layer1,target_net[2]) + tf.matmul(action_input,target_net[3]) + target_net[4])
  q_value_output = tf.identity(tf.matmul(layer2,target_net[5]) + target_net[6])

  return state_input,action_input,q_value_output,target_update

def update_target(self):
  self.sess.run(self.target_update)

其中，TAU=0.001，net是原始网络(该示例代码来自DDPG算法，经过滑动更新后的target_net是目标网络 )

第一句 tf.train.ExponentialMovingAverage，创建一个权值滑动平均的实例；

第二句 apply创建所训练模型参数的一个复制品(shadow_variable)，并对这个复制品增加一个保留权值滑动平均的op，函数average()或average_name()可以用来获取最终这个复制品(平滑后)的值的。

更新公式为：

shadow_variable = decay * shadow_variable + (1 - decay) * variable

在上述代码段中，target_net是shadow_variable，net是variable

1.2 tf.train.ExponentialMovingAverage.apply(var_list=None)

var_list必须是Variable或Tensor形式的列表。这个方法对var_list中所有元素创建一个复制，当其是Variable类型时，shadow_variable被初始化为variable的初值，当其是Tensor类型时，初始化为0，无偏。

函数返回一个进行权值平滑的op，因此更新目标网络时单独run这个函数就行。

1.3 tf.train.ExponentialMovingAverage.average(var)

用于获取var的滑动平均结果。

二. tf.train.Optimizer更新网络权值

2.1 tf.train.Optimizer

tf.train.Optimizer允许网络通过minimize()损失函数自动进行权值更新，此时tf.train.Optimizer.minimize()做了两件事：计算梯度，并把梯度自动更新到权值上。

此外，tensorflow也允许用户自己计算梯度，并做处理后应用给权值进行更新，此时分为以下三个步骤：

1.利用tf.train.Optimizer.compute_gradients计算梯度

2.对梯度进行自定义处理

3.利用tf.train.Optimizer.apply_gradients更新权值

tf.train.Optimizer.compute_gradients(loss, var_list=None, gate_gradients=1, aggregation_method=None, colocate_gradients_with_ops=False, grad_loss=None)

返回一个(梯度，权值)的列表对。

tf.train.Optimizer.apply_gradients(grads_and_vars, global_step=None, name=None)

返回一个更新权值的op，因此可以用它的返回值ret进行sess.run(ret)

2.2 其它

此外，tensorflow还提供了其它计算梯度的方法：

• tf.gradients(ys, xs, grad_ys=None, name='gradients', colocate_gradients_with_ops=False, gate_gradients=False, aggregation_method=None)

该函数计算ys在xs方向上的梯度，需要注意与train.compute_gradients所不同的地方是，该函数返回一组dydx dydx的列表，而不是梯度-权值对。

其中，gate_gradients是在ys方向上的初始梯度，个人理解可以看做是偏微分链式求导中所需要的。

• tf.stop_gradient(input, name=None)

该函数告知整个graph图中，对input不进行梯度计算，将其伪装成一个constant常量。比如，可以用在类似于DQN算法中的目标函数：

cost=|r+Q next −Q current | cost=|r+Qnext−Qcurrent|

可以事先声明

y=tf.stop_gradient(r+Q next r+Qnext)

target tensorflow 梯度

安科网

TensorFlow的权值更新方法

carbon0

carbon0

相关推荐

Sklearn 与 TensorFlow 机器学习实用指南第二版

jQuery UI组件库使用技巧小分享，让移动、Web界面开发更简单！

一款免费开源的通用数据库工具DBeaver

JavaScript是如何成为一门严肃的编程语言的

如何在树莓派上安装Ubuntu服务器？

信必优承接全球最大搜索引擎公司多语言本地化测试项目外包

界面控件开发包DevExpress 2020年重大版本——v20.2震撼发布

使用Ansible的Kubernetes模块实现容器编排自动化

在 Linux 上使用 yum 设置 ZFS

DevExpress Winform开发：解决旧UI要求的新方法

Linux黑话解释：什么是显示服务器，用来做什么？

在树莓派3上安装Fedora

mybatis的两种日志

大数据获取案例：Python网络爬虫实例

docker服务以及配置文件详解

Python下使用Altair数据制图

如何在华为云上部署部署中文聊天机器人

Cent os 7之KVM虚拟化基础管理

pyjnius：访问java类

REST是什么？RESTFul又是什么？这二者的关系是怎样的？

carbon0