lstm 三角函数预测

PaperWeekly

2018-03-11

Preface

说了好久要手撕一次lstm预测，结果上学期用bucket时遇到issue后就搁了下来，后面还被突然尴尬了几次(⊙﹏⊙)b。
好吧，我先把issue亮出来https://github.com/apache/incubator-mxnet/issues/8663，然而并没有大神鸟(我也不知道为什么 ...)。

Code

今天也是事起突然，然后就写了段测试程序( 可能大家都玩gluon，不理symbol那一套了):

import mxnet as mx
from mxnet import gluon
import numpy as np

hiden_sizes=[10,20,1]
batch_size=300
iteration=300000
log_freq = 20
ctx=mx.gpu()
opt = 'adam' # 'sgd'

unroll_len =9
t= mx.nd.arange(0,0.01*(1+unroll_len),.01, ctx=ctx)
tt= mx.nd.random.uniform(shape=(iteration,1), ctx=ctx)
t= (t+tt).T   # (unroll_len, iteration)
y= mx.nd.sin(t[-1])/2

model=gluon.rnn.SequentialRNNCell()
with model.name_scope():
    for hidden_size in hiden_sizes:
        model.add(gluon.rnn.LSTMCell(hidden_size))
model.initialize(ctx=ctx)
L=gluon.loss.L2Loss()
Trainer= gluon.Trainer(model.collect_params(),opt)
prev_batch_idx=-1
acc_l = mx.nd.array([0,], ctx=ctx)

for batch_idx in xrange(iteration/batch_size):
    x_list = [x[batch_idx*batch_size:(batch_idx+1)*batch_size].T for x in t[:unroll_len]]
    # e in x_list: (b,1)
    label =   y[batch_idx*batch_size:(batch_idx+1)*batch_size]
    with mx.autograd.record():
        outputs, states = model.unroll(unroll_len, x_list)
        l=L(outputs[-1], label)
        l.backward()
    Trainer.step(batch_size)
    acc_l += l.mean()
    if batch_idx- prev_batch_idx == log_freq:
        print 'loss:%.4f'%((acc_l/log_freq).asnumpy())
        prev_batch_idx = batch_idx
        acc_l *= 0

Note

adam要比sgd显著地快，见文末loss的比较列表。
没有relu激活，然后层数多了之后，难以优化？
前一个问题:LSTM的定义式里面没有这个存在的地方；第二个问题，发现有几个链接
https://www.reddit.com/r/MachineLearning/comments/30eges/batch_normalization_or_other_tricks_for_lstms/
https://groups.google.com/forum/#!topic/lasagne-users/EczUQckJggU
以上是相关的讨论。
然后这份工作(http://cn.arxiv.org/abs/1603.09025)是针对hidden-to-hidden提出的BN。从描述和贴上的结果来看，收敛速度和精度并没有可观的提升。

adam	sgd
0.0378	0.0387
0.0223	0.0335
0.0059	0.0284
0.0043	0.0247
0.0030	0.0214

PaperWeekly

0 关注 0 粉丝 0 动态

相关推荐

Keras调用LSTM之函数接口介绍

activation: 要使用的激活函数，如果传入None，则不使用激活函数。默认分段线性近似 sigmoid 。use_bias: 布尔值，该层是否使用偏置向量。如果为 True，初始化时，将忘记门的偏置加 1。将其设置为 True 同时还会强制bi

xiaoxiaokeke 2020-07-28

Tensorflow--RNN-LSTM循环神经网络（四）

# Batch size : 批次(样本)数目。一次迭代所用的样本数目。Batch size 越大，所需的内存就越大。每一次迭代更新一次权重，每一次权重更新需要 Batch size 个数据进行 Forward 运算，再进行 BP 运算。# Epoch :

hnyzyty 2020-02-22

【TensorFlow】自主实现包含全节点Cell的LSTM层 Cell

常用的LSTM，或是双向LSTM，输出的结果通常是以下两个：1） outputs，包括所有节点的hidden2）末节点的state，包括末节点的hidden和cell大部分任务有这些就足够了，state是随着节点间信息的传递依次变化并容纳更多信息，所以通

源式羽语 2020-02-01

长期和短期记忆(LSTM)网络是最先进的长期序列建模工具

在数据集中，最长序列的长度是137。　　在本研究中，我们将重点关注一个包含100个LSTM单元的单一隐藏层架构。然而，这一想法由于以下五个主要原因而失败:　　来自位置跟踪器的信号不足以完全重建手的运动。　　手势在跟踪器和真实空间中的表现明显不同。　　为了使

IT小小鸟 2020-01-28

机器学习LSTM检测尼安德特人DNA

我演示了如何将深度学习用于古代DNA，单细胞生物学，OMICs数据集成，临床诊断和显微镜成像。在之前的文章《尼安德特人基因的深度学习》中，我强调了深度学习和自然语言处理对于古代基因组学的巨大潜力，并演示了如何实际开始使用它来推断现代人类基因组中尼安德特人

tuzhen0 2019-12-20

「数据游戏」：使用 LSTM 模型预测三天后单股收盘价

本次比赛将使用LSTM模型来预测招商银行三天后的收盘价，也就是利用5月10日前的数据，来预测5月15日的收盘价。然后小组讨论后，是否就采用这个基本模型为核心，开展算法升级，得到一致同意后，于是确定了LSTM算法为核心算法，并做再次开发。LSTM模型之所有能

huangshm 2019-11-19

双向LSTM模型的tensorflow实现

# 利用词嵌入矩阵将输入的数据中的词转换成词向量，维度[batch_size, sequence_length, embedding_size]. # outputs是一个元祖，其中两个元素的维度都是[batch_size, max_time, hidde

louishao 2019-11-08

机器学习总结（算法）：聚类、决策树、能量模型、LSTM等

KNN找到k个最近邻，利用它们的标签进行预测。例如，下面的黑点应该通过简单多数投票被分类为蓝色。有不同的指标来衡量距离。最常见的是欧氏距离。通常，如果我们在进行预测时增加k的数量，则偏差会增加，而方差降低。对质心进行重新估计，对数据点进行重新聚类。使用中位

cckchina 2019-09-23

牛逼了，用Python写个会做诗的机器人

首先，让机器自动做诗，就需要运用自然语言处理的手段，让机器能够学会理解“诗句”，进而做出我们需要的诗句。我们用到了深度学习中的长短期记忆网络。有点晕，不要急，我们后面会用白话给大家解释。LSTM是循环神经网络的一种变形，RNN能够很好的解决自然语言处理的任

songfeidream 2019-04-19

技术 | 使用深度学习检测DGA（域名生成算法）

例如，一个由Cryptolocker创建的DGA生成域xeogrhxquuubt.com，如果我们的进程尝试其它建立连接，那么我们的机器就可能感染Cryptolocker勒索病毒。域名黑名单通常用于检测和阻断这些域的连接，但对于不断更新的DGA算法并不奏效

MacTrack 2017-07-25

使用 LSTM 智能作诗送新年祝福

LSTM 介绍序列化数据即每个样本和它之前的样本存在关联，前一数据和后一个数据有顺序关系。循环神经网络广泛应用在自然语言处理领域，今天我们带你从一个实际的例子出发，介绍循环神经网络一个重要的改进算法模型-LSTM。本文章不对LSTM的原理进行深入，想详细了

aaJamesJones 2019-07-01

机器学习实验笔记

实验1 --- 基于 RNN 的 MNIST 手写字符识别实验工作流预处理 --- 卷积 --- 池化 --- 卷积 --- 池化 --- 全连接层 --- softmax --- 输出。根据参考资料, 这样做的效果之一是增加特征的鲁棒性，减小过拟合。池化

yangzzguang 2019-07-01

序列模型简介——RNN, Bidirectional RNN, LSTM, GRU

这些模型的问题在于，当给定一系列的数据时，它们表现的性能很差。序列数据的一个例子是音频的剪辑，其中包含一系列的人说过的话。前馈网络和CNN采用一个固定长度作为输入，但是，当你看这些句子的时候，并非所有的句子都有相同的长度。这就是序列模型和前馈模型的主要区别

aaJamesJones 2019-06-30

GIF动画解析RNN，LSTM，GRU

循环神经网络是一类常用在序列数据上的人工神经网络。现在可以查到许多解释循环神经网络这一概念的图示。Michael 的精彩动画也给了我很大的启发，从中受益匪浅。*length of X—size/dimension of inputX的长度表示输入的大小，尺

诗蕊 2019-06-30

一文了解LSTM和GRU背后的秘密（绝对没有公式）

你好，欢迎阅读长短期记忆网络和门控循环单元的图解文章。我是Michael，是AI语音助理领域的机器学习工程师。在这篇文章中，我们将从LSTM和GRU背后的原理出发。然后我将解释允许LSTM和GRU表现良好的内部机制。问题根源短期记忆递归神经网络具有短期记忆

kinghighbury 2019-06-28

时间序列预测（Python）：ARIMA、LSTM、 Prophet

本文主要对时间序列数据进行预测。我们将用Python构建三个不同的模型，并检查它们的结果。我们将使用的模型有ARIMA、LSTM和Facebook Prophet。通常，循环神经网络具有“短期记忆”，因为它们使用在当前神经网络中使用的持久先前信息。这意味着

lwnylslwnyls 2019-06-24

学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人

真正掌握一种算法，最实际的方法，完全手写出来。LSTM特殊递归神经网络，神经元保存历史记忆，解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。100多行原始python代码实现基于LSTM二进制加法器。import copy, numpy

五小郎的学习笔记 2019-06-27

使用循环神经网络-长短期记忆（RNN-LSTM）预测比特币和以太币价格

2017年对人工智能和加密货币来说是重要的一年, 我们见证了许多新的研究进展和突破。毋庸置疑，人工智能是当今甚至今后很长一段时间内最令人瞩目的技术之一。而加密货币在这一年中的热度之高是我所没有预料到的，这是加密货币的一波大牛市，投资加密货币的资回报率几近疯

格式化中 2019-06-27

从RNN到LSTM，性能良好的神经网络到底是如何工作的？

摘要：在2016年Google率先发布上线了机器翻译系统后，神经网络表现出的优异性能让人工智能专家趋之若鹜。本文将借助多个案例，来带领大家一同探究RNN和以LSTM为首的各类变种算法背后的工作原理。t时刻的状态ht，是由前一时刻的状态ht-1与Whh做矩

kinghighbury 2019-06-27

学习笔记CB010:递归神经网络、LSTM、自动抓取字幕

递归神经网络可存储记忆神经网络，LSTM是其中一种，在NLP领域应用效果不错。递归神经网络，时间递归神经网络，结构递归神经网络。两者训练属同一算法变体。RNN引入定向循环，神经元为节点组成有向环，可表达前后关联关系。RNN关键是隐藏层，隐藏层捕捉序列信息，

WisdomXLH 2019-06-27

PaperWeekly

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号