使用tensorflow DataSet实现高效加载变长文本输入

Jasonmmt

2020-01-20

DataSet是tensorflow 1.3版本推出的一个high-level的api，在1.3版本还只是处于测试阶段，1.4版本已经正式推出。

在网上搜了一遍，发现关于使用DataSet加载文本的资料比较少，官方举的例子只是csv格式的，要求csv文件中所有样本必须具有相同的维度，也就是padding必须在写入csv文件之前做掉，这会增加文件的大小。

经过一番折腾试验，这里给出一个DataSet+TFRecords加载变长样本的范例。

首先先把变长的数据写入到TFRecords文件：

def writedata():
 xlist = [[1,2,3],[4,5,6,8]]
 ylist = [1,2]
 #这里的数据只是举个例子来说明样本的文本长度不一样，第一个样本3个词标签1，第二个样本4个词标签2
 writer = tf.python_io.TFRecordWriter("train.tfrecords")
 for i in range(2):
  x = xlist[i]
  y = ylist[i]
  example = tf.train.Example(features=tf.train.Features(feature={
   "y": tf.train.Feature(int64_list=tf.train.Int64List(value=[y])),
   'x': tf.train.Feature(int64_list=tf.train.Int64List(value=x))
  }))
  writer.write(example.SerializeToString())
 writer.close()

然后用DataSet加载：

feature_names = ['x']
 
def my_input_fn(file_path, perform_shuffle=False, repeat_count=1):
 def parse(example_proto):
  features = {"x": tf.VarLenFeature(tf.int64),
    "y": tf.FixedLenFeature([1], tf.int64)}
  parsed_features = tf.parse_single_example(example_proto, features)
  x = tf.sparse_tensor_to_dense(parsed_features["x"])
  x = tf.cast(x, tf.int32)
  x = dict(zip(feature_names, [x]))
  y = tf.cast(parsed_features["y"], tf.int32)
  return x, y
 
 dataset = (tf.contrib.data.TFRecordDataset(file_path)
    .map(parse))
 if perform_shuffle:
  dataset = dataset.shuffle(buffer_size=256)
 dataset = dataset.repeat(repeat_count)
 dataset = dataset.padded_batch(2, padded_shapes=({'x':[6]},[1])) #batch size为2，并且x按maxlen=6来做padding
 iterator = dataset.make_one_shot_iterator()
 batch_features, batch_labels = iterator.get_next()
 return batch_features, batch_labels
 
next_batch = my_input_fn('train.tfrecords', True)
init = tf.initialize_all_variables()
with tf.Session() as sess:
 sess.run(init)
 for i in range(1):
  xs, y =sess.run(next_batch)
  print(xs['x'])
  print(y)

注意变长的数据TFRecords解析要用VarLenFeature，然后用sparse_tensor_to_dense转换。

Jasonmmt

0 关注 0 粉丝 0 动态

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何在PyTorch和TensorFlow中训练图像分类模型

图像分类是计算机视觉的最重要应用之一。它的应用范围包括从自动驾驶汽车中的物体分类到医疗行业中的血细胞识别，从制造业中的缺陷物品识别到建立可以对戴口罩与否的人进行分类的系统。他们是如何做到的呢？你必须已阅读很多有关不同深度学习框架之间差异的信息。Tensor

xjtukuixing 11评论 2020-10-27

对比PyTorch和TensorFlow的自动差异和动态模型

使用自定义模型类从头开始训练线性回归，比较PyTorch 1.x和TensorFlow 2.x之间的自动差异和动态模型子类化方法，这篇简短的文章重点介绍如何在PyTorch 1.x和TensorFlow 2.x中分别使用带有模块/模型API的动态子类化模型

lybbb 2020-10-15

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

操作张量并非易事，因为它需要很多先决条件，例如跟踪多个维度，Dtype兼容性，数学正确性和张量形状等。当然最大的挑战还是从数百种可用选项中确定正确的TensorFlow操作。如果会的话，谷歌的TensorFlow Coder可以帮你实现这一点。然后，它会运

lybbb 2020-09-29

TensorFlow推出新接口，简化 ML移动端开发流程

在移动设备上使用 TensorFlow Lite 模型运行推理不仅仅是与模型交互，还需要额外的代码来处理复杂的逻辑，如数据转换、预处理/后处理、加载关联文件等。今天，我们将为大家介绍TensorFlow Lite Task Library，这是一组功能强大

ghjk0 2020-09-24

如何在浏览器中使用TensorFlow？

TensorFlow 2.0引入的创新之一是JavaScript实现：TensorFlow.js。我没料到这会加快训练或推理速度，但确实如此，它通过WebGL API支持所有的GPU。TensorFlow.js是一个库，用于使用JavaScript开发

yamaxifeng 2020-09-09

2020年深度学习框架对比速读

TensorFlow于2015年11月面世，基于Apache License 2.0协议发布，由Google Brain团队研发。到目前为止也是github上热度最高、使用人数最多的深度学习框架，业界很多招聘要求中也提到了它。2019年3月推出Tenso

GDGYZL 2020-08-28

输入示例，自动生成代码：TensorFlow官方工具TF-Coder已开源

如何使编程更加便捷？最近，谷歌 TensorFlow 开源了一个帮助开发者写 TensorFlow 代码的程序合成工具 TF-Coder。用过 TensorFlow 框架的应该都知道，在操纵张量时，需要跟踪多个维度、张量形状和数据类型兼容性，当然还需要考虑

lybbb 2020-08-28

TensorFlow Lattice：灵活、可控、可解释的机器学习

本文转自雷锋网，如需转载请至雷锋网官网申请授权。大多数的机器学习实践者都曾遇到过训练数据和实际运行时用以评估模型的样本差别很大的情况。因此，相对灵活的机器学习解决方案，如DNN和随机森林等，仅依赖于训练数据的模型，在训练数据集和验证数据集没有覆盖的输入空间

Icevivian 2020-08-25

TensorFlow 2入门指南，初学者必备！

TensorFlow是谷歌推出的深度学习框架，于2019年发布了第二版。它是世界上最著名的深度学习框架之一，被行业专家和研究人员广泛使用。Tensorflow v1难以使用和理解，因为它的Pythonic较少，但是随着Keras发行的v2现在与Tenso

comwayLi 2020-08-16

使用tensorflow进行音乐类型的分类

音乐流媒体服务的兴起使得音乐无处不在。我们在上下班的时候听音乐，锻炼身体，工作或者只是放松一下。这些数据可能来自出版歌曲的人手工标注。但这并不是一个很好的划分，因为可能是一些艺人想利用一个特定流派的流行趋势。在描述了所使用的数据源之后，我对我们使用的方法及

carbon0 2020-08-16

【tensorflow】常量和变量的定义

data1 = tf.constant # 声明常量。data2 = tf.Variable # 声明变量。print # 打印数据的

源式羽语 2020-08-09

如何在tensorflow中判断tensor(张量)的值

众所周知，在tensorflow程序中，tensor只是占位符，在会话层没有run出tensor的值之前，我们是无法获知tensor的值的。也就是说，下面的逻辑是无法实现的：。#a is a 1-D tensor, b is a 1-D tensor to

sherry颖 2020-08-01

TensorFlow会话常用的两种方式

需要注意的是我们可以使用两种方法来创建并使用session. 我们计算WX+b，其中W，X和b是从随机正态分布中抽取的。我们开始定义一个shape=（3,1）的常量X：。实现一个线性功能：。初始化X，类型为tensor的随机变量，维度为(3,1). res

songbinxu 2020-07-19

Ｍnist手写数字识别 Tensorflow

MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology . 训练集由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局的

sherry颖 2020-07-18

TensorFlow被曝存严重bug，搭配Keras可能丢失权重，至今仍未修复

每个在自定义层中使用Keras函数式API的用户都要注意了！使用用Keras的Functional API创建的权重，可能会丢失。这一话题在Reddit机器学习板块上被热议，引起不少TensorFlow用户共鸣。也就是说，原本需要训练的权重现在被冻结了。让

Niteowl 2020-07-15

TensorFlow中超大的30个机器学习数据集

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南，以及开放数据集的语料库。为了帮助你找到所需的

Kindle君 2020-07-15

解决import tensorflow报错：ImportError: DLL load failed: 找不到指定的模块

将visual c++ 升级到2019版本。安装完之后，即可解决该问题。

源式羽语 2020-07-04

Yolo v3 Introduction to object detection with TensorFlow 2

https://medium.com/analytics-vidhya/yolo-v3-introduction-to-object-detection-with-tensorflow-2-ce75749b1c47

源式羽语 2020-06-28

Sklearn 与 TensorFlow 机器学习实用指南第二版

十六、使用 RNN 和注意力机制进行自然语言处理

卖小孩的咖啡 2020-06-28

Jasonmmt

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号