Google推出用于语言AI模型的TensorFlow.Text库

点击上方关注,All in AI中国

Google推出用于语言AI模型的TensorFlow.Text库

Google今天推出了TensorFlow.Text,这是一个使用TensorFlow预处理语言模型的库。由Google Brain团队创建的开源机器学习框架已经有超过4100万次的下载。

TensorFlow.Text可以使用PIP安装,并且能够利用令牌来拆分和分析文本,如单词、数字和标点符号。

TensorFlow.Text可以识别空白区域、unicode脚本以及预定的单词片段序列,Google称之为词组的后缀或前缀。 Wordpieces常用于像BERT这样的方法,这是谷歌去年秋天开源的语言模型的预训练技术。

根据宣布这一消息的Medium帖子,该库还附带了用于标准化的ops、n-gram和用于标记的序列约束。

TensorFlow.Text的标记器使用RaggedTensors,这是一种用于识别文本的新型tensor。谷歌工程师Mark Omernick今年早些时候在TensorFlow开发者峰会上曾详细介绍了RaggedTensors和Unicode对TensorFlow的支持。

这个消息是在TensorFlow 2.0测试版发布几天后发布的。谷歌开源框架的最新版本于3月份在TensorFlow Dev Summit上发布。 TensorFlow 2.0使用更少的API、更深入的Keras集成并在Eager Execution运行时改进。

TensorFlow.Text是谷歌在过去几个月推出的最新专用库,旨在帮助人们通过机器学习完成特定任务。 TensorFlow Graphics上个月发布,旨在为图形和3D模型带来更深入的学习。

今年早些时候谷歌表示,也许以前最流行的是用于嵌入式设备的TensorFlow Lite,但现在已经在超过20亿台设备上使用。 Google使用TensorFlow Lite来支持GBoard上的语音检测和Google相册中的Eager Execution等功能。

今年3月,Google推出了TensorFlow Privacy以及TensorFlow Federated,更好地保护用户设备上隐私的机器学习方法。该公司将隐私视为开发人员优先考虑的部分。同时, TensorFlow.js和TensorFlow Swift、JavaScript和iOS开发人员框架的版本,在今年春天也得到了升级。

相关推荐