如何运用深度学习和语义层加速企业发展?
如今,深度学习无处不在——手表、电视、手机,以及你正在阅读本文的平台上。本文旨在探讨如何以一种非常简单的方式使用深度学习。但在此之前,我们需要了解语义层。
简言之,深度学习使用不同类型的神经网络(深度神经网络)进行表示学习,并优化网络的超参数来获得(或学习)数据的最佳表示。
深度学习并非难事
这更难
对于企业来说,目前深度学习并不困难。但这并不是说深度学习作为一个整体是容易的,该领域研究需要大量的数学、微积分、统计学、机器学习、计算等知识。从下图创建的时间轴中可以看到深度学习的发展历程。
由此可见,反向传播思想、对网络参数更好地初始化、更好的激活函数、Dropout的概念,以及卷积神经网络、剩余网络、区域基卷积神经网络、递归神经网络和生成式对抗网络等类型的网络是我们在深度学习领域取得的重大进步之一。
但是现在该如何运用深度学习呢?
数据至上
大型科技公司的秘密武器是什么?如你所想,数据是公司目前的一项重要资产(也许是最重要的资产)。因此,在应用机器学习或深度学习之前,你需要拥有数据,知道拥有什么数据,对其进行理解、管理、清理、分析和规范,然后可以考虑进行应用。
Brian Godsey在其文章中说到:
“无论何种形式,数据现在无处不在,它自身已经成为一种目的,而不仅仅是分析师可能用来得出结论的工具。公司现在似乎把收集数据作为一个目标而非手段,虽然他们中许多都声称计划在未来使用这些数据。独立于信息时代的其他定义特征,数据已经获得了自己的角色、企业和价值。”
因此可见,深度学习不仅将最新的算法应用到数据上,还能够以一种好的格式得到它,理解然后使用它。
语义层
很多公司在发展过程中都会遇到同样的问题——数据问题。
数据的可用性、质量、吸收和集成等是常见的问题,不仅会影响数据科学实践,还会影响整个公司。
什么是自动化吸收和集成?
语义层究竟是什么呢?
语义一词本身就意味着含义或理解。因此,语义层与数据有关的是数据的含义,而非结构。
理解这一点是个非常重要的过程。理解的实质就是我们破译构成复杂事物的那些部分,并将原始数据转换成简单有用的东西。这需要通过建模来实现。可想而知,我们需要这样的模型来理解数据的含义。
链接数据(Linked Data)和知识图
链接数据的目标是用这种方式发布结构化数据,使其易于使用,并与其它链接数据结合在一起。
链接数据是新的网络数据发布和互操作性的业界标准,正在为企业所接纳。谷歌、Facebook、亚马逊和微软等大公司已经采纳了其中一些原则。
链接数据的过程即是所谓的知识图的开始。知识图是一种高级的方式,它映射特定主题上的所有知识来解释数据之间是如何关联的,即数据库中的蠕虫洞。
知识图包含数据和信息的集成集合,这些集合还包含不同数据之间的大量链接。
关键之处在于,在这个新模型下,我们不是在寻找所有可能的答案,而是在寻找一个唯一答案。我们需要事实,而这些事实来自哪里并没有那么重要。
这里的数据可以表示概念、对象、事物、人等任何可以想到的东西。图表填充了关系——概念之间的联系。
知识图对你和公司的意义
在旧有方式中,尽管数据仓库中的数据模型令人惊叹,但它不能大量吸收我们将要获得的数据,无法跟上创建关系数据模型的进度。此外,用于支持数据发现的数据抽取也太小。
因此,基于大数据分析或云存储的数据湖(Data Lakes)已经扩散变成了数据沼泽——失去了必要的管理和治理能力。
你是否问过公司里的数据工程师和科学家:你们理解公司里所有的数据吗?如果没有,请问一下。
分析公司现有的所有数据、了解其背后的关系是件极其困难的事情。
因为是图表,所以知识图会更加直观。虽然人们不以表格的方式思考,但能很快理解图表。当你在白板上画出知识图结构时,其中含义自然一目了然。
你也可以为知识图中的关系创建结构。如在一个图表中:父母有孩子,父母可以是孩子,孩子可以是兄弟姐妹,而所有这些都是人。提供这样的描述性信息可以从图中推断出新的信息,例如,如果两个人的父母相同,那么他们一定是兄弟姐妹。
为你的公司扩展语义层
为了在企业内传递真正的语义层,我在搜索一些可以帮助我们实现端到端平台的东西时,发现了一个很不错的平台:Cambdrige Semantic公司创建的Anzo。
我们来看下Anzo。
你可以用Anzo构建一个“企业知识图”。
图形的节点和边缘灵活地捕捉到每个数据源的高分辨率孪生体——结构化或非结构化。该图可以帮助用户快速、交互式地回答任何问题,允许用户与数据进行对话,从而产生见解。
除了让每日的大数据分析变得简单外,该图还表露了图表新的可能性。基于开放标准的图表是一个用于持续改进的平台。在图表中,通过使用业务规则、文本分析甚至机器学习(这将变得很重要),资源被快速链接协调。
数据结构(Data Fabric)是一个不错的想法,它会让很多人想起时空结构。物理学中,时空结构是指一个用来解释时间和空间连续性的结构,它由四个维度(或者十一个,或者二十六个,这取决于你的理论)组成。在这个结构内部,重力是扭曲时空结构的表现。
那么,什么是数据结构呢?借鉴物理定义,对于公司而言:
数据结构是支持公司所有数据的平台——数据是如何被管理、描述、组合和被普遍访问的。该平台由企业知识图构成,创建统一的数据环境。
Anzo使得一切变得可能。Anzo的数据结构如下(有点类似时空结构,很棒!):
数据结构顶部是数据层。这些数据层可以添加诸如数据清理、转换、链接和访问控制之类的东西——以迭代方式动态增强内存中的图形。
这种层叠方式下的数据层非常灵活,你可以轻松地打开或关闭层,并根据需要删除、复制和创建层。
使用Anzo可以自动生成查询(是的,这是一件事),使用后,复杂图形的特征提取变得容易起来,并最终实现完全自动化!
Anzo的组件使得用户可以真正与其数据对话——轻松快速地旋转,使分析的新方向建立在问题答案的基础上。没有专门的知识查询,他们甚至可以通过遍历最复杂的多维数据的方法来构建探索性图表、过滤器、表格甚至网络视图。
通过与Spark、Featuretools和Optimus等开源技术的链接,你可以充分地准备好数据,最终为机器和深度学习做好准备。
你的深度学习
深度学习的主要用途是什么?
在此,你能看到:
在深度学习成为AI世界之王的这几年里,它取得了巨大的成就,François Chollet列出了深度学习的突破之处:
- 接近人类水平的图像分类。
- 接近人类水平的语音识别。
- 接近人类水平的手写抄写。
- 改进了机器翻译。
- 改进了文本到语音的转换。
- 作为如Google Now或Amazon Alexa的数字助理。
- 接近人类水平的自动驾驶。
- 改进了如谷歌,百度,Bing所使用的广告定位。
- 改进了网站上的搜索结果。
- 可回答自然语言问题。
所以,你可以用深度学习做很多事情。现在,你打算怎么做呢?
遗憾的是,AI专业技术(严重)缺乏,给准备采用AI的公司造成了重大障碍。通常,我们会进行深度学习编程,学习新的API,有些比其他的要难,有些则像Keras那样简单。
现在,可以使用一种更具表现力的方式来创建深度学习模型,这就是深度认知(Deep Cognition)。
可以使用预先训练的模型,也可以使用内置辅助功能来简化加速模型的开发过程。还可以导入模型代码,使用可视化界面编辑模型。
当使用迭代和优化超参数来提高性能时,平台会自动保存每个模型版本。你可以比较不同版本的性能,找到最佳设计。
该系统旨在让AI变得简单,使我们不必成为专家就能创建复杂模型。但你最好对正在做的事情有一些想法,阅读一些TensorFlow或Keras文档,观看一些视频,了解情况。如果你是这个领域的专家就更好了!这会使你的生活更加轻松,在构建模型时,仍然可以运用专业知识。
实际上你可以下载可生成预测代码,然后将会看到它是用Keras编写的。你可以上传代码,在系统提供的notebook上测试它,或在笔记本电脑或其他平台上使用它。
语义层与深度学习
通过语义层与Anzo这样的平台和Deep Learning Studio这样的深度学习系统连接,可以加速数据和AI在公司中的使用。我想这一路径几乎适用于所有的企业:
这与Python和Spark等类似产品的接触一样,可以成为未来的数据科学和数据技术。其与敏捷商业科学问题框架(ABSPF)这样的方法结合在一起,可以从端到端的角度为企业带来真正的价值。
我们可以把世界变得更好,改善生活、工作、思考和解决问题的方式。如果我们将现有的所有资源集中起来,使这些领域的知识共同为更大的利益效力,就可以对世界和生活产生巨大的积极影响。
编译组:金沛、韦振琛
相关链接:
https://www.kdnuggets.com/2018/11/deep-learning-masses-semantic-layer.html
如需转载,请后台留言,遵守转载规范