17家企业大拿分析和预测:17年AI、大数据、数据科学发展和18趋势
2017余额不足,在年尾的时候除了盘算着领个年终奖,还是得展望下未来的大势,来年也好先定个500万的小目标嘛!
首先是一些行业领航者们对于“2017年人工智能,大数据,数据科学,机器学习的主要发展情况以及2018年的主要趋势是什么?”的看法。
涉及到的一些主要的话题是:人工智能是新的大数据、更多的数据转移到云、混合云、深度学习炒作、企业机器学习、AI / ML成为特定行业、自助商务智能、自动数据 科学/机器学、,Kubernetes、GDPR、Spark和流数据。
以下是来自17家公司的分析和预测:Alation,Arcadia Data,AtScale,BlueData,Dataiku,DataStax,IBM Analytics,IBM Cloud,Infogix,Kaggle,KNIME,MathWorks,RapidMiner,Splunk,Splunk,StreamSets和Unravel。
Alation联合创始人兼首席执行官Satyen Sangani:
云扩张:随着CIO们试图将计算提供商的投资多样化,包括自身的内部部署能力,多样化将导致数据、服务和算法在多个云中分布。在单个云中查找信息或代码非常困难,由多个云建立的数据孤岛将会相距甚远,将管理成本推向需要了解基础设施的人。
微服务将导致宏观混乱:随着容器和微服务的激增,软件创建、部署和基础架构的成本将进一步下降。哪些服务是存在的?他们是如何被使用的?我们如何知道服务是否被弃用?还有什么人在使用该服务?
购买者偏向于购买“傻瓜”式数据接口以实现员工自动化:凭借“简单”的商务智能(BI)和漂亮的仪表盘,一直是商业智能领域的热门话题,企业正在处理这样一个事实,即使他们仍然不能信任他们的数据。规模庞大,数据种类繁多,复杂性和数据量大,传统的治理方法没有得到值得信赖的数据。因此,组织将从简单的仪表板转向教人们更多的数据知识,用最好的接口帮助解决这个挑战。
Arcadia Data产品和解决方案高级总监Steve Wooledge,营销副总裁Dale Kim:
在AI上:人工智能(AI)应该和Hadoop和其他大数据技术最近得到的处理方式一样。如果业界试图平衡围绕大数据导向产品的炒作,就必须确保不要过度宣传AI。这并不是说人工智能在当前和未来的大数据项目中没有地位,只是我们还没有到达那个时间点,我们可以把业务决策过程完全转化为机器。相反,到2018年,行业将开始通过机器辅助来实现BI的现代化,而不是AI驱动的任务。把它看成是动力转向与自动驾驶汽车。商业用户将更快地获得更好的见解,因为他们不需要被告知什么是正确的见解。可能目前对于人工智能的执念过深,实际情况是它还并没有准备好在为业务用户分析数据的情况下自行采取行动。
在BI上:我们也会开始看到企业将BI带到数据会发生的转变。商业智能和大数据已经碰到了一堵砖墙。公司在他们的数据基础设施上投入了大量的资金,但是很多人仍然不知道为什么他们需要等待这么久的报告。部分问题是由于公司正在利用Hadoop等技术构建的数据库中捕获他们的数据,但是他们没有充分利用数据池的力量。明年和未来,我们将开始看到越来越多的公司将着重数据处理,这是Hadoop和数据池的核心原则,就其BI工作负载而言。这将加快洞察和改进投资回报率的公司在大数据基础设施投资上的投入。
首席营销官Bruno Aziza和AtScale产品副总裁Josh Klahr:
1.随着商业智能领域在2015年增长了60%,然后开始出现萎缩的情况,人工智能开始腾飞。《哈佛商业评论》(Harvard Business Review)最近的一篇文章指出,在拥有完善的分析基础之前,企业还没有对人工智能做好准备。人工智能是公司在大数据和分析方面投资的自然演进,那么在2018年,企业就需要确保他们具有强大的分析基础,以便为人工智能做好准备。
2. 2018年,企业将把他们的大数据迁移到云端。根据AtScale的数据成熟度调查,72%的受访者表示他们计划在未来五年内在云中部署大数据。
3. 2018年将是一个融合的世界。虽然企业会将一部分业务迁移到云,但他们不会完全取代他们的大数据环境。一些资产永远是前提。
4. 2017年,企业的卓越中心是全方位服务,而到2018年,这些中心将成为实施中心。在过去,企业用户可以输入他们的要求并接收报告,但是现在的业务用户可以自助服务于可扩展但也受管理的数据。 COE可能会像沙拉,你可以帮助自己,你可以自己动手床架自己的沙拉。
BlueData产品副总裁Anant Chintamaneni:
Kubernetes赢得了容器战争,这显然是无状态应用程序(如Web服务器)和微服务的实际标准。 但是,大数据和有状态应用程序呢? 在接下来的一年里,Kubernetes将解决长期运行、分布式、多业务的大数据应用平台所面临的挑战:包括持久性存储、安全性、性能以及其他一些业务需求。 大数据应用程序打破了容器编排的典型假设。 Kubernetes将在接下来的12-24个月内解决这些问题,因为他们将继续看到越来越多的采用。
Dataiku首席执行官Florian Douetteau:
在2017年数据治理取得了中心舞台,不幸的是,数据泄露正变得比我们大多数人所熟悉的更普遍。最值得注意的是,Equifax灾难。推动数据治理进一步上台的是欧盟通用数据保护条例(GDPR)的通过,企业在2017年全面铺开(并将在2018年继续面临)。
2018年,我预测:
1.数据团队经理将成为专业 - 随着数据团队开始变得更有组织、更强大,他们将开始分解的更为专业(如数据分析师,数据科学家,数据工程师,数据操作员等)。随着这种持续的专业化,项目经理或小组负责人(迄今为止在数据空间中并不像在整个企业中的其他小组那样突出)的作用更为重要。
2.自动化ML将成为商品 - 自动化机器学习(ML),即自动搜索功能转换和模型空间的能力,将成为一种商品,并且已经被大多数可用的软件工具包所利用。随着这一转变,数据科学将不再是关于框架的专业知识,更多的是关于数据管理和成功阐述业务需求。
3.销售机器人将开始工作得益于ML和全球机器对话库 - 机器人系统,尤其是在企业对客户交易中,(通常是)硬编码规则集。在2018年,这些系统将随着机器学习和机器学习框架的商品化而发展,这些机器学习框架将经过真正的人与人之间的对话训练。
DataStax开发者关系副总裁Patrick McFadin
你应该在2018年做什么 - 数据科学家的新年决心
解决方案#1 - 准备怀疑人工智能
人工智能和机器学习等领域正在帮助提高应用程序内的性能,而深度学习的发展也越来越受到关注。
然而,尽管这种炒作可能会打开未来的预算,但炒作可能会导致过度膨胀,那这就不是一个好事情了。为共同构建具体的模型和商业案例,避免炒作崩溃以及随之而来的怀疑做好准备,将是下一步需要努力的方向。
解决方案#2 - 熟悉流式传输和传统的批处理流程
对于某些用例,传统的批次样式分析运行应该是最合适的。对于其他人来说,对交易正在进行的分析将是必需的。
最简单的方法是,流式分析适用于满足特定条件的项目,并在事件发生时立即进行分析。对于那些想要大规模处理数据的公司来说,每秒钟可能会发生成百上千的事件,而这些事件在发生时都需要进行分析。批量处理根本跟不上这样的数量。
除此之外,还有Forrester称之为translytics的新类别。这包括如何通过在创建时操作数据时进行分析并使用它。最终结果应该与流式分析相似,知道何时实施流处理,什么时候选择转换数据库以及何时使用批处理将是重要的。
解决方案#3 - 提前计划把工作交给信任的人
你可以构建和运行自己的数据中心,或者使用云提供商,或两者兼而有之。对于企业来说,迁移到公有云确实可以降低资本成本,但是随着时间的推移,也会导致更高的运营成本。
但是,最大的问题之一是如果你想要移动到另一个供应商,你可能会做什么。将数据从云服务提供商的离合器中取出需要成本吗?或者是否有一个简单的迁移路径可用?什么服务是唯一的一个提供商独家?
要避免“锁定”是不可能的 - 你必须和某人合作。然而,你可以选择建立在哪个基础上,可以选择谁作为你的长期合作伙伴。
IBM分析开发副总裁Dinesh Nirmal:
机器学习将继续进军企业。在企业中,ML正在开展认真的工作,但并不像我们在新时代的ML应用程序中所看到的那么复杂。所以,虽然我们可能不会看到企业中的自动驾驶汽车,但ML在金融、制造、医疗保健和其他几个行业将会有更大的进步。我们也会看到ML越来越多地使数据中心和数据管理的日常工作自动化。明年会耗费大量的时间和资源的任务(如数据匹配和元数据创建),以更高的频率自动执行,这大大地释放了管理员的工作,使其能够更好地完成核心数据中心的工作。
自然语言界面也将变得越来越普遍(不那么令人沮丧)。除了已经在市场上的语音激活搜索助手之外,明年我们将看到自然语言界面集成到更多的应用程序中。
IBM研究员兼IBM Cloud副总裁Jason McGee:
到达成熟的临界点:容器,Kubernetes和无服务器
基于容器和无服务器计算的微服务架构已经彻底改变了应用的构建速度,以及如何连接到当今竞争最激烈的技术,如:AI,区块链和机器学习。到2018年,我们将看到这些技术的采用达到一个临界点。他们将从早期的采用转向成为各种行业和各种规模公司的复杂和生产就绪应用程序的事实标准。
2017年出现的新工具(如Grafeas,Istio和Composer)推动了这一转变,使开发人员能够更安全地管理和协调,通过使用容器、无服务器和微服务构建的许多移动部件。这些工具为开发人员提供了更高的可视性,包括谁在使用数据,正在改变什么以及谁有权访问,从而提高安全性。结果将会是成熟应用程序的发展,可以跨越多个系统、团队和数据流进行跨越和操作。
Infogix产品管理高级副总裁Emily Washington:
在2017年,由于许多组织采用某种大数据环境,大数据成为常态。作为回应,可以发现采用自助式数据准备工具的情况有所增加,使得企业无论数据类型如何都可以准备数据。这些工具使他们能够利用他们的大数据更好地了解他们的客户并提供改进的客户体验。此外,企业现在正在将机器学习、人工智能和高级分析应用于客户行为和财务预测之外的用例。正因为如此,我们看到很多技术融入了机器学习的解决方案。
我们预计这一趋势将持续到2018年,将继续看到数据质量、分析、治理、元数据管理等广泛的数据管理技术的融合。提取有意义的见解并提高运营效率,需要集成的工具使用户能够快速提取、准备、分析、操作和管理数据。我们也希望看到对数据治理的重视。随着监管压力的不断增加,数据不断积累,而且与客户进行准确而有效的沟通变得更加重要,团队可以更好地访问组织内的数据,并且利用高级分析,这使得数据治理变得至关重要。
安东尼Goldbloom Kaggle:
Kaggle的公共数据平台(www.kaggle.com/datasets)实际上是作为Kaggle活动的主要驱动力超越比赛。现在拥有6000多个关于机器学习者或数据科学家关心的大多数话题的数据集。历史上,UCI Irvine数据存储库一直是数据科学和ML社区的价值资源。 Kaggle的公共数据平台使得它增加了收入。
KNIME的Michael Berthold:
2017年,大数据在现实世界中的到来。一些早期的炒作已经冷却下来,我们看不到,但我们所看到的更严重,是把大数据用于实际使用后的情况。
“深度学习”也一样,但到目前为止,在术语方面,2017年已经花费了大量的精力来创造一个混乱。现在许多年轻人将机器学习与深度学习混为一谈,陷入了90年代我们偶然发现的陷阱,认为神经网络将解决所有数据问题。 在2018年,这种趋势可能会持续一段时间。
在所有这些喧嚣的背后,许多人仍然会遇到以下经典问题:分析结果的自动化部署以及对成千上万个预测模型的监视和管理。特别是对于后者,明年应该会有许多的进展。部分管理推送也是自动化参数扫描,来自H20的人已经在这方面做了一些有趣的工作,期待看到更多的指导版本,显示在结尾...
数据分析师,尤其是欧洲的数据分析师还有数据隐私方面的问题,需要着重关注,并构建分析应用程序,以解释他们的决策,这对于深度学习人士来说是一个有趣的挑战。
MathWorks数据分析组产品市场经理Seth DeLand:
趋势:机器学习和深度学习
随着机器学习技术的应用变得越来越简单,越来越多的产品和服务将采用机器学习模式。 通常用于控制和诊断的嵌入式系统将结合能够检测先前不可观察现象(例如,检测驾驶员的驾驶风格,或分类机器是否可能发生故障)的机器学习模型。 在2018年,我们将继续看到将机器学习模型整合到新的地方,特别是边缘节点和嵌入式处理器。
虽然深度学习持续看好,但仍然需要进行大量的设计和调整来培养一个有用的深度网络。 诸如自动化超参数调整等技术似乎能很好地减少这项工作,这将加快深度学习的采用步伐。
RapidMiner创始人兼总裁Ingo Mierswa:
模型构建中对自动化的需求将会继续增加,但是它将超越盲目的数字处理。为了使自动化模型更具相关性,从业者将需要更好的方法来定义他们关于用例和数据的背景知识以获得有意义的模型。
许多人警告纯人工智能的危险。人工智能将在下一年得到实际检查。实用的人工智能将提升并汇集所有必要的组件。机器学习仍然是核心,但知识管理、优化、计划和沟通将与ML整合,这将导致ML和AI更多地集成到业务流程和自动决策中,主要由物联网应用程序驱动。
机器学习是通过语境来学习的,即算法将更多地利用它们对于以前情况和决策的记忆。这将解决一些基于流的机器学习的问题。
当然,深度学习的炒作也将继续,特别是在无监督和生成式学习方面。除了图像,音频或视频分析之外,我们还需要寻找更多高价值的用例,否则炒作就会很快开始淡化。
最后,处理个人数据(GDPR)的新国际标准将需要更多的模型可理解性和决策的解释。这将给自动化和深度学习带来新的挑战。基于模型的决策的可解释模型和路径将成为标准实践。
Splice Machine首席执行官蒙特·兹维恩(Monte Zweben):
在线预测处理(Online Predictive Processing,OLPP)作为在一个平台上结合OLTP、OLAP、流媒体和机器学习的新方法而出现。
人工智能是一种新的大数据:无论需要与否,企业都会展开竞争。
在Hadoop时代,许多企业都淹没在它们的数据池中,由于管道铺设Hadoop计算引擎的复杂性,无法获得投资回报。
SQL已经重生,许多企业意识到他们的基于Hadoop的数据池需要传统的数据库操作,比如将记录更新和索引应用到power应用程序。
OLPP数据库的最新技术将按行进行索引,以便快速访问和更新,但存储在columnar编码中,用于节省大量的存储空间和扫描速度。
Splunk工程师AI和机器学习副总裁Toufic Boubez:
人工智能和机器学习经常被误解和误用。许多初创公司和大型科技公司都试图通过强迫与这些词组相关联来提高他们的吸引力。那么,这个嗡嗡声将不得不在2018年停止。这将是我们开始要求物质证明任何能够使用数据来预测任何与业务,IT或安全相关的结果的理由的一年。尽管2018年将不再是人工智能能力成熟以匹配人类技能和能力的一年,但使用机器学习的人工智能将越来越多地帮助企业对大量数据做出决定,否则这些数据将难以理解。
AI和ML成为特定行业:使用机器学习的AI将越来越多地为金融服务组织提供识别欺诈、识别用户行为异常的能力,并建议客户采取精确步骤来缓解这些威胁。此外,计算机新闻的兴起将会对美国和全世界媒体产业的发展产生重大影响。在2018年,我们将看到越来越多的记者与数据科学家合作,就像他们在普利策提名的“亚特兰大宪法”中所做的一样。新闻工作者将转向人工智能、机器学习和自然语言处理(NLP)方面的专家,以发现与当地、全国和全球观众最为相关的具有新闻价值的故事、为以前可能从未发现的问题提供亮点。
AI和ML在B2B中成为主流:增加对大量实时数据的访问带来了额外的负担,即在复杂的信息海中识别相关信号。无论是预测和防止关键的IT基础设施停机,还是识别单个数百万流量的不受欢迎的用户,这些都是最关键的要求的AI和机器学习功能。除去世俗的任务,赋权让机器自己学习,这将会带来更多的创新、生产力和工作场所的满意度。
StreamSets产品营销主管Clarke Patterson:
2017年,流处理市场在使用流处理框架方面存在混淆。 Apache Flink、Spark Streaming、Kafka Streams和其他替代品浮出水面,表面上所有这些都提供了类似的功能。使用这些框架的企业都在纠结究竟使用哪种框架,会不会有明确的领导者出现。最终的结果带来一个不必要的副作用:“解决方案蔓延”,它缺乏对摄入数据的监督和控制。
在2018年,尽管可能会出现一个领头羊,但实际上可能不止一个。最初的混乱将转向标准化,大多数企业会选择自己喜欢的。虽然Spark Streaming似乎是主角,但预计由于前期投资的剩余部分和整个业务持续存在多个框架而导致蔓延。幸运的是,企业可以使用多个框架,而无需担心通过选择包含具有自动更新功能的活动数据映射的数据操作平台来失去对数据的控制权。这允许在数据流中对应用持续集成和持续部署方法进行流处理。
Unravel首席执行官 Kunal Agarwal:
第一个预测是关于企业将侧重于关键任务的大数据应用而不是技术。在过去,人们专注于学习各种大数据技术:Hadoop、Spark、Kafka、Cassandra等。用户需要花时间来理解、区分和最终部署。有很多辩论和大量的炒作。现在企业已经彻底摆脱了这些噪音,并且把所有这些都弄清楚了,他们关心的是实际上如何使用他们的数据。
以推荐引擎为例,这是大多数网络公司的关键应用程序。考虑一下Netflix:他们的推荐引擎不仅仅是一个很好的可以增强用户体验的插件,它是体验和Netflix的底线。
Netflix 企业并不关心正在使用的技术。他们使用哪种分布或数据库或分析并不重要,重要的是结果。企业已经意识到这一点,期望来年将会有更多采用以应用程序为中心的大数据方法。