【人工智能】数据科学2019发展趋势有哪些(文末附学习资料分享)
数据科学和分析领域在2018年的主要发展有哪些?2019年的主要趋势又如何?本文推荐业内12位大牛的观点,一起来看看他们是如何评价的吧!
Meta Brown, @metabrown312, 《Data Mining for Dummies》作者, A4A Brown公司总裁。致力于培养管理和技术人员之间的有效沟通。
人工智能一直是2018年的热门分析话题。
近来,与其他分析应用相比,人工智能的话题度似乎更高。可惜的是,大部分讨论都毫无意义。
计算机先驱艾伦•图灵曾设想计算机拥有与人类智力相匹敌的能力。人工智能将使计算机生成的对话与人类对话别无二致。
想想当下我们与人工智能应用的互动。诸如Siri或Alexa之类的私人助理或许有用,好像和真人沟通没什么区别。但提供在线帮助的机器人客服却令人大失所望——你只需问一个实际点的问题,就能马上发现它只是一个没有思想的机器人。
根据图灵的定义,人工智能尚未出现。纽约大学的心理学和神经科学教授Gary Marcus表示,“认为我们离它很近”是对人工智能最大的误解。
在现实生活中,我们确实有计算机驱动逻辑的实际应用。虽然不像人那样思考,但它们思维敏捷、连贯,这些都是有价值的特点。这些应用程序使机器能够做一些实际的工作,比如标记潜在的欺诈交易和操作汽车。
尽管技术上存在明显的局限,但公众甚至技术人员都对人工智能抱有不切实际的要求和期望。夸大其词引起了许多恐慌。AI正开始令人失望,并且这种失望只会更多。
Tom Davenport,@tdav,巴布森学院杰出的信息技术和管理教授,国际分析研究所联合创始人,麻省理工学院数字经济计划研究员,德勤分析高级顾问。
在国际分析研究所做出的年度趋势预测中,有几个观点我较为赞成:
• 公司越来越关注模型部署率——根据Rexer Data Science的调查,只有10-15%的公司“几乎总是”部署结果,另外50%的公司则“经常”部署结果。剩下35%-40%的公司只是偶尔或很少成功地部署分析模型。我遇到过一些公司称其成功部署率低于10%。当然,未经部署的分析模型不会有任何经济价值。所以企业需要在2019年衡量并提高其部署率。
• 业余数据科学家和商业分析师仍将存在。图形化分析和基于搜索的分析的兴起,以及数据科学前沿日益自动化的机器学习意味着我们将看到业余人士完成越来越多的分析工作。与其与这种趋势做无谓的抗争,不如集中精力为其保驾护航。这也意味着,一定数量的专业人员要么需要转向高度复杂困难的建模任务,要么需要理解商业问题,应对企业变革。
Carla Gentry, @data_nerd,数据科学顾问,Analytical-Solution的所有者。
2018年是分析和数据科学的黄金年。同时,我们也看到了AI、神经网络和机器学习的爆炸式增长,无论这种说法有无人才和经验的支持。AI在医疗和治安领域的使用有所增加,而且,无论是否存在偏见、人才和经验等危机,我认为有些人已经忘记了在这些情况下,数据等于生命。而可穿戴设备和物联网(Google Home, Alexa等)的例子告诉我们,这种情况将继续存在。
2019年将会有更多相同的流行语出现,很多公司开始意识到,神经网络需要成千上万的例子来学习。更糟糕的是,每次你想让神经网络识别新型的东西时,必须从零开始(至少很耗时)——人才是另一个问题,除了Geoffrey Hinton、Yejin Choi 和Yann LeCun外,再无神经网络方面的专家,所以别指望在人才库里进行挑选了。
数据科学是指收集数据并形成观点。在某些情况下,期望我们成为AI、机器学习或神经网络领域的专家是不切实际的的。因此,我们必须更仔细地探讨其差异。同时,在这一技术的新未来里,新用户必须具备更强的技能来竞争。我担心的是,对机器如何学习以及如何使用人工智能缺乏真正的理解,将继续暴露一些公司/算法/企业的弱点。
让我们欣然接受这些技术吧!但要明白,如果你做错了,就要承担后果!
Bob E. Hayes, @bobehayes,研究员、作家和顾问,Business over Broadway出版人,拥有工业组织心理学博士学位。
在数据科学和分析领域,人们对机器学习的兴趣持续升温,包括强化学习、聊天机器人及其对社会的影响。
预计在2019年,AI领域的伦理道德将获得越来越多的关注,包括隐私和安全问题。重点将更多放在理解算法如何做出特定决策上:我们不仅需要知道机器学习能够帮助我们做出决策,还要知道其工作原理(它是如何做出决策的)。此外,美国企业将重点关注如何使用消费者的个人数据。加州通过了《加州消费者隐私法案》(将于2020年1月生效),希望其他州也能效仿。
我担心AI和机器学习在假新闻的制造和传播中发挥更大的作用。DeepFakes已经表明人们可以轻而易举地制作视频内容,其中显示的是人们并没有说过的话和没有采取过的行动。正如Max Tegmark所言,认识AI潜在的坏处并非是在散布恐惧,而正是一项“安全工程”。
虽然对于数据专业人士来说,通过训练营、慕课(MOOCs)和大学课程等学习数据科学的方法有很多,但我希望在数据分析的方法中,能看到更多对非数据专业人士(如管理者和一线员工)的教育尝试。
Cassie Kozyrkov, @quaesita,谷歌云首席决策工程师。热爱统计、AI、数据、双关语、艺术、科幻、戏剧、决策科学。
2018年的一个主要发展即是数据科学的民主化。从云技术(云技术允许人们不必先建立数据中心,就可以尝试资源密集型的大数据和AI应用程序),到像Kubeflow这样的工具(这些工具将可伸缩的数据科学带给没有专业知识的普通人),在2019年,它们将促使数据科学成为每个人工具的趋势进一步加速。
Doug Laney, @Doug_Laney,Gartner副总裁、杰出的分析师和首席数据官,著有《信息经济学》一书。
Gartner的2019年度数据&分析战略预测刚刚发布。其中包括:越来越多的公司战略明确提到,信息是重要的企业资产之一,而分析是一项基本能力。不仅IT策略提到了这一点,企业策略和计划亦有提及。
同时,我们也希望数据教育计划能变得更常见,帮助商业人士与数据&分析专家更好地交流,特别是在分析需求变得更复杂的情况下。随着信息经济学的原则和实践被越来越多地采用,我们希望首席数据官能够多与其首席财务官合作,以正式评估企业的信息资产。实践证明,这样做可以为我们许多客户的信息管理和生意带来利益。但是分析和数字道德仍是一个问题,我们相信公司将开始为其数据科学团队引入行业行为准则。
此外,我们预计在未来3-5年内,多数新商业系统将会采用使用实时语境数据的连续智能;量子计算概念验证项目将显著超越现有的分析技术;强化的和自动化的见解将取代绝大多数预先构建的报告;位置分析的使用将增加近10倍;机器学习将缓解寻找数据科学家的竞争。
Gregory Piatetsky, @kdnuggets,KDnuggets总裁,数据科学家,KDD会议和SIGKDD联合创始人,位列LinkedIn 2018 Top Voices “数据科学和分析”排行榜首位。
2018年的主要发展:
• GDPR(《通用数据保护条例》)于2018年5月生效,这不仅是欧洲的一个重要里程碑,在美国和其他地区也是如此,许多公司正在更新其隐私政策。然而,消费者的隐私是否会得到实质性的保护,亦或只是在新的隐私条款的掩护下一切照旧,还有待观察。
• 数据科学民主化继续进行,越来越多的工具使我们能够获得更广泛的数据科学见解。我尤其注意到AWS改造发布的新工具。
• AI风险:第一起自动驾驶汽车致人死亡事故发生——自动驾驶汽车与扶着自行车的行人相撞。这增加了人们对AI不可规避风险的关注。与此同时,自动驾驶汽车(以及自动化AI)不应被限制在理想化的零失误标准之下,而应与当前的实际风险进行比较。例如,人类驾驶极其危险,仅在美国,2017年就有3.7万人死于交通事故。
2019年的主要趋势:
• 数据科学自动化将继续加速,但至少在未来几年内,数据科学家的工作不会被完全取代。
• AI的进步和炒作:虽然AI的进步是真实的,但AI的炒作会增长得更快。
• 中国已经成为人工智能领域的主要参与者,许多中国公司都在进行自己的创新,而非只是抄袭美国。
• 强化学习将在AI进步中扮演越来越重要的角色。例如,RL在Montezuma's Revenge Atari游戏中取得了100级的惊人战绩,远远超过了这款游戏之前的所有记录,无论是电脑还是人类创造的。
Bill Schmarzo, @schmarzo, Hitachi Vantara物联网和分析的首席技术官。
2018年大数据、数据科学或分析的主要发展:
• 商业利益相关者对机器学习和深度学习的商业变化潜力的认识有了显著提高。这是由大量已公布的使用案例造成的。
• 数据湖仍是一项错误的资产。很多企业都把数据湖看作是一种降低昂贵的数据仓库和ETL成本的方法,但却没有完全理解数据湖可作为一个合作的价值创造平台,使商业利益相关者和数据科学团队可以从中派生并驱动商业价值。
2019年的主要趋势:
• 对于龙头企业而言,大数据和数据科学计划将由商业而非IT驱动。商业领袖们将亲自识别、验证、审查、评估这些能够推动商业成果的业务领域,并优先考虑大数据、物联网和数据科学(机器学习、深度学习、人工智能)。
• 除了利用数据科学来优化核心业务和运营流程(从引人注目的ROI开始仍然可取),龙头企业还将意识到隐藏在数据中的客户、产品和运营的见解会是新的货币化机会的推动力。
Kate Strachnyi, @StorybyData,数据可视化专家,著有《The Disruptors: Data Science Leaders and Journey to Data Scientist》; 播客Humans of Data Science 主持人。
2018年数据科学和分析的主要发展:
• 《通用数据保护条例》(GDPR):于2015年5月生效的欧盟条例提供了一套准则,旨在让欧盟公民能够更好地掌控其个人资料。其他地方受到鼓励,也制定了类似标准。例如,加州通过了自己的数字隐私法,可以让消费者知道公司在收集什么信息、为什么要收集以及与谁共享这些信息。
• 自助业务智能(BI)工具:BI工具在数据分析师和商业分析师中变得更加常见。然而,目前还不清楚这些工具的用户是否与幕后的分析保持一致。用户学习将字段拖放到工具中并创建图表与后端对发生事件的实际理解之间似乎还存在着速度差距。
2019年的主要趋势:
• 数据伦理&隐私:在数据科学进程的每一步中,将更加注重对数据处理伦理/隐私的考虑;从事数据工作的人员需要了解这些工作举足轻重的意义。随着世界的日益数字化,个人、公司和政府越来越关注这一问题。
• 流程自动化:公司将继续自动化流程,以降低成本,提高效率。这种自动化可能导致负责执行自动化过程的人员失业。所以人们需要不断学习新技能,以在这个快速变化的环境中保持与时俱进。
Ronald van Loon, @Ronald_vanLoon,Adversitement总监,帮助数据驱动的公司获得成功。十大大数据、数据科学、物联网、AI影响者之一。
在2018年,端到端数据管理得到了发展。公司正在使用所有的数据来源以获取可靠见解,并支持与数字经济相一致的基础设施建设和商业模式,同时分析成熟度也得到了提高。机器学习被广泛接受,所有的软件供应商都将其构建到自己的应用程序中,并提供了特定领域的解决方案。
2019年,将会有更多集成的硬件和软件框架,用于支持更高级的深度学习应用程序,进一步促进创新。深度学习应用程序需要充分优化的硬件和软件栈,来推广新的、现代的AI架构。我们将看到这种全栈方法在各领域供应商中兴起,以应对对最优深度学习性能和能力的加速需求。
实时边缘分析将随着物联网设备的增长而迅速增长,实时分析变得更容易,便于根据实时见解作出快速反应。
Favio Vazquez, @FavioVaz,数据科学家,物理学家,计算工程师。Ciencia y Datos创始人。
对于数据科学(DS)来说,2018年是充满惊喜的一年,在理论和实践方面都取得了巨大进步。针对数据科学,有几种不同的研究方法被提出,有助于将这一领域转化为一门真正的科学。对此,我已经讨论了一年多了,最近我发现有更多的人在谈论它。在机器学习(ML)方面,AutoML非常庞大,也包括自动的深度学习。