Reddit网友吵爆！算力和数据真能解决一切？

zhoushuntian

2019-12-02

众所周知，算力和数据非常重要，但只有它们就够了吗？

近日，一位reddit用户发起一个讨论帖：如果我们只有更多的数据和计算能力而停止理论工作的发展，今天的哪些问题可以解决？哪些问题绝对无法解决？

Reddit网友吵爆！算力和数据真能解决一切？

这个问题引发了reddit网友的热烈讨论：

Reddit网友吵爆！算力和数据真能解决一切？

MrAcurite表示：我猜想任何涉及罕见疾病诊断的事情。我们没有更多数据，因为数据不存在。但这只是一个猜测，也许小样本学习还是可以解决这个问题的。

Reddit网友吵爆！算力和数据真能解决一切？

MichaelMMeskhi回复道：小样本学习并不解决任何问题。如果我们有数据，那么以往的的深度学习就可以了。但是从理论上讲，小样本学习可能能做到。

Reddit网友吵爆！算力和数据真能解决一切？

pm-me-your-covfefes表示：

我想说的是，有了足够的数据，我们可以找到大多数问题的解决方案，但这并不能使问题解决（或更容易解决）。

我是美国最大的医疗保健公司的高级数据科学总监。我们很庞大。我们基本上有你想知道的任何事情的数据。我怀疑除了中国的医疗体系之外，没有其他机构拥有比我们更多的医疗数据。

有了这些数据，我们就可以制作成千上万的生产模型，这些模型比我在公开场合甚至私下里看到的任何东西都让人印象深刻。这包括那些试图进入医疗行业的“性感”科技公司所做的一切。

但是，这些模型对改善医疗保健并不重要。我们有一些模型可以很容易地预测出每种疾病（甚至是最罕见的疾病）。疾病预测模型根本不是新颖的。也许10到15年前。这些模型对改善医疗保健甚至没有真正的帮助。

以糖尿病预测模型为例。我不需要一个花哨的模型来告诉我，这个350磅重、每天吃两个汉堡的不听话的病人，将会得2型糖尿病。但是，即使当他们被告知“嗨，你应该改变你的饮食和生活方式”，他们的病情随着时间的推移只会变得越来越严重和恶化（90%的概率）。这只会让他们的健康状况恶化，花更多的钱。

长话短说，至少在医疗保健领域，即使没有无限的数据，我们也可以创建我们想要的所有幻想模型，但这无助于解决问题，因为在大多数情况下，问题只是人（患者和providers）。我想对于其他依赖于人们做出他们可能不想做的改变的行业来说，情况也是一样的。

Reddit网友吵爆！算力和数据真能解决一切？

DoorsofPerceptron表示：“基本上，我认为可以使用无限标记的数据和近邻取样解决任何问题。如果你有足够的数据，那么你应该已经看过这一场景，你只需查找答案即可。

我们也可以大幅改进现有的深度学习方法，仅仅通过在问题上抛出足够的计算来找到最优的架构和在搜索空间上的brute forcing，而不是试图想出一些聪明的东西。（在某种程度上，行业已经做到了这一点，这就是为什么很多最好的架构都来自谷歌这样的地方）。

如果你不需要担心计算或数据，则可以通过关注探索/利用tradeoff的探索部分来最佳地进行强化学习。

因此，将需要更多地限制问题。对于无限的数据和无限的计算，我认为我们甚至不需要现代方法来解决所有问题。”

Reddit网友吵爆！算力和数据真能解决一切？

m--w认为：对于现代计算而言，大规模贝叶斯推理仍然过于昂贵。

Reddit网友吵爆！算力和数据真能解决一切？

谈到哪些问题是绝对解决不了的，Phylliida表示：

我们甚至还没有一个理论模型来解释如何使技术奇点发生。例如，对于许多理论问题，我们可以说“如果我们有一个形式问题X（如P=NP）的解决方案，我们就可以解决这个问题”。对于奇点我们也不能说，因为它还没有一个正式的定义。即使我们能够以某种方式解决halting问题，我们也没有一条清晰的路径去达到技术奇点（不，AIXI不是这样的理论，AIXI描述了一个在一个有明确行动和回报的环境中的optimal agent）。

对于AGI来说也是如此，尽管在AGI的情况下，至少具有足够的计算能力和数据，我们可以通过试图复制人类行为来制作人类智能的“duck typed”（如果它看起来像鸭子，并且行为像鸭子，那就是鸭子）模型。我们认为这是使用talktoatransformer进行的小规模操作，尚不足以进行对话，但是subreddit模拟器GPT2非常逼真，而这正是我们目前拥有的计算能力和数据。

Reddit网友吵爆！算力和数据真能解决一切？

Turings_Ego则认为：我认为我们应该走另一条路。该领域在很大程度上受到数据集/基准测试的经验支持。如果我们真的想解决更复杂的问题，就需要做大量的工作来理解收敛性和什么不是收敛性。我预感到拓扑数据分析将提供这些证明的一些关键方面。

人工智能进步来自计算力？周志华：绝对错误！

再来看看国内的AI大佬们是如何看待算力和数据的。

对于“人工智能进步是计算能力带来的”这种观点，南大周志华教授曾表示：这个说法绝对错误的！周老师将IBM深蓝和AlphaGo做对比，深蓝下国际象棋每秒需要评估6亿个位置，而AlphaGo面对更加复杂的围棋，每秒也仅需评估2万个位置，“从6亿到2万，这是机器学习算法带来的提高，更不用说是计算过程的目标方向已经有了根本的改变”。

Reddit网友吵爆！算力和数据真能解决一切？

对此，中科院计算所先进计算机系统研究中心主任包云岗回应，算法起到了至关重要的作用，而计算力的进步也不可或缺。包云岗用“登月”来类比两者相辅相成的关系。“AI进步中算法的作用是导航+一级火箭，计算能力的作用相当于二级+三级火箭”，对于登月缺一不可。包云岗还表示，周老师提供的数据，从IBM评估6亿个位置到AlphaGo评估2万个，“20年算法效率提高了3万倍”，客观展示了算法的进步。

Reddit网友吵爆！算力和数据真能解决一切？

对此，周志华教授表示，不是说计算能力的提升不重要，而是说人工智能技术取得的进展，绝对不是单纯由于“计算能力的提升造成的”。周老师做了进一步阐释：方向性的转变，不是能靠计算能力的提升实现的。如果算法没有取得突破，仍然依靠专家规则，哪怕是研发出量子计算机来加速也没有用。

此外，关于6亿和2万的位置评估，两者取得的结果并不一致。因此，不能简单地拿6亿除以2万来计算加速比。周志华教授说，算法的改变可能改变求解过程的性质，今天人工智能取得的进步恰恰是通过这一点，而且这是仅通过计算能力的提升无法实现的。

Reddit网友吵爆！算力和数据真能解决一切？

Hinton 认为未来的 AI 系统将主要是无监督的。无监督学习是机器学习的一个分支，可以从未标记、未分类的测试数据中提取知识 —— 在学习共性和对共性是否存在做出反应的能力方面，无监督学习的能力几乎达到人类水平。

Hinton 说：“如果你采用一个拥有数十亿参数的系统，对某个目标函数执行随机梯度下降，它的效果会比你想象的好得多…… 规模越大，效果越好。”

神经网络和深度学习在几十年前失败，但是现在却成功了，原因是什么？而它的局限又在什么地方？贾扬清曾谈到：

成功的原因，一点是大数据，一点是高性能计算。
局限的原因，一点是结构化的理解，一点是小数据上的有效学习算法。

阿里巴巴副总裁贾扬清认为：“大量的数据，比如说移动互联网的兴起，以及 AWS 这样低成本获得标注数据的平台，使机器学习算法得以打破数据的限制；由于 GPGPU 等高性能运算的兴起，又使得我们可以在可以控制的时间内（以天为单位甚至更短）进行 exaflop 级别的计算，从而使得训练复杂网络变得可能。要注意的是，高性能计算并不仅限于 GPU ，在 CPU 上的大量向量化计算，分布式计算中的 MPI 抽象，这些都和 60 年代就开始兴起的 HPC 领域的研究成果密不可分。

大数据 reddit font-size text-align

zhoushuntian

0 关注 0 粉丝 0 动态

相关推荐

13张IT架构图！从数字化转型，到数据架构

今天给大家上13个架构图，不说一些文字。我一直觉得，从架构图上可以学到很多东西，这相比于文字更能理解，而且很多人在做事的时候，是想不清楚具体要怎么做的，都是一开始直接上手，然后后面也不知道怎么改。这篇文章，是我在读了2本书之后，哪2本书呢？是《IT结构治理

evolone 2020-10-29

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 2020-11-17

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 2020-10-31

zhoushuntian

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号