以4位大牛的故事看数据科学的发展进程!
在今天,数据科学被定义为一个多学科领域,它使用科学方法、过程、算法和系统从数据中提取知识和见解。它的出现得益于各种因素的融合:学术统计学家的新思想,计算机科学在各个领域的传播以及有利的经济背景。
随着硬盘驱动器成本的不断下降,使得企业和政府能够存储越来越多的数据,因此需要找到新的方法来评估这些数据的价值。这促进了新系统、算法和计算范例的开发。由于数据科学特别适合那些希望从大数据中学习的人,并且由于云计算的出现,它在各个领域迅速传播。
但值得注意的是,尽管大数据的日益普及是数据科学快速增长的一个因素,但不应推断数据科学仅适用于大数据。
在成为我们现在所知的领域的过程中,数据科学受到了学者和记者的大量批评,他们认为它与统计数据没有区别,尤其是在2010-2015期间。如果没有统计学家的背景,他们之间的差异可能并不明显。在这里,我们研究这个领域的起源,以更好地理解为什么它是一个独特的学科。而且,通过参与创建它的人的故事来看时,这会是一个更好理解的故事,让我们遇见推动统计界限的四个人:John Tukey,John Chambers,Leo Breiman和Bill Cleveland。
John Tukey:“地震的震中”
约翰图基对数学和统计世界的影响是巨大的。他创造了“位”这个术语,并且通过他的书《探索性数据分析》和论文《Mathematics and the Picturing of Data》直接和间接地对当今可用的大量图形方法负责。同时也感谢他的箱形图,并且他对FFT算法的贡献也很重大。
Tukey在贝尔实验室开发计算机统计方法时曾在普林斯顿大学任教,当时他撰写了《数据分析的未来》(1962)一书。在其中,他概述了一门关于从数据中学习的新科学,敦促学术统计学家减少对统计理论的关注,并参与整个数据分析过程。阐明探索性数据分析与确认性数据分析之间区别的重要性是建立数据科学领域的第一步。在论文的最后,他总结了他认为对统计未来采取的必要态度。对于今天的数据科学家来说,有必要重复回顾其中的一部分:
- “我们需要面对更现实的问题。例如,正常理论可能提供唯一的框架,其中一些问题可以简单地或代数地解决,这可能是从正常情况开始的一个非常好的理由,但从来不是停在那里的好理由。“
- “我们需要正视数据分析中有用结果的必然近似性质。”
- “我们需要面对通过特定数据分析技术收集实际经验结果的需求。”
- “我们需要面对数据分析中迭代程序的需求。”
- “我们需要在同一分析中面对指示和结论的需要。”
- “我们需要放弃徒劳的希望,数据分析可以建立在像欧几里德平面几何(或某种形式的命题演算)这样的逻辑演绎系统上,并且要正视数据分析本质上是一种经验科学这一事实。 ”
John Chambers:处于十字路口的统计学家
和Tukey一样,John Chambers在贝尔实验室工作。他是S编程语言的创造者,后来演变为R,这是一种在数据科学家中广泛使用的语言。 1998年,他获得了世界上最负盛名的软件奖,ACM软件系统奖的引用,“对于S系统,它永远地改变了人们分析、可视化和操纵数据的方式。”
Chambers对该领域的影响可以追溯到他的论文《或多或少的统计数据:未来研究的选择(1993)》,他在其中提出了将统计分为两组的想法:
更多统计数据:“一切与从数据中学习相关的所有内容,从第一次规划或收集到最后一次陈述或报告”
较少的统计数据:“在本专业范围内发展起来的具体统计方法体系——粗略地说,是由文本、期刊和博士论文定义的统计。“
为了补充一些背景,当时统计学家在他们的专业知识和兴趣相关的新研究领域中略有参与,例如专家软件、科学可视化、混沌理论和神经网络。正如 Chambers曾写过的,“如果统计学家保持冷漠,其他人就会采取行动,那么统计数据会失败。“猜猜发生了什么。
Leo Breiman:文化的转变
著名的统计学家Leo Breiman在以概率论闻名的学术界工作了七年后,成为一名独立顾问长达13年,之后他加入了加州大学伯克利分校(UC Berkeley)的统计学系。回到大学,他凭借他的学术背景和顾问经验,发现Tukey的信息和Chambers的警告没有得到重视。于是,学术统计学家继续关注理论,并没有参与整个数据分析过程。与此同时,其他人采取了行动。
这为他的著名论文《统计建模:两种文化》(2001)提供了主题。与Chambers一样,他将统计数据分为两组:数据建模文化和算法建模文化。他进一步指出,98%的统计学家来自前者,而只有2%来自后者。与此同时,算法建模文化在许多其他领域也成为常态。
根据Breiman的说法,这种对数据模型的关注导致了无关的理论和可疑的科学结论,同时使统计学家不能使用更合适自己的算法模型。他还认为这是在阻止统计人员解决激动人心的新问题,这些问题能够推动新一代人走向潜在的突破。
在与Leo Breiman(2001)的对话中,当被要求向学习统计学的学生提供建议时,他甚至更加明确:
“在某种程度上,我很纠结,因为我可能会对这些年轻的学生说,不要做统计,学术统计可能已经迷失了方向······”
我知道在统计数据的使用方面,工业和政府方面发生了什么,但学术研究领域似乎是遥遥无期的,仅仅在抽象数学的某个分支方面有所发展。
在过去的五六年里,我已经与机器学习和神经网络领域的人们建立了亲密关系,因为他们正在对大而严格的预测问题进行重要的应用工作。他们是面向数据的,他们正在做的事情完全符合韦伯斯特的统计定义,但几乎没有一个人是通过培训的统计学家。
所以我想如果我今天给一个年轻人提供建议,我会建议他或她有些保留看法去统计数据,但最后我可能会说,“统计数据,要记住统计数据的伟大冒险正在收集和使用数据来解决有趣和重要的现实问题。“
数据科学的所有元素现在都在空气中。
Bill Cleveland:超越统计数据
Bill Cleveland是印第安纳州普渡大学的计算机科学家、统计学教授和计算机科学学院教授。他最出名的是他在数据可视化方面的工作,特别是非参数回归和局部回归,他在他的论文《Robust Locally Weighted Regression and Smoothing Scatterplots》(1979)中首次描述了这一点,然后在局部加权回归:一种通过局部拟合进行回归分析的方法(1988)中进行了发展和丰富。Bill Cleveland还曾在贝尔实验室的统计研究部工作,成为部门主管。
2001年,他发表了一篇名为《数据科学:扩大统计领域技术领域的行动计划》的论文。他提出,大学应该通过扩大统计领域的6个技术领域来建立新的研究和教学部门。他将改变后的领域称为“数据科学”。他建议在这6个领域之间分配部门资源,具体如下:
- 多学科调查(25%):在主题领域的集合中进行数据分析协作。
- 数据模型和方法(20%):统计模型;模型构建方法;基于概率推理的估计和分布方法。
- 数据计算(15%):硬件系统;软件系统;计算算法。
- 教育学(15%):小学、中学、大学、研究生院,继续教育和企业培训的课程规划和教学方法。
- 工具评估(5%):调查实际使用的工具,调查对新工具的感知需求,以及研究开发新工具的过程。
- 理论(20%):数据科学的基础;模型和方法的一般方法,数据计算,教学和工具评估;模型和方法的数学研究,数据计算,教学和评估的数学研究。
该计划也有意被研究实验室和企业研究组织采用。
结论
因此,对数据科学的需求源于直觉,即解决未来的复杂问题需要分析大型、多元的数据集,而不仅仅是理论和逻辑。它源于统计实践的长期演变,及其本来可以实现的目标。在Tukey首次提出他的想法50多年后,他们终于成为了主流,尽管这种发展不是由于统计学家。
科学方法论与数据科学密不可分,因为我们不能仅依靠理论。正如Tukey所说,每次我们将数据科学应用于新问题时,我们都会从数据分析的角度出发。因此我们需要进行大量实验。这就是科学方法派上用场的地方。
这里讨论的四位研究人员的共同点是,他们参与了统计学在不同领域的应用。这同样适用于今天的数据科学家。从根本上说,这个领域由来自各种其他学科的人组成。他们中的大多数人开始在工作或学习中使用计算机,最终从原来的领域转向数据科学。许多学科都采用了自己版本的数据科学。只需看看涉及预测变量的术语的多样性:特征、输入变量、自变量,或从数据库角度看,字段。
每当你向数据科学家询问他们在这个领域工作之前做了什么,你可能会得到一个不同的答案。 2018年9月,工作现场确实分析了其拥有的数万名数据科学家的简历。结果显示,平均而言,他们具有较高的教育水平,其中约20%获得博士学位,75%获得学士或硕士学位。他们之间的研究领域的多样性是非常明显的。计算机科学和商业/经济学都占22%左右,其次是数学/统计学(15%),自然科学(10%)和数据科学(9%)。考虑到这个领域的新特点,有很大一部分数据科学专业可以被认为是令人惊讶的,但它展示了大学如何成功地提出新课程。相比之下,社会科学的所占比例较低(2%)。
但这个故事并没有在这里结束。我们看到的数据爆炸只是一个开始,将带来新的挑战。随着物联网(IoT)的发展,它将拓宽我们能够应用数据科学的领域。此外,越来越多的可用培训数据将导致更有效的模型。作为一门科学,这个领域相对较新,而机器学习软件的开发也有望增加。 Google、Facebook、Uber等公司已经在建立数据科学软件研究团队,以预测经济,提高机器学习模型的精确度和准确性可能是发展业务的最佳方式。
编译出品