要什么自行车，不学好数学还想做数学家？

Anscor

2018-02-06

要什么自行车，不学好数学还想做数学家？

大数据文摘作品

编译：文明修竹高宁天培

数据科学家需不需要有扎实的数学基础呢？

随着越来越多优秀开源项目的涌现，各类数据科学工具都实现了“半自动化”，数据分析的背后数学原理似乎不再是数据科学家的必备技能。

而在近期，诸如谷歌Cloud AutoML之类的人工智能自动化平台也不断趋于成熟，甚至让人可以不用编程就能建立机器学习模型（点击阅读《谷歌重磅：不用写代码也能建模调参，Cloud AutoML要实现全民玩AI》）。

这么看来，数据科学家确实不再需要扎实的数学基础了？

著名数据科学论坛KDnuggets的网红博主 Tirthajyoti Sarkar表示，当然不是啦，强烈反对！

为什么数据科学依旧离不开数学？我们又需要会哪些数学知识？让我们听这位大咖一一道来。

要什么自行车，不学好数学还想做数学家？

声明

首先，我不是一名IT工程师，我在半导体领域工作，更确切的说是高功率半导体领域。作为一名技术开发工程师，我的日常工作内容主要涉及半导体物理，硅制造过程的有限元模拟，以及电子电路理论。当然，这其中会涉及一些数学，但令人难过的是，我并没有用到过数据科学家们所需要的那些数学。

我有不少朋友在IT行业工作，我也目睹了不少传统IT工程师充满激情的学习或者参与到令人激动的数据科学和机器学习/人工智能领域。我现在涉足这个领域是为了学习一些这行所需要的技术，希望把这些技术应用在半导体装置或工艺设计领域。但当我开始通过自学深入了解这些令人激动的内容时，我很快发现我在大学里学的那些基础的数学知识，我已经记不清了。

虽然我拥有美国一所著名大学的电气工程博士学位，但在没有复习一些必须的数学知识的前提下，想要牢固的掌握机器学习或者数据科学技术还是有一些困难。我必须要说的是IT工程师工作内容和长期的培训使得他们远离了应用数据领域。他们虽然每天处理大量的数据和信息，却并没有对这些数据建立严谨的模型。通常，由于巨大的时间压力，他们工作的重点是“立即处理完当前需求然后处理下一个”而不是科学性的深度挖掘这些数据。遗憾的是，数据科学永远是一门科学，而仅仅有数据是远远不够的。

这些工具和技术包括了，模拟物理或信息过程从而探寻潜在动力学过程，严格地评价数据来源的质量，训练人们从信息流中识别隐藏模式的识别能力，或者理解模型的局限性。这些内容都是科学过程中的标志。

应用科学或者应用工程学课程中通常包含这些内容，一些相似领域中的高水平研究工作中也包含了这些内容。遗憾的是，即便是工作超过十年的传统IT工程师（开发运营，数据库或者QA/测试）都缺乏对这些知识的学习。原因很简单，用不到。

变革的时代

现在不一样了！

在大多数情况下，拥有完美的SQL查询知识，清晰的商业需求，以及一定的RDBMS知识就足够完成提取-转换-装载（ETL）循环的工作，这就是一名IT工程师在公司中所产生的价值。但如果有人突然开始问你一些奇怪的问题，例如，你怎么知道人工生成的测试数据是否足够随机？你怎么知道下一个数据点是否分布在3-sigma的范围内？遇到这些问题，你该怎么办？或者，仅是隔壁计算机科学的研究生偶尔的打趣--计算机进行任何有意义的数学运算的数据表（即：矩阵）的运算负荷会随矩阵大小（行或者列）的增加呈非线性增长，也会让IT工程师感到困惑和恼火。

数据成为了风口上的话题，这些问题出现的频率越来越高，也越来越紧急。

主管、技术经理以及决策者们已经不再满足传统ETL工具给出的干巴巴的表格描述了。他们想要看到表格下面隐藏的模式以及列与列之间的相关关系。他们希望得到完整的描述和推论统计，这些描述和统计可能有助于预测建模，并扩展出远远超出数据集所包含数据范围的投射能力。

今天的数据必须讲述一个故事、或者唱一首美妙的歌。但是，要听懂它优美的旋律，你必须精通音乐的基本音符，而这些音符就是数学。

不再啰嗦，让我们来找出问题的症结所在。一名普通的IT工程师要跨入商业分析、数据科学或者数据挖掘领域，他必须学习或复习哪些基本的数学知识。接下来，我将给出我的观点。

要什么自行车，不学好数学还想做数学家？

基础代数，函数，集合理论，绘图，几何学

让我们从最基础的内容开始。现代数学的大厦是建立在一些基本内容如集合论、泛函分析以及数论等内容上的。从应用数学学习的角度看，我们可以通过一些简明的模块来简化这些基本内容的学习(没有特别的顺序)：

要什么自行车，不学好数学还想做数学家？

a) 集合论基础，b) 实数和复数及其基本属性，c) 多项式函数、指数、对数、三角恒等式，d) 线性和二次方程，e) 不平等、无穷级数、二项式定理，f) 排列组合，g) 绘图、笛卡儿坐标系和极坐标系、圆锥曲线论，h) 基础几何定理、三角形的性质。

微积分

当年牛顿想要解释天体运行的规律，但他却没有一个足够好的数学工具来描述他提出的物理概念。在英格兰的城市爆发瘟疫的期间，他搬到了他在乡下的农场，在这里，他提出了现代数学的一个分支--微积分。从那以后，微积分被认为是任何分析研究学科如理论科学、应用科学、工程学、社会科学和经济学等通往高等教育的大门。

毫不意外的，微积分的概念和应用出现在数据科学和机器学习中。涉及的重要概念包括：

a) 单变量函数的极限、连续性以及可微性，b) 中值定理、不定型以及L’Hospita规则，c) 最大值和最小值，d) 乘积和链式法则，e) 泰勒级数，f) 积分计算的基本和平均价值定理，g) 定积分和广义积分的计算，h) Beta和Gamma函数， i) 双变量函数的极限、连续性和偏微分，j) 常微分和偏微分方程基础。

要什么自行车，不学好数学还想做数学家？

线性代数

一个长期没有联系的猎头突然在领英上加你好友？淘宝突然向你推荐一种超好吃的饼干？网易云音乐为你推荐了最符合你口味的小众歌曲？

要什么自行车，不学好数学还想做数学家？

学习了线性代数基础后，你就有了学习科技行业的核心内容所需的数学知识储备，这种感觉是不是很愉快？

所需学习的必要内容如下（排序不分先后且可能有遗漏）：

a) 矩阵和向量的基本性质--标量乘法、线性变换、转置、共轭、秩以及行列式，b) 内积和外积，c) 矩阵乘法规则以及各种算法，d) 矩阵的逆，e) 特殊矩阵--方阵，单位矩阵，三角矩阵，稀疏矩阵和稠密矩阵的概念，单位向量，对称矩阵，Hermitian矩阵，反Hermitian矩阵和酉矩阵，f) 矩阵分解的概念/矩阵LU分解，Gaussian/Gauss-Jordan消元法求解Ax = b的线性方程组，g) 向量空间，基，极化，正交性，标准正交，线性最小二乘，h) 奇异值分解，i) 特征值，特征向量，对角化。

还有一篇很好的文章推荐--《线性代数可以让你实现什么？》(链接：https://medium.com/@jeremyjkun/here-s-just-a-fraction-of-what-you-can-do-with-linear-algebra-633383d4153f)

统计和概率

“只有死亡和税收是永远不变的，其他一切都遵从正态分布。”

要什么自行车，不学好数学还想做数学家？

在关于数据科学的讨论中，无论怎么强调要扎实掌握统计学和概率学基本概念的重要性都不为过。实际上，许多该行业的从业都者认为机器学习就是统计学习。我从著名的《统计学习基础（An Introduction to Statistical Learning）》开始了我第一个机器学习MOOC课程，几乎瞬间我就意识到我在这门学科上存在不少概念空白。为了弥补这些空白，我开始学习其他有关基本统计学和概率学的MOOC课程，并研读相关主题的文章或观看视频。这门学科范围很广，因此针对性的学习计划是掌握大部分基本概念的关键。我尽量把它们一一列取出来，但是我也有些担心，毕竟这不是我擅长的领域。

1. 数据摘要和描述性统计，集中趋势，方差，协方差，相关性；2. 概率：基本概念，期望，概率微积分，贝叶斯定理，条件概率；3. 概率分布函数——均匀分布，正态分布，二项分布，卡方分布，t分布，中心极限定理；4. 采样，度量，误差，随机数； 5. 假设检验，A/B测试，置信区间，p值；6. 方差分析；7. 线性回归；8. 幂，效应量，检测手段；8. 研究性学习和试验计划。

最优化理论，算法分析。

这些话题跟应用数学领域的传统话语没什么不同，它们大多是相关的并广泛应用到多个专业领域研究——理论计算机科学，控制理论或运筹学。然而在机器学习实践中，对这些强大技术有基本掌握是非常有用的，值得在这里一提。

要什么自行车，不学好数学还想做数学家？

比如，几乎所有的机器学习算法/技术目的都是在特定约束条件下，使得某种估计误差最小化。这是一个最优化问题，通常用线性规划或类似的技术解决。另一方面，这些技术在帮助理解计算机算法的时间复杂度上效果显著，因为当算法应用到大型数据集时，时间复杂度就非常重要了。在这个大数据时代，通常人们期望一名数据科学家可以提取、转换和分析数十亿条记录，他或她必须非常谨慎的选择合适的算法，因为不同算法会导致最终性能的天壤之别。一般的理论和算法性质可以在计算机科学课上学习，但是要理解时间复杂度是如何分析和计算的（比如针对给定大小的数据集，该算法需要运行多长时间？），就必须要熟悉基本的数学概念比如动态规划或者递归方程。熟悉数学归纳法的证明技术也非常有用。

后记

看到有这么多数学知识要学，是不是有点望而却步了？觉得自己要重新上一遍大学了？不用担心，你可以根据需要边做边学，但最重要的是保持思想的开放。不慌不慌，这些主题你也许大多已经在大学学过，也可能是第一次接触，不过当你学完后，你一定可以慢慢听到数据中隐藏的“旋律”。到那时，你就已经朝着成为数据科学家的方向迈出了一大步。

原文链接：

https://www.kdnuggets.com/2017/12/mathematics-needed-learn-data-science-machine-learning.html

Anscor

0 关注 0 粉丝 0 动态

相关推荐

机器学习中的数学意义

机器学习中的用于声称性能的指标标准很少被讨论。由于在这个问题上似乎没有一个明确的、广泛的共识，因此我认为提供我一直在倡导并尽可能遵循的标准可能会很有趣。它源于这个简单的前提，这是我的科学老师从中学开始就灌输给我的：。科学报告的一般规则是，您写下的每个数字都

xceman 2020-10-13

师生关系

我觉得我从小到大都很幸运，从小学到大学都遇见了很好的老师。她和其他老师相比是比较严厉的那种。如今已经步入大学校园，心智也逐渐成熟，对于老师一词的意义也有了更加深刻的理解。人的一生注定是要一辈子不断地去学习，去完善自己。正所谓，“”授人以鱼不如授人以渔“”。

算法与数学之美 2020-10-07

微软AI要参加IMO竞赛！小目标：数学金牌

今年，可能是最后一届“纯人类”参赛的IMO。这名潜入IMO赛事的AI名为Lean，由微软的研究人员开发。目前，他们正计划让Lean参与明年的国际奥数竞赛。也就是说，它将与世界各国的奥赛选手一起争夺IMO金牌。其实，微软研究人员让AI参加IMO的理由，原因是

Anscor 2020-10-05

学会Python后都能做什么？网友们的回答简直不要太厉害

如今，越来越多的人加入到学习Python的队伍当中。确实，Python早已不是程序员的专属技能，随着Python更多的可能性被挖掘出来，大家对Python的兴趣越来越浓，这也是近年来Python越来越火的原因。而在Python领域非常有研究的网友们，也在学

liwg0 2020-09-08

困扰数学家90年的猜想，被计算机搜索30分钟解决了

就连困扰人类90年的数学猜想也挡不住。来自斯坦福、CMU等高校的4名数学家，将一个数学难题转化成了对10亿个结果进行“暴力搜索”。凯勒猜想在不超过7维的空间上都是正确的。现在，任何人都可以去GitHub上克隆这串代码，验证这一数学定理。1992年，另外两位

数学爱好者 2020-08-31

使用GNU bc在Linux Shell中进行数学运算

在 shell 中使用 bc 更好地做算数，它是一种用于高级计算的数学语言。大多数POSIX系统带有GNU bc，这是一种任意精度的数字处理语言。它的语法类似于 C，但是它也支持交互式执行语句和处理来自标准输入的数据。因此，它通常是以下问题的答案：“我如何

thermodynamicB 2020-08-11

OpenGL 六 - 3D数学基础 - 向量、矩阵及OpenGL中的变换

关于矩阵和向量的相关知识，大家可能和我一样毕业后几乎就慢慢遗忘干净了。但是，既然学过，回忆起来其实并不太难。而且，即使没有学过，也并不影响我们对相关API的使用。当然基础知识的理解会帮助我们弄明白和更好的进行OpenGL的开发工作。GLTools库中的Ma

夕加加 2020-07-20

参加数学建模大赛的计划

列出问题中涉及到的变量，包括适当的单位。注意不要混淆了变量和常量。检查单位从而保证你的假设有意义。用准确的数学表达式给出问题的目标。选择解决你的问题的一个一般的求解方法。一般地，这一步的成功需要经验、技巧和相对文献有一定的熟悉程度。将第一步中的得到的问题重

willowwgx 2020-07-18

一年级口算反思与总结

在一年级实际教学中，老师们都知道口算是一个重点，也是学生一项重要的教学能力考核。老师和家长常常简单把计算错误归结为粗心，以至于孩子出错也常常以粗心为借口。那么究竟是哪些原因导致了出错呢？所以针对孩子的错误类型，提出有效的纠正策略，帮助孩子避免和减少出错十分

kuoying 2020-07-16

中国AI技术领先，是因为数学好？美国杂志直指中美数学教育差距

美国 CS 专业超过 64% 博士生和近 70% 的硕士生是留学生，数学博士学位有一半授予了非美国公民，中国和印度学生占大部分。「知其然而不知所以然，他们仅仅擅长使用而不追求真理。」这名女生认为大多数亚洲人学习数学时注重运用却不关心原理推导，论据有一定的道

Anscor 2020-07-14

按成绩分班

根据输入的各科成绩分班。输入的是六门课成绩，比如：90,93,90,物理=89,化学=88,生物=91前三个值只固定对应语文、数学、英语三门课，所有不需要写课程名。后三门课要写上课程名，理科是物理、生物、化学；文科是政治、历史、地理，顺序可以不固定。eli

starletkiss 2020-07-08

数学公式

普通的方法就是For循环，循环次数为N,时间复杂度为O. 累加求和公式 sum = n(n+1)/2时间复杂度为O

willowwgx 2020-07-05

数学周测3讲解

然后在 \ 这方面的计算，只需要知道 \，把近似值背下来更好

算法与数学之美 2020-06-28

机器学习是否需要完整扎实的数学基础？

微积分、线性代数、概率与统计、矩阵和数值分析、优化方法线代，微积分，概率论，数理统计，一些算法思想的数学基础。这是基础，高等点做研究的，需要学习 random data，机器学习则偏向于概率统计，更多的是不确定性思维。机器学习把概率和图结合起来组成概率图模

kingzone 2020-06-27

机器学习背后的数学支柱，这5本书帮你搞定

机器学习从只适用于研发人员的工具变成了被广泛采纳使用的方法，多亏了开源机器学习和深度学习框架的爆炸性发展。现如今，机器学习领域比以往任何时候都更容易上手。同时，这也助力了我们目前所经历的科技的疯狂发展。弄清算法是如何真正工作的，可以帮助你在设计、开发和调试

xceman 2020-06-27

2020SDOI游记

T1：理清模型后发现数据有序维护起来会非常方便，就想到二叉搜索树。两种战士将合适温度“夹在中间”，就想到二分。正好前几天刚学了平衡树，就用它做了。但是很卡常，可惜没想到树状数组。考试前一天晚上被蚊子扰醒了4次，早上脑子也是很不好，写这一道题就用了3.5小时

算法与数学之美 2020-06-21

数学-高精度

之后，在比对转化的字符串的第一个字符是否为“0”，如果为0，则去掉它只保留小数点之后的数，利用substring，截取字符串。由于范围是10的100次方，因此我们设置大整数数组的长度为10000，足以包括。

kuoying 2020-06-21

入数据科学大坑，我需要什么样的数学水平？

作为一门基础性学科，数学在数据科学和机器学习领域都发挥着不可或缺的作用。数学基础是理解各种算法的先决条件，也将帮助我们更深入透彻地了解算法的内在原理。所以，本文作者阐释了数据科学和机器学习为何离不开数学，并提供了统计学与概率论、多变量微积分、线性代数以及优

秒懂数学 2020-06-17

【经验】数学备考

不要一味的追求刷几遍，要清楚每遍刷题的目的。同时，这一阶段才是暴露薄弱点的一轮，错题一定要弄懂，弄透。

算法与数学之美 2020-06-17

P2788 数学1（math1）- 加减算式

using namespace std;int a;int sum=0;sum+=a;cout<<sum<<endl;return 0;

starletkiss 2020-06-13

Anscor

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号