入数据科学大坑，我需要什么样的数学水平？

秒懂数学

2020-06-17

即将开播：6月19日，互联网银行架构师魏生谈互联网开放银行实施路径的探索与思考

作为一门基础性学科，数学在数据科学和机器学习领域都发挥着不可或缺的作用。数学基础是理解各种算法的先决条件，也将帮助我们更深入透彻地了解算法的内在原理。所以，本文作者阐释了数据科学和机器学习为何离不开数学，并提供了统计学与概率论、多变量微积分、线性代数以及优化方法四个数学分支中需要熟悉的一些数学概念。

入数据科学大坑，我需要什么样的数学水平？

本文的作者是物理学家、数据科学教育者和作家 Benjamin Obi Tayo 博士，他的研究兴趣在于数据科学、机器学习、AI、Python 和 R 语言、预测分析、材料科学和生物物理学。

入数据科学大坑，我需要什么样的数学水平？

本文作者 Benjamin Obi Tayo。

数据科学和机器学习离不开数学

如果你是一个数据科学爱好者，则大概会产生以下两个疑问：

我几乎没有数学背景，那么能成为数据科学家吗?
哪些基本的数学技能在数据科学中非常重要呢?

我们都知道，数据科学离不开各式各样的扩展包。并且，现在有很多性能强大的包可以用来构建预测模型或者用来生成可视化数据。如下列举了用于描述性和预测性分析的一些最常见包：

Ggplot2
Matplotlib
Seaborn
Scikit-learn
Caret
TensorFlow
PyTorch
Keras

得益于以上这些扩展包，任何人都可以构建模型或者生成可视化数据。但与此同时，要优化模型进而生成性能最佳的可靠模型，拥有强大的数学背景也是很有必要的。

也就是说，构建模型只是一方面，另一方面还需要对模型进行解释，得出有意义的结论，这样才能更好地做出数据驱动的决策。

最后，在使用这些包之前，你需要理解每个包中蕴含的数学基础，这样才不会只把这些包当作黑盒工具(black-box tool)。

案例分析：构建一个多元回归模型

假设我们要构建一个多元回归模型，那么需要事先问自己几个问题：

数据集有多大?
特征变量和目标变量是什么?
哪些预测特征与目标变量关联最大?
哪些特征比较重要?
是否应该扩展特征?
数据集应该如何划分成训练集和测试集?
主成分分析(principal component analysis, PCA)是什么?
是否应该使用 PCA 删除多余特征?
如何评估模型?用 R2 值、MSE 还是 MAE?
如何提升模型的预测能力?
是否使用正则化回归模型(regularized regression model)?
回归系数是多少?
截距是多少(intercept)?
是否使用像 K 近邻回归(KNeighbors regression)或者支持向量回归(support vector regression)这样的无参数回归模型?
模型中的超参数是多少?如何调整超参数使模型性能达到最佳?

很明显，如果没有良好的数学背景，你将无法解决上述问题。因此，在数据科学和机器学习中，数学技能和编程技能一样重要，这很关键。

作为一个数据科学的推崇者，投入时间来学习数据科学和机器学习中的理论基础和数学基础很有必要。毫不夸张地说，你所构建的可靠有效模型能否用于解决现实世界的问题，这也将取决于你的数学技能有多好。

接下来讨论一下数据科学和机器学习中一些必要的数学技能。

数据科学和机器学习中必要的数学技能

数学包罗万象，任何人都不可能门门精通。所以，在数据科学和机器学习研究中，我们可以根据自身所在的具体领域、手头的具体工作或者使用的具体算法来有侧重地学习对应的数学技能。

1. 统计学与概率论

统计学和概率论可用于可视化变量、数据预处理、特征变换、数据插补、降维、特征工程和模型评估等等。

以下是需要熟悉的一些统计学与概率论概念：

平均数、中位数、众数、标准差 / 方差;
相关系数和协方差矩阵、概率分布(二项分布、泊松分布和正态分布);
p 值、贝叶斯定理(精度、召回率、正预测值、负预测值、混淆矩阵和 ROC 曲线)、中心极限定理
;R_2 值、均方误差(MSE)、A/B 测试、蒙特卡罗模拟。

2. 多变量微积分(Multivariable Calculus)

大多数机器学习模型是使用包含几种特征或预测变量的数据集来构建的。因此，熟悉多变量微积分对于构建机器学习模型非常重要。

以下是你需要熟悉的多变量微积分数学概念：

多元函数、导数和梯度、阶跃函数;
Sigmoid 函数、Logit 函数、ReLU 函数、损失函数;
Plot 函数绘制、函数最小值和最大值。

3. 线性代数

线性代数是机器学习中最重要的数学技能，一个数据集可以被表示为一个矩阵。线性代数可用于数据预处理、数据转换以及降维和模型评估。

以下是你需要熟悉的线性代数概念：

向量、向量范数;
矩阵、矩阵的转置、矩阵的逆、矩阵的行列式、矩阵的迹、点积、特征值、特征向量。

4. 优化方法

大多数机器学习算法通过最小化目标函数的方法来执行预测建模。

以下是你需要熟悉的优化数学概念：

损失函数 / 目标函数、似然函数、误差函数、梯度下降算法及其变体。

总之，作为一个数据科学的推崇者，应该时刻谨记，理论基础对构建有效可靠的模型至关重要。因此，你应该投入足够的时间去研究每一种机器学习算法背后的数学理论。

数学科学机器学习

秒懂数学

0 关注 0 粉丝 0 动态

相关推荐

科学提升认知方法之贝叶斯公式

在我眼中，贝叶斯公式就是统计学走向机器学习的起点。这个就是贝叶斯公式，相当简洁。说到贝叶斯，必然离不开条件概率。条件概率是频率统计思维，通过已知的信息去计算事件出现概率，我们称之为正向概率；贝叶斯公式反其道而行之，通过实验结果去反推出现实验结果的原因，我们

computermaths 2020-06-03

《非线性科学中的现代数学方法：综述》

本文是作者作为数理经济学博士毕业后，对于自己在数学领域多年所学的一个总结，力图在极度繁杂的数理知识体系中摘选出那些最广泛应用的核心工具及思想。本文主要关注的问题都是非线性的、动态的。具体地讲，主要涉及的是：微分动力系统、泛函的最优化初步（但不涉及最优控制及

computermaths 2020-05-31

机器学习中的数学意义

机器学习中的用于声称性能的指标标准很少被讨论。由于在这个问题上似乎没有一个明确的、广泛的共识，因此我认为提供我一直在倡导并尽可能遵循的标准可能会很有趣。它源于这个简单的前提，这是我的科学老师从中学开始就灌输给我的：。科学报告的一般规则是，您写下的每个数字都

xceman 2020-10-13

师生关系

我觉得我从小到大都很幸运，从小学到大学都遇见了很好的老师。她和其他老师相比是比较严厉的那种。如今已经步入大学校园，心智也逐渐成熟，对于老师一词的意义也有了更加深刻的理解。人的一生注定是要一辈子不断地去学习，去完善自己。正所谓，“”授人以鱼不如授人以渔“”。

算法与数学之美 2020-10-07

微软AI要参加IMO竞赛！小目标：数学金牌

今年，可能是最后一届“纯人类”参赛的IMO。这名潜入IMO赛事的AI名为Lean，由微软的研究人员开发。目前，他们正计划让Lean参与明年的国际奥数竞赛。也就是说，它将与世界各国的奥赛选手一起争夺IMO金牌。其实，微软研究人员让AI参加IMO的理由，原因是

Anscor 2020-10-05

学会Python后都能做什么？网友们的回答简直不要太厉害

如今，越来越多的人加入到学习Python的队伍当中。确实，Python早已不是程序员的专属技能，随着Python更多的可能性被挖掘出来，大家对Python的兴趣越来越浓，这也是近年来Python越来越火的原因。而在Python领域非常有研究的网友们，也在学

liwg0 2020-09-08

困扰数学家90年的猜想，被计算机搜索30分钟解决了

就连困扰人类90年的数学猜想也挡不住。来自斯坦福、CMU等高校的4名数学家，将一个数学难题转化成了对10亿个结果进行“暴力搜索”。凯勒猜想在不超过7维的空间上都是正确的。现在，任何人都可以去GitHub上克隆这串代码，验证这一数学定理。1992年，另外两位

数学爱好者 2020-08-31

使用GNU bc在Linux Shell中进行数学运算

在 shell 中使用 bc 更好地做算数，它是一种用于高级计算的数学语言。大多数POSIX系统带有GNU bc，这是一种任意精度的数字处理语言。它的语法类似于 C，但是它也支持交互式执行语句和处理来自标准输入的数据。因此，它通常是以下问题的答案：“我如何

thermodynamicB 2020-08-11

OpenGL 六 - 3D数学基础 - 向量、矩阵及OpenGL中的变换

关于矩阵和向量的相关知识，大家可能和我一样毕业后几乎就慢慢遗忘干净了。但是，既然学过，回忆起来其实并不太难。而且，即使没有学过，也并不影响我们对相关API的使用。当然基础知识的理解会帮助我们弄明白和更好的进行OpenGL的开发工作。GLTools库中的Ma

夕加加 2020-07-20

参加数学建模大赛的计划

列出问题中涉及到的变量，包括适当的单位。注意不要混淆了变量和常量。检查单位从而保证你的假设有意义。用准确的数学表达式给出问题的目标。选择解决你的问题的一个一般的求解方法。一般地，这一步的成功需要经验、技巧和相对文献有一定的熟悉程度。将第一步中的得到的问题重

willowwgx 2020-07-18

一年级口算反思与总结

在一年级实际教学中，老师们都知道口算是一个重点，也是学生一项重要的教学能力考核。老师和家长常常简单把计算错误归结为粗心，以至于孩子出错也常常以粗心为借口。那么究竟是哪些原因导致了出错呢？所以针对孩子的错误类型，提出有效的纠正策略，帮助孩子避免和减少出错十分

kuoying 2020-07-16

中国AI技术领先，是因为数学好？美国杂志直指中美数学教育差距

美国 CS 专业超过 64% 博士生和近 70% 的硕士生是留学生，数学博士学位有一半授予了非美国公民，中国和印度学生占大部分。「知其然而不知所以然，他们仅仅擅长使用而不追求真理。」这名女生认为大多数亚洲人学习数学时注重运用却不关心原理推导，论据有一定的道

Anscor 2020-07-14

按成绩分班

根据输入的各科成绩分班。输入的是六门课成绩，比如：90,93,90,物理=89,化学=88,生物=91前三个值只固定对应语文、数学、英语三门课，所有不需要写课程名。后三门课要写上课程名，理科是物理、生物、化学；文科是政治、历史、地理，顺序可以不固定。eli

starletkiss 2020-07-08

数学公式

普通的方法就是For循环，循环次数为N,时间复杂度为O. 累加求和公式 sum = n(n+1)/2时间复杂度为O

willowwgx 2020-07-05

数学周测3讲解

然后在 \ 这方面的计算，只需要知道 \，把近似值背下来更好

算法与数学之美 2020-06-28

机器学习是否需要完整扎实的数学基础？

微积分、线性代数、概率与统计、矩阵和数值分析、优化方法线代，微积分，概率论，数理统计，一些算法思想的数学基础。这是基础，高等点做研究的，需要学习 random data，机器学习则偏向于概率统计，更多的是不确定性思维。机器学习把概率和图结合起来组成概率图模

kingzone 2020-06-27

机器学习背后的数学支柱，这5本书帮你搞定

机器学习从只适用于研发人员的工具变成了被广泛采纳使用的方法，多亏了开源机器学习和深度学习框架的爆炸性发展。现如今，机器学习领域比以往任何时候都更容易上手。同时，这也助力了我们目前所经历的科技的疯狂发展。弄清算法是如何真正工作的，可以帮助你在设计、开发和调试

xceman 2020-06-27

2020SDOI游记

T1：理清模型后发现数据有序维护起来会非常方便，就想到二叉搜索树。两种战士将合适温度“夹在中间”，就想到二分。正好前几天刚学了平衡树，就用它做了。但是很卡常，可惜没想到树状数组。考试前一天晚上被蚊子扰醒了4次，早上脑子也是很不好，写这一道题就用了3.5小时

算法与数学之美 2020-06-21

数学-高精度

之后，在比对转化的字符串的第一个字符是否为“0”，如果为0，则去掉它只保留小数点之后的数，利用substring，截取字符串。由于范围是10的100次方，因此我们设置大整数数组的长度为10000，足以包括。

kuoying 2020-06-21

【经验】数学备考

不要一味的追求刷几遍，要清楚每遍刷题的目的。同时，这一阶段才是暴露薄弱点的一轮，错题一定要弄懂，弄透。

算法与数学之美 2020-06-17

秒懂数学

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号