01机器学习算法整体知识体系与学习路线攻略

sxyhetao

2020-02-10

入行机器学习有一年多了，做过大大小小的机器学习项目，参加数据竞赛等实践活动，从最初的懵懵懂懂到现在逐步的深入，也渐渐的有了很多的体会和理解，本篇文章主要来阐述机器学习的知识体系，以让更多人明白机器学习应该怎样学习、需要学习什么？这些问题就是本篇文章的主要讨论的内容，下面开始进行详细介绍。

先对本篇文章的目录做个介绍：

1.机器学习术语
2.常见算法类型
3.评估方法和指标
4.性能优化和超参数调优

1.机器学习术语

接下来正式介绍机器学习术语。机器学习术语作为作为最基本的常识问题，为了更好的学习和理解机器学习算法，识记和理解相关术语是非常必要的。术语常见的有特征、标签、泛化能力、有监督与无监督学习、过拟合、欠拟合、鲁棒性、分类、回归、聚类与降维、集成学习等。

在这里只介绍机器学习、特征、标签、有监督与无监督学习这几个术语，其它术语在后面会一一介绍。

(1)机器学习
机器学习是指根据历史数据，使用某种算法或者规则从数据中寻找规律，以达到预测未知的事情，这就是通俗的机器学习概念

(2)特征
特征是指与事物本身关系紧密的属性，通俗来讲特征是一组自变量数据。

(3)标签
标签是指一组属性特征所对应的标志值，通俗来讲标签是一组应变量数据。

【福利1：如何快速且深刻的区别和理解特征与标签的含义、区别？】
福利1：例如关系式：y=x1+x2+x3，y就是标签，而x1、x2、x3则是特征，下面将特征与标签以二维向量的形式展示，以加强理解：
x1（特征） x2（特征） x3（特征） y（标签）
样本1 2 1 5 8
样本2 5 6 3 14
… … … … …

(4)有监督与无监督学习
有监督学习是指算法在训练过程中，不仅数据特征参与训练，而且数据标签也参与到训练中以辅助特征的训练学习。

无监督学习是指算法在训练过程中，只有数据特征参与训练学习，而数据标签是不确定或未知。

【福利2：如何快速理解与区别有监督、无监督学习呢？】
福利2：有监督学习=特征+标签；无监督学习=特征。

2.常见算法类型

机器学习常见的算法类型有：分类、回归、聚类、降维。

(1)分类
分类算法是指针对标签为离散型数据的一类问题进行算法训练，从而预测并进行分类的过程。分类算法常见的有：K近邻算法、朴素贝叶斯、逻辑回归、支持向量机、决策树（在这里先不列出集成学习之类的分类算法）。

(2)回归
回归算法是指针对标签为连续型数据的一类问题进行算法训练，从而预测并进行拟合的过程。回归算法常见的有：线性回归、岭回归、lasso回归。

(3)聚类
聚类算法是指利用事物特征的相似度进行聚类划分的过程。比较常见的聚类算法是k-means。

(4)降维
降维是指将高维数据低维化的过程，旨在通过少量特征的信息来代替总体特征的信息。常见的是主成分分析（PCA）。

3.评估方法与指标

性能评估是指算法进行训练学习之后，为了验证算法的可靠性，需要性能评估方法和指标来衡量算法的优劣情况。

(1)评估方法
评估方法常见的是：holdout验证、k-fold交叉验证。

(2)评估指标
分类评估指标主要有：准确率、混淆矩阵、精确率、召回率、f1分数、auc值以及P-R曲线、roc曲线。

回归评估指标主要有：绝对平均误差、均方差、均方根误差等。

4.性能优化和超参数调优

性能优化是指对算法模型进一步改进，以得到更为理想的预测效果。性能优化常见的有梯度下降、超参数调优、集成学习算法、正则项惩罚、有效特征选择等。

本篇机器学习整体知识体系介绍完毕，欢迎留言交流学习，每天学习成长一点点！！！

机器学习

安科网

01机器学习算法整体知识体系与学习路线攻略

sxyhetao

先对本篇文章的目录做个介绍：

1.机器学习术语

2.常见算法类型

3.评估方法与指标

4.性能优化和超参数调优

sxyhetao

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

sxyhetao