在一头扎进机器学习前应该知道的那些事儿

Evan

2018-04-23

摘要：本文简单总结了机器学习的几大任务及其对应的方法，方便初学者根据自己的任务选择合适的方法。当掌握机器学习基本知识以及清楚自己所要处理的任务后，应用机器学习就不会那么难了。

机器学习一直是一个火热的研究领域，深度学习方法的提出又为这个领域添了一把火，使得很多人对该领域感兴趣并想投身于该领域的研究之中。那么，对于想从事机器学习领域的人来说，有哪些是应该首先了解的内容呢？本文将简单的介绍下机器学习的基本相关知识。

机器学习是指使计算机系统使用统计技术学习数据的过程，而不需要具体的编程程序。该方法是一个主动学习的算法，使得它能够从数据中学习并进行预测。机器学习与计算统计、数学优化以及数据学习密切相关，通常被用来进行预测、分析等任务。机器学习一般用于处理两类任务：

有监督学习：输入给计算机的示例带有标签（期望输出），基于标签调整建立的模型，以学习输入到输出的映射规则。
无监督学习：输入给计算机的示例没有标签，建立的模型必须通过自身学习产生输出。无监督学习涉及到从数据中发现隐藏的模式，包含特征学习。
机器学习这个术语对于大多非该领域的人来说听起来很高级，但其实不然。只要你清楚机器学习的基本概念以及相关方法后，机器学习其实很简单，即根据相关任务，选择合适的机器学习方法，让机器学习并处理特征以完成相应的任务。因此，在学习和应用机器学习之前，我们首先应该明确自己的任务是什么，以及适合使用哪种机器学习方法来完成。

如果我们想了解算法背后的基本理论以及其工作原理，那么精通概率与统计、线性代数和微积分对我们而言显得至关重要。此外，了解诸如Python等编程语言将使你能够容易得实现相关算法，理论基础与编程能力二者在手，机器学习我有。此外，理解相关的数学知识和应用也是很有必要的，无论是通过线下自学或者是网络在线培训等学习方法，都必须实践，实践可以增加自己对基本知识的理解，同时也能锻炼其编程能力。

在学习机器学习之前，掌握以下知识是很有必要的：

线性代数
微积分
概率论
程序设计
最优化理论
下面是一些最常见的机器学习任务以及相关方法，对其理解后方便在后续工程中应用。

回归

回归主要涉及连续变量或数值变量的估计，比如估计房价、股票价格、产品价格等使用回归估计。即根据相关的数据建立回归曲线，对新的数据进行预测估计。以下机器学习方法用于解决回归问题：

核回归（Kernel regression）
支持向量回归（Support vector regression）
高斯过程回归（Gaussian process regression）
线性回归（Linear regression）
LASSO回归（Least absolute shrinkage and selection operator）
回归树（Regression tree）

决策树（Decision trees）

人工神经网络（Artificial neural networks）
K邻近算法（K-nearests neighbors）
Boosted trees
随机森林（Random forests）
逻辑回归（Logistic regression）
支持向量机（Support vector machine）
深度学习（Deep learning）
朴素贝叶斯（Naive Bayes）

聚类

聚类一般应用于数据自然分组。比如产品特征识别、客户细分等任务都是聚类的一些应用场景。以下机器学习方法用于聚类问题：

均值漂移（Mean-shift）
K-均值（K-means）
主题模型（Topic models）
层次聚类（Hierarchical clustering）

多元查询

多元查询是用来寻找相似目标。下面的方法可用于解决与多元查询有关的问题：

近邻取样（Nearest neighbors）
最远邻居（Farthest neighbors）
范围搜索（Range search）

降维

降维是指降低多个随机变量的维度，将其分为特征提取和特征选择。常用的降维方法如下：

流线学习方法/核主成分分析（Manifold learning/KPCA）
独立分量分析（Independent component analysis）
主成分分析（Principal component analysis）
非负矩阵分解（Non-negative matrix factorization）
压缩感知（Compressed sensing）
高斯图模型（Gaussian graphical models）

作者信息

Anusha Manchala，专注于机器学习、数据分析

本文由阿里云云栖社区组织翻译。

文章原标题《What You Must Know Before You Dive Into Machine Learning》，译者：海棠，审校：Uncle_LLD。

机器学习 ul python机器学习学习策略

安科网

在一头扎进机器学习前应该知道的那些事儿

Evan

回归

分类

决策树（Decision trees）

聚类

多元查询

降维

Evan

相关推荐

选择困难终结者：不同问题之下的机器学习算法

关于机器学习管道需要了解什么?

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

这里有你需要的5个机器学习必备技能

在云端你需要的5个机器学习技能

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

Evan