机器学习(二)-基本概念

1 数据集

在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集(train set),验证集(validation set ) 和测试集(test set)。其中训练集用来估计模型,验证集用来调超参数,测试集用来测试模型准确度。

1.1 训练集

  • 训练集用来估计模型;
  • 训练集占总样本的50%

1.2 开发集(验证集)

  • 验证集用来确定网络结构或者控制模型复杂程度的参数
  • 验证集占总样本的25%

1.3 测试集

  • 测试集则检验最终选择最优的模型的性能如何
  • 测试集占总样本的25%

1.4 简单的机器学习流程

机器学习(二)-基本概念

机器学习(二)-基本概念

机器学习(二)-基本概念

2 常用的机器学习算法介绍

机器学习(二)-基本概念

  • 分类算法:有监督, 举例:猫狗分类
  • 回归算法:有监督, 举例:房价预测
  • 聚类算法:无监督, 举例:新闻分类
  • 降维算法: 数据处理
  • 模型选择算法: 算法的选择和参数调试所用到的技术
  • 预处理算法: 特征提取和归一化

3 有监督机器学习和无监督机器学习

3.1 有监督机器学习

  • 我们要教会计算机做某些事情
  • 定义:我们给算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案
  • 有监督机器学习例子:分类

机器学习(二)-基本概念

3.2 无监督机器学习

  • 让计算机自己去做某些事情
  • 定义: 我们给算法一个数据集,但是不给他正确答案,而让计算机自己去学习
  • 无监督机器学习例子:聚类(预测鸢尾花卉)

Iris(鸢尾花)数据集是多重变量分析的数据集。每行数据包含4个属性:Sepal Length(花萼长度)、Sepal Width(花萼宽度)、Petal Length(花瓣长度)和Petal Width(花瓣宽度)。可通过这4个属性预测鸢尾花卉属于种类(Setosa,Versicolour,Virginica)中的哪一类。具体分为几类, 分析前是不知道的。

机器学习(二)-基本概念

4 机器学习与人类学习

  • 有了机器学习,我们还需要人为经验的干预吗?

机器学习(二)-基本概念

相关推荐