机器学习(二)-基本概念
1 数据集
在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集(train set),验证集(validation set ) 和测试集(test set)。其中训练集用来估计模型,验证集用来调超参数,测试集用来测试模型准确度。
1.1 训练集
- 训练集用来估计模型;
- 训练集占总样本的50%
1.2 开发集(验证集)
- 验证集用来确定网络结构或者控制模型复杂程度的参数
- 验证集占总样本的25%
1.3 测试集
- 测试集则检验最终选择最优的模型的性能如何
- 测试集占总样本的25%
1.4 简单的机器学习流程
2 常用的机器学习算法介绍
- 分类算法:有监督, 举例:猫狗分类
- 回归算法:有监督, 举例:房价预测
- 聚类算法:无监督, 举例:新闻分类
- 降维算法: 数据处理
- 模型选择算法: 算法的选择和参数调试所用到的技术
- 预处理算法: 特征提取和归一化
3 有监督机器学习和无监督机器学习
3.1 有监督机器学习
- 我们要教会计算机做某些事情
- 定义:我们给算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案
- 有监督机器学习例子:分类
3.2 无监督机器学习
- 让计算机自己去做某些事情
- 定义: 我们给算法一个数据集,但是不给他正确答案,而让计算机自己去学习
- 无监督机器学习例子:聚类(预测鸢尾花卉)
Iris(鸢尾花)数据集是多重变量分析的数据集。每行数据包含4个属性:Sepal Length(花萼长度)、Sepal Width(花萼宽度)、Petal Length(花瓣长度)和Petal Width(花瓣宽度)。可通过这4个属性预测鸢尾花卉属于种类(Setosa,Versicolour,Virginica)中的哪一类。具体分为几类, 分析前是不知道的。
4 机器学习与人类学习
- 有了机器学习,我们还需要人为经验的干预吗?
相关推荐
Micusd 2020-11-19
人工智能 2020-11-19
81510295 2020-11-17
jaybeat 2020-11-17
flyfor0 2020-11-16
lgblove 2020-11-16
Pokemogo 2020-11-16
Pokemogo 2020-11-16
clong 2020-11-13
lizhengjava 2020-11-13
ohbxiaoxin 2020-11-13
Icevivian 2020-11-13
EchoYY 2020-11-12
CSDN人工智能头条 2020-11-11
mogigo00 2020-11-11
jaybeat 2020-11-10
白飞飞Alan 2020-11-11
lemonade 2020-11-10
机器学习之家 2020-11-10