机器学习与数据挖掘: 基础概念
如何成为机器学习工程师
https://keras-cn.readthedocs....
http://www.tensorfly.cn/tfdoc...
机器学习 vs 数据分析
数据特点 | 数据分析 | 机器学习 | ||
---|---|---|---|---|
数据类型 | 交易数据 | 行为数据 | ||
数据量 | 少量数据 | 海量数据 | ||
分析方法 | 采样分析 | 全量分析 |
解决业务问题不同 | 数据分析(OLAP 报告过去的事情) | 机器学习(预测未来的事情) | ||
---|---|---|---|---|
过去3年里,那些人是我们前100名优质客户 | 前100个最有利润潜力的客户将是谁 | |||
过去2年里哪些用户拖欠贷款 | 哪些客户可能有坏账风险 | |||
和年初的计划比上季度的销售业绩如何 | 明年各地区的销售额预计是多少 | |||
今年四季度中,哪些销售业绩超过他们的配额 | 明年哪些销售有可能超额完成 | |||
哪些门店今年销售额超过去年 | 未来1年里,哪些门店可能表现的更好 |
机器学习:利用计算机从历史数据中寻找规律,并把这些规律用到对未来
不确定场景
的决策- 基于专家经验
- 数据分析(基于统计)--> 主体主要是人去分析 `受制于经验&知识水平`
- 机器学习--> 计算机
-
从历史数据中寻找规律 -->依赖于算法,其实这个规律就是找到一个数学函数(公式)
传统的统计学一直受制于计算能力的显示,用的是抽样的方式。
统计中: 抽样--> 描述统计 --> 结论 --> 假设检验
现在计算能力已经不是问题,所以是用全量的数据:
观察数据(可视化后)-->用模型刻画(拟合)规律(函数-函数曲线-拟合)
在实际的多维,n维数据中,是很难用可视化的方式展示数据的,无法用图形方式发现规律,这时候只能靠数学运算
机器学习
概述
机器学习(Machine Learning,ML)
是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
- 海量的数据
- 获取有用的信息
机器学习的典型应用
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”
一种经常引用的英文定义是:A computer program is said to learn from experience Ewith respect to some class of tasks T and performance measure P, if
its performance at tasks in T, as measured by P, improves with
experience E.
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
深度学习 vs 机器学习 vs 模式识别
细分场景
购物篮分析
- 关联规则
用户细分精准营销
- 聚类
垃圾邮件识别
- 朴素贝叶斯
信用卡欺诈
- 决策树
互联网广告
- ctr预估
推荐引擎
- 协同过滤
自然语言处理
- 情感分析
- 实体识别
图像识别
- 深度学习
语音识别
个性化医疗
情感分析
人脸识别
自动驾驶
智慧机器人
私人虚拟助理
手势控制
视频内容自动识别
机器实时翻译
机器学习组成
主要任务
分类(classification):将实例数据划分到合适的类别中
- 应用实例:判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类)
回归(regression) :主要用于预测数值型数据
- 应用实例:股票价格波动的预测,房屋价格的预测等。
监督学习(supervised learning)
监督学习中,我们只要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。机器从输入数据预测合适的模型,并从中计算目标变量的结果
必须确定目标变量的值
以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。 (包括:分类和回归)样本集:训练数据 + 测试数据
- 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
- 特征通常是训练样本集的列,它们是独立测量得到的。
目标变量: 目标变量是机器学习预测算法的测试结果
- 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。
·目标变量
: 标称型和数值型标称型
目标变量的结果只在有限目标集中取值, 如真与假,动物分类集合{爬行类、鱼类、哺乳类、两栖类}数值型目标变量可以从无限的数值集合中取值,如0.100、42.001、1000.743等。数值型目标变量主要用于回归分析
监督学习需要注意的问题:
- 偏置方差权衡
- 功能的复杂性和数量的训练数据
- 输入空间的维数
- 噪声中的输出值
知识表示:
- 可以采用规则集的形式【例如:数学成绩大于90分为优秀】
- 可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】
- 可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】
机器学习中,对数据进行分类的算法大概有两种: - 感知器 - 适应性的线性神经元 - 学习算法(learning algorithm),从数据中产生模型的方法 - 数据集(data set):一组记录的合集 - 示例(instance):对于某个对象的描述 - 样本(sample):也叫示例
附:机器学习专业术语
- 模型(model):计算机层面的认知
- 属性(attribute):对象的某方便表现或特征
- 特征(feature):同属性
- 属性值(attribute value):属性上的取值
- 属性空间(attribute space):属性张成的空间
- 样本空间/输入空间(samplespace):同属性空间
- 特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
- 维数(dimensionality):描述样本参数的个数(也就是空间是几维的
- 学习(learning)/训练(training):从数据中学得模型
- 训练数据(training data):训练过程中用到的数据
- 训练样本(training sample):训练用到的每个样本
- 训练集(training set):训练样本组成的集合
- 假设(hypothesis):学习模型对应了关于数据的某种潜在规则
- 真相(group-true):真正存在的潜在规律
- 学习器(learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
- 预测(prediction):判断一个东西的属性
- 标记(label):关于示例的结果信息,比如我是一个“好人”。
- 样例(example):拥有标记的示例
- 标记空间/输出空间(label space):所有标记的集合
- 分类(classification):预测时离散值,比如把人分为好人和坏人之类的学习任务
- 回归(regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的
- 二分类(binary classification):只涉及两个类别的分类任务
- 正类(positive class):二分类里的一个
- 反类(negative class):二分类里的另外一个
- 多分类(multi-class classification):涉及多个类别的分类
- 测试(testing):学习到模型之后对样本进行预测的过程
- 测试样本(testing sample):被预测的样本
- 聚类(clustering):把训练集中的对象分为若干组
- 簇(cluster):每一个组叫簇
- 监督学习(supervised learning):典范--分类和回归
- 无监督学习(unsupervised learning):典范--聚类
- 未见示例(unseen instance):“新样本“,没训练过的样本
- 泛化(generalization)能力:学得的模型适用于新样本的能力
- 分布(distribution):样本空间的全体样本服从的一种规律
- 独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。
参数(parameters)和超参数(hyperparameters)
- 参数:就是模型可以根据数据
可以自动学习出的变量
,应该就是参数。比如,深度学习的权重,偏差等 - 超参数:就是用来确定模型的一些参数,超参数不同,模型是不同的(这个模型不同的意思就是有微小的区别,比如假设都是CNN模型,如果层数不同,模型不一样,虽然都是CNN模型哈。),超参数一般就是根据经验确定的变量。在深度学习中,超参数有:学习速率,迭代次数,层数,每层神经元的个数等等。
参考
慕课网机器学习
TensorFlow中文社区
apachecn/MachineLearning
Natalia Konstantinova 博客
神经网络的黑客指南