机器学习与数据挖掘: 基础概念

数据中心运维管理

2019-06-26

如何成为机器学习工程师
 https://keras-cn.readthedocs....
http://www.tensorfly.cn/tfdoc...

机器学习 vs 数据分析

	数据特点	数据分析
数据类型	交易数据	行为数据
数据量	少量数据	海量数据
分析方法	采样分析	全量分析

	解决业务问题不同	数据分析(OLAP 报告过去的事情)	机器学习(预测未来的事情)
过去３年里，那些人是我们前１００名优质客户	前１００个最有利润潜力的客户将是谁
过去２年里哪些用户拖欠贷款	哪些客户可能有坏账风险
和年初的计划比上季度的销售业绩如何	明年各地区的销售额预计是多少
今年四季度中，哪些销售业绩超过他们的配额	明年哪些销售有可能超额完成
哪些门店今年销售额超过去年	未来１年里，哪些门店可能表现的更好

机器学习：利用计算机从历史数据中寻找规律，并把这些规律用到对未来不确定场景的决策

基于专家经验
数据分析（基于统计）－－> 主体主要是人去分析　　｀受制于经验＆知识水平｀
机器学习－－> 计算机

从历史数据中寻找规律　－－>依赖于算法，其实这个规律就是找到一个数学函数（公式）

传统的统计学一直受制于计算能力的显示，用的是抽样的方式。
统计中：　抽样－－> 描述统计　－－>　结论　－－>　假设检验　
现在计算能力已经不是问题，所以是用全量的数据：

观察数据（可视化后）－－>用模型刻画（拟合）规律（函数－函数曲线－拟合）
在实际的多维，ｎ维数据中，是很难用可视化的方式展示数据的，无法用图形方式发现规律，这时候只能靠数学运算

机器学习

概述

机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义，它为了把无序的数据转换成有用的信息。是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

海量的数据
获取有用的信息

机器学习的典型应用

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”

一种经常引用的英文定义是：A computer program is said to learn from experience E
with respect to some class of tasks T and performance measure P, if
its performance at tasks in T, as measured by P, improves with
experience E.

机器学习已经有了十分广泛的应用，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

深度学习 vs 机器学习 vs 模式识别

细分场景

购物篮分析

关联规则

用户细分精准营销

聚类

垃圾邮件识别

朴素贝叶斯

信用卡欺诈

决策树

互联网广告

ctr预估

推荐引擎

协同过滤

自然语言处理

情感分析
实体识别

图像识别

深度学习

语音识别
个性化医疗
情感分析
人脸识别
自动驾驶
智慧机器人
私人虚拟助理
手势控制
视频内容自动识别
机器实时翻译

机器学习组成

主要任务

分类(classification):将实例数据划分到合适的类别中
- 应用实例：判断网站是否被黑客入侵（二分类），手写数字的自动识别（多分类）
回归(regression) :主要用于预测数值型数据
- 应用实例：股票价格波动的预测，房屋价格的预测等。

监督学习（supervised learning）

监督学习中，我们只要给定输入样本集，机器就可以从中推演出指定目标变量的可能结果。
机器从输入数据预测合适的模型，并从中计算目标变量的结果

必须确定目标变量的值 以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中，给定一组数据，我们知道正确的输出结果应该是什么样子，并且知道在输入和输出之间有着一个特定的关系。 (包括：分类和回归)
样本集：训练数据 + 测试数据
- 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
- 特征通常是训练样本集的列，它们是独立测量得到的。
- 目标变量: 目标变量是机器学习预测算法的测试结果
  - 在分类算法中目标变量的类型通常是标称型(如：真与假)，而在回归算法中通常是连续型(如：1~100)。

监督学习使用两种类型的·目标变量: 标称型和数值型
标称型目标变量的结果只在有限目标集中取值，如真与假，动物分类集合{爬行类、鱼类、哺乳类、两栖类}
数值型目标变量可以从无限的数值集合中取值，如0.100、42.001、1000.743等。数值型目标变量主要用于回归分析

监督学习需要注意的问题：
- 偏置方差权衡
- 功能的复杂性和数量的训练数据
- 输入空间的维数
- 噪声中的输出值
知识表示：
- 可以采用规则集的形式【例如：数学成绩大于90分为优秀】
- 可以采用概率分布的形式【例如：通过统计分布发现，90%的同学数学成绩，在70分以下，那么大于70分定为优秀】
- 可以使用训练样本集中的一个实例【例如：通过样本集合，我们训练出一个模型实例，得出年轻，数学成绩中高等，谈吐优雅，我们认为是优秀】

机器学习中，对数据进行分类的算法大概有两种：
        - 感知器
        - 适应性的线性神经元
        - 学习算法（learning algorithm），从数据中产生模型的方法
        - 数据集（data set）：一组记录的合集
        - 示例（instance）：对于某个对象的描述
        - 样本（sample）：也叫示例

附：机器学习专业术语

模型（model）：计算机层面的认知
属性（attribute）：对象的某方便表现或特征
特征（feature）：同属性
属性值（attribute value）：属性上的取值
属性空间（attribute space）：属性张成的空间
样本空间/输入空间（samplespace）：同属性空间
特征向量（feature vector）：在属性空间里每个点对应一个坐标向量，把一个示例称作特征向量
维数（dimensionality）：描述样本参数的个数（也就是空间是几维的
学习（learning）/训练（training）：从数据中学得模型
训练数据（training data）：训练过程中用到的数据
训练样本（training sample）:训练用到的每个样本
训练集（training set）：训练样本组成的集合
假设（hypothesis）：学习模型对应了关于数据的某种潜在规则
真相（group-true）:真正存在的潜在规律
学习器（learner）：模型的另一种叫法，把学习算法在给定数据和参数空间的实例化
预测（prediction）：判断一个东西的属性
标记（label）：关于示例的结果信息，比如我是一个“好人”。
样例（example）：拥有标记的示例
标记空间/输出空间（label space）：所有标记的集合
分类（classification）：预测时离散值，比如把人分为好人和坏人之类的学习任务
回归（regression）：预测值时连续值，比如你的好人程度达到了0.9，0.6之类的
二分类（binary classification）：只涉及两个类别的分类任务
正类（positive class）：二分类里的一个
反类（negative class）：二分类里的另外一个
多分类（multi-class classification）：涉及多个类别的分类
测试（testing）：学习到模型之后对样本进行预测的过程
测试样本（testing sample）：被预测的样本
聚类（clustering）：把训练集中的对象分为若干组
簇（cluster）：每一个组叫簇
监督学习（supervised learning）：典范--分类和回归
无监督学习（unsupervised learning）：典范--聚类
未见示例（unseen instance）：“新样本“，没训练过的样本
泛化（generalization）能力：学得的模型适用于新样本的能力
分布（distribution）：样本空间的全体样本服从的一种规律
独立同分布（independent and identically distributed，简称i,i,d.）:获得的每个样本都是独立地从这个分布上采样获得的。

参数(parameters)和超参数(hyperparameters)

参数：就是模型可以根据数据可以自动学习出的变量，应该就是参数。比如，深度学习的权重，偏差等
超参数：就是用来确定模型的一些参数，超参数不同，模型是不同的(这个模型不同的意思就是有微小的区别，比如假设都是CNN模型，如果层数不同，模型不一样，虽然都是CNN模型哈。)，超参数一般就是根据经验确定的变量。在深度学习中，超参数有：学习速率，迭代次数，层数，每层神经元的个数等等。

参考

慕课网机器学习
 TensorFlow中文社区
 apachecn/MachineLearning
Natalia Konstantinova 博客
 神经网络的黑客指南

机器学习大数据 td 数据挖掘算法

安科网

机器学习与数据挖掘: 基础概念

数据中心运维管理

机器学习 vs 数据分析

机器学习

概述

机器学习的典型应用

深度学习 vs 机器学习 vs 模式识别

细分场景

机器学习组成

主要任务

监督学习（supervised learning）

附：机器学习专业术语

参数(parameters)和超参数(hyperparameters)

参考

数据中心运维管理

相关推荐

需要知识的后深度学习时代，如何高效自动构建知识图谱

数据科学面试中应了解的十种机器学习概念

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

数据中心运维管理