数据挖掘分类及常用算法

datongmuyile

2011-12-02

关注关注

基于学习策略的分类

机械学习

传授学习

类比学习

归纳学习

基于解释的学习

基于学习方式的分类

（1）有导师学习（监督学习）：输入数据中有导师信号，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数。

（2）无导师学习（非监督学习）：输入数据中无导师信号，采用聚类方法，学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。

（3）强化学习（增强学习）：以环境反馈（奖/惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法

基于数据形式的分类

（1）结构化学习：以结构化数据为输入，以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。

（2）非结构化学习：以非结构化数据为输入，典型的非结构化学习有类比学习、案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘等。

基于学习目标的分类

（1）概念学习：即学习的目标和结果为概念，或者说是为了获得概念的一种学习。典型的概念学习有示例学习。

（2）规则学习：即学习的目标和结果为规则，或者说是为了获得规则的一种学习。典型的规则学习有决策树学习。

（3）函数学习：即学习的目标和结果为规则，或者说是为了获得函数的一种学习。典型的函数学习有神经网络学习。

（4）类别学习：即学习的目标和结果为对象类，或者说是为了获得类别的一种学习。典型的类别学习有聚类分析。

（5）贝叶斯网络学习：即学习的目标和结果是贝叶斯网络，或者说是为了获得贝叶斯网络的一种学习。其又可分为结构学习和参数学习。

数据挖掘任务有两类：

第一类是描述性挖掘任务：刻划数据库中数据的一般特性；

第二类是预测性挖掘任务：在当前数据上进行推断，以进行预测。

定义：关联分析(associationanalysis)：发现关联规则，这些规则展示“属性—值”频繁地在给定数据集中一起出现的条件。

（2）实例

age(x,“20..29”)income(X,“20K..29K”)

buys(X,“CD_player”)[support=2%,confidence=60%]

DiaperBeer[0.5%,75%]

定义

分类(classification)：通过构造模型(或函数)用来描述和区别类或概念，用来预测类型标志未知的对象类。

（2）分类模型的导出方式

分类规则（IF-THEN）、决策树、数学公式、神经网络等。决策树gini系数确定分裂属性

定义

聚类(clustering)：将类似的数据归类到一起，形成一个新的类别进行分析。

（2）聚类或分组的原则

“最大化类内的相似性、最小化类间的相似性”

对象的簇（聚类）的形成办法为：使得在一个簇中的对象具有很高的相似性，而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类，由它可以导出规则。

聚类（簇）：数据对象的集合

在同一个聚类（簇）中的对象彼此相似

不同簇中的对象则相异

聚类分析

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程

聚类是一种无指导的学习：没有预定义的类编号

聚类分析的数据挖掘功能

作为一个独立的工具来获得数据分布的情况

作为其他算法（如：特征和分类）的预处理步骤

给定k,k-平均算法由以下四步来完成::

把对象划分为k个非空的子集

随机的选择一些种子点作为目前划分的簇的质心。质心是簇的中心（平均点）

把每一个对象赋给最近的种子点

重复第二步，直到没有新的分配

详见本人百度文库

数据挖掘大数据数据挖掘算法文本挖掘监督学习聚类决策树

datongmuyile

0 关注 0 粉丝 0 动态

关注关注

5个开源数据挖掘工具，收下这波干货

数据挖掘是从大量数据中提取隐藏的或未知，但可能有用信息的过程。尤其在机器学习中，数据挖掘是十分重要的一环。今天给大家介绍5个开源数据挖掘工具，收下这波干货吧。Weka是用Java编写的，可以在大部分平台上运行，是一种开源机器学习软件，能通过图形用户界面，标

小小梦想家 2020-09-26

开源数据挖掘工具，有这6个就足够

数据在当今世界意味着金钱，随着向基于App的世界的过渡，数据呈指数增长。今天给大家介绍6个开源数据挖掘工具，有需要的朋友可以自取，有更好用的工具也欢迎交流。该平台是Python、Ruby、Groovy等各种脚本语言的组合，还有其他Java软件包。ELKI用

YeChao 2020-08-04

8个优秀的数据挖掘工具

使用python的开发人员都少不了数据挖掘工具，因为一般来说，能否充分利用数据，取决于是否有合适的工具来清理、准备、合并并正确分析。今天小编介绍8个优秀的数据挖掘工具，感兴趣的小伙伴可以收藏。Scikit-Learn是很优秀的机器学习python库，能够提

ZweixunSJTU 2020-07-28

数据挖掘----推荐算法(CF)

User-Based CF 计算user与user的相似度矩阵。- 具有相似兴趣的用户在未来也具有相似兴趣。- 将N 喜欢的物品推荐给用户。

风吹夏天 2020-07-26

实验2：基于Weka的数据挖掘程序设计

在掌握基于Weka工具的数据挖掘应用的基础上，实现基于Weka API的数据挖掘程序设计。在Eclipse中建立一个新的Java工程，用于放置实验程序的源代码。编程请遵循Java编程规范。读取“电费回收数据.csv”。将数值型字段规范化至[0,1]区间。调

clouderyu 2020-07-17

大数据开发？大数据分析？数据挖掘算法？

　　关于大数据的知识，因为自己之前做大创、听讲座以及主动地去踩学习的坑，所以关于学习和规划我可以给予一些经验。总之很多因素让我做出了选择大数据的决定。我是今年2月份上手的大数据开发路线，零零碎碎学了很多理论知识，最近有时间才搭建Linux虚拟机来实现部分代

clouderyu 2020-05-27

数据挖掘竞赛利器-Stacking和Blending方式

一.Stacking思想简介1.Stacking的思想是一种有层次的融合模型，比如我们将用不同特征训练出来的三个GBDT模型进行融合时，我们会将三个GBDT作为基层模型，在其上在训练一个次学习器,用于组织利用基学习器的答案，也就是将基层模型的答案作为输入，

clouderyu 2020-04-08

数据挖掘入门系列教程（二）之分类问题OneR算法

在上一篇博客中，我们通过分析亲和性来寻找数据集中数据与数据之间的相关关系。这篇博客我们会讨论简单的分类问题。分类问题，顾名思义我么就是去关注类别这个变量。分类应用的目的是根据已知类别的数据集得到一个分类模型，然后通过这个分类模型去对类别未知的数据进行分类。

xiaoxiaoCNDS 2020-03-09

数据分析的一些概念

例如利用数据预测用户购物行为属性商业智能。十大算法之首，决策树算法，特点包括：1.构造过程中剪枝 2.处理连续属性；3.处理不完整的数据。用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好

小小梦想家 2020-02-01

「数据挖掘入门系列」数据挖掘模型之分类和预测 - 逻辑回归

如果基于商品的历史销售情况，以及节假日、气候、竞争对手等影响因素，对商品的销量进行趋势预测？除此之外，运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯，管理人员希望了解下一个月的销售收入等，这些都是分类与预测的日志。分类和预测是预测问题的两种主要

chognzhihongseu 2020-01-30

数据挖掘基础

伴随着信息化系统建设的发展，各行各业的中大型企业都存储了大量的业务数据。大部分的企业，都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统，能够自动地或者半自动地发现相关的知识和解决方案，这样将会有效地提高企业的决策水平和竞争能力。通过数据挖掘可以

小小梦想家 2020-01-29

数据挖掘--模型挖掘之聚类

主要思想是把数据对象排列成一个聚类树，在需要的层次上对其进行切割，相关联的部分构成一个cluster。把多维数据空间划分成一定数目的单元，然后在这种数据结构上进行聚类操作。该类方法的特点是它的处理速度，因为其速度与数据对象的个数无关，而只依赖于数据空间中

clouderyu 2019-12-03

数据挖掘--K-means

K-Means方法是MacQueen1967年提出的。给定一个数据集合X和一个整数K（?n），K-Means方法是将X分成K个聚类并使得在每个聚类中所有值与该聚类中心距离的总和最小。[1] 给K个cluster选择最初的中心点，称为K个Means。[3]

muyurenzheng 2019-12-02

Python数据挖掘与机器学习技术入门实战

数据挖掘指的是对现有的一些数据进行相应的处理和分析，最终得到数据与数据之间深层次关系的一种技术。具体来说，超市的货品摆放问题可以划分为关联分析类场景。一言以蔽之，凡是让机器通过我们所建立的模型和算法对数据之间的关系或者规则进行学习，最后供我们利用的技术都是

santiago00 2019-11-21

终于有人把数据、信息、算法、统计、概率和数据挖掘都讲明白了！

一些朋友会在稍作思考后回答“数字和字符、字母，这些都是数据”。不知道你现在是不是正在纠结哪个回答更正确，亦或第二个回答更合理一些，我们先放一放。大家不要以为算法全都是算法工程师的事情，跟普通的程序员或者分析人员无关，算法说到底是对处理逻辑理解的问题。这一点

小小梦想家 2019-11-14

大数据架构详解：从数据获取到深度学习

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。此外，数据挖掘和机器学习有很大的交集。本文将从

datongmuyile 2019-11-04

数据挖掘10大算法(1)——PageRank

文章的重点将偏向于算法的来源以及算法的主要思想，不涉及具体的实现。如果发现文中有错，希望各位指出来，一起讨论。在这些算法中，最引人注目的自然是Google的核心技术之一——PageRank。因此本系列就先来探索PageRank的诞生过程。PageRank的

Oudasheng 2013-05-17

谈如何学好数据挖掘

下面是一位朋友的问题，其实每天都有不少同学和朋友向我提问各种学习数据分析、数据挖掘、统计分析等方面的问题，有时候真的很难仔细回答。其实，每个人都有自己的学习路径，还有自己的知识结构和期望的职业生涯，要得到一个统一的答案是困难的！什么是解决问题：就是在明确实

muyurenzheng 2013-03-18

python数据挖掘常用工具有哪几种？

python有强大的第三方库，广泛用于数据分析，数据挖掘、机器学习等领域，下面小编整理了python数据挖掘的一些常用库，希望对各位小伙伴学习python数据挖掘有所帮助。能够提供数组支持，进行矢量运算，并且高效地处理函数，线性代数处理等。提供真正的数组，

santiago00 2020-07-11

大数据分析领域模型有哪些

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。因此，我们需要降低维度数量并降低维度间共线性影响。　　数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。　　回归是研究自变量x对

swazerz 2020-06-04

安科网

数据挖掘分类及常用算法

datongmuyile

datongmuyile

相关推荐

5个开源数据挖掘工具，收下这波干货

开源数据挖掘工具，有这6个就足够

8个优秀的数据挖掘工具

数据挖掘----推荐算法(CF)

实验2：基于Weka的数据挖掘程序设计

大数据开发？大数据分析？数据挖掘算法？

数据挖掘竞赛利器-Stacking和Blending方式

数据挖掘入门系列教程（二）之分类问题OneR算法

数据分析的一些概念

「数据挖掘入门系列」数据挖掘模型之分类和预测 - 逻辑回归

数据挖掘基础

数据挖掘--模型挖掘之聚类

数据挖掘--K-means

Python数据挖掘与机器学习技术入门实战

终于有人把数据、信息、算法、统计、概率和数据挖掘都讲明白了！

大数据架构详解：从数据获取到深度学习

数据挖掘10大算法(1)——PageRank

谈如何学好数据挖掘

python数据挖掘常用工具有哪几种？

大数据分析领域模型有哪些

datongmuyile