机器学习、数据科学和数据挖掘中的数据集类型
作者:Tarun Gupta翻译:疯狂的技术宅
https://towardsdatascience.co...
未经允许严禁转载
数据集有三个一般特征,即:维度,稀疏度,和分辨率。接下来我们将讨论它们究竟是什么意思。
什么是维度?
→数据集的维度是数据集中对象所具有的属性的数量。
在特定数据集中,如果存在大量属性(也称为高维度),则可能很难分析这样的数据集。当遇到这个问题时,它被称为维度的诅咒。
为了理解维度的诅咒到底是什么,我们首先需要了解数据的另外两个特征。
什么是稀疏?
→对于某些数据集,例如具有非对称特征的数据集,其对象的大多数属性值为 0;在通常情况下,只有不到 1% 的条目是非零的,这样的数据称为稀疏数据或者可以说数据集具有稀疏性。
什么是分辨率?
→数据中的模式取决于分辨率级别。如果分辨率太细,则模式可能会不可见或有可能被埋没在噪声中;如果分辨率太粗糙,模式可能会消失。例如大气压力变化反映了风暴和其他天气系统的运动。在几个月的时间里,这种现象是无法察觉的。
现在,回到维度的诅咒,这意味着随着数据集维度(数据集中的属性数量)的增加,许多类型的数据分析变得困难。具体而言,随着维数的增加,数据在其占据的空间中变得越来越稀疏。对于分类,这可能意味着没有足够的数据对象来允许创建可靠的分类模型。
最后,来看数据集的类型,我们将它们定义为三个类别,即记录数据,基于图的数据和有序数据。
记录数据
→数据挖掘工作的大部分假定数据是记录(数据对象)的集合。
→记录数据的最基本形式是在记录或数据字段之间没有明确的关系,并且每个记录(对象)都具有相同的属性集。记录数据通常存储在文件或关系数据库中。
记录数据有一些具有某些特征属性的变体,。
- 交易或市场篮子数据:这是一种特殊类型的记录数据,其中每个记录包含一组项目。例如在超市或杂货店购物。对于任何特定客户,记录将包含客户购买的一组物品。这种类型的数据称为市场篮子数据。交易数据是一组项目集合,但它可以被视为一组记录,其字段是非对称属性。通常属性是二进制的,表示是否购买了商品。
- 数据矩阵:如果数据集中的数据对象都具有相同的固定数值属性集,那么数据对象可以被认为是多维空间中的点(向量),其中每个维度表示描述对象的不同属性。一组这样的数据对象可以被解释为 m×n 矩阵,其中有 n 行 m 列,每行一个对象,每列一个属性。可以用标准矩阵运算来转换和操纵数据。因此数据矩阵是大多数统计数据的标准数据格式。
- 稀疏数据矩阵:稀疏数据矩阵(有时也称为文档 - 数据矩阵)是数据矩阵的一种特殊情况,其中属性是相同的类型,而且是不对称的;即,只有非零值才很重要。
基于图的数据
这可以进一步分为几种类型:
- 对象间关系的数据:数据对象映射到图的节点,而对象之间的关系由对象和链接属性之间的链接表示,例如方向和权重。比如互联网上的网页,其中包含文本和其指向他页面的链接。为了处理搜索查询,Web 搜索引擎爬取并处理网页来提取其内容。
- 具有图对象的数据:如果对象具有结构,即对象中包含具有关系的子对象,则此类对象通常表示为图。例如,化学化合物的结构可以用图表示,其中节点是原子,节点之间的链接是化学键。
有序数据
对于某些类型的数据,属性具有涉及时间或空间顺序的关系。正如你在上图中所看到的,它可以分为四种类型:
- 顺序数据:也称为时间数据,可以被认为是记录数据的扩展,其中每个记录都有一个与之相关的时间。比如零售交易数据集,该数据集还存储交易发生的时间
- 序列数据:序列数据由数据集组成,该数据集是单个实体的序列,例如单词或字母序列。它与顺序数据非常相似,只是没有时间戳;相反,有序序列中存在位置。例如,植物和动物的遗传信息可以用基因的核苷酸序列的形式表示。
- 时间序列数据:时间序列数据是一种特殊类型的有序数据,其中每个记录是一个时间序列,即随时间进行的一系列测量。例如,财务数据集可能包含各种股票的每日价格的时间序列的对象。
- 空间数据:某些对象具有空间属性,例如位置或区域,还有其他类型的属性。空间数据的例子是针对各种地理位置收集的天气数据(降水,温度,压力)。
本文首发微信公众号:硬核智能