SMOTE__简单原理图示算法实现及R和Python调包简单实现

一两银子

2018-11-29

关注关注

一、SMOTE原理

SMOTE的全称是Synthetic Minority Over-Sampling Technique 即“人工少数类过采样法”，非直接对少数类进行重采样，而是设计算法来人工合成一些新的少数样本。

SMOTE步骤__1.选一个正样本

红色圈覆盖

SMOTE__简单原理图示算法实现及R和Python调包简单实现

SMOTE步骤__2.找到该正样本的K个近邻（假设K = 3）

SMOTE__简单原理图示算法实现及R和Python调包简单实现

可以是正样本也可以是负样本

绿色圈覆盖

SMOTE步骤__3.随机从K个近邻中选出一个样本

SMOTE__简单原理图示算法实现及R和Python调包简单实现

可以是正样本也可以是负样本

SMOTE步骤__4.在正样本和随机选出的这个近邻之间的连线上，随机找一点。这个点就是人工合成的新正样本了

SMOTE__简单原理图示算法实现及R和Python调包简单实现

二、调包实现

2.1 R调包实现_SMOTE

主要参数解释：

perc.over = a 需要生成的正样本：最后正样本数( 1 + a /100) * N : N 为目前有的正样本数量

perc.under = a 需要从负样本抽样的个数：最后负样本数 (a / 100 * b / 10) * N

K = x 用相近的x 个样本（中的一个）生成正样本

library(DMwR)

# pos = (1 + perc.over/100) * N (N original pos sample)

# neg = (perc.over/100 * perc.under/100) * N

# SMOT oversample

newdata <- SMOTE(tp~., data_in

, perc.over = 300, k = 5, perc.under = 200

)

2.2 Python 调包实现_SMOTE

imblearn.over_sampling.SMOTE(

sampling_strategy = ‘auto’,

random_state = None, ## 随机器设定

k_neighbors = 5, ## 用相近的 5 个样本（中的一个）生成正样本

m_neighbors = 10, ## 当使用 kind={'borderline1', 'borderline2', 'svm'}

out_step = ‘0.5’, ## 当使用kind = 'svm'

kind = 'regular', ## 随机选取少数类的样本

– borderline1：最近邻中的随机样本b与该少数类样本a来自于不同的类

– borderline2：随机样本b可以是属于任何一个类的样本;

– svm：使用支持向量机分类器产生支持向量然后再生成新的少数类样本

svm_estimator = SVC(), ## svm 分类器的选取

n_jobs = 1, ## 使用的例程数，为-1时使用全部CPU

ratio=None

)

from imblearn.over_sampling import SMOTE

sm = SMOTE(random_state = 42, n_jobs = -1)

x, y = sm.fit_sample(x_val, y_val)

三、算法实现

#! /user/bin/python 3

# -*- coding: utf-8 -*-

# author: Scc_hy

# 2018-11-17

# SMOTE

from sklearn.neighbors import NearestNeighbors

import numpy as np

import pandas as pd

import copy

from sklearn.datasets import load_iris

from sklearn.ensemble import RandomForestClassifier

class TWO_SMOTE():

"""

不平二分类人工插值法采样

"""

def __init__(self,

K_neighbors = 5,

N_need = 200,

random_state = 42):

self.K_neighbors = K_neighbors

self.N_need = N_need

self.random_state = 42

def get_param_describe(self):

print(

"算法参数: "+

'K_neighbors: 和正样本相近的随机样本数' + "" +

"N_need: 需要增加的正样本数 (N_need // 100 * a)" + "" +

"random_state: 随机器设定" + ""

"over_sample 参数：" +

"x_data: 需要进行过采样的全部数据集(非文本DataFrame)" + "" +

"y_label: 类别标签(非文本DataFrame.Series)"+ ""

)

def div_data(self, x_data, y_label):

"""

将数据依据类分开

"""

tp = set(y_label)

tp_less = [a for a in tp if sum(y_label == a) < sum(y_label != a)][0]

data_less = x_data.iloc[y_label == tp_less, :]

data_more = x_data.iloc[y_label != tp_less, :]

tp.remove(tp_less)

return data_less, data_more, tp_less, list(tp)[0]

def get_SMOTE_sample(self, x_data, y_label):

"""

获取需要抽样的正样本

"""

sample = []

data_less, data_more, tp_less, tp_more = self.div_data(x_data, y_label)

n_integ = self.N_need // 100

data_add = copy.deepcopy(data_less)

if n_integ == 0 :

print('WARNING: PLEASE RE-ENTER N_need')

else:

for i in range(n_integ-1):

data_out = data_less.append(data_add)

data_out.reset_index(inplace = True, drop = True)

return data_out, tp_less

def over_sample(self, x_data, y_label):

"""

SMOTE算法简单实现

"""

sample, tp_less = self.get_SMOTE_sample(x_data, y_label)

knn = NearestNeighbors(n_neighbors = self.K_neighbors ,n_jobs = -1).fit(sample)

n_atters = x_data.shape[1]

label_out = copy.deepcopy(y_label)

new = pd.DataFrame(columns = x_data.columns)

for i in range(len(sample)): # 1. 选择一个正样本

# 2.选择少数类中最近的K个样本

k_sample_index = knn.kneighbors(np.array(sample.iloc[i, :]).reshape(1, -1),

n_neighbors = self.K_neighbors + 1,

return_distance = False)

# 计算插值样本

# 3.随机选取K中的一个样本

np.random.seed(self.random_state)

choice_all = k_sample_index.flatten()

choosed = np.random.choice(choice_all[choice_all != 0])

# 4. 在正样本和随机样本之间选出一个点

diff = sample.iloc[choosed] - sample.iloc[i]

gap = np.random.rand(1, n_atters)

new.loc[i] = [x for x in sample.iloc[i] + gap.flatten() * diff]

label_out = np.r_[label_out, tp_less]

new_sample = pd.concat([x_data, new])

new_sample.reset_index(inplace = True, drop = True)

return new_sample, label_out

if __name__ == '__main__':

iris = load_iris()

irisdf = pd.DataFrame(data = iris.data, columns = iris.feature_names)

y_label = iris.target

# 生成不平二分类数据

iris_1 = irisdf.iloc[y_label == 1]

iris_2 = irisdf.iloc[y_label == 2]

iris_2imb = pd.concat([iris_1, iris_2.iloc[:10, :]])

label_2imb =np.r_[y_label[y_label == 1], y_label[y_label == 2][:10]]

iris_2imb.reset_index(inplace = True, drop = True)

smt = TWO_SMOTE()

x_new, y_new = smt.over_sample(iris_2imb, label_2imb)

100

101

102

103

104

105

106

107

108

以上就是SMOTE的简单实现，尚未有考虑到仅有 0 1变量，后期会更新

python算法 python 算法

一两银子

0 关注 0 粉丝 0 动态

关注关注

在Python中使用KNN算法处理缺失的数据

处理缺失的数据并不是一件容易的事。方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。解决问题的挑战性是选择使用哪种方法。今天，我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。KNN代表" K最近邻居"

scuyxi 2020-10-25

用Python中从头开始的实现完整的异常检测算法

异常检测可以作为离群分析的统计任务来对待。但是，如果我们开发一个机器学习模型，它可以自动化，并且像往常一样可以节省大量时间。信用卡欺诈检测，故障机器检测或基于其异常功能的硬件系统检测，基于病历的疾病检测都是很好的例子。并且异常检测的使用只会增加。如果某个训

csdnfelix 2020-10-18

如何使用Python进行异常检测

异常检测可以作为异常值分析的一项统计任务来处理。但是如果我们开发一个机器学习模型，它可以像往常一样自动化，可以节省很多时间。信用卡欺诈检测、故障机器检测或基于异常特征的硬件系统检测、基于医疗记录的疾病检测都是很好的例子。异常检测的应用只会越来越多。在本文中

代码之神 2020-10-15

用Python构建和可视化决策树

决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。在这种情况下，树将进行拆分，使每个组的均方误差最小。决策树的

赶路人儿 2020-11-02

让机器学习自动帮我们建模，这4个Python库能让你大开眼界

自动机器学习是一个新兴的领域，在这个领域中，通过建立机器学习模型来对数据进行建模的过程是自动化的。AutoML能让建模变得更容易，也能让每个人更容易访问。如果你对AutoML感兴趣，下面这四个Python库是最好的选择!auto-sklearn 是一个自动

Pokemogo 2020-09-17

数据科学 | 这十个受欢迎的Python库值得关注

今年将大放异彩的数据科学库。Python被认为是初学者最容易学习的语言。不仅如此，Python还因为它拥有的动态应用程序集而受欢迎。随着在人工智能、机器学习、web开发和桌面应用程序开发等领域的广泛使用，Python在数据分析市场上占据了垄断地位。考虑到目

MasterCui 2020-09-08

Python之父的加速秘籍：PyPy能让代码运行得更快

当我们提及Python时，常常指的是CPython，即C语言实现的Python，这就是PyPy发挥作用的地方啦。实话讲，Python很慢，而用Python(!)编写的Python在运行时，执行速度比CPython快4.4倍。正如Python之父吉多·范罗苏

Morelia 2020-09-04

Python很慢？不一定哦

请注意，这有点夸张。首先，我要说明我是专业从事python工作的，我做出了许多开源贡献，并且我所有的业余爱好项目都使用python进行。这是Reddit等论坛上的常见主题，人们说您不能使用python，因为它运行缓慢。是的，我们都知道python很慢。但是

meylovezn 2020-08-30

从事python机器学习，这些三方库很重要!

很多人之所以喜欢python，不仅仅因为简单易学、容易入门，更多是因为python有强大的第三方库，那么在机器学习中，python有哪些库可以使用呢?基于两个python库，Numpy 和 Scipy，为常见的机器学习和数据挖掘提供一组算法，聚类、回归和分

Hannah 2020-08-19

Python编程面试前要解决的10个算法

为什么练习算法是关键?别像我刚开始解决问题时那样天真。对于我自己，我一直在想，在一天结束时，整天求解算法有点太呆板了，它在实际的日常工作环境中并没有实际的用途，从长远来看，它也不会给我带来多少好处。#的Unicode代码点的整数，或者当参数是8位字符串时，

hugebawu 2020-08-17

Python编程面试前要解决的10个算法

scuyxi 2020-08-16

面试刷题必看！Python中的5大排序算法及其实现代码

排序是每个 IT 工程师和开发人员必备的知识技能。不仅要通过编程面试，而且要了解算法本身。不同的排序算法很好地展示了算法设计如何对程序的复杂性、速度和效率产生如此大的影响。让我们来看看排名前5，也是最常见，面试中经常被问到的排序算法，看看如何用Pytho

hang0 2020-08-16

这5个Python库太难搞！每位数据科学家都应该了解

本文转载自公众号“读芯术”。Python之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系统密不可分，这些强大的库让Python保持着生命力和高效力。作为数据科学家免不了会使用一些Python库用于项目和研究，除却那些常见的库，还有很多库

higher0 2020-08-11

LeetCode 99. 恢复二叉搜索树 | Python

二叉搜索树中的两个节点被错误地交换。题目中说明，二叉搜索树中的两个节点被错误地交换，需要在不改变结构的情况下恢复二叉搜索树。我们知道，使用中序遍历二叉搜索树时，得到的序列必然是递增的。在这里，我们能直接想到的就是，利用一个数组，去存储使用中序遍历二叉搜索树

Tips 2020-08-08

11个技巧让你编写出更好的Python代码

在本教程中，我们将展示11个技巧来编写更好的Python代码!我们展示了许多优秀实践，它们通过使代码更加简洁和更具python风格来改进代码。如果我们需要遍历一个列表，并且需要跟踪索引和当前项，大多数人会使用range语法。这将以元组的形式返回当前索引和当

Tristahong 2020-08-05

盘点 Python 10 大常用数据结构（上篇）

如果你还处于Python入门阶段，通常只需掌握list、tuple、set、dict这类数据结构，做到灵活使用即可。因为相比于list, tuple实例更加节省内存，这点尤其重要。并且set内允许增删元素，且效率很高。但是值得注意，dict占用字节数是li

xiesheng 2020-08-02

python基础-面向对象进阶

huakai 2020-07-26

[Python]贪心算法-Dijkstra-实现

带权重的有向图上单源最短路径问题。如果采用的实现方法合适，Dijkstra运行时间要低于Bellman-Ford算法。最小距离的判断标准 dist[j] = min. heapq.heappush # min heap, sort data item a

RememberMePlease 2020-06-26

LeetCode 139. 单词拆分 | Python

给定一个非空字符串 s 和一个包含非空单词列表的字典 wordDict，判定 s 是否可以被空格拆分为一个或多个在字典中出现的单词。你可以假设字典中没有重复的单词。动态规划的方法，主要是将问题细化。applepen 能否被拆分，加上 apple 如果可以，

zangdaiyang 2020-06-25

【算法与数据结构】－－经典排序算法Python实现

return self.arr,count # 如果flag为false,说明此次排序没有任何交换，即已经排好顺序。for i in range: # 总共需要排序的次数为len-1. while insertindex >= 0 and ins

小海 2020-06-25

安科网

SMOTE__简单原理图示算法实现及R和Python调包简单实现

一两银子

一两银子

相关推荐

在Python中使用KNN算法处理缺失的数据

用Python中从头开始的实现完整的异常检测算法

如何使用Python进行异常检测

用Python构建和可视化决策树

让机器学习自动帮我们建模，这4个Python库能让你大开眼界

数据科学 | 这十个受欢迎的Python库值得关注

Python之父的加速秘籍：PyPy能让代码运行得更快

Python很慢？不一定哦

从事python机器学习，这些三方库很重要!

Python编程面试前要解决的10个算法

Python编程面试前要解决的10个算法

面试刷题必看！Python中的5大排序算法及其实现代码

这5个Python库太难搞！每位数据科学家都应该了解

LeetCode 99. 恢复二叉搜索树 | Python

11个技巧让你编写出更好的Python代码

盘点 Python 10 大常用数据结构（上篇）

python基础-面向对象进阶

[Python]贪心算法-Dijkstra-实现

LeetCode 139. 单词拆分 | Python

【算法与数据结构】－－经典排序算法Python实现

一两银子

SMOTE__简单原理图示 算法实现及R和Python调包简单实现

相关推荐

SMOTE__简单原理图示算法实现及R和Python调包简单实现