如何使用Python进行异常检测

代码之神

2020-10-15

关注关注

异常检测可以作为异常值分析的一项统计任务来处理。但是如果我们开发一个机器学习模型，它可以像往常一样自动化，可以节省很多时间。

异常检测有很多用例。信用卡欺诈检测、故障机器检测或基于异常特征的硬件系统检测、基于医疗记录的疾病检测都是很好的例子。还有更多的用例。异常检测的应用只会越来越多。

在本文中，我将解释在Python中从头开始开发异常检测算法的过程。

如何使用Python进行异常检测

公式和过程

与我之前解释过的其他机器学习算法相比，这要简单得多。该算法将使用均值和方差来计算每个训练数据的概率。

如果一个训练实例的概率很高，这是正常的。如果某个训练实例的概率很低，那就是一个异常的例子。对于不同的训练集，高概率和低概率的定义是不同的。我们以后再讨论。

如果我要解释异常检测的工作过程，这很简单。

1. 使用以下公式计算平均值：

这里m是数据集的长度或训练数据的数量，而$x^i$是一个单独的训练例子。如果你有多个训练特征，大多数情况下都需要计算每个特征能的平均值。

2. 使用以下公式计算方差：

这里，mu是上一步计算的平均值。

3. 现在，用这个概率公式计算每个训练例子的概率。

不要被这个公式中的求和符号弄糊涂了！这实际上是Sigma代表方差。

稍后我们将实现该算法时，你将看到它的样子。

4.我们现在需要找到概率的临界值。正如我前面提到的，如果一个训练例子的概率很低，那就是一个异常的例子。

低概率有多大？

这没有普遍的限制。我们需要为我们的训练数据集找出这个。

我们从步骤3中得到的输出中获取一系列概率值。对于每个概率，通过阈值的设置得到数据是否异常

然后计算一系列概率的精确度、召回率和f1分数。

精度可使用以下公式计算

召回率的计算公式如下：

在这里，True positives（真正例）是指算法检测到一个异常的例子的数量，而它真实情况也是一个异常。

False Positives（假正例）当算法检测到一个异常的例子，但在实际情况中，它不是异常的，就会出现误报。

False Negative（假反例）是指算法检测到的一个例子不是异常的，但实际上它是一个异常的例子。

从上面的公式你可以看出，更高的精确度和更高的召回率总是好的，因为这意味着我们有更多的真正的正例。但同时，假正例和假反例起着至关重要的作用，正如你在公式中看到的那样。这需要一个平衡点。根据你的行业，你需要决定哪一个对你来说是可以忍受的。

一个好办法是取平均数。计算平均值有一个独特的公式。这就是f1分数。f1得分公式为：

这里，P和R分别表示精确性和召回率。

根据f1分数，你需要选择你的阈值概率。

异常检测算法

我将使用Andrew Ng的机器学习课程的数据集，它具有两个训练特征。我没有在本文中使用真实的数据集，因为这个数据集非常适合学习。它只有两个特征。在任何真实的数据集中，都不可能只有两个特征。

首先，导入必要的包

import pandas as pd  
import numpy as np

导入数据集。这是一个excel数据集。在这里，训练数据和交叉验证数据存储在单独的表中。所以，让我们把训练数据带来。

df = pd.read_excel('ex8data1.xlsx', sheet_name='X', header=None) 
df.head()

让我们将第0列与第1列进行比较。

plt.figure() 
plt.scatter(df[0], df[1]) 
plt.show()

你可能通过看这张图知道哪些数据是异常的。

检查此数据集中有多少个训练示例：

m = len(df)

计算每个特征的平均值。这里我们只有两个特征：0和1。

s = np.sum(df, axis=0) 
mu = s/m 
mu

输出：

0    14.112226 
1    14.997711 
dtype: float64

根据上面“公式和过程”部分中描述的公式，让我们计算方差：

vr = np.sum((df - mu)**2, axis=0) 
variance = vr/m 
variance

输出：

0    1.832631 
1    1.709745 
dtype: float64

现在把它做成对角线形状。正如我在概率公式后面的“公式和过程”一节中所解释的，求和符号实际上是方差

var_dia = np.diag(variance) 
var_dia

输出：

array([[1.83263141, 0.        ], 
       [0.        , 1.70974533]])

计算概率：

k = len(mu) 
X = df - mu 
p = 1/((2*np.pi)**(k/2)*(np.linalg.det(var_dia)**0.5))* np.exp(-0.5* np.sum(X @ np.linalg.pinv(var_dia) * X,axis=1)) 
p

训练部分已经完成。

下一步是找出阈值概率。如果概率低于阈值概率，则示例数据为异常数据。但我们需要为我们的特殊情况找出那个阈值。

对于这一步，我们使用交叉验证数据和标签。

对于你的案例，你只需保留一部分原始数据以进行交叉验证。

现在导入交叉验证数据和标签：

cvx = pd.read_excel('ex8data1.xlsx', sheet_name='Xval', header=None) 
cvx.head()

标签如下：

cvy = pd.read_excel('ex8data1.xlsx', sheet_name='y', header=None) 
cvy.head()

我将把'cvy'转换成NumPy数组，因为我喜欢使用数组。不过，数据帧也不错。

y = np.array(cvy)

输出：

# 数组的一部分 
array([[0], 
       [0], 
       [0], 
       [0], 
       [0], 
       [0], 
       [0], 
       [0], 
       [0],

这里，y值0表示这是一个正常的例子，y值1表示这是一个异常的例子。

现在，如何选择一个阈值？

我不想只检查概率表中的所有概率。这可能是不必要的。让我们再检查一下概率值。

p.describe()

输出：

count    3.070000e+02 
mean     5.905331e-02 
std      2.324461e-02 
min      1.181209e-23 
25%      4.361075e-02 
50%      6.510144e-02 
75%      7.849532e-02 
max      8.986095e-02 
dtype: float64

如图所示，我们没有太多异常数据。所以，如果我们从75%的值开始，这应该是好的。但为了安全起见，我会从平均值开始。

因此，我们将从平均值和更低的概率范围。我们将检查这个范围内每个概率的f1分数。

首先，定义一个函数来计算真正例、假正例和假反例：

def tpfpfn(ep): 
    tp, fp, fn = 0, 0, 0 
    for i in range(len(y)): 
        if p[i] <= ep and y[i][0] == 1: 
            tp += 1 
        elif p[i] <= ep and y[i][0] == 0: 
            fp += 1 
        elif p[i] > ep and y[i][0] == 1: 
            fn += 1 
    return tp, fp, fn

列出低于或等于平均概率的概率。

eps = [i for i in p if i <= p.mean()]

检查一下列表的长度

len(eps)

输出：

根据前面讨论的公式定义一个计算f1分数的函数：

def f1(ep): 
    tp, fp, fn = tpfpfn(ep) 
    prec = tp/(tp + fp) 
    rec = tp/(tp + fn) 
    f1 = 2*prec*rec/(prec + rec) 
    return f1

所有函数都准备好了！

现在计算所有epsilon或我们之前选择的概率值范围的f1分数。

f = [] 
for i in eps: 
    f.append(f1(i)) 
f

输出：

[0.14285714285714285, 
 0.14035087719298248, 
 0.1927710843373494, 
 0.1568627450980392, 
 0.208955223880597, 
 0.41379310344827586, 
 0.15517241379310345, 
 0.28571428571428575, 
 0.19444444444444445, 
 0.5217391304347826, 
 0.19718309859154928, 
 0.19753086419753085, 
 0.29268292682926833, 
 0.14545454545454545,

这是f分数表的一部分。长度应该是133。

f分数通常在0到1之间，其中f1得分越高越好。所以，我们需要从刚才计算的f分数列表中取f的最高分数。

现在，使用“argmax”函数来确定f分数值最大值的索引。

np.array(f).argmax()

输出：

现在用这个索引来得到阈值概率。

e = eps[131] 
e

输出：

6.107184445968581e-05

找出异常实例

我们有临界概率。我们可以从中找出我们训练数据的标签。

如果概率值小于或等于该阈值，则数据为异常数据，否则为正常数据。我们将正常数据和异常数据分别表示为0和1，

label = [] 
for i in range(len(df)): 
    if p[i] <= e: 
        label.append(1) 
    else: 
        label.append(0) 
label

输出：

[0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0, 
 0,

这是标签列表的一部分。

我将在上面的训练数据集中添加此计算标签：

df['label'] = np.array(label) 
df.head()

我在标签为1的地方用红色绘制数据，在标签为0的地方用黑色绘制。以下是结果。

有道理吗？

机器学习 python 概率计算 python算法算法

代码之神

0 关注 0 粉丝 0 动态

关注关注

用Python构建和可视化决策树

决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。在这种情况下，树将进行拆分，使每个组的均方误差最小。决策树的

赶路人儿 2020-11-02

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 8评论 2020-11-16

选择困难终结者：不同问题之下的机器学习算法

刚开始学习数据科学时，笔者经常面临这样一个问题：遇到具体问题，选择何种算法才合适。也许你也和我一样，搜了很多有关机器学习算法的文章，会看到许多详细的描述，却并没有减少让抉择的难度。问题陈述2：深挖客户统计数据用以识别模式。问题陈述12：根据车辆特性预估车辆

lwnylslwnyls 2020-11-06

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 5评论 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 5评论 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 12评论 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 12评论 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 6评论 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 8评论 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 12评论 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 5评论 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 8评论 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 12评论 2020-11-10

安科网

如何使用Python进行异常检测

代码之神

公式和过程

异常检测算法

找出异常实例

代码之神

相关推荐

用Python构建和可视化决策树

关于机器学习算法的16个技巧

选择困难终结者：不同问题之下的机器学习算法

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

代码之神