机器学习算法在IDS中的应用
众所周知,网络安全的最常见风险来自入侵,其中包括:蛮力破解、拒绝服务、网络渗透等方面。而现如今,随着网络行为模式的改变,业界普遍认为单凭静态数据集的策略,是无法捕获流量的具体组成、并予以拦截的。因此我们有必要采用一种动态的方式,来检测和防御各种入侵。
也就是说:我们需要可修改的、可重复且可扩展的数据集,来学习和处理那些能够轻松绕过传统入侵检测系统(IDS)的复杂攻击源。下面,让我们一起讨论机器学习如何能够在入侵检测中发挥作用,以构建出更为强大与健壮的IDS。
与IDS相关的机器学习相关概念
在机器学习的各种算法中,无监督(Unsupervised)式学习算法可以从网络中“学到”各种典型的模式,并且能够在没有任何已标记数据集的情况下,报告异常情况。虽然它可以检测出各种新型的入侵,但是很容易出现误报(false positive alarms)的情况。因此,我们在此只讨论无监督式的K-均值聚类算法。另外,为了减少误报,我们可以引入已标记的数据集,并建立监督式机器学习模型,进而训练出网络中正常数据包与攻击流量之间的特征差异。此类监督式的模型能够熟练地处置各种已知攻击,并且能够识别出此类攻击的变种。因此,我们下面会讨论到的标准监督式算法包括:贝叶斯网络、随机森林、随机树、MLP、以及决策表。
数据集
在机器学习模型的开始阶段,最重要也是最繁琐的过程便是获得各种可靠的数据。在此,我们使用KDD Cup 1999的数据,来建立预测模型,从而区分入侵类攻击与真正有价值的流量连接。KDD Cup 1999是一个标准的数据集,它包括了在军事网络环境中所模拟出的各种干预模型,由4898431个实例和41种属性所组成。
它会跟踪如下四种攻击类型,每一个连接都会被标记为正常、或是具有攻击性。而且每一条连接记录大约都是由100个字节所组成。
- 拒绝服务:denial-of-service
- R2L:来自远程机器的未经授权的访问
- U2R:来自本地root特权的未经授权的访问
- 探测:监视并需要另一种检查
如下表所示,每一种类型都包含了具体的攻击形式,一共有21种。
KDD集合
如下表所示,我们总结出了任意一种基于TCP/IP协议的连接集的基础分类特征:
数据在能够被机器学习算法所使用之前,必须经过被特征选择等处理。有些元素特征很容易被发现,而其他的特征则需要通过实验和测试才能被找到。当然,由于某些特征是冗余的,而且将不同的类别予以区分可能意义不大,因此在IDS中使用数据集的所有特征并不一定能获得最佳的性能,有时甚至会增加系统的计算成本与错误率。
此处,数据集的主要贡献是通过引入专家建议的属性,有助于系统理解不同类型的攻击行为,包括上述提及的:检测DoS、探测、R2L和U2R等基本特性。下表便是来自不同领域的知识库所给出的内容特征列表。
机器学习算法的简述
K-均值聚类(K-means clustering)
如前所述,K-均值聚类是一种无监督式的学习技术。这是最简单、也是最流行的机器学习算法之一。它在数据中寻找不同的组,其中组的数量由变量K所表示。该算法基于数据集的特征,将不同的数据点分配给K中的一个组。基于不同的特征相似性,各个数据点会被采取聚类。
贝叶斯网络(Bayes Network)
贝叶斯网络是一种概率图形模型。它的原理是通过绘制出有向图形边上的依赖关系,进而充分利用到条件的依赖性。它假定所有没有被边缘所连接的节点,都是具有条件独立。而且它在创建有向无环图时,就利用到了该事实基础。
随机森林分类器(Random Forest Classifier)
随机森林是一种集成式的分类器,它通过合并多种算法来实现分类。这些算法在数据的随机子集上创建多个决策树,然后通过聚合每棵树的总票数,来决定测试的类别。同时,它也会给个别树的贡献程度分配权重值。
多层感知(MLP)
MLP是一种前馈式神经网络。它至少由三个层次所组成:输入层、隐藏层和输出层。在训练期间,我们可以通过调整各种权重或参数,来最小化分类中的错误。该算法在每个隐藏节点中引入了非线性(Non-linearity)。而反向传播则是用来通过参照错误,进而调整权重与偏差。
实现
下面,我们将使用Python及其广泛的库来实现IDS。当然,我们需要事先安装好Pandas(基于Python的大型数据集分析库)、NumPy(Python的一种开源类数值计算扩展)和Scipy(可用于数学、科学、工程领域的常用软件包,常用于计算Numpy矩阵,能与Numpy协同工作)。如果您使用的是Ubuntu系统,那么其对应的shell命令应该是:
sudo pip install numpy scipy pandas
首先,我们需要对数据集进行预处理,也就是说:数据集需要被下载并提取到程序对应的文件夹中。同时,该数据集应该是.csv格式,以方便Python的读取。因此具体命令如下:
# Import pandas import pandas as pd # reading csv file dataset = pd.read_csv("filename.csv")
前面提到的各种机器学习算法都应当被存放在“神奇”的Scipy库中。通过以下步骤,您可以使用不同的模型,来快速运行目标数据集:
K-均值
import numpy as np from sklearn.cluster import KMeans print(dataset.describe()) # to view the summary of the dataset loaded kmeans = KMeans(n_clusters=2) # You want cluster the threats into 5: Normal, DOS,PROBE, R2L and U2R kmeans.fit(X) prediction = kmeans.predict(dataset[0]) # predicts the type for the first entry 随机森林 #Import Random Forest Model from sklearn.ensemble import RandomForestClassifier #Create a Gaussian Classifier clf=RandomForestClassifier(n_estimators=50) #Train the model using the training dataset clf.fit(dataset,dataset[:,LAST_COLUMN]) #LAST_COLUMN is the index of the column with the labelled type of threat or normal pred=clf.predict(dataset)
朴素贝叶斯网络
from sklearn.naive_bayes import GaussianNB #Create a Gaussian Naive Bayes Classifier gnb = GaussianNB() gnb.fit(dataset,dataset[:,LAST_COLMN]) pred=predict(gnb,dataset[0])
多层感知
From sklearn.neural_network import MLPClassifier #Create a Multi-Layer Perceptron clf = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5, 2), random_state=1) clf.fit(dataset,dataset[:,LAST_COLMN]) pred=clf.predict(dataset[0]);
结果
为了衡量机器学习模型的准确性,我们会引入诸如:平均准确度(Average Accuracy)、误报率(False Positive Rates)和漏报率(False Negative Rates)等不同衡量维度的参考指标。由于K-均值是一种无监督式算法,因此它被排除在了该指标之外。
如下面公式所示,平均准确度定义为:被正确分类的数据点与数据点总数的比。
显而易见,此处的“误报”是指那些被判定为威胁,而实际上并非为如此的数据流量。同理,“漏报”是指那些确实为威胁,但未被IDS所查出并报告的流量。
另一些可以参考与度量的指标还包括:精度和真阳性。其中:
- 精度是指发现的威胁与威胁总量的比率。
- 真阳性是指那些能够被成功地识别为威胁包,与全部能被识别和判定的数据包的比率。