用Python计算ROC曲线
ROC曲线典型特征是Y轴为真阳性率,X轴为假阳性率。这意味着图的左上角是“理想”点——假阳性率为0,真阳性率为1。这不是很现实,但它确实意味着曲线下更大的区域通常更好。ROC曲线通常用于机器学习二元分类,用于研究机器学习分类器的输出。为了将ROC曲线和ROC面积扩展到多类或多标签分类,需要对输出进行binarize。每个标签可以绘制一条ROC曲线,但也可以通过将标签指标矩阵的每个元素作为二元预测来绘制ROC曲线。将输入样本的预测类概率计算为集合中分类器的加权平均预测类概率。使用Python我们可以导入SkLearn库。用户可以安装Anaconda for Python3并立即开始使用。
在我们的示例中,我们将使用机器学习Python库(scikit)检测是否检测到了类1或类2。在这个例子中,我们将使用支持向量机(SVM)分类器。请创建一个python文件并测试代码。首先,我们必须导入我们的库。
from sklearn.svm import SVC from sklearn.metrics import roc_curve from sklearn.metrics import auc import matplotlib.pyplot as plt import numpy as np
在将标签与.txt文件中的特征分离之后,我们必须创建多个列表。在我们的用例中,我们使用一个列表,然后将它转换成numpy数组。
#READ TRAINING AND TESTING FILE featureFile = input("Enter Training File: ") featureTestFile = input("Enter Test File: ") featureFile = open(featureFile, 'r') featureTestFile = open(featureTestFile, 'r') lines = featureFile.readlines() linesTest = featureTestFile.readlines() ''' X: 2D All Features Split Into Columns in a list for training CF: 2D All Classes (1 or 2) in a list for training TestX: 2D All Features Split Into Columns in a list for testing TestCF: 2D All Classes Split Into Columns in a list for testing ''' X, CF, TestCF, TestX = gatherFeatures(lines, linesTest) #NORMALIZE DATA AND RUN THROUGH SVM OBJECT runClassifiers(X, TestX, TestCF, CF)
我们读取了所有标记为1或2的训练和测试数据。这是二元分类,对于多类项目将是类似的。一旦收集了特征,我们就可以通过分类器运行所有内容。我将跳过本文的特征收集,只讨论预处理和分析数据。
''' Pre Process Data and Create ROC Curve. ''' def runClassifiers(listX, listTestX, listTestCF, CF): #CLASS ARRAY, STORES ALL CLASSES cf = np.array(CF) cfTest = np.array(listTestCF) #Convert to Array X = np.array(listX) TestX = np.array(listTestX) # NORMALIZE DATA X = preprocessing.scale(X) TestX = preprocessing.scale(TestX) #SVM GATHER DATA rbf_svc = SVC(kernel='rbf', gamma=0.00001, C=1000,probability=True).fit(X, cf) #PREDICT PROBABILITY SCORE = 2D ARRAY FOR EACH PREDICTION predictedprobSVC = rbf_svc.predict_proba(TestX) #GET ROC DATA fpr, tpr, thresholds = roc_curve(cfTest, predictedprobSVC[:,1], pos_label=2) roc_auc = auc(fpr, tpr) #GRAPH DATA plt.figure() plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.plot([0, 1], [0, 1], color='navy', linestyle='--') plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.title('SVM Classifier ROC') plt.plot(fpr, tpr, color='blue', lw=2, label='SVM ROC area = %0.2f)' % roc_auc) plt.legend(loc="lower right") plt.show()
ROC曲线经常用于以图形方式显示,用于测试或测试组合的每个可能截止值。此外,ROC曲线下的面积给出了使用测试的好处。一旦这个类被运行,我们的ROC曲线图形将会显示,并且看起来像下面的图表。
我们可以看到不同的分类器是如何执行的,并对我们的分析进行扩展。