如何处理基于KNN算法的交叉验证，基于朴素贝叶斯算法计算AUC ?

tracy

2018-05-19

交叉验证用于评估预测模型，方法是将原始样本划分为训练集以训练模型，并使用测试集对其进行评估。

Sklearn中的交叉验证对我们选择正确的模型和模型参数非常有帮助。通过使用它，我们可以直观地看到不同模型或参数对结构精度的影响。

我们将使用著名的数据集“iris”和KNN分类器。

1、使用knn.score()来查看准确度。

基本上，knn.score()的准确性只测试一组列车和测试数据集。

如何处理基于KNN算法的交叉验证，基于朴素贝叶斯算法计算AUC ?

拆分训练和测试数据集

# We are going to use the famous dataset 'iris' with the KNN Classifier

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

# load dataset

iris = load_iris()

X = iris.data

y = iris.target

# split into test and train dataset, and use random_state=48

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=4)

# build KNN model and choose n_neighbors = 5

knn = KNeighborsClassifier(n_neighbors = 5)

# train the model

knn.fit(X_train, y_train)

# get the predict value from X_test

y_pred = knn.predict(X_test)

# print the score

print('accuracy: ', knn.score(X_test, y_test))

# accuracy: 0.973684210526

2.交叉验证分类

在k-fold交叉验证中，原始样本被随机划分为k个相同大小的子样本。

如何处理基于KNN算法的交叉验证，基于朴素贝叶斯算法计算AUC ?

# import k-folder

from sklearn.cross_validation import cross_val_score

# use the same model as before

knn = KNeighborsClassifier(n_neighbors = 5)

# X,y will automatically devided by 5 folder, the scoring I will still use the accuracy

scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')

# print all 5 times scores

print(scores)

# [ 0.96666667 1. 0.93333333 0.96666667 1. ]

# then I will do the average about these five scores to get more accuracy score.

print(scores.mean())

# 0.973333333333

我们可以选择不同的邻居来看看哪个K是最好的K。

import matplotlib.pyplot as plt

%matplotlib inline

# choose k between 1 to 31

k_range = range(1, 31)

k_scores = []

# use iteration to caclulator different k in models, then return the average accuracy based on the cross validation

for k in k_range:

knn = KNeighborsClassifier(n_neighbors=k)

scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')

k_scores.append(scores.mean())

# plot to see clearly

plt.plot(k_range, k_scores)

plt.xlabel('Value of K for KNN')

plt.ylabel('Cross-Validated Accuracy')

plt.show()

如何处理基于KNN算法的交叉验证，基于朴素贝叶斯算法计算AUC ?

＃我们可以看到最好的K在6-13之间，13之后精度由于不适合而下降。

3.使用neg_mean_squared_error进行评分（适合回归）

import matplotlib.pyplot as plt

k_range = range(1, 31)

k_scores = []

for k in k_range:

knn = KNeighborsClassifier(n_neighbors=k)

loss = abs(cross_val_score(knn, X, y, cv=5, scoring='neg_mean_squared_error'))

k_scores.append(loss.mean())

plt.plot(k_range, k_scores)

plt.xlabel('Value of K for KNN')

plt.ylabel('Cross-Validated MSE')

plt.show()

如何处理基于KNN算法的交叉验证，基于朴素贝叶斯算法计算AUC ?

＃因为它显示MSE，我们需要找到6-13之间的最小值。与＃2结果相同。

3.将朴素贝叶斯算法应用于具有相同数据集的分类问题

from sklearn import metrics

from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()

y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)

print("Number of mislabeled points : %d" % (iris.target != y_pred).sum())

# Number of mislabeled points : 6

＃上面我们使用了一个简单的错误标记计数来确定一个分数：6个错误标签/ 150个总数或144个右侧/150个总数= 0.96（显然这里我们希望尽可能接近1）。

我们可以通过绘制受试者工作特征曲线和确定曲线下面积值（AUC）来评分二元分类。同样，我们的目标是尽可能接近1的AUC。

# Finding the false positive and true positive rates where the positive label is 2.

from sklearn import metrics

fpr, tpr, thresholds = metrics.roc_curve(iris.target, y_pred, pos_label=2)

metrics.auc(fpr, tpr)

plt.plot(fpr, tpr)

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plt.title('Receiver operating characteristic example')

plt.show()

如何处理基于KNN算法的交叉验证，基于朴素贝叶斯算法计算AUC ?

交叉验证贝叶斯 knn 朴素贝叶斯算法算法 auc iris

tracy

0 关注 0 粉丝 0 动态

相关推荐

sklearn交叉验证-【老鱼学sklearn】

交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集

BitTigerio 2017-12-22

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

深度学习入门比赛——街景字符识别（四）

选好模型之后，需要建立训练集与验证集进行模型的效果验证，保证模型的预测结果正确符合，以及不过拟合训练与验证主要有以下几种方法：。交叉验证法的作用就是尝试利用不同的训练集/测试集划分来对模型做多组不同的训练/测试，来应对单词测试结果过于片面以及训练数据不足的

playoffs 2020-05-30

深度度量学习的这十三年，难道是错付了吗？

或许对于每一个领域来说，停下脚步去思考，与低头赶路一样重要。在人脸识别、指纹识别等开集分类的任务中，类别数往往很多而类内样本数比较少。在这种情况下，基于深度学习的分类方法常表现出一些局限性，如缺少类内约束、分类器优化困难等。而这些局限可以通过深度度量学习来

深度学习大讲堂 2020-05-17

MachineLearning入门-11（算法评估）

评估就是估计算法在预测新数据时候能达到什么程度，但这不是对算法准确度的保证。当评估完算法模型之后，可以用整个数据集重新训练算法，生成最终的算法模型。通常将67%的数据集作为训练集，将33%的数据作为评估集。数据分布比较平衡，或者对问题的展示比较平均的情况下

troysps 2020-03-03

论人工智能之二

显然是图像数据，就像人眼一样，图像经过视网膜传到视神经系统，然后大脑的视觉神经中枢经过分析处理，识别出待抓取的物体，以供下一步抓取。这个过程称为训练。上述的数据集称为训练集。经过训练集训练之后，神经网络就相当于学习完成了，这个之后我们就会拿一些没有标记好的

网易智能 2019-10-30

千锋扣丁学堂Python培训之实现K折交叉验证方法步骤

今天千锋扣丁学堂Python培训老师给大家分享一篇关于Python实现K折交叉验证方法步骤的详细介绍，首先在学习时测试集上的误差我们通常称作“泛化误差”。要想得到“泛化误差”首先得将数据集划分为训练集和测试集。常用的方法有两种，k折交叉验证法和自助法。fo

georgeandgeorge 2019-07-11

Kaggle冠军经验分享丨如何用15个月冲到排行榜的首位

在最新的Kaggle用户排行榜上，排名第一位的ID是Bestfitting，他本人叫Shubin Dai。他在两年前加入Kaggle，目前生活在中国湖南省长沙。他是一名数据科学家、工程师，目前领导一家为银行提供软件解决方案的公司。在工作之余，除了Kaggl

qiujiahao 2019-07-01

机器学习基础：(Python)训练集测试集分割与交叉验证

在上一篇关于Python中的线性回归的文章之后，我想再写一篇关于训练测试分割和交叉验证的文章。在数据科学和数据分析领域中，这两个概念经常被用作防止或最小化过度拟合的工具。我会解释当使用统计模型时，通常将模型拟合在训练集上，以便对未被训练的数据进行预测。这种

lovetheme 2019-06-29

三招提升数据不平衡模型的性能（附python代码）

对于深度学习而言，数据集非常重要，但在实际项目中，或多或少会碰见数据不平衡问题。针对数据不平衡问题有相应的处理办法，比如对多数样本进行采样使得其样本数量级与少样本数相近，或者是对少数样本重复使用等。最近恰好在面试中遇到一个数据不平衡问题，这也是面试中经常会

YUAN 2019-06-27

机器学习系列15：学习曲线

我们在调试一个学习算法时，通常会用学习曲线观察机器学习算法是否为欠拟合或过拟合。随着样本数的不断增大，我们发现在高偏差(欠拟合)时交叉验证集代价函数 J_cv(θ) 和测试集代价函数 J_test (θ) 的图像如下，这个图像也叫做学习曲线：。在高方差下，

AmbiRF 2019-06-10

训练集、验证集、测试集以及交验验证的理解

在人工智能机器学习中，很容易将“验证集”与“测试集”，“交叉验证”混淆。在普通的机器学习中常用的交叉验证就是把训练数据集本身再细分成不同的验证数据集去训练模型。测试集 —— 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

旺旺CTO 2018-08-12

机器学习基础：(Python)训练集测试集分割与交叉验证

在上一篇关于Python中的线性回归的文章之后，我想再写一篇关于训练测试分割和交叉验证的文章。在数据科学和数据分析领域中，这两个概念经常被用作防止或最小化过度拟合的工具。我会解释当使用统计模型时，通常将模型拟合在训练集上，以便对未被训练的数据进行预测。当做

卖小孩的咖啡 2018-11-23

资源 | 神经网络告诉我，谁是世界上最「美」的人？

「魔镜魔镜告诉我，谁是世界上最美的女人？」这句伴随童年的话也有现实版哦～神经网络可以预测人脸颜值，这方面也出现了不少研究。今年年初华南理工大学的研究者发布论文，并公开了数据集 SCUT-FBP5500。本文作者 Dima Shulga「复现」了该论文，并用

寸先生的AI道路 2018-04-14

机器学习模型评估指标示例

答案不是只有一次。通常，我们在实际的数据科学工作流中两次使用机器学习模型验证指标:. 在为任务y设置所有特征X后，您可以准备多个机器学习模型作为候选。在您选择了一个准确度最好的机器学习模型后，您将跳转到超参数调优部分，以提高精度和通用性。在本文中，我试图制

timcompp 2019-03-30

机器学习模型评估和超参数调优实践

在这篇文章中，我们将详细探讨如何评估机器学习模型结果，以及优化超参数的最佳实践。为此，我们将构建一个图像识别模型。模型评估机器学习模型在准备完成预期任务之前必须经过一个学习和训练的过程。在评估数据模型时，准确度是最常用的度量标准。在将数据传递给我们的机器学

zidingxiangyu 2019-03-22

七招教你处理非平衡数据——避免得到一个“假”模型

比如说一位医生做了一个病例对照研究，数据集由病例10人和对照990人组成，建立好一个逻辑回归模型后，并对建立的模型进行内部验证，居然发现其正确率高达99%，然后把他兴奋坏了，觉得可以将该成果发表到顶级期刊上，从此走上人生巅峰。然而，我们可以发现，该模型不管

xianhe 2017-06-05

教你如何在机器学习竞赛中更胜一筹（上）

你可能会遇到一个令你无从下手的数据集，特别是当你处于机器学习的初期。在这个博客中，你将学到一些基本的关于建立机器学习模型的技巧，大多数人都从中获得经验。实际上，是一个丰富的机器学习知识汇编。成功的关键是坚持不懈。

huomingfei 2017-04-17

您应该在数据科学项目中使用交叉验证的5个理由

交叉验证是Data Scientist工具箱中的重要工具。它使我们能够更好地利用我们的数据。在我向您介绍使用交叉验证的五个理由之前，我想简要介绍一下交叉验证是什么，并展示一些常见的策略。当我们使用一些数据构建机器学习模型时，我们经常将数据分成训练和验证/测

hongfuqiang 2018-09-29

机器学习中交叉验证的两点介绍

器学习中，我们使用交叉验证，这有助于使用最佳超参数训练模型。如果我们说我们的模型在看不见的数据点上表现良好，那么它可以很好地推广。我们在这篇文章中使用了K-nn算法。我看到很多人特别是入门级人士提出这个问题。考虑到k = 3，我们得到了最高的准确度。为什么

Evan 2018-09-05

tracy

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号