第六节 k-近邻算法介绍和简单案列

dbhllnr

2020-03-26

"""
K-近邻算法（KNN）：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别）
K取值问题：取小容易受异常值影响，取太大预测准确率不好
性能问题：时间复杂度很高，计算量太大，适用小数据场景，于几千~几万样本
"""

from sklearn.neighbors import  KNeighborsClassifier
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

def knncls():
    """K-近邻预测用户签到位置，数据来源：https://www.kaggle.com/c/facebook-v-predicting-check-ins/data"""
    # 读取数据
    data = pd.read_csv(r"E:\testdata\xxxxx.csv")
    # 处理数据

    # 1.缩小数据，查询数据筛选
    data = data.query("x>1.0 & x<1.25 & y>2.5 & y<2.75")

    # 2.处理时间数据，将时间戳转换成日期格式，unit转换单位s
    time_value = pd.to_datetime(data[‘time‘], unit=‘s‘)

    # 3.把日期格式转换成字典格式
    time_value = pd.DatetimeIndex(time_value)

    # 4.构造一些特征
    data[‘day‘] = time_value.day
    data[‘hour‘] = time_value.hour
    data[‘weekday‘] = time_value.weekday

    # 5.把时间戳特征删除
    data = data.drop([‘time‘], axis=1)

    # 6.把签到数少于n个目标位置删除
    place_count = data.groupby(‘place_id‘).count()
    tf = place_count[place_count.row_id>3].reset_index()
    data = data[data[‘place_id‘].isin(tf.place_id)]

    # 7.取出数据当做的特征值（x）和目标值（y）
    y = data[‘place_id‘]
    x = data.drop([‘place_id‘], axis=1)

    # 8.将数据分割成训练集和测试集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

    # 特征工程（标准化）
    std = StandardScaler()
    # 对训练集和测试集的特征值进行标准化
    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)
    # 进行算法流程，n_neighbors取多少个最近邻样本进行类别统计
    knn = KNeighborsClassifier(n_neighbors=5)

    knn.fit(x_train, y_train)

    # 将测试集特征值传入，得出预测结果
    y_predict = knn.predict(x_test)

    # 得出预测准确率
    score = knn.score(x_test, y_test)

k近邻算法 data test

dbhllnr

0 关注 0 粉丝 0 动态

相关推荐

分类算法之k-近邻算法（KNN）

如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别。两个样本的距离可以通过如下公式计算，又叫欧式距离。比方说计算a，b样本之间的距离：。根据距离的远近，从而判断未知样本与哪个类别更近，就可以判断未知样本的类别。alg

tulensa 2020-05-30

K-近邻算法

最直观的解释就是：给定一个训练数据集，对于新的输入实例，在训练集中找到与该实例最近邻的 k 个实例，这 k 个实例的多数属于哪个类，则该实例就属于哪个类。　　3.1.找到与该实例最近邻的实例，这里就涉及到如何找到，即在特征向量空间中，我们要采取何种方式来对

风吹夏天 2020-04-20

如何预测股票分析--k-近邻

K最近邻分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：在特征空间中，如果一个样本附近的k个最近样本的大多数属于某一个类别，则该样本也属于这个类别。#importing libraries #导入相对应的库函数。RMSE

wulaxiaohei 2020-01-24

任务7，深挖K近邻

——机器学习的核心是建模，基础是数据，且输入一定是数值类型的，因此要把字符串转为字符类型，向量或矩阵类型。除了一个位置是1，其他位置均为0， 1的位置对应的是相应类别出现的位置。分类时，对于新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行

dbhllnr 2020-01-09

吴裕雄--天生自然python机器学习：使用K-近邻算法改进约会网站的配对效果

海伦收集约会数据巳经有了一段时间，她把这些数据存放在文本文件(1如1^及抓比加中，每个样本数据占据一行，总共有1000行。海伦的样本主要包含以下3种特征：。numberOfLines = len #get the number of

蜗牛慢爬的李成广 2019-12-14

机器学习之K近邻算法

K 近邻算法直接作用于带标记的样本，属于有监督的算法。它的核心思想基本上就是近朱者赤，近墨者黑。它的一个缺点是对所有变量同等看待，而没有考虑到不同变量由于量纲不同，在计算中应该给予不同的重要程度。因此，在实际使用中应该先对所有变量进行标准化处理后再计

sxyhetao 2019-11-07

k-近邻(KNN) 算法预测签到位置

　　如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别。time_value = pd.to_datetime # 精确到秒

Happyunlimited 2019-11-03

机器学习--K近邻（KNN）算法的原理及优缺点

　　K近邻法是一种很基本的机器学习方法。　　　　计算测试数据与各个训练数据之间的距离；　　　　按照距离的递增关系进行排序；　　　　选取距离最小的K个点；　　　　返回前K个点中出现频率最高的类别作为测试数据的预测分类。

卖小孩的咖啡 2019-10-28

k-近邻算法（KNN）

采用测量不同特征值之间的距离方法进行分类。对求得的所有距离进行排序。

蜗牛慢爬的李成广 2019-10-23

k-近邻算法（KNN）

k-近邻算法采用测量不同特征值之间的距离的方法来进行分类。将测试数据的每个特征与样本集中的数据对应的特征进行比较，然后算法提取样本集中特征最相似的数据（最近邻）的分类标签。最后，选择k个相似数据中出现最多次的分类，作为新数据的分类。常见的距离算法诸如：编

gotea 2015-12-17

机器学习实战2-k近邻算法

k近邻算法，一种基本的分类和回归方法。存在一个样本数据集合，即训练样本集，且样本集中每个数据都有标签，我们知道样本集中每个数据与其所属分类的对应关系。输入没有标签的数据后，将新数据的每个特征与样本集中的数据对应的特征进行比较，然后算法提取样本集中特征最相似

ustbfym 2014-03-12

机器学习之 K-近邻算法

k-近邻算法通过测量不同特征值之间的距离方法进行分类。k-近邻算法原理对于一个存在标签的训练样本集，输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，根据算法选择样本数据集中前k个最相似的数据，选择k个最相似数据中出现次数最多的分

LITElric 2019-06-28

送你一份使用k近邻算法实现回归的实用指南（附代码、链接）

本文约4200字，建议阅读10分钟。本文解释了在k近邻算法工作原理的基础上，简单介绍三种计算点距离方法。在我遇到的所有机器学习算法中，KNN是最容易学会的。甚至于在某种情况下它是更好的选择,毕竟它可以同时用于分类和回归问题！不过，它更常用来解决分类问题，很

闫新宇 2018-11-29

从零开始用Python实现k近邻算法（附代码、数据集）

本文约2000字，建议阅读8分钟。本文将带领读者理解KNN算法在分类问题中的使用，并结合案例运用Python进行实战操作。注意：本文于2014年10月10日首发，并于2018年3月27日更新。分类模型占主流的原因是大多数分析问题都涉及到做出决定。在本文中，

qwerdf00 2018-04-19

机器学习实战之拆解K近邻算法！

K近邻算法是一种简单、易于实现的有监督机器学习算法，可用于分类和回归问题的求解。现在，来让我们了解它。监督机器学习算法是一种通过标记的输入数据来学习在给定的、新的未标记数据时产生适当输出函数的算法。在这种情况下，这些数字仅用来表示。例如，我们可以说身高是自

itaquestion 2018-09-11

在Python中构建和改进K近邻算法！

K近邻算法，简称K-NN，是一种经典的机器学习工作算法，在进行深度学习的时候经常被忽略。在本教程中，我们将在Scikit-Learn中构建一个K-NN算法，并在MNIST数据集上运行它。在此基础上，我们将建立自己的K-NN算法，希望能够开发出比Scikit

快乐的鱼儿学敲码 2018-03-30

科普君上线：k近邻算法的简单介绍！

k近邻算法分类方法是机器学习中最简单的方法之一。在最基本的层面上，它是通过在训练数据中找到最相似的数据点进行分类，并根据他们的分类做出有根据的猜测。虽然理解和实现起来非常简单，但是这种方法在很多领域都有广泛的应用，例如推荐系统、语义搜索和异常检测。现在，与

ivabrother 2018-03-14

基于机器学习k-近邻算法完成一个电影是爱情片还是动作片的判断

k-近邻算法k-近邻算法，又称为KNN，在机器学习领域k-近邻算法是比较常用的经典算法之一，KNN算法是一个分类算法，它归于实例学习和懒惰学习，它的原理很简单：。KNN算法的优缺点KNN算法的优点：算法简单易于实现，而且通过对K的选择可具备丢噪音数据的健壮

Tips 2018-12-07

Python机器学习k-近邻算法(K Nearest Neighbor)实例详解

本文实例讲述了Python机器学习k-近邻算法。分享给大家供大家参考，具体如下：。观察并统计这k个样本的标签，选择数量最大的标签作为这个新数据的标签。kNN算法实施伪代码。有时候，一个简单的kNN算法在良好选择的特征上会有很出色的表现

drilistbox 2018-06-25

机器学习实战K-近邻算法

def createDataSet(): group = array labels = ['A','A','B','B'] return group,labels. #解析数据def file2matrix: with open as f:

BonjourFFF 2017-10-07

dbhllnr

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号