python机器学习实战（一）

yukyinbaby

2019-06-30

原文链接：www.cnblogs.com/fydeblog/p/7140974.html

前言

这篇notebook是关于机器学习中监督学习的k近邻算法，将介绍2个实例，分别是使用k-近邻算法改进约会网站的效果和手写识别系统.
操作系统：ubuntu14.04 运行环境：anaconda-python2.7-notebook 参考书籍：机器学习实战 notebook writer ----方阳

k-近邻算法（kNN）的工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中的每个数据都存在标签，即我们知道样本集中每一组数据与所属分类的对应关系，输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似的分类标签。

注意事项：在这里说一句，默认环境python2.7的notebook，用python3.6的会出问题，还有我的目录可能跟你们的不一样，你们自己跑的时候记得改目录，我会把notebook和代码以及数据集放到结尾。

1.改进约会网站的匹配效果

1-1.准备导入数据

from numpy import *
import operator

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

先来点开胃菜，在上面的代码中，我们导入了两个模块，一个是科学计算包numpy，一个是运算符模块，在后面都会用到，在createDataSet函数中，我们初始化了group，labels，我们将做这样一件事，[1.0,1.1]和[1.0,1.0] 对应属于labels中 A 分类，[0,0]和[0,0.1]对应属于labels中的B分类，我们想输入一个新的二维坐标，根据上面的坐标来判断新的坐标属于那一类，在这之前，我们要 实现k-近邻算法 ，下面就开始实现

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]                  
    diffMat = tile(inX, (dataSetSize,1)) - dataSet 
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5                    
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

代码解析：

函数的第一行是要得到数据集的数目，例如group.shape就是（4，2），shape[0]反应数据集的行，shape[1]反应列数。
函数的第二行是array对应相减,tile会生成关于Inx的dataSetSize大小的array，例如，InX是[0,0],则tile(InX,(4,1))是array([[0, 0], [0, 0], [0, 0],[0, 0]]),然后与dataSet对应相减，得到新的array。
函数的第三行是对第二步的结果进行平方算法，方便下一步算距离。
函数的第四行是进行求和，注意是axis=1，也就是array每个二维数组成员进行求和(行求和)，如果是axis=0就是列求和。
第五行是进行平方距离的开根号。

以上5行实现的是距离的计算，下面的是选出距离最小的k个点，对类别进行统计，返回所占数目多的类别。

classCount定义为存储字典，里面有‘A’和‘B’，它们的值是在前k个距离最小的数据集中的个数，本例最后classCount={'A':1,'B':2},函数argsort是返回array数组从小到大的排列的序号，get函数返回字典的键值，由于后面加了1，所以每次出现键值就加1，就可以就算出键值出现的次数里。最后通过sorted函数将classCount字典分解为列表，sorted函数的第二个参数导入了运算符模块的itemgetter方法，按照第二个元素的次序（即数字）进行排序，由于此处reverse=True，是逆序，所以按照从大到小的次序排列。

1-2.准备数据：从文本中解析数据

这上面是k-近邻的一个小例子，我的标题还没介绍，现在来介绍标题，准备数据，一般都是从文本文件中解析数据，还是从一个例子开始吧！

本次例子是改进约会网站的效果，我们定义三个特征来判别三种类型的人：

特征一：每年获得的飞行常客里程数
特征二：玩视频游戏所耗时间百分比
特征三：每周消费的冰淇淋公升数

根据以上三个特征：来判断一个人是否是自己不喜欢的人，还是魅力一般的人，还是极具魅力的人。

于是，收集了1000个样本，放在datingTestSet2.txt中，共有1000行，每一行有四列，前三列是特征，后三列是从属那一类人，于是问题来了，我们这个文本文件的输入导入到python中来处理，于是需要一个转换函数file2matrix，函数输入是文件名字字符串，输出是训练样本矩阵（特征矩阵）和类标签向量。

def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector

这个函数比较简单，就不详细说明里，这里只介绍以下一些函数的功能吧！

open函数是打开文件，里面必须是字符串，由于后面没加‘w’，所以是读文件
readlines函数是一次读完文件，通过len函数就得到文件的行数
zeros函数是生成numberOfLines X 3的矩阵，是array型的
strip函数是截掉所有的回车符
split函数是以输入参数为分隔符，输出分割后的数据，本例是制表键，最后输出元素列表
append函数是向列表中加入数据

1-3.分析数据：使用Matplotlib创建散点图

首先，从上一步得到训练样本矩阵和类标签向量,先更换一下路径。

cd /home/fangyang/桌面/machinelearninginaction/Ch02/
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')

import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
ax =  fig.add_subplot(111)
ax.scatter(datingDataMat[:,0], datingDataMat[:,1], 15.0*array(datingLabels), 15.0*array(datingLabels))  #scatter函数是用来画散点图的
plt.show()

结果显示

python机器学习实战（一）

1-4. 准备数据：归一化处理

我们从上图可以上出，横坐标的特征值是远大于纵坐标的特征值的，这样再算新数据和数据集的数据的距离时，数字差值最大的属性对计算结果的影响最大，我们就可能会丢失掉其他属性，例如这个例子，每年获取的飞行常客里程数对计算结果的影响远大于其余两个特征，这是我们不想看到的，所以这里采用归一化数值处理，也叫特征缩放，用于将特征缩放到同一个范围内。
本例的缩放公式 newValue = (oldValue - min) / (max - min)
其中min和max是数据集中的最小特征值和最大特征值。通过该公式可将特征缩放到区间（0，1）
下面是特征缩放的代码

def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals

normDataSet（1000 X 3）是归一化后的数据，range（1X3）是特征的范围差（即最大值减去最小值），minVals（1X3）是最小值。
原理上面已介绍，这里不在复述。

1-5.测试算法：作为完整程序验证分类器

好了，我们已经有了k-近邻算法、从文本解析出数据、还有归一化处理，现在可以使用之前的数据进行测试了，测试代码如下:

def datingClassTest():
    hoRatio = 0.50      
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" % (errorCount/float(numTestVecs))
    print errorCount

这里函数用到里之前讲的三个函数：file2matrix、autoNorm和classify0.这个函数将数据集分成两个部分，一部分当作分类器的训练样本，一部分当作测试样本，通过hoRatio进行控制，函数hoRatio是0.5，它与样本总数相乘，将数据集平分，如果想把训练样本调大一些，可增大hoRatio，但最好不要超过0.8，以免测试样本过少，在函数的最后，加了错误累加部分，预测出来的结果不等于实际结果，errorCount就加1，然后最后除以总数就得到错误的概率。

说了这么多，都还没有测试以下，下面来测试一下！先从简单的开始(已将上面的函数放在kNN.py中了)

1 import  kNN
2 group , labels = kNN.createDataSet()

group #结果在下

array([[ 1. ,  1.1],
       [ 1. ,  1. ],
       [ 0. ,  0. ],
       [ 0. ,  0.1]])

labels #结果在下

['A', 'A', 'B', 'B']

这个小例子最开始提过，有两个分类A和B，通过上面的group为训练样本，测试新的数据属于那一类

1 kNN.classify0([0,0], group, labels, 3) #使用k-近邻算法进行测试

'B' #结果是B分类

直观地可以看出[0,0]是与B所在的样本更近，下面来测试一下约会网站的匹配效果。

先将文本中的数据导出来，由于前面在分析数据画图的时候已经用到里file2matrix，这里就不重复用了。

datingDataMat #结果在下

array([[  4.09200000e+04,   8.32697600e+00,   9.53952000e-01],
       [  1.44880000e+04,   7.15346900e+00,   1.67390400e+00],
       [  2.60520000e+04,   1.44187100e+00,   8.05124000e-01],
       ..., 
       [  2.65750000e+04,   1.06501020e+01,   8.66627000e-01],
       [  4.81110000e+04,   9.13452800e+00,   7.28045000e-01],
       [  4.37570000e+04,   7.88260100e+00,   1.33244600e+00]])

datingLabels #由于过长，只截取一部分，详细去看jupyter notebook

python机器学习实战（一）

然后对数据进行归一化处理。

1 normMat , ranges , minVals = kNN.autoNorm(datingDataMat) #使用归一化函数

normMat

array([[ 0.44832535,  0.39805139,  0.56233353],
       [ 0.15873259,  0.34195467,  0.98724416],
       [ 0.28542943,  0.06892523,  0.47449629],
       ..., 
       [ 0.29115949,  0.50910294,  0.51079493],
       [ 0.52711097,  0.43665451,  0.4290048 ],
       [ 0.47940793,  0.3768091 ,  0.78571804]])

ranges

array([ 9.12730000e+04, 2.09193490e+01, 1.69436100e+00])

minVals

array([ 0. , 0. , 0.001156])

最后进行测试，运行之前的测试函数datingClassTest

1 kNN.datingClassTest()

由于过长，只截取一部分，详细去看jupyter notebook

python机器学习实战（一）

可以看到上面结果出现错误32个，错误率6.4%，所以这个系统还算不错！

1-6.系统实现

我们可以看到，测试固然不错，但用户交互式很差，所以结合上面，我们要写一个完整的系统，代码如下：

def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(raw_input("percentage of time spent playing video games?"))
    ffMiles = float(raw_input("frequent flier miles earned per year?"))
    iceCream = float(raw_input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, iceCream])     
    classifierResult = classify0((inArr-minVals)/ranges, normMat, datingLabels,3)
    print "You will probably like this person" , resultList[classifierResult - 1]

运行情况

1 kNN.classifyPerson()

percentage of time spent playing video games?10   #这里的数字都是用户自己输入的
frequent flier miles earned per year?10000
liters of ice cream consumed per year?0.5
You will probably like this person in small doses

这个就是由用户自己输出参数，并判断出感兴趣程度，非常友好。

2.手写识别系统

下面再介绍一个例子，也是用k-近邻算法，去实现对一个数字的判断，首先我们是将宽高是32X32的像素的黑白图像转换成文本文件存储，但我们知道文本文件必须转换成特征向量，才能进入k-近邻算法中进行处理，所以我们需要一个img2vector函数去实现这个功能!

img2vector代码如下：

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

这个函数挺简单的，先用zeros生成1024的一维array，然后用两重循环，外循环以行递进，内循环以列递进，将32X32的文本数据依次赋值给returnVect。

好了，转换函数写好了，说一下训练集和测试集，所有的训练集都放在trainingDigits文件夹中，测试集放在testDigits文件夹中，训练集有两千个样本，0～9各有200个，测试集大约有900个样本，这里注意一点，所有在文件夹里的命名方式是有要求的，我们是通过命名方式来解析出它的真实数字，然后与通过k-近邻算法得出的结果相对比，例如945.txt，这里的数字是9，连接符前面的数字就是这个样本的真实数据。该系统实现的方法与前面的约会网站的类似，就不多说了。

系统测试代码如下

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')           #load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')        #iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))

这里的listdir是从os模块导入的，它的功能是列出给定目录下的所有文件名，以字符串形式存放，输出是一个列表
这里的split函数是要分离符号，得到该文本的真实数据，第一个split函数是以小数点为分隔符，例如‘1_186.txt’ ,就变成了['1_186','txt'],然后取出第一个，就截掉了.txt,第二个split函数是以连接符_为分隔符，就截掉后面的序号，剩下前面的字符数据‘1’，然后转成int型就得到了它的真实数据，其他的没什么，跟前面一样

下面开始测试

1 kNN.handwritingClassTest()

python机器学习实战（一）

我们可以看到最后结果，错误率1.2%, 可见效果还不错！

这里把整个kNN.py文件贴出来，主要是上面已经介绍的函数

'''
Input:      inX: vector to compare to existing dataset (1xN)
            dataSet: size m data set of known vectors (NxM)
            labels: data set labels (1xM vector)
            k: number of neighbors to use for comparison (should be an odd number)
            
Output:     the most popular class label
'''

from numpy import *
import operator
from os import listdir

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector
    
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals
   
def datingClassTest():
    hoRatio = 0.50      #hold out 10%
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print "the total error rate is: %f" % (errorCount/float(numTestVecs))
    print errorCount
    
def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(raw_input("percentage of time spent playing video games?"))
    ffMiles = float(raw_input("frequent flier miles earned per year?"))
    iceCream = float(raw_input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, iceCream])     
    classifierResult = classify0((inArr-minVals)/ranges, normMat, datingLabels,3)
    print "You will probably like this person" , resultList[classifierResult - 1]
    
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')           #load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')        #iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))

结尾

至此，这个k-近邻算法的介绍到这里就结束了，希望这篇文章对你的学习有帮助！

百度云链接: https://pan.baidu.com/s/1OuyO...

安科网

python机器学习实战（一）

yukyinbaby

前言

1.改进约会网站的匹配效果

1-1.准备导入数据

1-2.准备数据：从文本中解析数据

1-3.分析数据：使用Matplotlib创建散点图

1-4. 准备数据：归一化处理

1-5.测试算法：作为完整程序验证分类器

1-6.系统实现

2.手写识别系统

结尾

相关文章和视频推荐

yukyinbaby

相关推荐

关于机器学习管道需要了解什么?

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

这里有你需要的5个机器学习必备技能

在云端你需要的5个机器学习技能

用Python构建和可视化决策树

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

yukyinbaby

python机器学习实战（一）

前言

1.改进约会网站的匹配效果

1-1.准备导入数据

1-2.准备数据：从文本中解析数据

1-3.分析数据：使用Matplotlib创建散点图

1-4. 准备数据： 归一化处理

1-5.测试算法：作为完整程序验证分类器

1-6.系统实现

2.手写识别系统

结尾

相关文章和视频推荐

相关推荐

1-4. 准备数据：归一化处理