120种小狗图像傻傻分不清？用fastai训练一个分类器

MisterJiaJia

2019-02-25

关注关注

作者：一杯奶茶的功夫

链接：https://www.jianshu.com/p/ab35ed21df87

这篇文章会讲解如何制作能够分类120种小狗的图像分类器。

这篇文章中所讲述的内容都是基于colab notebook和fastai技术的深度学习的应用。

为什么使用colab？

使用colab的好处是，你不需要有任何显卡GPU，colab中提供了一块免费的k80带12G显存的GPU
colab是google提供的一个免费的Jupyter notebook的环境，可以省去安装它的功夫

为什么使用fastai？

fastai是一种超级简洁的深度学习工具，代码上甚至比当前Keras还要简洁。
底层是pytorch，能够提供高速的处理性能。

和之前文章中的两个物种（猫和狗）的分类略有不同，这次使用的数据集全部是狗，需要把这些狗分到不同的类别中。也就是说，图片之间特征的区别的差异要比之前猫和狗分类的来的更加细微。

好吧，接下来我们看看如何动手制作。

1.在colab的作业本中配置fastai的环境

!curl https://course.fast.ai/setup/colab | bash

120种小狗图像傻傻分不清？用fastai训练一个分类器

2.导入fastai包

from fastai import *
from fastai.vision import *

3.加载kaggle.json

这里我们准备从kaggle下载所需要的狗的数据集，如果你可以从其他地方得到数据集，那么可以省略步骤3和4，按照自己的方法在环境中导入数据集即可。

!mkdir /content/.kaggle/
!mkdir /content/data/dogsbreed/
PATH = "/content/data/dogsbreed/"
from google.colab import files
# load from upload dialog
uploaded = files.upload()
for fn in uploaded.keys():
 with open(f'/content/.kaggle/{fn}', 'wb') as f:
 f.write(uploaded[fn])

4.安装kaggle环境

!chmod 600 /content/.kaggle/kaggle.json
!pip install kaggle
!cp /content/.kaggle/kaggle.json ~/.kaggle/kaggle.json
!kaggle config set -n path -v{/content}
import kaggle
!kaggle competitions download -p /content/data/dogsbreed/ dog-breed-identification

120种小狗图像傻傻分不清？用fastai训练一个分类器

从结果中可以看到，我们已经从kaggle成功的下载了数据集文件。

5.验证GPU

torch.cuda.is_available()
#True
torch.backends.cudnn.enabled
#True

120种小狗图像傻傻分不清？用fastai训练一个分类器

6.解压缩文件

! cd /content/data/dogsbreed &amp;&amp; unzip labels.csv.zip
! cd /content/data/dogsbreed &amp;&amp; unzip sample_submission.csv.zip
! cd /content/data/dogsbreed &amp;&amp; unzip test.zip
! cd /content/data/dogsbreed &amp;&amp; unzip train.zip

7.读取label.csv

labels_df=pd.read_csv(f'{PATH}labels.csv')
labels_df.head()

120种小狗图像傻傻分不清？用fastai训练一个分类器

这里我们可以看到labels.csv中的前五条数据

8.查看狗的类别

labels_df.pivot_table(index='breed',aggfunc=len).sort_values('id',ascending=False)

120种小狗图像傻傻分不清？用fastai训练一个分类器

这里可以看到一共有120行数据，也就是120种狗的类别，以及每种类别里面有多少条数据。

9.加载数据集并显示

data = ImageDataBunch.from_csv(
 PATH,
 folder='train',
 valid_pct=0.2,
 ds_tfms=get_transforms(),
 size=224,
 test='test',
 suffix='.jpg',
 bs=64).normalize(imagenet_stats)
data.show_batch(rows=3, figsize=(10,12))

120种小狗图像傻傻分不清？用fastai训练一个分类器

如果一切顺利，这里会显示出9张狗的图片，并且图片上方会显示相应的狗的类别。

如果只显示了图片，而图片上的标签不是类别的话，那说明数据导入部分存在问题。

OK，我们继续下一步。

10.下载与训练模型并微调

learner = create_cnn(data,models.resnet101,metrics=[accuracy])
learner.fit_one_cycle(10)

120种小狗图像傻傻分不清？用fastai训练一个分类器

这里我们设置了10个epoch，会稍微花费点时间大约40分钟。

可以看到，在最后一个epoch时候，我们的精度在89%。当然我们还可以继续调优：）

或者直接从零开始对每一层权重的训练，这都是可以的。

到这里我们就已经成功的完成了一个120种狗狗的图片分类器的制作啦，怎么样？是不是很简单？希望这篇文章可以给每一个前来阅读的朋友带来收获，对深度学习，图像分类有一个直接的体会。

如果有问题，欢迎来评论区留言讨论^^

分类器狗 kaggle

MisterJiaJia

0 关注 0 粉丝 0 动态

关注关注

人工智能助力发现火星新陨石坑

科技日报北京10月26日电据美国太空网25日报道，美国国家航空航天局开发的创新型人工智能工具犹如“火眼金睛”，帮助科学家在火星上发现了过去10年中形成的一系列陨石坑。接下来，研究人员向该分类器提供了“情境”相机拍摄的112000张图像对其进行测试。研究人

ZLXiong 11评论 2020-10-27

当支持向量机遇上神经网络：SVM、GAN距离之间的关系

SVM 是机器学习领域的经典算法之一。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM 训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM 模型将实例表示为空间中的点，这样映射就使得单独类别的

绝望的乐园 2020-09-02

一种简单而智能的方法：Python也能进行面部识别

本文转载自公众号“读芯术”。本文将介绍图像处理中的一些重要概念，除了具体解释每个步骤之外，还将提供一个在Python中使用Cv2和DLib库轻松进行人脸识别的项目。这种分析方法最大的问题是产生幻想性视错觉。在希腊词源学中，幻想性视错觉是一种人类的特征。利用

PythonMaker 2020-07-30

mooc机器学习第六天-K近邻，决策树，朴素贝叶斯分类器简单尝试

re=cross_val_score(clf,irls.data,irls.target,cv=10). A=np.array([[-1,-1],[-2,-1],[-3,-2],[2,1],[1,1],[3,2]]). [ 1. 0.93

zhaorui0 2020-06-28

opencv 人脸识别

注意，此算法只能检测正脸，并且任何算法都有一定的准确率。如上图所示，图像中有一处被错误地检测为人脸。以Haar特征分类器为基础的对象检测技术是一种非常有效的技术。它是基于机器学习且使用大量的正负样本训练得到分类器。Haar-like矩形特征：是用于物体检测

wangdaren 2020-04-26

集成学习之AdaBoost算法

AdaBoost是典型的Boosting算法，属于Boosting家族的一员。Boosting算法是将“弱学习算法“提升为“强学习算法”的过程，主要思想是“三个臭皮匠顶个诸葛亮”。一般来说，找到弱学习算法要相对容易一些，然后通过反复学习得到一系列弱分类器，

风吹夏天 2020-04-09

PU Learning简介:对无标签数据进行半监督分类

假设您有足够的数据和良好的特征，这似乎是一项简单的分类任务。但是，假设数据集中只有15％的数据被标记，并且标记的样本仅属于一类，即训练集15％的样本标记为真实交易，而其余样本未标记，可能是真实交易样本，也可能是欺诈样本。相比之下，PU分类问题涉及的训练集，

swazerz 2020-03-28

基于SGD、ASGD算法的SVM分类器（OpenCV案例源码train_svmsgd.cpp解读）

此案例用于二分类问题，最终得到一条分界线（直线）：f=weights*x+shift. 源码不再贴出，只讲解最核心的doTrain()里的内容。参数含义翻译自ml.hpp文件。与SVM不同，SVMSGD不需要设置核函数。随机梯度下降、平均随机梯度下降。边界

baike 2020-03-06

机器学习：集成算法 - bagging、boosting、adaboost

可以是不同算法的集成。可以是数据集不同部分分配给不同分类器之后的集成。使用 S 个 CART 决策树作为弱学习器。假设样本特征数为 a，则每次生成 CART 树都是随机选择 a 中的 k 个特征。与 bagging 类似，不同的是 bagging 的各个分

sxyhetao 2020-02-29

opencv detectMultiScale()

此函数用已经训练好的分类器来检测人脸人眼等。opencv源码目录D:\source\opencv-3.4.9\data\haarcascades里有很多训练好的xml，检测人脸的用以下之一。把xml文件放到自己的工程目录中，运行下述代码即可。cvtColo

wandaxiao 2020-02-18

谈谈模型融合之三 —— GBDT

本来应该是年后就要写的一篇博客，因为考完试后忙了一段时间课设和实验，然后回家后又在摸鱼，就一直没开动。趁着这段时间只能呆在家里来把这些博客补上。在之前的文章中介绍了 Random Forest 和 AdaBoost，这篇文章将介绍介绍在数据挖掘竞赛中，最常

bluewelkin 2020-02-02

数据分析的一些概念

例如利用数据预测用户购物行为属性商业智能。十大算法之首，决策树算法，特点包括：1.构造过程中剪枝 2.处理连续属性；3.处理不完整的数据。用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好

小小梦想家 2020-02-01

[白话解析] 深入浅出支持向量机(SVM)之核函数

本文在少用数学公式的情况下，尽量仅依靠感性直觉的思考来讲解支持向量机中的核函数概念，并且给大家虚构了一个水浒传的例子来做进一步的通俗解释。在学习核函数的时候，我一直有几个很好奇的问题。Why 为什么线性可分很重要?Why 为什么低维数据升级到高维数据之后，

seekerhit 2020-01-30

机器学习——GBDT算法与stacking算法

　　AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重值，然后一轮一轮的迭代;　　GBDT也是迭代，但是GBDT要求弱学习器必须是回归CART模型，而且GBDT在模型训练的时候，是要求模型预测的样本损失尽可能的小。优先做回归问题。　　GBDT通

清溪算法 2020-01-01

机器学习——Boosting算法与Adaboost算法

　　原理：将含有m个数据的数据集丢给一个弱学习器1分类，比如分对百分之60，再修改数据集，将修改后的数据集扔给弱学习器3训练，学习器3把在学习器1和2中分错的那一部分又分对百分之三十。最后加权融合为一个强学习器。　　整个迭代过程直到错误率足够小或者达到一定

KaiZhaoKZ 2020-01-01

6个你应该知道的机器学习的革命性的教训

在机器人技术、智能家电、智能零售店、自动驾驶汽车技术等的推动下，我们正步入一个新时期。机器学习是所有这些新时代技术进步的前沿。在不久的将来，自动化机器的发展将使得机器与人类智能相当甚至超过人类智能。机器学习无疑是下一个“大”事件。而且，人们相信，未来的大多

人工智能 2019-12-26

吴裕雄--天生自然python机器学习：朴素贝叶斯算法

分类器有时会产生错误结果，这时可以要求分类器给出一个最优的类别猜测结果，同时给出这个猜测的概率估计值。我们称之为“朴素”，是因为整个形式化过程只做最原始、最简单的假设。朴素贝叶斯是贝叶斯决策理论的一部分，所以讲述朴素负叶斯之前有必要快速了解一下贝叶斯决

yishujixiaoxiao 2019-12-15

机器学习：基于sklearn的AUC的计算原理

AUC是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多，例如：大约10年前在 machine learning文献中一统天下的标准：分类精度；在信息检索领域中常用的recall和precision，等等。近年来，随着machine learnin

PeterHuang0 2019-12-06

22道机器学习常见面试题目

本文为你带来22道机器学习常见的面试问题和回答。因此，训练样本的岐义性低。聚类就是典型的无监督学习。SVM是最大间隔分类器，几何间隔和样本的误分次数之间存在关系，决策树基于树结构进行决策，与人类在面临问题的时候处理机制十分类似。时预测为正例，这种策略称为r

supergxt 2019-12-05

李飞飞计算机视觉学习总结三

从这个角度来看，线性分类器就是在利用学习到的模板，针对图像做模板匹配。线性分类器优缺点：算法简单和具有“学习”能力，线性分类器速度快、编程方便；但是可能拟合效果不会很好。

yuanlunxi 2019-12-05

安科网

120种小狗图像傻傻分不清？用fastai训练一个分类器

MisterJiaJia

MisterJiaJia

相关推荐

人工智能助力发现火星新陨石坑

当支持向量机遇上神经网络：SVM、GAN距离之间的关系

一种简单而智能的方法：Python也能进行面部识别

mooc机器学习第六天-K近邻，决策树，朴素贝叶斯分类器简单尝试

opencv 人脸识别

集成学习之AdaBoost算法

PU Learning简介:对无标签数据进行半监督分类

基于SGD、ASGD算法的SVM分类器（OpenCV案例源码train_svmsgd.cpp解读）

机器学习：集成算法 - bagging、boosting、adaboost

opencv detectMultiScale()

谈谈模型融合之三 —— GBDT

数据分析的一些概念

[白话解析] 深入浅出支持向量机(SVM)之核函数

机器学习——GBDT算法与stacking算法

机器学习——Boosting算法与Adaboost算法

6个你应该知道的机器学习的革命性的教训

吴裕雄--天生自然python机器学习：朴素贝叶斯算法

机器学习：基于sklearn的AUC的计算原理

22道机器学习常见面试题目

李飞飞计算机视觉学习总结三

MisterJiaJia