机器学习从抬脚到趴倒在门槛

好像一下子,进入了AI时代,后台的很多小伙伴其实都很迷茫,自己现在该如何去做好准备,去迎接即将到来的All in AI。

所以就有了今天这篇文章啦。今天呢,跟大家分享分享目前机器学习的历程吧,我到现在都没觉得我入门了机器学习,所以也没有什么所谓的经验啊,成功实践啊,没有。

机器学习从抬脚到趴倒在门槛

首先甩三句始终相信的话。

  • 不要为了机器学习而机器学习。
  • 机器学习只有洞悉来自业务的需要,配合业务发展,才能发挥作用,单纯的机器学习没什么用。
  • python大法好,用2.7。

业界的前沿机器学习基本都是只支持python和C++,行业标准,就用python。

大数据下还是Spark更实用。

在大数据的环境下,其实落地最实用,场景最多的,还是Spark。

该怎么去下手?

脚抬起了3cm。目标:开眼界。

首先从比较宏观的角度,全面了解机器学习的全貌。看看机器学习能做些什么,能解决什么问题,是什么样的套路。

机器学习就是根据已有特征,训练模型,然后根据模型来预测未知的数据。

很多小伙伴一开始就会扎进去什么支持向量机、Logistic回归、LASSO啊、决策树啊这类算法里面,一下去就去非常深入去理解他们的原理,个人认为这种切入方式是有一点问题的,如果仅仅是为了学习一下这些算法,那还行。长远来说,还是要现有大局观。

  • 《图解机器学习》
  • 《集体智慧编程》
  • 《机器学习》周志华

这三本书我都买了,循序渐进,第一本是通俗易懂的机器学习算法图解,作为趣味性入门来说非常好。

第二本是当前机器学习能做些什么事情,以及python怎么实现这些机器学习算法,代码狂人可以在这里面找到一些成就感,推荐先快速翻一遍,再回头,重新一章一章看,一行代码一行代码打,有时候不知道它啥意思也不要紧,打出来跑跑看。

第三本是比较系统地说机器学习的过程,以及每个算法比较严格的数学推导过程,非常严谨,数学要求较高,数学不太好的可以暂时不买,买了也看不懂。

嘛,也不用三本都买,看不完。小伙伴要是急呢,其实把第一本看了也就行了,眼界也算是开了,只是手头一点米可以下锅都没有而已····

脚抬了5cm了。目标:了解算法。

这个阶段,可以把所有的算法原理都开始看了,主要的书是上面的《机器学习》。如果英语够好的话呢,在coursera上学学Andrew NG的机器学习公开课。如果英语不好的话呢,可以试试邹博老师的《机器学习实战》,中文解释来说还是非常不错的入门教程。

当然,师傅领进门,修行在个人。

教程和书再好都没有用,还是需要你花时间,慢慢慢慢地,去一点点理解透每个算法背后的原理,以及各种各样的优化方法是怎么发生的。

举例线性回归可以这样进阶地去学习:

纯线性回归。什么是最小二乘法,损失函数怎么求。

核函数。什么叫多项线性回归,什么叫高斯核线性回归。

正则化。什么叫正则化,正则化的目的是什么?LASSO,岭回归,ElasticNet都是什么。L0、L1、L2正则各代表什么东西。

广义线性模型。广义线性模型把什么东西涵盖起来了,是怎么抽象怎么推导的?

大概就这样,一点一点去深入,不用一次性把所有的模型都学完。但是个人建议,线性回归,Logistic回归,决策树这三个必须必须完完整整先看完。毕竟很好理解又很好用,太难的臣妾真的做不到啊!!!逃避可耻但有用吖。

脚抬了6cm了。目标:利用成熟框架。

这个阶段呢,就没什么好的书介绍了,使用scikit-learn去解决前面解决过的问题吧~会发现超级简单,还特么比自己实现的快很多勒。

脚抬了6.5cm了。目标:开始接触神经网络。

把Tenfowflow官网的demo看懂,打一遍。一层一层拨开,看看RNN,CNN,GAN这些现在非常流行的神经网络结构的原理是怎么样的,深度学习目前来说离不开这三兄弟。如果还是看不懂呢,可以搜索一下莫凡Tenfowflow,蛮入门的,但也仅仅是入门而已。大概了解了解也可以了

如果你已经完成了上面的步骤,你已经可以跟我一样出来吹牛逼了,但是其实并没有什么卵用。

脚抬了7cm了。目标:开始实操。

进入Kangle,注册账号,开始泰坦尼克号吧。

脚抬了7.5cm了。目标:开始关注落地的事情。

上面说了那么多其实都没开始任何落地的东西,你的模型要怎么训练,怎么开始结合业务来实际应用起来,你对力量还是一无所知。后台回复"MVP",先行看看吧,大概就那么几种方式模型训练提供服务的,展开来讲文章会太长,会被打pp的。

脚抬了10cm了。目标:开始发现自己数学不够用了。

  • 《概率论与数理统计》陈希孺
  • 《线性代数应该这样学》

这个嘛,慢慢补吧,一时半会补不上来的T_T。

脚抬了11cm了。目标:关于特征工程。

好的特征是成功的一半。业界有这么一句半玩笑但是有点道理的话。特征选择和特征清洗,决定了你模型的上限,你的算法和优化只是不断逼近这个上线而已。

该系统学学特征工程的东西了,直接度娘特征选择会有一大堆的资料,我这里就不提供了,我写得也没人家写得好。

特!征!工!程!非!常!重!要!

趴倒在门槛上。目标:深入理解前沿的底层原理。

跟进一些过去的优秀论文,比如MapReduce原理的,比如李沫的Parameter原理的,比如GAN原理的,比如LPA原理的。非常非常多的论文,边实践边看呗,我也没看多少所以也没法分享啥。

所以我就趴倒在门槛上,依然还没入门,还在上面某些阶段努力ing。

相关推荐