半年来的学习总结(零零散散的数据、机器学习)
既然今天闲来无事,索性就来写写半年来的学习总结吧,顺便也写写所遇到的一些悲惨经历,真的是一把型辛酸泪。
一、初入新学校
从2018年10月确定推免资格,选了老板,定了方向之后,感觉到了人生另一个低谷。也只能怪自己,方向每选好。在这里奉劝一下各位,方向以及老板的RP非常重要,不要过去看重学校的名声和老师的名头,他们对你而言,并没有那么大的帮助。自己感兴趣的方向是ML、DL,但是老师做的方向却是工业控制什么乱七八糟的东西,招你进来的时候说的天花乱坠,进来之后你才知道,都是些什么GP啊!没办法,改变不了。。。
二、自寻门路
为了谋自己的出路,只能自己去探索,摸索好的方向去学习了,有人带与没人带,真的是天壤之别,到现在我还没有明确自己未来要从事的方向,真的是艰难!
2019年7月20日到了新学校,开始了硕士阶段,越做课题,感觉就越悲惨,每当别人问我的研究方向时,心里总是一阵模型的低落,这点需要自己去调整。这段时间,定了要做之后的算法岗,听说虽然方向不好,但是平台还在,师兄师姐进大厂的还挺多,一听便按按下决心去互联网公司。这段时间便在啃算法的书,因为本科阶段做的比赛大多是偏嵌入式控制,跟以后所要做的方向基本不搭边,相当于变成了一个小白,可知道有多难受。先看了些数据结构与算法相关的知识,这段时间先是把**Python**重新过了一遍,花了大概1个周的时间,接着大概花了1个月的时间看了数据结构的一些知识,因为不会C++,所以找了本python的书练习数据结构的一些算法,这样下去也把python巩固了一下。还是因为没什么基础,所以做完链表之后,后面的东西就暂时做不下去了,悲惨。这一阶段看完之后,也就到10月份了,开始转向机器学习相关的东西。时间我还清楚的记得,10.11开始。
三、开始做机器学习与数据挖掘
这里便开始了做机器学习相关的东西,还是先了解,来个入门。这里强烈推荐阿里天池的一系列入门教程,这个阶段的学习大概花了我一个月不到的时间,每个学习教程过一遍。
大概到11月份,我开始了新手赛,入门数据科学。
通过做这个比赛,还是学到了机器学习很多的一些实用性知识,不在提留在空空的教程上面,通过打比赛来提高自己算是一个高效的方法了吧。最后打入了前10.。。。(其实时拼拼凑凑论坛大佬开源的bseline上去的,最终单模lgb,融合还没喝单模好。。。)但是在后面发现,单模lgb线上效果好,那是因为过拟合了线上,换一个数据集,就没融合的稳定了。
四、正式赛
在1月中旬的时候,舍友拉着我开始第一次打正式比赛,参考大佬的baseline然后自己做特征,最后官方给的第一个测试集testA我们用单模效果还挺好,但是再给第二个测试集testB时,效果明显差了很多,说明严重过拟合线上了,其实这样导致你的模型也不好。
太垃圾,不过勉强进了复赛。
遇到了很多坑,刚开始我们一直做特征,看论文,看别人开源的baseline加特征,分数上来不少,打这个比赛自己还是花了大量的时间在上面,感觉性价比并不是很高,因为学到的东西并不多。其实有个很傻逼的事情,就是tm不要一直去试线上的分数,每天试那么多,线下效果降了或者没动,线上好了,但是又怎么样呢?就相当于别人告诉你一个不知道的测试机,然后你疯狂试,如果把这个告诉你,还不是一样操作,所以感觉有点浪费时间。
我们也是了lgb与xgb做融合,其实线上并没有升,但是可能换个数据集就上去了,所以融合有融合的好处。对于训练的输出做lgb心得特征,目前看来,没什么P用。
最后收获最大的是和另一个大佬师兄一起组队,带着学了不少的东西,这里还是感叹一句,科班就是科班,真的不一样。一个转折点是在群里,因为实在做不动了,所以去和别人请教,大佬用Textcnn做了一个方法与lgb融合,效果非一般的好,后面这个阶段跟着师兄学习了一小波nlp,感觉收获还是蛮大的。另外师兄也告诉了一些之后的方向,让我们怎么去做,感觉收获挺大。
五、未来继续加油吧
之后要提高效率,并行的去打比赛了!