大数据开发?大数据分析?数据挖掘算法?
大数据开发?大数据分析?数据挖掘算法?
关于大数据的知识,因为自己之前做大创、听讲座以及主动地去踩学习的坑,所以关于学习和规划我可以给予一些经验。
一、我选大数据的原因
高考前我最想学的专业几乎都是跟电子信息领域相关,比如‘电子信息与技术’、‘计算机科学与技术’、‘物联网工程’和‘信息管理与信息系统’等等。因为高三那时特别喜欢读校外书店卖的杂志,时政、娱乐、写真我几乎都买过,美其名曰:作文素材。我在兴趣方面是比较广泛的。作为一位工科男生,也曾经哈韩。只是有一次我在书店读到一本关于‘人工智能’的书《未来简史》,不能说能决定我的命运吧,但好像我之后选专业的思路几乎改变了。反正各种鼓吹未来是人工智能的时代。我后来特别迷这些关于人工智能的学术知识,觉得好牛逼啊!于是我自己写了一篇论文叫做《人工智能——认知的奇点》。主要想讨论一下自己对于未来世界的想法。
不过后来买了一本介绍华为奋斗史的《厚积薄发》又让我更加确定通过走IT这条道路实现人生的逆转。总之很多因素让我做出了选择大数据的决定。
二、大数据开发
这么说吧,大数据开发本科还是算了吧,虽然我也是学生,但是我把人家单位的技能要求做个平均数,要把所有知识框架和源代码都能仔细研究一遍,四年大学时光仍然不够。我是今年2月份上手的大数据开发路线,零零碎碎学了很多理论知识,最近有时间才搭建Linux虚拟机来实现部分代码操作。然后我把自己的经验说一下吧!
大数据开发跟大数据的技术关系最近,但是又不算是正儿八经的数据从业者。为什么这么说呢?我买了几本大数据的入门书籍《Hadoop权威指南》、《Hive编程指南》和《Spark快速大数据分析》,我也敲了很多代码,但是没有过多接触到跟数据相关的算法实现,更多的是一些文件的配置、网络协议以及源码的解读,这是一个后端程序员该做的事,所以如果想做大数据开发就要做好一个程序员的角色,主要是代码能力,跟你懂不懂数据的算法分析关系不是特别紧。
我一开始是直接学大数据生态系统Hadoop框架的,结果很卑微,命令行编程不会,因为大数据开发都是在Linux系统上实现的,所以如果不先学Linux系统,恐怕学习大数据开发只会难上加难。因为大数据平台使用JAVA语言来写的,所以你又要精通Java语言。之后因为大数据平台是存储数据库的,又会明白SQL语言的重要性。所以就大学本科的现状而言,把SQL、JAVA和Linux掌握可以保证你的开发基础不会动摇。
因为篇幅有限,我暂且说到这里。
三、大数据分析
大数据分析这个就是数据分析啊,加个大字逼格高!
数据分析无非是一些统计数据的技巧,以及我们现在数据分析课学到的一些常用的分析方法。所以这是真正把数据作为直接对象操作的事务。因为数据分析不会让你拿手去算的,很多软件都能够实现快速的解决方案。所以这个方向可以说门槛不高,没有什么神秘的。不过同样需要学习一些关于SQL的知识、Python爬虫等等利用工具实现数据的自动化处理。数据分析偏向文科,要写数据分析报告的,职业操守就是不能弄虚作假。
四、数据挖掘算法
好吧,这是级别最高的,数学要求最高的。为什么这么说?数据挖掘并不一定以数据为中心,而是先确定需要解决的问题再设计算法,最后将针对具体问题将数据作为算法的实例资源得出理想的结果或未知的成果。换言之,数据挖掘是利用数据来锻练算法,从而使算法推广到更多场景解决事务问题。