R学习笔记系列—R与数据分析之数据时代篇

第零章 R语言与数据时代

0.1 数据时代

我们已经进入了全新的数据时代,大数据、云计算、物联网、机器学习、人工智能等等一系列技术纷至沓来,数据的管理和应用已经渗透到每一个行业和业务领域,成为当今以及未来商业运作的基础资产。对于海量数据的挖掘预示着新一轮生产率增长和消费者盈余浪潮的到来,数据将成为决策的关键因素。可以说,只有掌握数据并善于运用数据的人,才会在竞争日益激烈的环境中寻得先机。

对于数据时代,已经很多学者商业领袖做了深刻的阐述。

未来简史作者:“数据将取代土地成为最重要的资源”。

阿里巴巴董事局主席马云:“我们认为,数据将在未来变得对人们的生活非常重要。明天,一切事物都将通过物联网与网络相连”。

谷歌母公司Alphabet的执行董事长埃里克-施密特:“我认为,对数据分析的基本理解对下一代年轻人来说非常重要,这就是你们要进入的世界”。

哈佛商业评论:“数据科学家是二十一世纪最性感的工作”。

......

所有这些,都强调了数据的极端重要性。所以,如果你对数据分析的世界感兴趣,那么不要再犹豫,立即行动起来,为自赢得未来。

0.2 数据分析师的分类

数据科学是一个内涵十分丰富的科学,数据分析领域包含着许多问题,因而数据科学家也有很多不同的分工。如果从工作的性质来看,大致有四类。

数据工程师:更多地关注数据分析的软硬件基础设施,比如数据仓库、海量数据分布式处理框架、数据集成等,能够熟练编写管理和操作数据的代码,一般是具有IT背景的工程师。

数据科学家:通常来自学术界,具有扎实的数学、统计学背景和极强的知识扩展能力,在新算法的研究,以及一些开创新的工作中至关重要,是整个数据科学发展的重要驱动力。

数据分析师: 有较为深厚的统计学背景,同时也熟练掌握大数据、机器学习以及编程,能够为指定的任务制定科学的数据分析方案,从大量的数据中挖掘出有价值的信息,为决策提供支撑。

数据营销师:营销推广数据分析产品和服务的人,一般来说本身就具备丰富的数据从业经历,擅长于专业人士打交道,并将数据分析方案转化为现实收入。

当然,以上分类只是一个参考,并不绝对。本系列教程的目的是通过循序渐进的学习,让读者熟练掌握成为一名数据分师所需要的知识和技能。如果你励志成为一名具备深厚IT技能的数据工程师、或者理论背景深厚的前沿算法研究者,那么本书并不适合你。

0.3 数据分析师应该具备的特质

要在任何一个领域取得成功,变得卓越,都必须具备一些基本的特质或者品格,否则就算将就着从事这个行业,也很难从平庸变得卓越。当然,需要具备什么样的素质,不同的人有不同的看法,并没有一个标准答案。但有一些特质是共同的。

首先,足够热爱。想要探究数据背后的规律,想要了解事物之间的关联,想要预测事物未来的发展轨迹。只有这样,你才能怡然自得心情愉悦地工作,在普通人感到枯燥无趣的一大堆数据中找到乐趣,而乐趣或者兴趣所带来的愉悦感是做好任何事情的基本前提和根本动力。正如那句话所说:“世界上所有的坚持,都源自内心真正的热爱”。

其次,坚韧不拔。数据分析的世界广袤辽阔,需要掌握很多的知识和技能,需要付出大量的精力学习和掌握,在这个过程中,可能常常感到沮丧、失望、难以坚持。那么,当你心情低落时,请不要放弃,回想最初要成为数据分析师的初衷,继续前行。正所谓不忘初心、方得始终,坚持会让你体会到类似禅宗“顿悟”,以及诗词中“柳暗花明又一村”、“众里寻她千百度,蓦然回首,那人却在,灯火阑珊处”的人生体验。

第三,保持专注。数据分析的知识和技能是通用的,但应用的领域是具体的。除非你立志称为一名数据科学家,研究基础理论,否则建议专注于具体的领域,成为行业专家,不要经常变换自己的研究领域。之所以这样,是因为人的精力是有限的,只有长时间专注某一领域,才能在该行业价值链中占据高位,成为高端工作者,获得远超一般人员的超额回报。当然,扎实的基础知识是必备的,在需要的时候,你也能够比较自如的切换到另一行业。

第四,混合思维。数据分析必须具备两种可能有一定冲突的思维方式,一是数学的思维方式,习惯用数学的、逻辑的方式观察、描述和思考事物,;另一种是直觉的、艺术的思维。我们对世界的认识是不完备的,有些现象和关联很难用数学直观的表述出来。目前很热的深度学习,其实也只能做出在一定领域适用的弱人工智能,局限性非常大,且很容易被欺骗。很多时候,数据分析的结果取决于算法的选择和优化,取决于数据分析师的经验和直觉,而这种直觉和经验,或者说复杂度到一定程度后必须引入的宏观思维,更类似一种艺术。

0.4 本书的学习路径

作者看过很多介绍大数据分析、数据挖掘、机器学习的书籍或者文章,很多都强调了大数据分析与传统统计学的区别,比如不再突出小样本下的推断问题,不再追求因果关系而是承认混杂性,不再追求精确性而是过程黑箱化等等。因此,在学习方法上,这些书籍都直接从数据挖掘、机器学习的各种算法开始,告诉大家怎么打开软件,输入哪个函数,调整哪些参数,然后会输出什么结果,做出某个结论。看多了这样速成的教材,你初期会很有成就感,因为觉得数据分析不过如此,很快就掌握了相关技能。但是,随着应用的逐渐深入你会发现,好像除了知道那几个算法怎么调用,你很难对数据的性质有更加深入和直观的认识,或者离开了样例数据库,就很难得出有效的结论,做出有用的决策。

作者始终认为,要想精通任何一门技术或者学问,成为行业专家,都需要从最基础的知识开始,反复学习和练习,别无捷径。具体到数据分析领域,作者认为数据科学家不过是统计学家的一个比较时髦的叫法,所有的数据技术,包括炙手可热的机器学习,都是统计学和计算机科学交叉发展的结果,扎实的数学和统计学基础永远是数据分析师必须具备h和熟练掌握的知识。可以说,关于数据的学问,全部的基础都源于数学和统计学,数学和统计学对于数据性质的研究、对于误差行为的假定和分析、对于数据质量的判断、对于模型建立的指导原则等等,是一切数据分析的基础。只有通过循序渐进的学习,逐步熟练掌握数学和统计学基本原理和技能,才能在数据分析领域走的更远。

本系列教程首先从统计学基础知识开始学习,然后逐步过度到各种数据挖掘算法,再到机器学习和深度学习,中间会穿插介绍各种背景知识,包括一些数学知识和编程思想,最大程度地让读者夯实基础、拓宽视野,熟练掌握数据分析师所需具备的各种知识。


喜欢闲适安静的生活,懂一点统计学和数据分析,懂一点计算机编程。(爱编程爱统计)

相关推荐