不掌握这些工具,想做数据分析师就像痴人说梦
图片来源:rawpixel.com
数据分析的核心是服务于商业。在数据分析工具的协助下,商业目标可以更好地达成。就像在为不同道路选择不同行驶工具一样,正确的工具可以帮助更快抵达终点;我们也应该为不同的数据分析环节选择不同的工具。
本文将介绍步入数据分析师之路必须掌握的数据分析工具。
1. 确认分析人员的需求:商务还是科技
在企业中,数据分析师通常分为两种:商业分析和技术分析。两者在功能上或者内容上都不尽相同,相应地,对工具的需求也不同。
商业分析师通常在市场营销、销售等部门工作,日常工作更倾向于完成商务报告,对相关业务进行特别分析,还有根据业务增长测算数据和进行规划。
技术分析师通常隶属信系科技部门或者数据中心。根据不同的工作环节,他们会被分配到不同岗位,如数据库工程师、ETL 工程师、爬虫工程师、算法工程师等等。在中小企业中,这些流程通常仅由一名技术分析师完成。而在大型企业中,一个标准的数据中心需要配备数据仓库,特定分析小组,模型分析小组以及其他小组来完成数据开发工作。
形成这种区别的原因是我们需要一个多级的复合数据系统来处理数据。而一个数据系统需要结合数据收集、数据集成、数据库管理、数据算法开发和报告设计。这样就可以收集零散的数据,设置通用的指标,制作各式各样有趣的图表。当中每一个环节都需要相应的技术支持和人工操作,不同的岗位也因而设立。
当寻找数据分析的岗位时,必须区分清楚岗位是属于技术领域还是商务领域,还有它是否符合自身的专业倾向。
2. 区分工具属性:分析工具还是编码工具
正如分析师有科技与商务之分,数据分析工具也相应地有属性之分。
分析工具
对于初级数据分析师来说,熟练掌握Excel是必备技能。你必须精通数据透视表和公式。如果会使用VBA将是一个加分项。此外,还必须学习统计分析工具。对于初学者来说,SPSS更适合入门。
对于资深数据分析师来说,使用分析工具是一项核心能力。VBA是基本必需品,但是你还需要精通下面三种分析工具之一:SPSS、SAS、和R。可能还会学到其他工具像Matlab, 但也要看情况。
而对于数据挖掘工程师来说,R 和Python则是刚需,因为需要敲代码。
编程工具
对于初级分析师来说,你只需要写SQL查询。同时你也可以学习一些Hadoop 和Hive 查询。
对于资深数据分析师来说,除了SQL,学习Python是获取和处理数据的必备法宝,它能有效减少工作量。当然其他的编程语言也可以选择。
至于数据挖掘工程师,则需要用到Hadoop、Shell、Python、Java、 C++ 等等。简而言之,掌握一门编程语言绝对是数据挖掘工程师的一项核心技能。
下图展示了数据分析工具的属性和功能。
3. 理清企业的数据架构
数据分析工具的使用取决于商业环境与需求。为何小微企业的数据分析师仅使用Excel来做报告而大型企业的分析师则需要用到Python和R呢?因为这取决于企业的数据架构。
从IT角度来讲,工具的使用可以从实际应用区分为两个维度。
Dimension 1 维度一
Dimension 2 维度二
(1)数据储存
你不必苦心钻研数据库存储和数据库语言的概念,毕竟有一个专业的DBA。但是必须至少了解数据如何被存储、数据的基本结构和可访问数据的类型。SQL查询语言在这当中必不可少,可从“选择”、“更新”、“删除”和“插入”开始。
Access是最基础的个人数据库。对于部门级数据库或互联网数据库应用来说MySQL则不可或缺,到这一步你需要去了解数据库结构和SQL查询语言。SQL Server 2005或更高的版本对于中小型企业来说足矣。且一些大型企业也可以使用SQL Server数据库。事实上,除了数据存储,它还包括数据报告生成和数据分析。
DB2和Oracle皆为大型数据库,主要用于企业服务。那些大型企业需要存储巨量数据,因而必须使用这种类型的数据库。通常,大型数据库公司也会提供非常好的数据集成和应用程序平台。
至于BI,它实际上不是一个数据库,而是基于先前数据库的企业级数据仓库。基于数据仓库的数据存储本质上是一个集成各种数据分析和报告功能的商务智能平台。
(2)数据报告
企业需要读取和展示数据。报告工具则是最常用的工具。过去,大多数传统报告只是解决了数据可视化的问题。如今出现了一些分析报告的工具,它们与其它应用程序进行交叉处理来完成数据分析报告。通过界面开放、数据填充、决策等功能,实现数据存储和数据展示。这就是早期的商业智能。
Tableau、PowerBI、FineReport和Qlikview等BI工具涵盖了报告、数据分析和数据可视化的多个层次。底部还可以连接到数据仓库,用以构建OLAP分析模型。
(3)数据分析
数据分析工具有很多,使用最多的是Excel。
很多人只掌握了5%的Excel功能。事实上Excel非常强大,它可以完成大量的统计分析工作。但是专攻统计软件比使用Excel作为统计工具要好。
SPSS
最新版本是18,名字也变更为PASW Statistics。随着时间的推移,它已经逐渐成为一种预测分析软件,重心也从从医学和化学转移到当前商业分析。
SAS
SAS比SPSS更强大,因为它是基于平台的。相对而言,SAS更难学。但是如果掌握了SAS,将可以解决更多的问题。像离散选择模型、抽样、正交实验设计等操作,使用SAS来完成会更好。此外,SAS也有更多的学习资料。
(4)数据展示
数据展示又称数据可视化。几乎所有上述工具都提供了一些数据显示功能。但是企业最常用的工具还是BI。
BI代表商业智能,能够为传统企业提供完整的解决方案。它有效地集成了企业数据,并快速生成报告来进行决策。囊括了数据仓库、ETL、OLAP、访问控制和其他模块。
这里以2019年非常流行的BI工具FineReport为例,介绍它的两个主要用途。
一种是自动生成报告。数据分析师每天都要接触大量的数据。他们需要整理和总结数据,这是一个很大的工作量。我们可以把这部分工作移交给FineReport。它自动地对数据进行整形、建模和下载。
来自FineReport
另一种是利用它的可视化功能进行分析。FineReport的优势在于它相较Excel来说提供了更丰富的可视化功能,同时操作起来不难。如果你需要一天花两个小时来画数据,FineReport可帮你把所花时间减半。
来自FineReport
来自FineReport
来自FineReport
在学习数据分析的初始阶段,BI工具无疑是最容易学习的。倘若你准备进入数据分析领域,强烈建议使用FineReport这个数据分析工具。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”