呆瓜半小时入门python数据分析

随着数据经济到来,数据分析师成为一门性感职业。在互联网时代,我们每个人的信息,行为,通信,衣食住行都被数据化,存储在数据中心里。通过数据分析,我们可以从数据库里得到有价值信息。因此大数据正成为Google,Facebook,Twitter,百度,腾讯,阿里等跨国公司的核心财富。

(下图为facebook位于欧洲的数据中心)

呆瓜半小时入门python数据分析

数据驱动经济,各行各业对数据分析师需求越来越大,其中互联网行业,金融行业,电子商务行业,计算机行业,移动互联网行业对数据分析需求量特别大,是典型行业。

(下图为2000条数据抽样统计结论)

呆瓜半小时入门python数据分析

小公司对数据分析师要求并不高,只要解决问题能力强,本课就可以。中大型公司则偏好研究生以上学历,当然中大型公司也有很多本科生。面试嘛,学历是一方面,个人在圈里知名度,实际工作能力,人脉资源也很重要。

(下图为2000条数据抽样统计结论)

呆瓜半小时入门python数据分析

很多初学者搞不清楚数据分析工作内容,面试时候比较茫然。于是初学者们去书店买数据分析相关书籍,如果运气不好,看了书后会更加茫然。我在书店喝冷饮休息时,会有看看书习惯。我发现

书店的大量数据分析书籍与实际工作内容相差甚大。书里把数据分析和,机器学习算法,数据挖掘,人工智能深度学习知识混杂在一起,这会造成初学者困惑,到底什么是数据分析?该如何下手学习?如何快速掌握数据分析内容,以后去公司上班时会更加接地气?

我是一家大型金融公司模型专家,平时和数据分析师工作联系比较紧密,我比较熟悉数据分析师工作,我建立模型时也会做大量数据分析工作。我在这里教授新手如何半小时入门数据分析,为初学者入门节约时间,结构化,系统化了解数据分析工作。

接下来从企业实战角度谈谈什么是数据分析。

不同人对数据分析岗位会有不同看法,我用最通俗易懂角度为初学者阐述数据分析定义。

数据分析师在理解业务的基础上,对现有数据进行深入加工,得出有价值结论,为领导层决策提提供依据。

(1)在理解业务的基础上

我们在大学时接触过大量计算机,统计学,机器学习书籍,书籍里有很多变量阈值benchmark描述,但企业实战远比书籍描述要复杂。我们需要针对不同场景灵活运用书里知识。

例如书籍阐述iv=0.2表示变量有价值,但金融领域里,变量很少能达到0.2,一般iv>0.02就表示变量有意义。

(2)对数据进行深度加工

小公司数据一般存在excel里,数据分析难度不大,就是灵活掌握excel就可以了。中型,大型公司数据存在数据仓库里,数仓里有许多表单,从几十张到上万张不等。业务分析数据要从数仓的若干表里筛选,拼接

,形成一张宽表,这就需要非常熟悉SQL知识。

培训班中接触到项目训练,数据是非常齐全和完美的。但实际工作中数据是残缺不全的,例如金融领域央行征信很多变量缺失率高于90%,高于99%的都有一大把。这需要对数据深度加工处理,包缺失值处理,数据类型转换。python的pandas包就是干数据清洗,加工的,效率非常高。

(3)得出有价值结论,为领导层决策提供依据

数据分析师核心工作就是从数仓里提炼有价值信息,为领导决策提供参考。大领导一般管人脉,为公司拉投资,要不停参加饭局和会议,很少有时间写代码。中型领导例如总监,也要管理几个团队,平时开不完的会议,也很少有时间写代码。因此不要指望领导对数据有多敏感,领导只是从宏观方向把握重要指标。数据分析师职责就是取数,加工数据,分析数据,得到有价值数据,最后汇报领导。

呆瓜半小时入门python数据分析

举一个典型例子,《大空头》是描述美国华尔街的一部经典电影。电影中讲述了2008年,很多美国人还不起房地产按揭贷款,引爆华尔街金融次贷危机。四个对数据敏感男人,通过数据分析,提前得到金融危机的结论,然后抓住机会做空美国房地产,从全球经济衰退中捞取了数亿美金利润。

呆瓜半小时入门python数据分析

当然不同行业对数据分析定义会有所差异,我这里是为初学者快速上手指路,有覆盖不全的,多谅解。

了解清楚什么是数据分析,和行业需求后。对于初学者,我推荐用anaconda+sqlite3+sqlitebrowser搭建本地电脑数据分析实战练习环境。

anaconda是一款python的编辑环境,内部包含jupyter,pycharm,Spyder等优秀脚本编辑器,安装第三方包非常方便,乃居家必备良器。

anaconda官网,大家可以下载免费版本。

https://www.anaconda.com/

呆瓜半小时入门python数据分析

建议下载最新版本,功能和显示非常酷,护眼模式,466M左右。

呆瓜半小时入门python数据分析

sqlite3是python的一个包,用于python执行SQL语句,完成取数,加工数据,更新,删除数据,绘制图等等。

sqlitebrowser是一款比较好用的数据库浏览器工具,直接安装在本地电脑上,可以方便打开python脚本创建数据库,可视化流量数据。

这是sqlitebrowser官网,大家可以去下载,此软件是免费的,低端配置电脑运气无压力,数据库可以承载上百万数据,用于初学者模拟演练数据分析项目完全绰绰有余。

http://www.sqlitebrowser.org/

呆瓜半小时入门python数据分析

下图是我用python脚本创建一个demo1数据库,并生成1条测试数据

呆瓜半小时入门python数据分析

下图是我用python脚本对数据库插入多条数据。

呆瓜半小时入门python数据分析

下图是我用python脚本读取sqlitebrowser存储数据

呆瓜半小时入门python数据分析

下图是我用python脚本从数仓取数后数据可视化绘图

呆瓜半小时入门python数据分析

下图是我我用python脚本更改数据库里数据,把value=2的数据改为22

呆瓜半小时入门python数据分析

以上是我用python的sqlite,matplotlib生成数据库,SQL取数,数据可视化的一些举例截图。数据分析入门并不难,难的是很多作者写书时把大量知识混合在一起,让初学者越学越迷茫。

我通过一年时间,把<呆瓜半小时入门python数据分析>录制成了一门视频教程,存放于网易云课堂,课程80+,并实时更新,是初学者一生中宝贵财富。

链接地址:https://study.163.com/course/courseMain.htm?courseId=1006383008&share=2&shareId=400000000398149

呆瓜半小时入门python数据分析

下图是课程目录,初学者在第三章入门后,可以接着学习SQL,pandas,excel,lambda等知识。我打造好了这些军火库用于初学者数据分析水平提升。课程内容是实时更新的,当你访问课程是如果发现有些改动是正常的。

呆瓜半小时入门python数据分析

用最短时间,最少费用,最低配置入门python数据分析,follow me!

新冠肺炎病毒COVID-19已造成全球长期经济衰退,逆水行舟,不进则退!

有志者事竟成。祝各位初学者不怕艰险,不断学习,早日学业有成,找到自己理想工作。

By Toby

QQ:231469242

相关推荐