Kaggle首次定义数据科学家:30岁,年薪5万刀,爱Python,最恨脏数据
大数据文摘作品
作者:龙牧雪 魏子敏
今日凌晨,全球最大的数据科学社群Kaggle发布了第一份数据科学/机器学习业界现状调查报告。这份调查问卷的受访者囊括了来自50多个国家的16,000+位从业者,根据他们的问卷结果,Kaggle给出了一些有趣的结论:
1、Python可能是机器学习最常用的编程语言,而统计学家更多地使用R语言;
2、数据科学家的年龄中位数是30岁,而各国差异巨大,比如,印度的受访人比澳大利亚平均年龄年轻9岁;
3、受访者中硕士学位所占比重最大,但薪水最高的从业者($150k)多数拥有博士学位。
本次报告的发布也别具一格地采用了交互数据集的方式,并提供了样本数据集供读者自行分析,大数据文摘也得以利用这一数据集分析出了一些与中国数据科学从业者相关的结论,比如:
1、中国从业者更年轻:中国数据玩家年龄中位数25岁,比这一统计值的全球数据(30岁)小五岁;
2、从业者男女比例更加不均:中国仅有72名女性数据玩家填写了问卷,而男性有387人。男女比5.4:1;
关注大数据文摘,在公众号后台对话框内回复“Kaggle”,即可直接下载这份数据集自己玩~
Kaggle同时为这份数据集设置了1000美金的奖项,如果你有新发现,可以将自己的分析上传至Kaggle,地址
https://www.kaggle.com/kaggle/kaggle-survey-2017
以下为报告精华:
数据科学从业者画像
定义数据科学从业者的方式很多,Kaggle将从工作和背景的两个方向进行统计:
“你的年龄多大?”
平均来看,问卷调查填写者的年龄中位数在30岁左右,但不同国家的这一数值也不尽相同,比如印度的受访者就比澳大利亚年轻9岁。
中国数据玩家年龄中位数尽管高于印度,但仍然低于全球平均值,只有25岁。
“你的性别是什么?”
在性别这一栏,这份报告给了我们比较符合预期的结论,男女比例不均。
在全球的问卷填写者中,共有13427位男性和2714位女性,男女比4.9:1。
而在中国,仅有72名女性数据玩家填写了问卷,而男性有387人。男女比5.4:1。
“你的就业情况如何?”
数据科学从业者的崛起让自由职业者和兼职工作成为一种新潮流,而这一报告也应证了这一结论。在全球,仅有65%的数据玩家拥有全职工作,而8%是自由职业。
相较之下,中国回答者的“没有工作也不在找工作”的比例非常高(考虑到中国的回答者人数较少-只有400人,文摘菌认为这个结果可能是学生比例较高造成的)。
“你的职位是什么?”
自从“数据科学家”被誉为全球最性感的职位后,这个职位也成为了很多从业者的奋斗目标。而从调查结果看,全球范围内,使用“数据科学家”作为自己Title的从业者比例最高,占到24.4%。
“你的年薪是多少?”
如果看薪酬,最高一级薪酬是年收入20万美元以上,这一档全球有166人,相对于不分薪酬的数据科学家比例(24.4%),数据科学家比例有显著提升(35.5%)。
全球数据相关从业者平均年薪55441美元(约合37万人民币)。
收入上也有男女不均:男性比女性多收入3000美金/年。
中国数据相关从业者平均年薪29835美元(约合20万人民币)。考虑到只有66人回答了这一问题,结果解读需谨慎。
“你的最高学历是什么?”
全球范围内,取得硕士学位的从业者最多。
按薪酬来看,年薪150k-200k美金和200k+美金的人群多数取得了博士学位。
这一题中国有420人回答,仍是取得硕士学位的人最多且比例和全球水平接近。博士的比例(11.2%)比全球(15.6%)少。
数据科学从业者日常工作内容
Kaggle给数据科学家的定义是,“写代码并且分析数据的人群”。通过问询问卷填写者的日常工作,报告得到了如下结论:
“你的工作中用到哪些数据科学方法?”
逻辑回归在数据科学从业者中最常被用到,占63.5%。
“工作中最常用到的工具?”
python python python
但职位是“统计学家”的人还是显著地喜欢用R。
“工作中常用的数据类型是?”
工作中用到的数据主要是关系型数据,主要使用Git共享代码。
“工作中遇到的最大的困难?”
脏数据!看来数据科学领域最大的问题还是脏数据。排名第二的困难是“缺少数据科学人才”。正在学习数据科学的小伙伴们,你们前途无量呀!请带文摘菌一起飞!
新手如何入行数据科学领域?
作为一个数据科学学习社区,Kaggle在这份报告中也提出了一些数据科学老司机给新手学习者的建议,可以说是非常良心了!(这一部分可能是本份报告中最有价值的部分,文摘菌敲黑板划重点啦!)
“你们会推荐新手先学哪门语言?”
先学Python!这是Kaggle综合了超一万名老司机的意见给出的结论。
“你最常使用哪种数据科学学习资源?”
数据科学是一个日新月异的领域,保持持续的学习能力非常重要。据调研问卷显示,数据科学老司机最常用到的学习资源包括Stack Overflow Q&A,相关论坛,以及Podcasts。而关于开源内容,数据科学从业者更多使用官方文档和观看 Youtube 视频。
“你从何获取开源数据?”
没有数据就没有数据科学,所以提到数据科学学习技能,不得不提到获取开源优质数据的能力。报告中提到了一些优质数据获取渠道,包括Dataset aggregator, Google Search等。
“怎么找工作?”
数据科学从业老司机在找工作上的忠告也非常有趣:去公司官网或相关网站的技术板块乃下下策,他们更建议的方式是,直接联系招聘人,或建立自己的关系网。
最后,对所有正在阅读问卷结果的人,文摘菌想特意说明Kaggle在问卷中备注的一句话:每个人都是独特的,不是一个个平均数就能代表的。问卷的结论建立在1.6万名Kaggle使用者的答案上,但他们只是数据从业者的一小部分——年龄、性别、所在地区、职位、薪酬、经验和所受教育的不同都无法阻止我们对数据科学的热爱!