由35岁的程序员看数据分析

​​        最近没事逛了逛脉脉和知乎,发现35岁的程序员前途被一群人唱衰,我就我所认识的程序员谈谈这个现象存在的数据分析问题。我接触的程序员主要是做银行和电子政务的,岁数基本都是30岁以上,35以上的也占了3-4成,实际上我们这作为甲方,其实是比较喜欢大龄的程序员的。

        银行和电子政务方面的IT建设要求,其实技术难度没有大家想得那么大,但是对业务的理解的要求其实很高。不同于互联网企业,我们服务对象差距是很大,既有年轻人,更有中老年人,业务步骤设计、字体大小等要考虑,系统可以慢,但一定要好用和安全,历史系统多所以对新技术不是太感冒,Structs1框架还是主力架构,但对框架的研究一定要透彻细致。这些要求说实话,很多年轻工程师不是太符合,一来他们求新,对老技术兴趣不大,二来是生活经历简单,对业务理解不多,三来是流动性太大。我也有和乙方的项目经理聊过一些这方面,他觉得很多人眼里程序员只能去互联网企业,但实际上那只是一小部分,很多程序员还是和普通职业一样的,没有什么中年危机。我也有朋友在美国从事IT行业,也问过他们的看法,美帝高龄程序员也多如牛毛。我想这也是幸存者偏差吧。

        幸存者偏差(Survivorship bias),另译为“生存者偏差”或“存活者偏差”,是一种常见的逻辑谬误(“谬误”而不是“偏差”)。指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。在“沉默的数据”、“死人不会说话”等等日常表达中,涉及幸存者偏差。

        在知乎和脉脉上的程序员其实只是整个程序员行业的一部分,扪心自问,35岁的程序员真是最忙的时候,白天工作,晚上照顾家人,只要正常发展也基本是公司的中坚力量了,哪有功夫天天没事看知乎和脉脉!这如同你在脉脉看到很多猎头一样,猎头绝对数量没多少,但初级猎头却集中在脉脉,企图在脉脉中发现牛人,可牛人有空上脉脉吗?牛人跳槽需要这些初级猎头吗?

        互联网时代,我们看似获得了很多数据,但实际上却只是部分数据。一叶障目不见泰山,很多时候数据分析师在分析数据时候也忽视了这个问题,看似海量的数据得出的结果很靠谱,但进行验证的时候却发现不是那么回事,很多创业公司对市场容量的估计就常常存在这个错误,滴滴自认为自己市场很多,但是在三四线城市,例如我所在的家乡,打电话到出租车公司比滴滴靠谱的多,因为车就那么多点,出租车还有对讲机,哪里客人多了一句话一群车就过去了,人工管理成本比滴滴低多了,滴滴实际上也就是在一二线大型城市有市场,实际容量比估计的差不少的。

        我之前的文章《麦肯锡工作法在数据分析中的应用》提到过收集外部数据,收集外部数据就是为了校正自有数据存在的偏差,尤其是喜欢统计局的统计年鉴,足够专业全面无偏见。想想拼多多崛起的秘诀吧,实际上中国大部分人都是高中以下学历、低收入人群。还比如快递业排名,很多人觉得EMS排名高是因为政府业务,但实际上是因为大部分民营快递的覆盖范围比邮政EMS小的多,广大农村地区寄东西只能靠邮政。

        一个数据分析师一定要有质疑的态度,看到数据问来源、问抽样方法,看到结论问分析方法,看到假设问是否验证过,看到建议问是否小规模试验过。数据分析是现在很多人都需要必备的能力,希望大家在工作中多问、多思。

       好了,今天就说到这里,如果觉得我写的不错,扫描下图二维码,关注我的公众号“行思知识工坊”吧!后续还会有更多的文章的。

由35岁的程序员看数据分析​​​​

相关推荐