别让大数据背锅 用好小数据可能更有效
【线上直播】11月21日晚8点贝壳技术总监侯圣文《数据安全之数据库安全黄金法则》
人人都在说大数据,但并非每个场景都适合用大规模的数据存储和处理,因为处理大数据集意味着需要更多的存储和计算资源,不是每家客户都有这样的能力,而且在一些细分场景中,小数据可能更有效。
为什么要算明白数据这本账?全球互联网用户每天总计发送电子邮件2940亿封、发送推文5亿条、在Facebook创建数据多达4PB。同时,每天发送WhatsApp消息达到650亿条。该报告同时预测明年全球数据总量将增长10倍,达到44ZB。互联网飞速发展引发的数据大爆炸可谓是一把“双刃剑”,在带来经济效益、促进社会发展的同时,也使得数据隐私面临更大风险。
基于大数据的个性化推荐已屡见不鲜,似乎只要数据维度和量级足够丰富,AI对其的价值挖掘就会用之不竭。数据让AI有了应用价值,如Facebook会利用AI来预测用户的未来行为,作为广告投放的依据,所参考的信息包括:位置、设备信息、图片/视频浏览记录、WiFi连接状态、好友关系、聊天内容等等。
再如智能音箱对用户语音语义的收集、无人驾驶系统对行进路线的采集等等,人们除了要在数据合规的基础上,开放更多的数据源,还要借助区块链等新技术或手段为这些数据建立完善的审核机制。
也就是说,大数据在提供数据画像的同时,自身除了成本,也在面临更大的监管因素。而且,有时大数据在标签上识别会忽视个体的差异化。这就要提到小数据,小数据通过各种终端记录着用户自己产生的数据,例如每天运动所产生的卡路里、每次上网的阅读习惯和推荐、每次去超市的消费行为等等,这些对数据的智能化决策更为精细。
虽然小数据不像大数据看起来那样宏大,但对个体的价值却不容忽视,例如对于运动行业的人,身上所穿戴的传感器种类很多,可以监测运动员的转向、加减速、运动指标等等因素,之后可以根据这些数以百计的数据点对运动特征进行分析,得出有针对性的科学训练效果。
同样的例子也会发生在工业场景,物联网总是和大数据一起出现,但局部应用里面的数据总是由小及大的。再如对于销售人员来说,他们对广告播放时间、效果转化、促销时段这些信息的要求通常是精确到分秒的,这样才能掌握用户行为。
不过,对于这样的数据进行训练,机器学习也只是在大数据上才有更好的效果,一旦遭遇小数据集就会事倍功半。如果没有那么大的数据集,在设计深度学习网络的时候对每一层和该层的神经元数量就要格外看重。如果是无监督学习,那么通过自动的编码方式也能也可能避开无标签的数据,但这种自监督式的预训练能力并不是每个业务人员都能掌握的。
因此,如果把大数据和小数据结合起来是否能甩掉锅呢?大数据可以在顶层上找到宏观数据并对其进行分层定位,这种调研的逐级深入就让小数据开始发挥作用,也就是对样本颗粒度的分析,即小数据让“大数据”变小。例如大数据关注的是性别、年龄、职业、消费能力,小数据则更关心背后的成因,而这对人的画像塑造是更贴切的。相应的,小数据对画像的精细化也可以让大数据更精准。