波士顿马拉松爆炸案的大数据难题
Photo:latimes
在波士顿马拉松爆炸案发生后,在IT业和企业界炙手可热的新技术——大数据,能否体现自己的价值,在分析海量数据后揪出嫌犯?政府执法部门如何在侦查和预防犯罪的大数据采集和分析过程中避免触及公民自由和公民隐私红线?甚至,如何通过大数据技术预防犯罪的发生?这些都是大数据专业人士和各国政府和公安部门需要从波士顿马拉松爆炸案的侦破过程中吸取的经验。
根据《洛杉矶时报》对本周一爆炸案的报道,FBI已经在波士顿马拉松爆炸事件后在案发现场附近采集了10TB左右的数据。根据《时代周刊》的报道,这些数据包括采集自移动基站的电话通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的图片和影像资料。(这引发了一个争议,那就是能否将一些犯罪侦查工作众包出去,从而保护公民的隐私权利。)
目前来看,FBI采集到的10TB的数据量与“大数据”的"Volume"有些差距,但影响数据分析结果的不仅仅是数据规模,另外几个重要因素是数据来源和质量。与在海量银行交易记录中识别地下钱庄洗钱交易不同,在波士顿爆炸案中,通过数据分析锁定嫌疑犯或找到炸弹来源要困难得多。根据数据分析专家Jeff Jonas的一篇博文,常规的数据来源往往无法提供任何有助于找到炸弹的信息。
Jeff Jonas指出当常规的数据源不充足,侦破甚至预测犯罪需要增加新的观察空间(即数据源)时需要注意以下几点:
1.在分析中整合外部数据源是一门艺术,需要对防火墙内和墙外的数据流转机制,以及相关的法律和政策问题有充分的了解。
2.增加数据源的顺序是先内后外。当然也可以加大旧的数据源的采集范围。(编者注,在波士顿爆炸案中,增加范围意味着不仅仅采集马拉松沿途的视频监控和移动基站数据)
3.抓住坏人的关键是其中一些数据源(暂时)不为犯罪分子所知的。
4.利用好社交媒体。
5.给数据的优先级排序。
对于FBI和波士顿警方来说,扩大数据的来源和观察空间不仅仅意味着增加监控和监控数据的分析能力,更重要的是增加社交媒体和群众数据的采集和整合能力。在本周的一次研讨会上,IBM I2首席专家王海波以长春盗车杀婴案为例提出“天网工程”的几点疑问:
1.从报案到第二天上午群众举报为什么没有找到车?
2.摄像头精度不足,还是无法处理视频记录?
3.报案后卡口无法及时收到通知并拦截?
4.罪犯当时和谁在一起,能否取证,能否证明自首者是真凶?
天网工程的掉链子说明,一味增加旧有数据源的采集力度未必能解决问题。数据质量、可视化和智能化、非结构化数据的快速甚至实时分析、预测都是“警务大数据”需要面对的重大议题。
作为美国警界最早的大数据预测分析试点单位,圣克鲁斯警察局通过城市大数据预测犯罪地点和时间,分析历史案件, 发现犯罪趋势和犯罪模式, 找出共同点和相关性,通过分析城市数据源和社交网络数据,甚至能预测犯罪。过去需要几天, 几周甚至几个月的数据资料分析, 在最新的警用Hadoop大数据分析系统中几个小时内就完成,从而大大加速了警察办案的效率。参考阅读:警务2.0:用大数据预防犯罪