深坑预警!请避开数据可视化6大灾难
数据,现在似乎已经成为了很多事情的基础。一个好的研究,和研究中得到的良好数据,可以让任何问题都得到科学的解释,而并非仅仅只是通过“直觉”来解决。
学术界、医学界等等一向都很重视对数据的收集和对数据的分析,以提供合理的建议或者治疗方案。现在,随着可视化分析工具和算法的发展,任何人都可以获取海量数据,可以通过收集、分类、生产和分析数据来推动各个经济部门制定商业决策,比如:
· 银行分析消费者的金融行为,确定为其提供什么贷款产品。
· 保险业确定保险费金额。
· 医疗保健业确定个性化的治疗方案,预测疾病的爆发,确定流感疫苗的成分,甚至可以让医院的人员配置需求更有效率。
· 消费品行业和服务业用它驱动一切,从库存需求到开发新品(或改进现有产品),到确定目标受众以及制定接触目标受众的措施等。数据自身也有其受众——股东,C级行政决策者、医疗专业人员、教师和营销人员等。
现在面临的问题是:受众往往对统计分析并不那么了解。因此尽可能以简单的方式像受众展示数据至关重要,比如用可视化的形式——图表、曲线图、信息图等来展示,这样会让受众更容易理解。
因此,如果你要向外行人士展示数据的话,一定要避免落入下面的陷阱。
1. 对数据使用错误的可视化工具
你展示数据的目的是什么?
你是根据研究问题划分研究群体吗?如果是,饼图很不错。
你要比较人口、时间吗?如果是,柱状图更好。
如果你想比较两件事(例如,高管和普通员工随时间推移的平均加薪情况),线形图是很好的选择。
但是,研究员、统计学家和设计师们往往执着于特定类型的图表或曲线图,他们尝试“强行”将其数据转换成特定格式,但结果常常并不是很清晰。看看相似类型的数据可视化方式,你会发现,你可以用之前没用过的设计来更好地展示自己的数据。
2. 将过多的数据堆到一张可视化图里
一般如果你想展示所有的信息,那么就很容易把所有想说的全放到一张可视化图里。可能你知道图里所有小细节,而受众却并非如此。
你可以想想展示的主要目的,以及还有什么更小的细节可以忽略吗?你能把复杂的演示拆分成一系列的可视化图,而不是把它全塞到一张图里吗?
要记得从受众的角度看看你的图,特别是当以非口头解释和接受提问的方式向观众展示的时候。现场展示时,你可以预估观众的反应,澄清误解,解答问题,但若非现场展示就不能这样了。
3. 可视化图太“满”
图里有多种颜色和各种图形当然可以,但是过多的话就会分散受众的注意力。当颜色或图形太多的时候,往往会引起受众的厌倦而不想去看。
看看下面这张美国发电厂的数据可视化图就明白了。
你仔细研究这张图的动力有多大? 仅仅是颜色就让人难以应付了,你甚至很难辨认这些颜色表示的是哪根条柱。这就是典型的太“满”的可视化图。
强烈建议制作者找一个更简洁的模型,或者把数据放到几张图里,然后说明该国不同地区的趋势。
4. 令人困惑或错误的数学
一旦一张图表里出现了相加后的和不是100或者虽然数学上没有错误但却令人困惑的数字,数据可视化就就毫无价值了。比如很常用的用于表现百分比的饼状图——百分比的总和必须为100,否则就会让人感到困惑,怀疑数据的正确性。
下面是一个典型案例,在2012年美国总统初选期间,饼状图出现了严重错误。
可能这一张可视化的图配有解释文字,但观众很可能不会去看。他们将只会看到两件事——百分比加起来和为193。这是不可能的,而且饼状图中支持Palin的部分的面积比另外两位候选人的要小,虽然那两个候选人的百分比更小。总之,这就是一个灾难性的数据可视化。
实际上,研究员允许受访者选择多位候选人,于是就得到这一数学结果。这场灾难的补救措施是只允许选择一个候选人,这样百分比相加的和就是100了,或者将这一可视化图分成三张图,每位候选人一张,并标注受访者的第一,第二,第三选择。
5. 缺乏数据来源
数据的有效性取决于其来源,学者和研究员都明白这一点。非学者在收集数据、创建图表的时候,可能不明白标注数据来源以及使用可信赖数据的重要性。
一手资源是指研究人员通过自己收集分析数据得到的资源,在将数据可视化的时候,如果要使可视化可信,就应该使用这些一手资源。
6. 在发布或展示之前没有进行测试
当你全身心投入到创作中时,很可能无法意识到一些显而易见的错误或者误区。这个问题的解决办法是,先向不熟悉该数据主体的朋友或同事展示你的可视化图,然后让他们解释给你听。如果他们解释得很好,你就可以发布了。