机器学习算法2018:Kaggle ML调查分析使用Plotly
对调查数据进行分析从而挖掘其中的宝藏是很有趣的。今天这篇文章是让大家能够更好的了解如何使用开源软件Plotly分析2017年机器学习和数据科学调查的数据。
Kaggle对各个行业进行了调查,以了解机器学习和数据科学的现状。有超过17000名受访者回答了许多问题,从机器学习方法的最大用途到2018年对于机器学习的期望。
除了在这篇短文中所包含的信息图外,还使用了Plotly中的Kaggle数据对各个数据点进行了一些很酷的分析。
至于Plotly,是一款跨平台在线科学绘图,数据分析制图在线软件,可以在线直接进行制图,Plotly还提供有API接口,可以应用到第三方应用上面,正在改变科学家、工程师和业务分析师如何通过开源软件可视化数据。
上图帮助了解调查对象的年龄群和Plotly的描述性统计部分,这清楚地加强了在信息图表中传达的信息。
正如阿尔伯特·爱因斯坦(Albert Einstein)曾经说过的那样,“不是所有可以计算的东西都是重要的,并不是所有重要的东西都可以被计算在内。”因此,作者想要了解性别在调查数据中是否有任何作用。
从上图可以清楚地看出,与“女性”相比,“男性”受访者的数据以及其他被标记为“未知”的性别类型的数据更多。
另外,根据性别的年龄段图,可以对年龄数据做出一些统计结论,Plotly是执行这样的图内统计的一个很好的工具。可以参考使用上述功能创建的下图。从上图可以清楚地看出,与“女性”相比,“男性”受访者的数据以及其他被标记为“未知”的性别类型的数据更多。
关于Plotly平台的最酷的事情是用户可以为各种编程语言做所有的可视化生成脚本。