微软Azure大数据平台发布调试工具集,支持Spark 2.3!
能通吃Hadoop、Spark、Kafka等开源框架的微软Azure云大数据平台HDInsight,近日该平台上发布了Spark调试工具集,可以支持Spark 2.3版及未来的新版本。搭配此调试工具集,可以将Spark任务的工作图表、数据流可视化,让Spark开发者处理数据管理、数据采样、监控及诊断任务时,更为顺畅。
微软公告,这款Spark调试工具集未来会发布更多新功能,包含关键路径分析、Data Skew及Time Skew问题分析等。
现在Spark调试工具集已经内建在HDInsight Spark历史纪录服务器,从Azure Portal进入的开发者,只要点击选择集群仪表板、Spark历史纪录服务器的选项,就能存取功能。
在HDInsight中的Spark历史纪录服务器(Spark History Server),微软现在新增了两个新功能,分别是Graph Tab及Data Tab。首先是Graph Tab,提供使用者可视化的互动体验。例如,Spark工作图表会列出任务执行的细节,包含各阶段中数据的输入、输出信息,开发者可以重新回放(playback)功能,重现完整的任务程序。借助
此功能,可以进一步诊断工作流程中的性能表现、数据处理时间,改善应用程序的流畅度。
再者是Data Tab功能,支持开发者利用CSV格式,汇总输入、输出、搜寻或者URL等数据,例如,数据科学家可以下载部分采样数据,在本地环境进行排错、执行任务。
微软这次发布的调试工具集,当中一个新功能是回放(Playback)。系统会列出完整的任务流程,在页面选单中,开发者可以指定Job ID、呈现信息(如数据读取、写入)。借此,系统就会重现流程,开发者可以观察流程中的瓶颈如何,进而改善性能。