研究人员发布新的大数据系统,速度是Spark的两倍
研究人员已经开发出一种旨在解决大数据平台上的复杂对象和工作流程的新系统。来自莱斯大学DARPA资助的Pliny项目的计算机科学研究人员宣布了PlinyCompute。
该项目由DARPA的Mining and Understanding Software Enclaves(MUSE)计划提供资金。Pliny项目旨在创建自动检测和修复程序错误的系统。PlinyCompute是“纯粹用于开发高性能,大数据代码的系统”。
引领该平台开发的莱斯大学计算机科学教授Chris Jermaine表示,“随着机器学习,尤其是深度学习的发展,人们已经看到了复杂的分析算法应用于大数据时可以做些什么,从财富500强管理人员到神经科学研究人员,每个人都在呼吁越来越复杂的算法,但系统程序员现在大都无法提供好的选择。HPC可以提供性能,但需要花费数年时间才能学会为HPC编写代码,甚至更糟糕的是,可能需要花费数天时间才能用Spark创建的工具或库,可能需要几个月才能在HPC上编程。”
根据Jermaine的说法,虽然Spark是为大数据开发的,并且支持负载平衡,容错和资源分配等功能,但它并不是为复杂计算而设计的。Rice研究科学家Jia Zou表示,“Spark是建立在Java虚拟机(JVM)之上的,它负责管理运行时间并提取关于内存管理的大部分细节。Spark的性能受到其对JVM的依赖,特别是随着深度学习训练深度神经网络等任务的计算需求增加,Spark的性能也受到影响。”
Zou继续说,PlinyCompute是为高性能而设计的,并且已经发现它的速度至少是Spark的两倍,在复杂的计算上快了50倍。但是,PlinyCompute要求程序员用C ++编写库和模型,而Spark需要基于Java的编程。正因为如此,Jermaine说程序员可能很难为PlinyCompute编写代码。
Jermaine说:“PlinyCompute具有更大的灵活性。对那些对C ++缺乏经验和知识的人来说,这可能是一个挑战,但我们也对完成各种实现所需的代码行数进行了并行比较,并且大多数情况下PlinyCompute和Spark之间没有显著差异。“