初志案例分享:清华大学HPC项目解析

清华大学机械工程系(以下简称机械系)于1932年成立,是清华大学最早成立的工科系之一。其拥有多个国家一级重点实验室,近年来与材料科学、自动化技术、信息技术、激光技术等学科一起合作了众多科研项目,在学术声誉、研究水平、研究队伍、实验装备等方面都具有国内领先优势。

机械系日常的教学和科研项目中需要应用到fluent、Vasp、Gaussian、Ansys等软件来实现各种高性能计算,因此将产生大量的数据,这对存储系统在高并发、可靠性、共享性上都提出很高的要求。机械系现有的存储系统已经不能满足自身快速发展的需求。

初志A2000集群存储解决方案

针对机械系高性能计算的需求,初志科技为其提供了一套初志A2000集群存储解决方案。初志A2000集群存储解决方案主要由元数据存储节点及智能存储节点两部份组成。

元数据存储节点用于管理文件系统的元数据(包括文件目录树组织、属性维护、文件操作日志记录、授权访问等),管理整个存储系统的命名空间,对外提供统一的系统映像存储池。

智能存储节点用于存储用户的实际数据,实现集群存储功能,主要包括存储设备管理,网络设备管理,权限管理等。

初志A2000集群存储系统采用先进的分布式并行双群存储架构,多台元数据存储节点和智能存储节点分离并行工作,大大提高了海量文件的读写效率,轻松实现海量数据管理。同时,A2000在高并发性、高可靠性、整合性及扩展性上都有很突出的优势,很好地满足了机械系对于高性能计算应用的各项需求。

高性能计算应用的持续运行,将产生越来越多的数据,这需要存储系统拥有足够的容量来满足快速增长的需求。初志A2000集群存储系统单卷即可支持PB级的存储空间,帮助用户高效地管理上百亿个甚至更多的文件。同时,系统还可实现文件全局命名空间,所有的计算节点都可看到一致的文件系统视图(管理员也可以通过设置使用权限,让使用者只能看到自己的应用数据),这种数据的全局共享性可以加强同一应用不同服务器之间的协作,提高了应用的服务效率。

高并发

在机械系的存储环境中,应用种类多,并发访问的程度较高,这给存储系统带来很大的压力。A2000集群存储系统通过多台存储节点同时存取数据的方法,满足了高并发访问的需求。在应用服务器端,当应用程序向存储系统上写文件时,文件将分片存放到多台存储节点上;在读文件时,系统则并发地从多个服务器上读取数据。如此一来,大量的数据I/O请求被分散到了多台存储节点上,聚合带宽由多台的存储节点上的带宽相加而成,使得所有的存储节点上的磁盘性能和网络带宽都能得到充分的利用,克服了原有系统单一出口点所造成的性能瓶颈,很好地实现用户的高并发访问需求。

高可靠

A2000集群存储系统内置一套完整的故障恢复流程,利用副本技术使得数据出现故障时能自动恢复,有效地消除了单点故障。对于用户而言,任何硬件故障都无需进行手动处理,他们唯一的管理工作的就是在容量不够的时候添加硬件和更换损坏的硬件,保证了A2000集群存储系统能够不间断地提供稳定的存储服务。

  易整合与易扩展

A2000集群存储系统支持现有的异构存储系统,利用最新的管理模块与传统存储结构实现无缝连接。同时,它也能够无缝兼容多种不同的操作系统。另外,A2000集群存储系统可以支持动态地扩展存储容量,即利用配置工具动态添加存储节点以扩大系统的容量和规模(期间无需中断任何应用),而且随着存储节点数据的增多,整套系统的聚合带宽也会线性的增长,实现自动负载均衡,完全可以满足业务不断发展所产生的容量和性能需求。

易管理

相关推荐