如何创建和开发AI数据平台?收下这5大关键要素

分析,人工智能和机器学习继续广泛地深入到面向数据的行业,为企业和研究机构带来机遇。然而,人工智能提高业务绩效和竞争力的潜力需要不同的方法来管理数据生命周期。以下是创建和开发AI数据平台时需要考虑的五个关键要素,这些平台可以确保提供更好的答案,更快的价值和更快的扩展能力。

如何创建和开发AI数据平台?收下这5大关键要素

饱和你的AI平台

考虑到企业对基于GPU的计算系统的大量投资,数据平台必须能够使机器学习系统在整个吞吐量,IOPS和延迟上保持饱和状态,从而消除此资源利用率不足的风险。

饱和度I/O意味着消除应用等待时间。就存储系统而言,这需要根据应用行为采取不同的适当响应:当从数据仓库区快速增加GPU时,启用GPU的内存数据库的启动时间较短。GPU加速分析需要大量线程数量,每个线程都可以低延迟访问小块数据。针对分类,对象检测和分割的基于图像的深度学习可从高流量带宽,随机访问和快速内存映射调用中受益。与此类似,用于文本/语音分析的循环网络也受益于高性能随机小文件访问。

建立大规模的摄取能力

对存储系统的摄取意味着写入性能和应对大规模分布式源的并发流。成功的AI实现从数据中提取更多的价值,但也可以收集越来越多的数据,以应证其能力。系统应该提供平衡的I/O,执行写的速度和读取速度一样快,同时还有高级的并行数据放置和保护。增加和改进采集的数据源可以在任何级别满足,同时服务于机器学习计算平台。

灵活和快速访问数据

AI的灵活性意味着处理数据的可操作性。随着支持人工智能的数据中心从最初的原型设计和测试转向生产和规模,灵活的数据平台应提供在多个领域独立扩展的方法:性能,容量,摄取能力和对数据科学家的响应能力。这种灵活性还意味着在不中断的情况下扩展名称空间,消除数据副本和增长阶段的复杂性。不管数据格式的选择如何,选择AI的的企业灵活性也表明了良好的性能。

规模简单而经济

一个成功的AI程序可以从几TB的数据开始,然后上升到PB。虽然闪存应该始终是实际人工智能训练数据的媒介,但在闪存上保存数百TB或PB数据在经济上是不可行的。备用混合模式可能会受到数据管理和数据移动的限制。将全闪存阵列与单独的基于HDD的数据湖相结合的松散耦合架构为高效管理热数据提供了复杂的环境。

整合和数据移动技术是关键。从闪存部署开始,然后根据需求选择扩展策略;或者仅使用闪存进行缩放,或者与深度集成的HDD池结合使用,从而确保数据在大规模透明和本地移动。

选择了解整个环境的合作伙伴

由于向应用提供性能至关重要,而不仅仅是存储能够访问数据的速度有多快,集成和支持服务必须跨越整个环境,从而实现更快的结果。这强调了与真正理解环境的每个方面的提供商合作的重要性。从容器,网络和应用一直到文件系统和闪存。根据你的工作流程和增长方向对专家平台进行调整,对于消除人工智能价值路径中的障碍以及从数据中提取更多洞察力至关重要。

新的AI数据中心必须进行优化,以便从数据中提取最大价值——即摄取,存储和转换数据,然后通过超密集分析工作流程提供数据。这就要求数据平台不受协议或文件系统的限制,也不需要在规模上花费过多的解决方案。选择用于帮助加速分析和机器学习的任何AI数据平台提供商都必须具备深厚的专业知识,才能处理数据集和I/O,远远超过标准解决方案的功能,而且手头有现成的工具可以在规模上创建紧密集成的解决方案。

相关推荐