基于人工智能的存储设施可帮助企业充分利用数据

即将开播:4月29日,民生银行郭庆谈商业银行金融科技赋能的探索与实践

基于人工智能的存储使企业能够快速智能地分析数据,几乎即时提供洞察力。

如果将存储想像成自动驾驶汽车而不是劳动密集型的必需品,该怎么办?如果像自动驾驶汽车一样可以预测途中遇到的障碍,企业的存储基础设施是否可以预测其需求?

基于人工智能的存储设施可帮助企业充分利用数据

企业可以根据对新技术的承受能力和企业文化,可能已经在利用从应用程序的行为中学习,识别应用程序和配置中的异常,并使用该信息预测和预防问题的技术。

这些功能的核心技术是人工智能。事实上,人工智能的全面应用还需要一段时间,专家认为这不可能很快改变。麦肯锡公司最近的一项调查发现,如今将近一半的公司正在以某种方式使用人工智能技术,绝大多数公司预计,未来几年他们在人工智能方面的投资将增加。

当要满足当今的存储需求时,人工智能正变得至关重要。它使大量的数据能够被快速智能地分析,并有助于避免瓶颈、可用性问题和安全问题。基于人工智能的存储使IT人员可以将更少的时间花费在安全问题上,并提高基础一言堂的可用性和生产力。

HPEStorage公司产品营销总监David Wang表示,其目标是创建一个自主的、由人工智能驱动的几乎可以即时提供洞察的基础设施。

他说:“我们希望找到一个洞察力可以推动立即变化的地方。这是从内部部署、边缘计算一直到云计算的端到端人工智能管道的争论。”

从不同的角度看待问题

IBM公司存储市场营销总监Doug O'Flaherty说,人工智能改变了存储的任务,这意味着组织应该以不同的方式看待存储和数据。

他说:“必须停止将存储视为数据库或特定用例所需的东西,并考虑如何以不同的方式使用对不同部门数据的访问。如果企业可以让数据科学家或组织中负责跨部门工作的其他人员访问这些数据,那么就可以进入下一层数据分析,这实际上改变了存储的主要任务之一。”

除了进行更广泛的思考之外,重要的是采用一种以应用程序为中心的存储方式,而不是传统的以数据为中心的存储方式。

专注于分布式NoSQL数据库技术的Splice Machine公司首席执行官Monte Zweben解释说,“在这个大数据人工智能世界的1.0版本中,企业认为它们必须由数据驱动。因此,他们专注于将所有数据存储在存储库中以及该组中的所有人工智能工作人员。”

他说,这样做的结果是,这些数据池往往很快就变成了“数据沼泽”,主要是因为负责业务流程的人能够最好地使用这些数据,以及在这些业务流程中使用的应用程序被排除在外。

通过专注于应用程序而不是数据,企业将能够更好地将存储及其功能与业务相匹配。例如,处理大量索赔(业务流程)的保险公司将与负责索赔系统的专家和应用程序开发人员一起识别应用程序。通过将它们放在一起,他们可以最好地决定如何使用数据来创建智能的索赔处理系统。

他说:“这是使应用程序具有数据智能化,而不是试图收集所有数据,并将其提供给可能对索赔感兴趣的人。这是一个简单的想法,但它可以对企业如何操作人工智能产生深远影响。”

构建一个成功的基于人工智能的存储基础设施还意味着解决人工智能存储管道中三个不同阶段中的每一个阶段:数据摄取(从不同环境摄取和规范化数据,以便可以将其作为一个整体来看待),训练(使用机器学习来检查数据以了解其中的真正含义)和推理(提供见解的阶段)。

为了满足这些要求,存储基础设施必须能够支持非常高的容量、长期数据保留和高性能处理。换句话说,大规模的人工智能需要规模、保留和性能方面的能力。

Storage Switzerland公司首席分析师George Crump说,支持非常高的存储容量的能力至关重要。他说,由于获得人工智能的初始成本,组织很少删除用于训练人工智能工作负载的数据点。此外,这些数据集不遵循随着使用时间的增长而减少使用机会的典型数据访问模型。他补充说:“人工智能工作负载需要重新处理原始训练数据的可能性几乎为100%,因此整个数据集需要保持随时可访问。”

长期保存同样重要,尤其是随着存储量的增加而增加时。

O'Flaherty说:“我们的意思是,决策将由机器根据输入的数据做出。这意味着数据无法删除。它会继续增长。拥有的数据越多,应用人工智能的准确性和效率就越高。”

除了简单地存储更多数据之外,还必须存储更多类型的数据。其中包括有关数据(元数据)的数据,许多人认为,这些数据正成为最有价值的商品之一,尤其是在数据治理方面。

第三个要求是高性能处理。Crump说,“训练人工智能应用程序是一个反复的过程,提高准确性是一个反复训练的过程,调整人工智能算法,然后再进行训练。更新迭代进行得越快,开发人员制作模型的准确性就越高,从而增加了存储基础设施的压力。”

Crump说,大多数人工智能工作负载的关键是确保这些环境中标准的图形处理单元(GPU)保持尽可能满载运行。根据人工智能的工作量,Crump表示具有多个节点以及闪存和硬盘混合的横向扩展存储系统可能是有意义的。他说:“人工智能的工作负载往往是非常并行的,即使是使用硬盘,并行的横向扩展存储集群也可能会遇到挑战。”

利用人工智能

对于刚起步的企业来说,只需从系统中提取数据,并将人工智能方法应用于选定的数据集以寻找相关性,就可以简单地扩充现有的数据。不过,最终企业会想更深入。一旦将关键应用程序和系统捆绑在一起,要获得人工智能的真正好处,可能需要部署新的基础设施和接近数据的方式。

企业选择的基于人工智能的存储系统应具有智能,可以快速管理元数据,并在正确的存储类型上存储正确的数据。Crump说,如果企业选择在内部部署数据中心运行基础设施,则可以从全闪存存储系统开始,但是最终,迁移到闪存和硬盘混合环境是有意义的。通常,环境还将包括软件定义的存储,该存储可以自动执行环境之间的数据移动。

尽管某些组织倾向于将所有内容保留在内部部署数据中心,特别是那些具有敏感工作负载和合规性/数据治理问题的组织,但其他组织则可以从基于云计算的人工智能/存储环境中受益。

HPE公司Nimble Storage产品管理高级总监Rochna Dhand说:“由于需要共享的计算能力和数据,很多事情都在云平台中发生。从任何人工智能模型获得的结果的质量取决于可用于训练那些模型的数据的多样性和数量,因此使用从云平台中收集全球数据的系统非常有意义。”