对象存储适合AI和机器学习的三个原因!
即将开播:6月19日,互联网银行架构师魏生谈互联网开放银行实施路径的探索与思考
各种各样的企业在加快AI和机器学习项目,但要真正发挥潜力,需要克服重大的技术障碍。虽然计算基础架构常常是关注的重点,但存储同样重要。这三个主要的原因表明了为什么对象存储(而不是文件存储或块存储)特别适合AI和机器学习工作负载:
1. 可扩展性——有庞大且多样的数据源可供学习时,AI和机器学习最有效。数据科学家利用这些丰富的数据来训练领域模型。在“大数据的五个V”(容量、种类、速度、准确性和价值)中,前两个(容量和种类)最重要。简而言之,AI和机器学习依赖大量多样化的数据(图像、文本、结构化和半结构化数据),构建有用的模型、提供准确的结果并最终提供业务价值。
对象存储是最具扩展性的存储架构,特别适合支持AI和机器学习所需的大量数据。对象存储旨在通过横向扩展方法支持无限增长,使企业组织能够通过随时随地添加节点来扩大部署范围。由于对象存储使用单个全局命名空间,也可以同时跨多个地方进行这种扩展。另一方面,文件和块系统通常采用纵向扩展方法。这意味着这种平台通过为单个节点添加更多计算资源实现纵向扩展,这种方法最终受到限制。它们无法通过部署额外节点来增加计算资源以高效地横向扩展。
2. API——健壮灵活的数据API对于AI和机器学习很重要,如前所述,AI和机器学习使用多种类型的数据。存储平台需要支持API以容纳各种数据。此外,AI和机器学习方面的创新日益在公共云上完成,但是仍有相当一部分的AI和机器学习在本地或私有云中进行,这取决于使用场合的具体情况(比如说,科学研究和医疗保健等领域的容量密集型工作负载往往最适合私有云)。这意味着企业需要在公共云和本地/私有云中都支持工作负载的存储API。
文件和块存储平台在它们支持的API方面受到限制,部分原因是它们是较旧的架构。相比之下,对象存储使用云端更高级的API,这种API旨在以应用程序为中心,并支持比文件和块存储更广泛的API,包括版本控制、生命周期管理、加密、对象锁定和元数据。此外,支持AI和机器学习使用场景的新对象存储API(比如支持流数据和海量数据集的查询)也有可能。
由于对象存储API围绕Amazon S3实现了标准化,更容易整合本地和公共云中的软件。企业可以轻松地将部署的AI和机器学习从本地/私有云环境扩展到公共云,或者将云原生的AI和机器学习工作负载迁移到本地环境,功能不会减损。这种双模式方法使企业能够以合作、可互换的方式利用本地/私有云和公共云上的资源。
由于S3 API已成为对象存储事实上的标准,许多软件工具和库都可以充分利用该API。这允许共享代码、软件和工具,促进AI/机器学习社区更快速的开发。例子包括流行的机器学习平台,比如拥有内置S3 API的TensorFlow和Apache Spark。
3.元数据——与API一样,使用AI和机器学习的企业利用无限制、可自定义的元数据显得至关重要。元数据就是关于数据的数据——从最基本的层面上讲,某个数据何时在何地创建、创建者是谁。但是元数据可以描述更多信息:用户可以创建任意的元数据标签来描述他们需要的任何属性。
数据科学家需要丰富的元数据来查找特定数据以构建和使用AI和机器学习模型。随着更多信息添加到数据中,元数据注释便于逐步积累知识。
文件和块存储仅支持有限的元数据,比如上述基本属性。这在很大程度上归结为可扩展性,因为文件和块系统无力支持快速无缝的增长,如果存储系统为依赖庞大数据集的AI和机器学习应用程序支持丰富的元数据,自然会出现这种情况。然而,对象存储支持无限制的、完全可自定义的元数据,从而更容易找到用于AI和机器学习算法的数据,并从中获得更准确的信息。
以一家医院针对X射线图像使用图像识别应用程序为例:有了元数据,可以使用TensorFlow模型来分析添加到对象存储系统的每个图像,然后为每个图像分配细化的元数据标签(比如,伤病类型、基于骨骼大小或生长情况来判断患者的年龄或性别)。然后可以针对该元数据训练TensorFlow模型,并加以分析,对患者获得新的宝贵信息(比如说,二三十岁的女性比五年前更容易患骨骼疾病)。