科学新闻：通过混合云和对象存储缓解数据重力

2021-10-22 07:48:44 来源：用户：

如今，家长非常关注科学教育，国内外的科学教育都成为了很多家长关注的问题。既然现在大家都很关注科学教育，边肖今天就给大家推荐一些与科学教育相关的文章分享一下。如果你感兴趣，你可以仔细阅读以下内容。我们生活在一个数据驱动的世界。成功的领先公司已经掌握并实施了从持续收集的所有数据中提取洞察力和智能的过程。数据的使用带来了商业模式的巨大变化，人工智能是将所有这些数据提炼为可行见解的主要技术。

ML/DL依赖于训练和推理，两者都需要快速执行，大数据集可以顺利通过流水线。随着训练数据集的增长，这些算法的性能会变得更好、更准确。

根据Gartner [1]“机器学习和AI程序的成功取决于安排有效的数据管道，这些管道在AI管道的不同阶段及时以正确的格式提供高质量的数据。”为了支持人工智能的数据密集型需求，该公司需要一个可靠的存储解决方案，该解决方案在数据管道的所有阶段(从摄入到培训和推理)都进行了优化。

IDC最近的一项调查[2]确定了人工智能部署的主要挑战，即处理海量数据以及相关的质量和数据管理问题。保持分布式数据集的高数据质量以防止偏差和不正确的模型构建并不容易。

随着越来越多的海量数据集出现在人工智能实现中，令人欣喜的数据集也有了自己的动态和挑战。在实现人工智能管道的位置来回移动数据工作负载变得不切实际和/或成本高昂。相反，数据保存在一个中心位置，相关的人工智能管道(即应用程序堆栈)根据需要放大。这就是所谓的数据引力。

混合云

本地基础设施和公共云都用于支持人工智能程序。云计算领域的一端是在云中创建的云原生公司。另一类是投资于本地基础设施的组织，倾向于在数据中心或边缘位置附近运行人工智能管道任务。重力对AI阶段的执行位置影响很大。

虽然云服务提供商(CSP)可以通过灵活计算和相关服务满足AI工作负载，但数据引力是本地实现的驱动因素，使得混合云两全其美。IDC的发现支持了这一点，即公有云在AI模型和工作负载部署方面处于领先地位，其次是本地私有云部署。混合架构允许公共云用于其人工智能知识和弹性功能，同时支持跨边界无缝访问的本地数据存储。

AI和ML/DL针对不同的数据类型进行训练，需要不同的性能。因此，系统必须包含正确的存储技术组合。混合架构可以同时满足规模和性能要求。

对象存储

对象存储是AI的首选技术，因为：(a) AWS S3 API用于私有云和公共云存储之间的无缝访问；本地元数据标记功能；以及(c)无限扩张。

对象存储技术是由CSP不必要地发明的。早在2006年，AWS简单存储服务(S3)作为第一个对象存储实施而推出。AWSS3应用编程接口已经成为事实上的标准。因此，对象存储本质上与AWS S3 API兼容，这使得它成为进出公共云的正确跳板，从而成为混合AI部署的基础。再次根据定义，元数据标签被烘焙到对象存储中，这使得它们与AI中常用的数据分割和索引工作流完美匹配。人工智能的海量数据集以其固有的无限云级对象存储而闻名。

AI数据集通常达到PB级别，其性能要求可能会让整个基础设施难以承受。因此，AI不适合在传统基础设施上运行，传统基础设施面临挑战，无法满足规模、灵活性、计算能力、性能和数据管理的需求。

当处理这样的大规模训练和测试数据集时，解决存储瓶颈(延迟和/或吞吐量问题)和容量限制/障碍是成功的关键因素。AI/ML/DL工作负载需要能够保持数据在管道中流动的存储体系结构，并且具有出色的原始I/O性能和容量扩展能力。

该解决方案可以使用经典的两层体系结构来实施，其中一层专用于高性能闪存，第二层提供可扩展的对象存储。它通常被实现为两个独立的存储服务器集群来传输数据，为AI火箭加油和加速。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！