SSD 在人工智能和机器学习中的作用

作者安迪·希金波坦姆 | 2023 年 7 月 17 日 | 人工智能, 全部, 企业, 精选

条款人工智能（AI）和机器学习 (ML) 在计算行业中的应用越来越多，但即使是经验丰富的 IT 从业者也可能无法完全了解支持这两种技术所需的计算和存储基础设施。本文研究了这个问题，并深入探讨了固态硬盘 (SSD) 如何实现最佳 AI 和 ML 结果。

什么是人工智能和机器学习？

理解人工智能和机器学习本质的第一步是要认识到它们不是同一件事。人工智能是关于创建能够像人类一样思考的软件。机器学习涉及让软件学习新概念，然后继续更好地掌握这些概念。它们是不同但相关且重叠的技术。

人工智能和机器学习也不是新想法。早在 1950 年，计算机梦想家艾伦·图灵就提出，机器可以像人一样思考。到 1959 年，人工智能先驱马文·明斯基正在对一个非常早期的人工智能程序进行麻省理工学院新生微积分考试。它过去了。电影为我们呈现了具有杀伤力的 HAL 9000 2001：太空漫游 以及同样致命的天网 终结者。这些例子值得一提，因为小说影响了我们思考人工智能和机器学习的方式，同时也造成了一些混乱。

幸运的是，我们还没有到达天网时代，但我们的世界充满了人工智能和机器学习的令人印象深刻的例子。其中大多数规模并不大，也不华丽，但对商业和我们日常生活的影响却丝毫不减。例如，机器人流程自动化（RPA）“机器人”可以使用人工智能来执行阅读电子邮件和填写表格等任务。机器学习驱动执法中的面部识别或医疗领域的癌症诊断等流程。

人工智能和机器学习如何工作？

虽然人工智能和机器学习编程有很多种，但从本质上讲，这两种技术都基于模式识别。在 RPA 电子邮件阅读示例中，机器人经过训练可以识别电子邮件中描述其内容的短语。包含“付款”或“逾期”字样的消息适用于会计部门。

该机器人还可以解析电子邮件签名并使用模式识别来确定消息是来自供应商（应付账款）还是客户（应收账款）。这种类型的功能在网络安全中也很有用，其中人工智能软件可以检查来自安全日志的数百万个数据点，并发现表明攻击正在进行的异常行为。

机器学习同样利用模式识别来更好地理解给定的知识领域。机器学习系统可以学习数据并不断变得“更聪明”，而无需遵循编程代码或特定规则。例如，机器学习算法可以“查看”一百万张树木和植物的图像。在某些时候，算法会教会自己辨别树和植物之间的区别。因此，人工智能和机器学习之间的本质区别在于，人工智能已经被教导如何发现模式，而机器学习仍在学习并更好地发现模式。

所有这些都需要处理大量数据。在某种程度上，人工智能和机器学习只是大数据范式的延伸。大数据和数据分析使得解释大型、多样化的数据集、发现视觉趋势并提出新的见解成为可能。人工智能和机器学习使这一过程更进一步。他们利用现有的大数据分析和数据科学流程，例如数据挖掘、统计分析和预测建模，以实现基于大数据的推理、决策和行动步骤。

实际上，人工智能和机器学习包含四个独立的流程，每个流程都涉及数据管理：

数据摄取——将多个来源的数据引入 Spark、Hadoop 和 NoSQL 数据库等大数据平台，这是 AI 和 ML 工作负载的基础
准备——使数据准备好用于人工智能和机器学习训练
训练——运行人工智能和机器学习软件程序的训练算法
推理——让 AI 和 ML 软件执行其推理工作流程

为什么 NAND 闪存存储对于 AI 和 ML 至关重要

大数据在人工智能和机器学习中的核心作用使得存储成为这些工作负载的关键成功因素。如果没有有效、灵活和高性能的存储，人工智能和机器学习软件将无法良好运行。或者至少，工作负载将无法充分利用计算和存储基础设施。

出于这些原因，NAND 闪存存储是支持 AI 和 ML 的理想存储介质。要了解原因，请考虑人工智能和机器学习四个阶段中每个阶段的存储要求。

在数据摄取时，人工智能正在摄取大规模、高度多样化的数据集，包括结构化和非结构化数据格式。数据可能来自广泛的来源。成功的摄取需要大量存储，可能以拍字节甚至艾字节为单位，而且还需要具有用于实时分析的快速层。与其他三个阶段一样，可靠性在这里至关重要。 NAND 闪存提供了可靠性和处理速度的最佳组合。

人工智能和机器学习的数据准备阶段意味着转换原始的、摄取的数据并对其进行格式化，以供人工智能和机器学习软件的神经网络在训练和推理阶段使用。文件输入/输出 (I/O) 速度在数据准备阶段非常重要。 NAND 闪存在此用例中表现良好。

人工智能和机器学习的训练和推理阶段往往是计算密集型的。它们需要将数据高速传输到软件中的训练模型中。这是一个迭代过程，需要多次停止和启动，如果存储资源不适合该任务，所有这些都会导致存储资源紧张。

SSD 如何助力 AI 和 ML 取得成功

规模为数据存储人工智能和机器学习项目所需的存储解决方案通常需要混合使用。分层方法通常是最好的，一些性能较低、成本较低的存储保存相关性较低的数据。然而，还必须有一个高性能层，其规模可能比大数据生态系统中通常存在的层更大。

这意味着在 AI/ML 存储环境的重要层部署 SSD。只有 SSD 才能提供支持在训练阶段输入 AI 和 ML 软件的大量数据快速移动所需的性能和延迟。随着流程转向推理，性能和延迟变得更加重要，尤其是在另一个工作流程中 AI/ML 系统的响应时间具有一定重要性的情况下。如果人们和其他系统正在等待缓慢的人工智能或机器学习系统完成其工作，那么每个人都会受到影响。

群联如何提供帮助

群联可定制SSD解决方案提供成功处理 AI 和 ML 工作负载所需的卓越性能和灵活性。鉴于 AI/ML 存储往往读取密集度高于写入密集度，群联科技成为唯一一家以超值价格针对读取密集型应用进行优化的 2.5 英寸 15.36 TB 7 毫米 SATA SSD 驱动器供应商。

正如在群联ESR1710系列，它提供了最高的机架存储密度和低功耗——这两者都是人工智能和机器学习所需的经济且高性能的存储的基本要素。群联 2.5 英寸 SATA SSD 的独特尺寸是全球同尺寸 SSD 中容量最高的，使其能够在单个 48U 机架中为 AI 和 ML 应用存储高达 13 PB 的数据。这种密度可以为人工智能和机器学习带来有利的存储经济性。

对于需要绝对的 AI/ML 应用最快的 PCIe Gen4x4 读写速度以及业界最低的功耗，群联现已推出 X1固态硬盘系列采用 U.3 外形尺寸，向后兼容 U.2 插槽，容量高达 15.36 TB。