重新思考计算存储:释放 SSD 的处理能力

作者 | 2025年4月8日 | 全部, 企业, 精选

几年前, 计算存储 业内人士对此进行了讨论,并称其为如何最大限度地提高 CPU 处理能力这一古老问题的潜在答案。这个想法乍一看似乎很有吸引力。想象一下,如果像 SSD 这样的存储设备能够真正处理其存储的信息,那么在存储和 CPU 之间移动的数据就会减少。理论上,它或许可以帮助节省电量,减少数据传输需求,并加快计算速度。  

然而,迄今为止,与许多看似革命性的想法一样,还没有办法将这一概念转化为商业应用,主要是因为每个用例都非常独特,而且根本不可扩展。  

当工程师和开发人员谈论计算存储时,他们常常会提出一些不切实际的想法:“如果我们能在硬盘上运行 Linux,只需给它配备更大的处理器,那会怎么样?” 虽然这个想法看似创新,但却缺乏重点和实际应用。这是一种被技术理想主义所驱动、过于复杂化的误导性思维。最终,它不会带来预期的收益。   

 

 

更智能的方法:定制加速

在群联电子,我们运用自身在 NAND 存储技术创新方面的知识,找到了一种更有效地将处理负担转移到固态硬盘 (SSD) 上的方法,那就是采用量身定制的加速方法,专注于存储设备最擅长的任务:将固定操作应用于逻辑块寻址 (LBA) 的范围。我们将专用加速器集成到固态硬盘 (SSD) 中,以处理那些不需要过多功耗或复杂性的特定任务。 

例如,我们创建了能够以极高速度执行特定操作的硬件加速器,例如对大型数据集进行资格审查、基于对象的纠删码、校验和验证,以及在信息到达 CPU 之前将其过滤掉。这使得数据处理速度更快、更高效,尤其是在数据中心或超级计算集群等高需求环境中。通过在 SSD 级别处理数据,您可以减少需要通过 PCIe 总线或网络传输的数据量,从而缓解拥塞、降低带宽限制并提高整体性能。 

这些加速器专注于高度专业化、被视为“猴子工作”的任务,能够在不增加大量成本或功耗的情况下带来显著优势。加速后的固态硬盘 (SSD) 能够以更快的速度处理大量数据,同时功耗低于传统处理器。更重要的是,这种方法可以扩展到多个硬盘,从而构建一个更高效的并行系统,性能远超传统的 CPU 密集型处理。 

主机 CPU 能够比单个 SSD 更快地完成上述所有任务,但总体 CPU 存在实际限制 动态随机存取存储器 可分配给非操作系统任务的带宽。此外,将数据从SSD迁移到DRAM会消耗CPU可用DDR带宽的大约一半。考虑到全闪存存储机箱可以配备30、60甚至90个SSD,这为设备提供了强大的卸载能力。配备90个第六代SSD的机箱可以以2.5 TB/秒的速度处理数据,而不会影响任何CPU资源。在这种情况下,SSD执行预过滤和预计算任务,而CPU则管理更重要的操作。 

 

 

HPC 和安全领域的新兴应用正在改变计算存储格局 

最近,群联电子 (Phison) 开始转型,寻找将部分 CPU 工作负载转移到 SSD 的新方法,这比定向加速器更进了一步。在某些情况下,该公司甚至在存储阵列中添加了 CPU 集群——但这里最大的区别在于,CPU 集群并非用于计算,而是用于实际运行 Web 服务或微服务。它们以额外的可寻址方式显示 CXL 服务 在 PCIe 总线上。 

以一个涉及大量流水线操作的人工智能项目为例。一个大型语言模型 (LLM) 生成数据并输出,然后另一个 LLM 接收并转换数据,再发送给另一个 LLM,如此循环往复。例如,TED 演讲的视频翻译就是一个例子,其中一个 LLM 提取英文音频并将其转换为文本,另一个 LLM 将文本翻译成中文,另一个接受过名人声音训练的 LLM 制作音轨,如此循环往复,直到最终输出的是一段全新的视频,视频中该名人用中文进行演讲,并同步进行唇语动作。  

这种复杂的操作涉及许多通常由 CPU 或 GPU 处理的细小步骤,并且需要大量的模型交换。为什么不使用 SSD 在后台执行这些细小步骤,同时使用主 CPU 将任务委托给这些加速器并执行其他更高级的任务呢?在高性能计算 (HPC) 组织中,这样做的效果可能令人印象深刻。  

高性能计算 (HPC) 集群拥有 100PB 的数据存储(包括双倍和三倍冗余)并不罕见,这意味着它们可以拥有 10 万个 SSD 来分担工作负载。突然之间,原本需要一两天才能完成的操作现在只需几秒钟即可完成。  

在大型 HPC 阵列中,SSD 数量众多,以至于 SSD 的带宽甚至超过了整个网络或 CPU 的带宽。正因如此,群联电子意识到 SSD 的智能化应用潜力巨大。  

HPC 用例主要关注速度和计算,而安全用例则关注安全,这些用例更多地涉及坚如磐石的 FIPS 140-3 兼容产品,它们提供的安全服务远远超出了 TPM 2.0 所能实现的范围。  

SSD 每秒可执行数百次加密操作,例如签名和验证——如果服务器拥有 30 到 90 个 SSD,处理能力也会相应提升。每个 SSD 都可以充当独立的硬件代理,并拥有可指向 HSM(硬件安全模块)服务器的信任根。所有这些 SSD 的性能加起来都超越了单个强大的 CPU,因为 CPU 并非设计为数字签名算法 (DSA) 引擎。多 SSD 的强大性能,加上服务器本身就已安装的硬件,在增强安全性方面具有巨大优势。  

 

 

通过具体性消除复杂性

虽然群联电子仍然认为传统的、通用的计算存储概念最终不会有任何进展,但我们确实看到了一些用例,表明另一种计算存储方法可以带来优势。专用加速器可以降低特定操作的复杂性。而固态硬盘 (SSD) 的海量板载带宽以及以新方式利用这种能力的潜在优势,或许在不久的将来就能催生出一些激动人心的应用。  

 

加速创新的基础™

zh_CN简体中文