存储审查 最近与群联首席技术官 Sebastien Jean 坐下来讨论 PCIe Gen5。虽然完整的讨论范围从最近的 NAND 发展到供应链挑战,再到管理热量、ZNS 的优势以及内部开发 PHY,以下是经过编辑的摘录,重点介绍 Gen5 SSD 控制器的优势以及如何 群联 作为一家公司,发展成为 SSD 性能的主要参与者。
StorageReview:群联不仅仅是一家控制公司,对吗?
塞巴斯蒂安: 实际上,群联电子 (Phison) 是在大约 20 年前成立的,是最早生产 USB 驱动器的公司之一,从那时起我们就不断发展壮大,并扩展到存储设备市场的几乎每个领域。这包括 USB、SATA 或 NVMe,以及现有的各种卡格式:SD、Micro SD 等。我们还生产工业设备,并在医疗、航空航天和汽车领域提供解决方案。但我们最初是一家生产控制器和我们所说的模块(即功能齐全的 SSD)的小公司。
直到 E16,我们的客户正在推动 SSD 的要求,而我们则按照规格进行设计。但当我们过渡到 E16 时,我们意识到我们要么可以生产模仿产品,要么可以成为一家科技公司。这就是拐点发生的地方。我们决定,作为一家公司,我们希望成为领导者。这是我们的首席执行官和总裁有意识的决定。他们确定了我们要脱颖而出并继续发展的方法是观察趋势,然后达到那个高标准,并努力按时、按成本达到目标。这是观念上的微妙转变,却在整个公司掀起了波澜。
现在我们已经成长为一家$16亿的科技公司。所以我们不再认为自己是一家控制器公司,也不再认为自己是一家SSD公司。我们认为自己是一家专注于拥有下一代尖端 NAND 存储技术的公司。我们仍然根据客户的规格进行设计,但我们需要准备好技术来帮助他们将产品按时推向市场。
StorageReview:有时您会与三星、西部数据 (WD)、英特尔等其他大家都知道的大品牌相提并论。然后,勇敢的群联推出了这款 E18 控制器,并在市场上推出了一款 SSD,这可以说是目前高端客户端计算领域最好的 SSD 之一。我的意思是,这非常强大。 E18是怎么来的?
塞巴斯蒂安: 是的,但请记住,我们并不小。这些大公司中的大多数可能有两到三个从事 SSD 的工程团队。我们有 20 个。我们规模很大。只是没有人知道我们是谁,因为我们通过技术合作伙伴进行销售。
我们的第一个 Gen4 产品是 E16,运行速度约为 5 GB/s。这是我们与 AMD 合作开发的一款备受瞩目的产品。我们与他们一起进行了大量的现场测试,并且我们实现了非常短的开发周期。虽然只达到了5GB/s,但在当时已经非常成功了。它是市场上大约 18 个月内唯一的 Gen4 客户端,而下一个更快的驱动器仅达到 3.4 GB/s。
当我们开始开发 E18,我们知道我们必须做得更好。我们收集了有关 E16 的反馈,并研究了其他驱动器的性能。我们听取了评论者社区的意见并寻找总体趋势。我们还查看了我们在人们进行的各种测试中的排名。当然,我们也进行自己的测试。因此,有关性能和延迟的反馈并不令人意外,我们已将这些列入了改进的待办事项列表中。其中一项重要任务是改进我们的低队列深度处理。这需要对整个前端命令处理管道进行大规模审查,以找到每一个小的空闲延迟,然后将其挤出。找到这些微秒和皮秒延迟,然后重新设计硬件以消除它们,是一项巨大的工程工作。
这基本上就是 E18 诞生的原因。我们将它与当时最快的 NAND 结合起来,我认为是美光 B27、美光 B47 或 B48。对细节的认真关注使我们的 E18 取得了真正的成功。
StorageReview:对于使用 E18 这样的控制器组的客户来说,除了散热器等美学以及客户端驱动器世界中的此类事物之外,他们还能在哪里脱颖而出?
塞巴斯蒂安: 我们可以做一些事情,比如改变 过度配置。您可以使用一些旋钮来打开 SSD,这些旋钮会权衡功能以满足客户需求。例如,您可以增加预留空间或更改缓存策略,即刷新缓存之前等待的时间。
另一种选择是在缓存中保留多少残留数据,以减少写入放大并改善延迟,但代价是减少突发长度。一种策略是保留最后写入的 100 MB 数据写入驱动器,因为最近写入的数据也最有可能失效。因此,如果您只是将其保留在 SLC 缓存中并且不将其刷新到 TLC 或 QLC,那么您可以通过增加块失效来潜在地减少写入放大器并提高持续性能。
减少写入放大可延长驱动器寿命。但是,如果您获得突发活动,则您已预先消耗了 100 MB,因此您的突发活动可能会比其他设计更快到达缓存末尾。因此,我们可以在驱动器上做很多权衡,这实际上取决于我们的客户想要什么。
我们还可以针对完全不同的工作负载进行优化,就像我们已经开始开发一个固件 游戏2.0 以及随后出现的产品,例如 Microsoft Direct Storage。您将看到的工作负载之一是所谓的 64K 纹理流,尽管它不应该与 4K 电视之类的东西混淆,它实际上只是文件大小。大多数游戏卡上纹理文件的自然粒度是 64K,因此游戏开始及时提取纹理,而不是通过 CPU 存储和 DRAM 堆栈。 GPU 将开始将 SSD 视为一个巨大的缓存。这就是 Gen4 和 Gen5 的用武之地。
StorageReview:作为 Gen5 的一部分,您能谈谈 E26 是如何诞生的吗?
塞巴斯蒂安: 最初,我们的企业故事专注于升级高端客户端控制器。因此E12成为E12 DC,用于数据中心,这是企业的最底层。此类驱动器适用于基本上需要稳定状态性能和一致延迟,但并不真正关心任何其他企业功能的人们。
但从大约两年前开始,我们决定投入并将所有精力投入到下一个增长领域。因此我们设计了 X1 控制器,这是一款非常高端的企业控制器。它支持 Gen4x8,这意味着整个数据路径可扩展至 14 GB/s。例如,它非常适合 EDSFF。这种外形规格最多可支持 8 个通道,但今天的重点是 Gen4x4。在我们开始设计时,并不知道市场的走向,因此我们对 X1 设定了很高的目标。
这是群联首个专用企业 ASIC。该架构现在已成为我们所有高端控制器的基础。即将推出的 E26 就属于这一类。它的内部设计与X1非常相似,不同之处在于前端有Gen5接口,后端有8个NAND通道,而不是16个。
当我们想出 E26 我们问自己,如果我们只专注于企业架构,Gen5 是否有足够的市场?我们的结论是,企业市场仍在兴起。我们还研究了客户端市场,并考虑了基于 E18 但带有 Gen5 的产品。考虑到预期的初始市场规模,这也很难证明是合理的。因此,我们决定使用企业架构,但关闭对客户端世界没有意义的功能,并将芯片应用到尽可能多的细分市场。这就是 E26 的由来。
StorageReview:让我们进入 Gen5。从 Gen4 到 Gen5,E26 产品能为您带来什么?实现这一目标面临哪些挑战?
塞巴斯蒂安: 首先我要说的是 Gen5 的运行速度与 DDR4 相同。我的意思是,DDR4 有一系列速度,但如果你看看 DDR4 的低端,那就是 Gen5。它们大致相同。因此,这是您第一次拥有能够以与 DDR 相同的速度或相同的速度范围与 CPU 交互的 SSD。现在,SSD永远不会取代DDR,因为DDR具有超低延迟,并且可以以非常小的粒度进行寻址。而从功能上来说,无论 LBA 大小是多少,SSD 都以 4K 粒度工作,并且可以更好地处理较大的命令或较深的命令队列。
但 Gen5 对客户端和企业领域的意义在于,SSD 正在迅速变得类似于三级或四级缓存,具体取决于您正在考虑的架构。它与 CPU 相距相当远,但仍然处于 CPU 期望 DRAM 达到的疯狂速度范围内。然而,四年前,SSD 的速度可能为 2 到 3 GB/s,而且这是假设您使用的是 NVMe SSD。如果您有 SATA SSD,则速度为 600 MB/s。但现在我们谈论的是运行速度为 14 GB/s 的 SSD。
通过将 SSD 视为四级缓存,CPU 架构自然希望能够使用更长的缓存线。随着 CPU 将数据从四级缓存一直迁移到一级,其缓存线会变得越来越短,直到与 DRAM 粒度保持一致。这意味着您不再需要在系统中放置大量 DRAM 来运行 AI 和机器学习应用程序。
如果您要购买 8 TB DDR,并实际将其安装到可用的 DIMM 插槽中,则需要花费 $64,000。如果你现在想要一个 8 TB SSD,价格大约是 $1400。这就是你所看到的。您可以使用 8 TB DRAM 做很多事情。如果您的计算空间确实需要 8 TB DRAM,那么这就是您需要放入系统中的空间。但在大多数情况下,您的活动数据集要小得多,并且您使用 DRAM 来避免存储延迟。如果您现在可以以接近 DRAM 的速度从四级缓存获取数据,那么现在可以用 $64,000 的 DRAM 来换取 $1400 的 SSD。而这只是一块 SSD。大多数企业系统可以容纳许多 SSD。 24 并不罕见,因此您可以拥有 PB 级的数据,并且可以以几乎 DRAM 的速度进行访问。然后只需将您需要的数据子集动态加载到大小合理的 DRAM 池中即可。这极大地增加了人工智能可以通过机器学习和其他类型的模型使用的功能数据集。
如果您将 SSD 视为四级缓存,则无需受到 XL 或 Z-NAND 之类的阻碍。您可以使用以 Gen5 速度运行的传统 SSD,并在降低成本方面获得巨大优势。我相信 TLC 甚至 QLC 在这个领域的到来将会击中人们一直在寻找的内存涅槃,它有点像 DRAM,但便宜得多。如果流程主要是读取密集型,就像许多数据分析工作负载一样,那么 QLC 将工作得很好。特别是在那些高密度下。因为有如此多的 NAND 芯片可以并行激活,所以你不会看到 QLC 延迟,这将使驱动器更便宜。它不会是 $1400。会比这个少。
StorageReview:群联如何管理客户端 SSD 需求和关注点与企业级 SSD 之间的双重性,因为它们是如此不同?很难想象未来 18 个月内会有很多客户端系统真正需要 Gen5 SSD。
塞巴斯蒂安: 我的看法是,至少,您的加载时间将会得到改善。他们会更快。所以那里有一个直接的好处。随着游戏、操作系统和大型应用程序技术公司(例如 Adobe 或其他大型公司)调整其应用程序以使用这种速度,剩下的部分将会实现。
这又回到了我之前所说的,SSD 现在变成了 DRAM 辅助模块,就像四级缓存一样。从操作系统的角度来看,这意味着您不必在开始执行实际工作之前将所有内容加载到 DRAM 中。因此,您的启动时间将会更快,并且一切都将转向即时加载。
系统中 DRAM 的数量可能会减少,这有助于降低成本、降低功耗并延长电池的使用寿命。电池供电设备上三个最大的电量消耗者是屏幕、DDR 和 CPU。因此,减少 DRAM 的数量可以减少发热量、减少冷却,使设备变得更小,并使电池的使用寿命更长。通过非常快速的 SSD 及时加载所有内容意味着您的 PC 体验将与手机上的体验更加相似。
Gen5 的另一个预期好处将是游戏纹理流。可能还需要几年的时间。但这有点像“先有鸡还是先有蛋”的问题。该技术必须先实现,然后才能设计成更高级的上游产品。这就是我们正在做的事情。未来普通消费者是否需要 Gen5 SSD?不,可能不会。但超级玩家会想要一个吗?绝对地。