SSD 的未來 – 第二部分

NVMe、SCM產品、適合3.5英寸托架的SSD和計算存儲

作者塞巴斯蒂安·讓 | 2021 年 6 月 28 日 | 全部, 技術

我希望您有機會閱讀我的文章第一部分博客文章存儲級內存、MRAM、大容量固態硬盤。第二部分繼續介紹正在改變存儲格局的其他 SSD 技術。一如既往，群聯隨時為您提供幫助！

您認為 NVMe 何時會取代 SATA，Gen4 何時會佔據主導地位？

在許多方面，這兩個變化都已經在客戶端發生了。 SATA 接口持續了很多年，因為價值配置主要集中在 HDD 上，而 HDD 只能通過 SATA 接口來實現。儘管沒有技術原因阻止 300-600 MB/s HDD 採用 Gen3x2 PCIe 接口。 SSD的價格已經下降到2019年超過75%的筆記本電腦配備了SSD。減輕重量、提高電池壽命和機械保修問題方面的優勢超過了低價HDD帶來的任何節省。價值層可能會在 PCIe Gen3x4 上停留幾年，但主流和高端層正在廣泛採用 Gen4x4。

目前，企業領域的 PCIe SSD 銷量高於 SATA SSD，但目前 SATA 可能還會繼續存在 4-8 年。企業的更新周期通常為 4 年，並且 SATA 已經擁有非常大的安裝基礎。需要更快速度的組織已經轉向 Gen3 NVMe。隨著時間的推移，基於 SATA 和 SCSI 的設備將變得越來越不常見。企業 Gen3 安裝基礎預計將在今年開始大規模遷移到 Gen4，但遷移將是漸進的。我們預計 Gen3 在該領域的銷售將再持續 4 年。這就是為什麼我們用市場上具有最低 IOPS/瓦特的新型 FX 控制器更新了廣受歡迎的 E12 控制器。

群聯如何看待存儲級內存？

SSD 很容易集成到 PC 和數據中心存儲中，因為它們與現有基礎設施 100% 兼容。這適用於服務器機箱、PC 機箱、筆記本電腦、BIOS、操作系統和應用程序。最初的部署無法充分利用 SSD 的特性，但用戶在切換時確實看到了立竿見影的好處，因為功耗更低、順序速度更快、魯棒性更高。

另一方面，SCM 通常作為 NVDIMM 在 DDR 總線上實現。現有應用程序在不進行重大更改的情況下無法利用非易失性方面，因為它們被設計為將 DDR 視為易失性。這使得 SCM 脫離了簡單的採用道路。將 SCM 置於 NVMe 接口後面解決了向後兼容性問題，但當前的 SSD 已經使 PCIe 總線飽和。使用 SCM 作為存儲的唯一好處是它具有較低的單個命令延遲。事實證明，很少有應用程序能夠利用 SSD 現有的延遲增益。因此，您最終得到的 SSD 價格要貴得多，並且對大多數應用程序沒有任何真正的好處。我們確實相信SCM在SSD中佔有一席之地，但它並不是作為主存儲。

群聯在計算存儲方面做了什麼？

我們已經擁有一種非常成功的計算混合設備：智能 NIC。它們將高速 NIC（典型值 10 GB/s）與強大的 CPU 或 FPGA 結合在一起。雖然這種組合適用於 NIC，但它不適用於存儲。原因很簡單。 NIC 的智能部分正在處理已經通過 NIC 傳遞到主機的數據。當智能 NIC 能夠處理流經的數據時，或者當智能 NIC 能夠繞過主機 CPU 直接訪問機箱內的資源來服務請求時，智能 NIC 就能很好地工作。

計算存儲的典型價值主張如下：SSD 更接近數據——它釋放總線帶寬並減輕主機 CPU 的負擔。從表面上看，計算存儲似乎很容易銷售，但事實並非如此。

1. 首先，如今的 SSD 已經使用 100% 的資源和功率預算來服務其主要功能。在許多情況下，高密度企業級 SSD 必須限制性能以避免超出其功率或冷卻預算。

2. 其次，SSD 通常使用小型 CPU 內核，遠不及主機 CPU 或 GPU 的功能。第三，這個實驗在計算存儲成為流行詞之前就已經嘗試過了。一家公司嘗試將 GPU 和 SSD 結合起來，但該解決方案最終降低了這兩種技術的性能。為了滿足 GPU 的要求，SSD 必須運行得非常快，並給 GPU 增加大量的熱負載。 GPU 比 SSD 熱得多，並且對 NAND 造成了很大的保留壓力。

3. 最後，SSD 是一種消耗品，具有有限的寫入帶寬，而 GPU 可以無限期地運行，直到被淘汰。最後一點造成了難以解決的保修問題。

採用不同的方法，我們可以直接在 SSD 上添加更強大的 CPU，但我們會遇到 RAM 限制。如今，大多數企業級 SSD 都保持著 1000:1 的 NAND 與 DDR 比率。 SSD每次4K LBA轉換只需拉取幾個字節，因此DDR帶寬要求相對較低。這意味著 SSD 可以使用速度較慢的 DRAM，從而降低整個模塊的成本。向 SSD 添加更大的來賓 CPU 以及用於應用程序的更多 DDR，會降低 SSD 向主主機提供 IO 的主要作用的可用功率。它還會增加 SSD 成本，但不會按比例提高計算能力。 SSD PCB 也相當小，因此添加更多組件意味著 NAND 的空間更少。

然後是數據可靠性的普遍問題。所有硬件最終都會失敗，但大多數組織都無法容忍數據丟失（即：想像一下帶有您帳戶餘額的銀行數據庫）。為了防止這種類型的故障，數據通常跨多個單元 RAID 集進行條帶化，因此沒有一個 SSD 會看到完整的數據集。我們可以改變存儲的使用方式，確保每個 SSD 始終看到完整的數據元素，並使用完整復制來確保冗餘。這種方法不太可能流行，因為如果只有一個 SSD 包含當前所需的數據，則該模型在共享存儲帶寬方面效果不佳。 RAID 條帶通過交錯訪問來解決此問題，以便每個後續客戶端在當前客戶端之後不久啟動。我們可以通過跨多個單元實現複製來擴展模型，其中每個 SSD 都具有數據集的完整副本，但隨後我們必須添加查找和負載共享機制。與簡單的 RAID5 或 RAID6 相比，複製的存儲佔用空間也大得多。簡而言之，我們今天使用存儲的方式具有成本效益、易於部署並且適用於大多數場景。完全改變存儲基礎設施相當於增加一些服務器 CPU 是很難證明是合理的。

儘管通用計算存儲有缺點，但在某些特定情況下它確實有意義。當存儲用例反映智能 NIC 的獲勝案例時，就會發生這種情況。也就是說，當數據在設備中移動時，SSD 只需要處理一次。我們可以將加密和壓縮與計算存儲聯繫起來，但這是一個延伸。使用非常簡單的算法將這兩個用例定義為內聯或流式數據處理更為準確。

群聯和我們的一位客戶開發了一款產品，我們發現了非常適合 SSD 的計算存儲應用程序。它不需要大量內存或 CPU 功率，並且不會干擾 SSD 的主要用途（存儲 IO）。我們正在開發一種安全產品，它使用機器學習來尋找數據受到攻擊的跡象。它可以識別勒索軟件和其他未經授權的活動，而不會對 SSD 性能產生明顯影響。

其他類型的計算存儲工作負載又如何：即時加密/壓縮/重複數據刪除？

這三種工作負載可以與計算存儲相關聯，儘管它們比這個流行詞早了幾十年。如上所述，SSD 很容易處理流式工作負載，但搜索和後處理效率較低。

加密和壓縮屬於流媒體類別。群聯爲我們的 Opal 和 FIPS 140-2 SSD 產品提供即時加密。壓縮很容易在 SSD 上實現，並且與流媒體模型概念保持一致，但鑑於大多數批量數據（照片、視頻或音樂）已經完全壓縮，它提供的好處有限。有大量數據集可以從壓縮中受益，但用例相對不常見，因此它往往被降級為專用服務器設備。

重複數據刪除打破了流媒體模型，原因如下：

1. 需要大量內存來跟踪每個扇區的哈希值，但 SSD PCB 沒有空間容納更多 DRAM

2. SSD 已經成為數據中心環境中的全部任務，因此所有用於搜索的工作都會被主機 IO 佔用。

讓 SSD 執行搜索的唯一真正好處是稍微減少 PCIe 總線傳輸時間並減少主機 CPU 上的負載。相反，由於更高的計算要求和額外的 DRAM，SSD 的成本必須上升。其有功功率也必然要上去。對於確實需要重複數據刪除的組織，最好使用備用系統資源來解決這個問題，尤其是在人們睡覺時，而不是在 SSD 成本上增加 10-20%。

群聯如何幫助品牌客戶的產品脫穎而出？

群聯爲我們的合作夥伴提供按需工程服務。每個公司對於 SSD 優先考慮哪些方面都有不同的想法。我們配置我們的產品以滿足他們的要求。一些客戶關注價格，另一些客戶想要低功耗，還有一些客戶仍然追求高端性能。這對雙方來說是雙贏，因為群聯可以專注於工程設計，而我們的客戶可以專注於銷售驅動器。這種分工通過將開發成本分散到許多銷售組織來降低群聯的業務風險。我們的合作夥伴只需為他們正在使用的工程服務付費，而無需承擔維護大型工程師團隊的持續運營費用，從而降低了總體風險。如果他們向市場提供的產品賣不出去，他們可以通過訂購不同的配置來快速適應