重新思考運算儲存：釋放 SSD 的處理能力

作者塞巴斯蒂安·讓 | 2025年4月8日 | 全部, 企業, 精選

幾年前，運算儲存引起了業內人士的討論，並被吹捧為如何最大限度提高 CPU 處理能力這一古老問題的潛在答案。這個想法乍看之下似乎很有吸引力。想像一下，如果像 SSD 這樣的儲存裝置實際上可以對其保存的資訊進行部分處理，那麼在記憶體和 CPU 之間移動的資料就會減少。從理論上講，它可以幫助您節省電力，減少資料傳輸的需求，並加快計算速度。

然而，迄今為止，與許多看似革命性的想法一樣，還沒有辦法將這個概念轉化為商業應用，主要是因為每個用例都非常獨特，而且根本無法擴展。

當工程師和開發人員談論計算儲存時，他們常常會提出一種不切實際的想法：「如果我們可以在驅動器上運行 Linux，並且給它配備更大的處理器，那會怎樣？」儘管這個想法看起來很有創意，但它缺乏重點和實際應用。這是一種過於複雜且受技術理想主義驅動的錯誤思維。最終，它不會帶來所希望的利益。

更聰明的方法：客製化加速

在 Phison，我們利用我們在 NAND 儲存技術創新方面的知識來尋找將處理負擔轉移到 SSD 的更好方法，那就是採用量身定制的加速方法，該方法專注於存儲設備最適合的任務：將固定操作應用於邏輯塊尋址 (LBA) 範圍。我們將專用加速器整合到我們的 SSD 中，以處理不需要過多功率或複雜性的特定任務。

例如，我們創建了硬體加速器，可以非常高的速度執行特定操作，例如限定大型資料集、基於物件的擦除編碼、校驗和驗證，以及在無關資訊到達 CPU 之前將其過濾掉。這使得資料處理更快、更有高效，特別是在資料中心或超級運算叢集等高需求環境中。透過在 SSD 層級處理數據，您可以減少需要透過 PCIe 總線或網路移動的資料量，從而緩解擁塞、減輕頻寬限制並加快整體效能。

透過專注於被認為是「猴子工作」的高度特定任務，這些加速器可以在不增加大量成本或功耗的情況下提供顯著的效益。加速的 SSD 可以更快地處理大量數據，同時比傳統處理器消耗更少的電量。重要的是，這種方法可以擴展到多個驅動器，從而創建一個更有效率、並行化的系統，其效能優於傳統的 CPU 綁定處理。

主機 CPU 能夠比單一 SSD 更快完成上述所有任務，但整體 CPU 有實際限制動態隨機存取記憶體可指派給非作業系統任務的頻寬。此外，將資料從 SSD 移至 DRAM 會消耗 CPU 可用 DDR 頻寬的大約一半。當考慮到全快閃記憶體機箱可以有 30、60 甚至 90 個 SSD 時，這為裝置提供了大量的卸載能力。配備 90 個 Gen6 SSD 的機殼可以 2.5 TB/s 的速度處理數據，而不會影響任何 CPU 資源。在這種情況下，SSD 執行預先過濾和預計算任務，而 CPU 管理更重要的操作。

HPC 和安全領域的新興應用正在改變運算儲存格局

最近，群聯電子開始轉變方向，尋找新的方法將部分 CPU 工作負載轉移到 SSD，這比有針對性的加速器更進了一步。在某些情況下，公司甚至會將 CPU 叢集新增至儲存陣列——但這裡的最大區別在於 CPU 叢集不是用於運算，而是用於實際運行 Web 服務或微服務。它們顯示為額外的可尋址 CXL 服務在 PCIe 總線上。

例如，考慮一個涉及大量管線的人工智慧專案。其中，一個大型語言模型 (LLM) 產生資料並輸出，然後另一個 LLM 獲取並轉換資料並將其發送到另一個 LLM，依此類推。其中一個例子是 TED 演講的視頻翻譯，其中一名法學碩士提取英文音頻並將其轉換為文本，另一名法學碩士將文本翻譯成中文，另一位接受過名人聲音訓練的法學碩士製作該音軌等等，直到最終輸出是該名人用中文發表演講並同步嘴唇動作的全新視頻。

此複雜操作涉及許多小步驟，通常由 CPU 或 GPU 處理，並且需要大量模型交換。為什麼不能使用 SSD 在背景執行這些小步驟，同時使用主 CPU 將任務委派給這些加速器並執行其他更高層級的任務？在高效能運算 (HPC) 組織中，結果令人印象深刻。

HPC 叢集擁有 100PB 的資料儲存（包括雙重和三重冗餘）的情況並不少見，這意味著它們可以擁有 100,000 個 SSD 來分散工作負載。突然之間，原本需要一兩天的操作現在只需幾秒鐘即可完成。

在大型 HPC 陣列中，SSD 的數量非常多，以至於 SSD 的頻寬超過了整個網路或 CPU 頻寬。正是在這一點上，我們在群聯電子中意識到，SSD 具有巨大的未開發空間，可實現智慧操作。

HPC 用例主要關注速度和計算，而安全用例則專注於安全，這些用例更涉及堅如磐石的 FIPS 140-3 相容產品，它們提供的安全服務遠遠超出了 TPM 2.0 所能實現的範圍。

SSD 每秒可以執行數百個加密操作（如簽署和驗證），如果伺服器有 30 到 90 個 SSD，處理能力也會隨之提升。每個 SSD 都可以充當獨立的基於硬體的代理，具有可以指向您的 HSM（硬體安全模組）伺服器的信任根。總的來說，所有這些驅動器都超越了一個強大的 CPU 所能做的事情，因為 CPU 並不是設計為數位簽章演算法 (DSA) 引擎。多 SSD 功能，加上其硬體已安裝在伺服器中，在增強安全性方面具有巨大優勢。