重新思考運算儲存:釋放 SSD 的處理能力

作者 | 2025年4月8日 | 全部, 企業, 精選

幾年前, 運算儲存 引起了業內人士的討論,並被吹捧為如何最大限度提高 CPU 處理能力這一古老問題的潛在答案。這個想法乍看之下似乎很有吸引力。想像一下,如果像 SSD 這樣的儲存裝置實際上可以對其保存的資訊進行部分處理,那麼在記憶體和 CPU 之間移動的資料就會減少。從理論上講,它可以幫助您節省電力,減少資料傳輸的需求,並加快計算速度。  

然而,迄今為止,與許多看似革命性的想法一樣,還沒有辦法將這個概念轉化為商業應用,主要是因為每個用例都非常獨特,而且根本無法擴展。  

當工程師和開發人員談論計算儲存時,他們常常會提出一種不切實際的想法:「如果我們可以在驅動器上運行 Linux,並且給它配備更大的處理器,那會怎樣?」儘管這個想法看起來很有創意,但它缺乏重點和實際應用。這是一種過於複雜且受技術理想主義驅動的錯誤思維。最終,它不會帶來所希望的利益。   

 

 

更聰明的方法:客製化加速

在 Phison,我們利用我們在 NAND 儲存技術創新方面的知識來尋找將處理負擔轉移到 SSD 的更好方法,那就是採用量身定制的加速方法,該方法專注於存儲設備最適合的任務:將固定操作應用於邏輯塊尋址 (LBA) 範圍。我們將專用加速器整合到我們的 SSD 中,以處理不需要過多功率或複雜性的特定任務。 

例如,我們創建了硬體加速器,可以非常高的速度執行特定操作,例如限定大型資料集、基於物件的擦除編碼、校驗和驗證,以及在無關資訊到達 CPU 之前將其過濾掉。這使得資料處理更快、更有高效,特別是在資料中心或超級運算叢集等高需求環境中。透過在 SSD 層級處理數據,您可以減少需要透過 PCIe 總線或網路移動的資料量,從而緩解擁塞、減輕頻寬限制並加快整體效能。 

透過專注於被認為是「猴子工作」的高度特定任務,這些加速器可以在不增加大量成本或功耗的情況下提供顯著的效益。加速的 SSD 可以更快地處理大量數據,同時比傳統處理器消耗更少的電量。重要的是,這種方法可以擴展到多個驅動器,從而創建一個更有效率、並行化的系統,其效能優於傳統的 CPU 綁定處理。 

主機 CPU 能夠比單一 SSD 更快完成上述所有任務,但整體 CPU 有實際限制 動態隨機存取記憶體 可指派給非作業系統任務的頻寬。此外,將資料從 SSD 移至 DRAM 會消耗 CPU 可用 DDR 頻寬的大約一半。當考慮到全快閃記憶體機箱可以有 30、60 甚至 90 個 SSD 時,這為裝置提供了大量的卸載能力。配備 90 個 Gen6 SSD 的機殼可以 2.5 TB/s 的速度處理數據,而不會影響任何 CPU 資源。在這種情況下,SSD 執行預先過濾和預計算任務,而 CPU 管理更重要的操作。 

 

 

HPC 和安全領域的新興應用正在改變運算儲存格局 

最近,群聯電子開始轉變方向,尋找新的方法將部分 CPU 工作負載轉移到 SSD,這比有針對性的加速器更進了一步。在某些情況下,公司甚至會將 CPU 叢集新增至儲存陣列——但這裡的最大區別在於 CPU 叢集不是用於運算,而是用於實際運行 Web 服務或微服務。它們顯示為額外的可尋址 CXL 服務 在 PCIe 總線上。 

例如,考慮一個涉及大量管線的人工智慧專案。其中,一個大型語言模型 (LLM) 產生資料並輸出,然後另一個 LLM 獲取並轉換資料並將其發送到另一個 LLM,依此類推。其中一個例子是 TED 演講的視頻翻譯,其中一名法學碩士提取英文音頻並將其轉換為文本,另一名法學碩士將文本翻譯成中文,另一位接受過名人聲音訓練的法學碩士製作該音軌等等,直到最終輸出是該名人用中文發表演講並同步嘴唇動作的全新視頻。  

此複雜操作涉及許多小步驟,通常由 CPU 或 GPU 處理,並且需要大量模型交換。為什麼不能使用 SSD 在背景執行這些小步驟,同時使用主 CPU 將任務委派給這些加速器並執行其他更高層級的任務?在高效能運算 (HPC) 組織中,結果令人印象深刻。  

HPC 叢集擁有 100PB 的資料儲存(包括雙重和三重冗餘)的情況並不少見,這意味著它們可以擁有 100,000 個 SSD 來分散工作負載。突然之間,原本需要一兩天的操作現在只需幾秒鐘即可完成。  

在大型 HPC 陣列中,SSD 的數量非常多,以至於 SSD 的頻寬超過了整個網路或 CPU 頻寬。正是在這一點上,我們在群聯電子中意識到,SSD 具有巨大的未開發空間,可實現智慧操作。  

HPC 用例主要關注速度和計算,而安全用例則專注於安全,這些用例更涉及堅如磐石的 FIPS 140-3 相容產品,它們提供的安全服務遠遠超出了 TPM 2.0 所能實現的範圍。  

SSD 每秒可以執行數百個加密操作(如簽署和驗證),如果伺服器有 30 到 90 個 SSD,處理能力也會隨之提升。每個 SSD 都可以充當獨立的基於硬體的代理,具有可以指向您的 HSM(硬體安全模組)伺服器的信任根。總的來說,所有這些驅動器都超越了一個強大的 CPU 所能做的事情,因為 CPU 並不是設計為數位簽章演算法 (DSA) 引擎。多 SSD 功能,加上其硬體已安裝在伺服器中,在增強安全性方面具有巨大優勢。  

 

 

透過具體性消除複雜性

儘管群聯電子仍然認為傳統的、通用的運算儲存概念最終不會有任何成果,但我們確實看到了另一種運算儲存方法可以成為一種資產的用例。有針對性的加速器使特定的操作變得不那麼複雜。並且考慮到 SSD 的巨大板載頻寬以及以新方式利用這種能力的潛在好處,可能會在不久的將來帶來一些令人興奮的應用。  

 

加速創新的基礎™

zh_TW繁體中文