計算ストレージの再考:SSDの処理能力を解き放つ

Author | 2025年4月8日 | 全て, 企業, 特徴

数年前、 計算ストレージ 業界関係者の間で議論され、CPUの処理能力を最大化する方法という長年の疑問に対する潜在的な解決策として大いに期待されました。一見すると、このアイデアは魅力的に思えました。SSDなどのストレージデバイスが、実際に保持している情報の処理の一部を担うことができれば、ストレージとCPUの間で移動するデータ量が減ります。理論的には、電力消費を抑え、データ転送の必要性を減らし、計算を高速化できる可能性があります。  

しかし、これまでのところ、一見革命的なアイデアの多くと同様に、このコンセプトをビジネスにする方法は存在しませんでした。主な理由は、それぞれのユースケースが非常に独特であり、拡張性がないことにあります。  

エンジニアや開発者が計算ストレージについて語るとき、往々にして空想的なアプローチに陥りがちです。「ドライブ上でLinuxが動作し、プロセッサをもっと大きくすればどうなるだろうか?」といったものです。このアイデアは革新的に見えるかもしれませんが、焦点と実用性に欠けています。これは過度に複雑で、技術的な理想主義に突き動かされた誤った考え方です。結局のところ、期待されるメリットにはつながりません。   

 

 

よりスマートなアプローチ:カスタマイズされた加速

Phisonでは、NANDストレージ技術の革新に関する知識を活用し、SSDへの処理負荷を軽減するより優れた方法を開発しました。これは、ストレージデバイスが最も得意とするタスク、つまり論理ブロックアドレス(LBA)の範囲に一定の演算を適用するタスクに焦点を絞った、カスタマイズされたアクセラレーションアプローチです。当社のSSDには、過度の電力消費や複雑さを必要としない特定のタスクを処理するための専用アクセラレータが統合されています。 

例えば、大規模データセットの適格性評価、オブジェクトベースの消失訂正符号化、チェックサム検証、CPUに到達する前の不要な情報のフィルタリングなど、特定の操作を非常に高速に実行できるハードウェアアクセラレータを開発しています。これにより、特にデータセンターやスーパーコンピューティングクラスターなどの高負荷環境において、より高速で効率的なデータ処理が可能になります。SSDレベルでデータを処理することで、PCIeバスやネットワークを介して転送する必要があるデータ量を削減でき、輻輳の緩和、帯域幅の制限緩和、そして全体的なパフォーマンスの向上につながります。 

これらのアクセラレータは、「モンキーワーク」とみなされる非常に特殊なタスクに焦点を絞ることで、大幅なコストや消費電力の増加を招くことなく、大きなメリットをもたらします。アクセラレーションされたSSDは、従来のプロセッサよりも消費電力を抑えながら、大量のデータをはるかに高速に処理できます。重要なのは、このアプローチを複数のドライブに拡張できるため、従来のCPU依存の処理を上回る、より効率的な並列化システムを構築できることです。 

ホストCPUは、上記のすべてのタスクを個々のSSDよりも高速に実行できますが、CPU全体のパフォーマンスには実際的な制限があります。 ドラム OS以外のタスクに割り当てることができる帯域幅が確保されます。さらに、SSDからDRAMへのデータ移動は、CPUで利用可能なDDR帯域幅の約半分を消費します。オールフラッシュストレージシャーシには30台、60台、あるいは90台のSSDを搭載できることを考慮すると、アプライアンスのオフロード能力は大幅に向上します。90台のGen6 SSDを搭載したシャーシは、CPUリソースに一切影響を与えることなく、2.5TB/秒でデータを処理できます。このシナリオでは、SSDが事前フィルタリングと事前計算タスクを実行し、CPUはより重要な処理を管理します。 

 

 

HPCとセキュリティにおける新たなアプリケーションが計算ストレージの状況を変えている 

最近、Phisonは方向転換し、CPUワークロードの一部をSSDにオフロードする、ターゲットアクセラレータの先を行く新たな方法を検討し始めました。場合によっては、ストレージアレイにCPUクラスターを追加することさえあります。しかし、ここでの大きな違いは、CPUクラスターが計算を行うためではなく、実際にWebサービスやマイクロサービスを実行するために使用されていることです。これらは、追加のアドレス指定可能なリソースとして表示されます。 CXLサービス PCIe バス上。 

例えば、多くのパイプライン処理を必要とするAIプロジェクトを考えてみましょう。ある大規模言語モデル(LLM)がデータを生成して出力し、別のLLMがそれを受け取って変換し、さらに別のLLMに送信する、といった具合です。例えば、TEDトークのビデオ翻訳では、あるLLMが英語の音声を抽出してテキストに変換し、別のLLMがそのテキストを中国語に翻訳し、さらに有名人の音声を学習させた別のLLMがその音声トラックを生成する、といった処理が繰り返されます。最終的に、その有名人が同期した唇の動きで中国語で講演する、全く新しいビデオが完成します。  

この複雑な演算には、通常はCPUやGPUが処理する多くの小さなステップが含まれており、モデルのスワップも頻繁に発生します。メインCPUはこれらのアクセラレータにタスクを委任し、他の高レベルタスクを実行しながら、SSDを使ってこれらの小さなステップをバックグラウンドで実行できないでしょうか?ハイパフォーマンスコンピューティング(HPC)組織では、この結果は目覚ましいものとなるでしょう。  

HPCクラスターが100ペタバイトのデータストレージ(二重冗長化、三重冗長化を含む)を備えることは珍しくありません。つまり、10万台のSSDを使用してワークロードを分散できるということです。これにより、これまで1~2日かかっていた処理が、わずか数秒で完了するようになりました。  

大規模なHPCアレイでは、SSDの数が膨大になり、SSDの帯域幅がネットワーク全体やCPUの帯域幅を凌駕してしまいます。Phisonでは、SSDがインテリジェントな処理を実行できる、未開拓の巨大な領域が存在することに気づいたのです。  

HPC の使用事例では速度とコンピューティングが中心となりますが、私たちはセキュリティの使用事例も検討しました。セキュリティの使用事例では、TPM 2.0 が実現する以上のセキュリティ サービスを提供する、堅牢な FIPS 140-3 準拠の製品が中心となります。  

SSDは、署名や検証といった暗号化処理を1秒あたり数百回実行できます。サーバーに30~90台のSSDが搭載されていれば、処理能力もそれに応じて向上します。各SSDは、HSM(ハードウェア・セキュリティ・モジュール)サーバーにまで遡ることができる信頼のルートを持つ、独立したハードウェアベースのエージェントとして機能します。これらのドライブを合わせると、CPUはデジタル署名アルゴリズム(DSA)エンジンとして設計されていないため、1台の強力なCPUの処理能力をはるかに超えます。このマルチSSDのパワーと、サーバーに既に搭載されているハードウェアであるという事実が相まって、セキュリティ強化に大きなメリットをもたらします。  

 

 

複雑さを具体的に排除する

Phisonは、従来型の汎用的な計算ストレージの概念は最終的には何の役にも立たないと考えていますが、計算ストレージへの別のアプローチが強みとなり得るユースケースも確かに存在します。ターゲットを絞ったアクセラレータは、特定の操作の複雑さを軽減します。また、SSDの膨大なオンボード帯域幅と、そのパワーを新たな方法で活用することの潜在的なメリットを検討することで、近い将来、刺激的なアプリケーションが実現される可能性があります。  

 

イノベーションを加速する財団™

ja日本語