世界で90%のデータが作成されました 過去2年間で.
それだけではなく、毎年 40% の割合で成長しています。データは人だけでなく、ソフトウェアや機械によっても生成されます。今日はすでにテラバイト (TB) やペタバイト (PB) 単位で話していますが、 何人かの専門家 2025 年までに毎日 463 エクサバイト (EB) のデータが生成されると推定されています。
世界はこれほど大量のデータを使って何をしているのでしょうか?商用および非商用アプリケーションが多数あります。
-
-
- ビジネスにおける財務、予約、その他の取引
- 放射線学、ゲノミクス、気象学、地震学などにおける科学的な計算と分析
- クラウド アプリ、ソーシャル メディア、ビデオ ストリーミングなどの Web ベースのサービス
-
これらすべてに共通することが 1 つあります。 データ分析の使用 個人、組織、ビジネス環境を問わず、洞察を得て、予測を立て、イノベーションを推進します。
企業では、人工知能 (AI) および機械学習 (ML) ソリューションを実装し、生産性を向上させ、高成長市場を特定し、業務を合理化し、より良い顧客エクスペリエンスを提供するために、データ分析が絶対に必要です。
しかし、今日のデータセットの規模と非構造化の性質により、従来の IT インフラストラクチャ、アプリケーション、データベース管理システムがデータを迅速に、またはコスト効率よく処理および分析することはほぼ不可能になっています。
この課題に対処するために、ハイブリッド クラウド アーキテクチャ、エッジ/分散コンピューティング、IoT、さまざまなデータ形式とクエリを処理するデータベース、大規模な並列処理など、多数の新しいテクノロジが開発されています。これらにより、基盤となるストレージとデータ処理インフラストラクチャに大きな需要が生じます。ビッグデータには、複数のコアを備えた強力な CPU、より高速なメモリ、より多くの帯域幅、そしてもちろん、より高速にアクセスして書き込みできる大容量の信頼性の高いストレージが必要です。
全体として、データの保存と処理の速度は、データの保存場所よりも、データの形式とそれにアクセスするアプリケーションに大きく依存します。そして直観に反しますが、そのため、データ分析にとってストレージ ドライブの重要性がさらに高まります。
ソリッド ステート ドライブ (SSD) の登場
SSD は、特に多くのデータ処理が関与する企業における超高速ストレージの事実上の選択肢として、ゆっくりとではありますが確実に台頭してきました。さらに、今日のほとんどの分析プラットフォームはクラウド上で実行されており、ユーザーは必要に応じてクラウドにアクセスします。ただし、クラウド サービス プロバイダーのデータ センター (実際の分析ワークロードがホストされる場所) 加速方法からも恩恵を受ける NAND フラッシュ ベースの SSD によってサポートされる並列化 (複数の同時データ プロセスの実行) やシャッフル (アプリケーションによって処理される遷移データの量の増加) などです。
重要なことは、SSD は DRAM と HDD の中間に位置する価格対性能比も提供していることです。ビットあたりのコストは DRAM よりもかなり低くなりますが、アクセス時間と帯域幅の差は急速に縮まりつつあります。一方、SSD は GB あたりのコストでは HDD よりも高価ですが、I/O パフォーマンスは数桁高いため、IOPS あたりのコストは低くなります。
何よりも、NAND フラッシュ メモリ (SSD の構成要素) の価格は、 他のメディアよりも早く下落するそして最終的には、一部の製品カテゴリーでは $/GB の HDD と一致し、SSD の価値提案がさらに魅力的になります。
では、データ分析アプリケーションを実行している企業にとって、SSD はどのような利点をもたらすのでしょうか?
データ分析に SSD を使用する利点
ビッグ データ アプリケーションに適切な種類の SSD を使用すると、速度とパフォーマンスが最大 70% 向上します。ほぼ分析用にカスタマイズされた SSD の主な機能をいくつか紹介します。
パフォーマンス
分析アプリケーションは読み取りが集中する傾向があり、シーケンシャル読み取りから大量のデータを再帰的に取得します。多くのエンタープライズ システムでは、ストレージ I/O がこれを行うための大きなボトルネックになっています。マルチコア CPU は、ランダムな間、または順次 I/O プロセスが実行されているときでも、アイドル状態になります。ただし、SSD は CPU スループットに匹敵する十分な速度を備えており、アプリケーションがフル能力でデータと分析を処理できるようになります。このため、SSD はビッグ データ分析の I/O バウンド コンポーネントに最適です。
不揮発性
SSD はフラッシュ セルで構築されていますが、電源がオフになっても HDD と同様にデータを保持します。 DRAM とは異なり、デステージングは必要ありません。
柔軟性
分析アプリには、処理および出力するデータの種類、および実行されるインフラストラクチャに応じて、さまざまな要件があります。 SSD にはさまざまな種類があります フォームファクター およびインターフェイス (PCIe や SATA など)。
信頼性
SSD は NAND フラッシュ セルで構築されており、書き込み時にのみ消耗します。ただし、今日のエンタープライズクラスの SSD は超高速で、書き込み集中型のワークロードに対して一貫して優れたパフォーマンスを発揮します。ほとんどの SSD の平均故障時間 (MTTF) は 100 万時間から 200 万時間で、人間の平均寿命を超えます。
ビッグ データおよび分析アプリケーションは、多くの場合、非常に低い遅延で大規模な IOPS を要求する、読み取り/書き込みの混合ワークロードによって特徴付けられます。これらの要件を満たすことができるのは、エンタープライズ グレードの SSD だけです。
低消費電力
SSD には回転ディスクやその他の可動部品が含まれていないため、デバイスごとの消費電力が大幅に少なくなります。これにより、特にシステム内で大規模なトランザクションが発生し、大量のデータの生成と処理が必要になる場合に、データセンターやオンプレミスのインフラストラクチャにおける電力と冷却のコストが全体的に節約されます。
インテリジェントなキャッシュ
ホスト サーバーの SSD は、データがメモリから移動されるときにデータを保持するレベル 2 キャッシュとして機能します。ソフトウェアは、どのデータ ブロックをキャッシュに保存する必要があるかを決定します。 SSD は、背後にあるすべてのストレージ システムを高速化するネットワーク キャッシュを備えた共有ネットワーク アプライアンスに常駐させることもできます。ここでも、帯域外 (読み取り専用) と帯域内 (ライトバック) の 2 種類のキャッシュがあります。
低遅延
NVMe などのプロトコルで実行される PCIe ベースの SSD は、ハードウェアとアプリケーションの能力を最大限に活用し、システム内を驚異的な速度でデータ フローを維持します。ホスト コントローラーやアダプターが完全に存在しないため、遅延率が最も低くなります。
データ分析向けに Phison が提供するカスタマイズされたソリューション
Phison は、さまざまなエンタープライズ ワークロードを推進するカスタマイズ可能な SSD ソリューションで知られており、そのほとんどにはアプリケーションの不可欠な部分として分析機能が組み込まれています。これらの SSD は、企業が求める結果だけを提供しながら、速度、パフォーマンス、容量の限界を押し広げます。
2019 年にファイソンは 世界初の PCIe Gen4x4 NVMe SSD ソリューション – E16 コントローラーは、シーケンシャル読み取りで 5.5 GB/秒、シーケンシャル書き込みで 4.4 GB/秒というストレージの新しいパフォーマンス記録を樹立しました。わずか 1 年後、第 2 世代の E18 コントローラーが登場しました。 世界最速の PCIe Gen4x4 NVMe SSD ソリューション、標準をシーケンシャル読み取りで 7.4 GB/秒、シーケンシャル書き込みで 7.0 GB/秒に引き上げます。
非常に大規模なストレージ要件を伴う読み取り集中型分析アプリケーションの場合、Phison の S12DC コントローラーは、 カスタマイズ可能でアップグレード可能なプラットフォーム 最大 15.36 TB の容量の SSD 用。
Phison の SSD で構築されたストレージ アレイを単一のユニットとして見ると、データ分析アプリケーションにいくつかの重要な利点を提供できます。
-
-
- Phison のカスタマイズされた PCIe Gen4 SSD ソリューションは、ストレージをコンピューティングから分離し、レガシー コントローラーによって設定された制限を排除します。これは、パフォーマンスに影響を与えることなく、機械学習のトレーニング セットと制御セットを 1 PB までスケールアップできることを意味します。
- Phison の NVMe SSD コントローラーを使用すると、高性能イーサネット ネットワーク上でボリュームを動的にプロビジョニングすることもできます。
- 高速かつ低遅延のストレージ コントローラーにより、すべての GPU ノードがメディアに直接並列アクセスできるようになります。これにより、ML アルゴリズムのエポックタイムが最大 10 倍高速化されます。
-
データと分析が今日のビジネスの成否を左右します。新しい市場への参入、新製品の発売、サプライチェーンの最適化、新しい収益源の創出など、ビジネスのあらゆる側面では、何らかの形の分析とデータ ガバナンスが必要です。これまで見てきたように、データの適時性、有用性、信頼性を確保するという点では、IT インフラストラクチャ全体、特に SSD の役割を無視することはできません。