生成AIの成功にはデータストレージが重要

生成AI技術のトレーニングには膨大なデータセットが必要となり、データストレージの見直しが必要になるかもしれない

Author | 2025年4月29日 | AI, 全て, 特徴

AIは今日のビジネスシーンのあらゆるところに浸透しています。組立ラインで自動意思決定を行うロボットから、顧客サービスに活用されるチャットボット、エネルギー業界におけるピーク時の価格設定のリアルタイム最適化まで、AIはあらゆる業界で活用されています。AIがあらゆる業界で私たちの働き方やコミュニケーションにどのような影響を与えているかを示すニュースは、枚挙にいとまがありません。  

しかし、最近特に注目を集めているのは、ChatGPT、DALL-E、OpenAIのSoraといった人気のコンテンツ、画像、動画作成アプリの基盤となる技術である、より具体的なニッチ分野である生成AIです。GenAIとも呼ばれる生成AIは、今日のビジネスを支える他のAIソリューションよりも、ビジネスをより顕著に変革する可能性を秘めています。ただし、そのためには、企業がこの技術に必要な容量とパフォーマンスを提供する適切なデータストレージを提供できることが条件となります。  

 

 

生成AIとは何ですか?

簡単に言えば、生成AIとは、チャットボットの応答、製品デザイン、広告資料、画像、動画など、全く新しいコンテンツを生成するAIです。倫理的に曖昧なディープフェイクの作成元はAIですが、履歴書やオンラインプロフィールなどの書面による回答やコンテンツの自動化、革新的な薬剤の推奨、電子チップ設計の最適化、特定のスタイルでの音楽や小説の執筆、映画の吹き替えの精度向上、あらゆるスタイルの新しいアートの制作、特定のパラメータに基づいた建築デザインの作成など、様々な用途に活用できます。   

生成 AI は、次のようなコンポーネントに依存する点で他の種類の AI とは異なります。   

 

大規模言語モデル(LLM)

LLMは、テキストを処理、要約、生成するプログラムです。膨大なデータセット(潜在的には数兆個のパラメータを持つ)で学習され、テキストと文脈を理解するように学習します。LLMは、生成AIモデルによるコンテンツ作成の大幅な向上に重要な役割を果たしてきました。例えば、テキストから画像や動画への変換、画像への自動キャプション付与などが可能になります。 

 

生成的敵対ネットワーク(GAN)

GANは、2つのニューラルネットワークで構成され、これらは互いに絶えず競合し、明らかに人工的な出力を識別します。一方のネットワークは生成器、もう一方のネットワークは識別器と呼ばれます。生成器は、正しく見える偽または不正確な出力を生成するようにプログラムされ、識別器はどの出力が偽であるかを識別する役割を担います。このプロセス(人間の監視は不要)を通じて、生成器はリアルなコンテンツを作成する能力が向上し、識別器はそれを検出する能力が向上します。時間の経過とともに、生成されるコンテンツはよりリアルになり、最終的には識別器は不正確な部分を検出できなくなります。  

 

トランスフォーマー

このタイプのニューラルネットワークは、非常に大規模な学習モデルが、事前にラベル付けする必要のない膨大な量のデータを解析することを可能にします。つまり、AIアルゴリズムは数百万、あるいは数十億ものテキストベースのページを解析し、モデルに深い「知識」を与えることができるのです。トランスフォーマーは、例えばコンテンツ内の単語間のつながりをモデルが識別・理解することを可能にします。例えば、書籍内の個々の文間の文脈を理解することなどです。また、特定のタンパク質や化学物質、コード行、さらにはDNAマーカー間のつながりや文脈もモデルが認識できるようになります。  

従来のAIは、通常、事前に決められた一連の手順でデータを解析し、結果を導き出しますが、生成AIでは通常、ユーザーがプロンプトやクエリを入力するだけでコンテンツの生成を開始できます。例えば、第二次世界大戦に至るまでの出来事に関する短いエッセイを作成するようアプリケーションに指示したり、18世紀のオーストラリアの日常生活を描いたオリジナルアートをリクエストしたりできます。あるいは、テキストでシーンを説明すると、リアルな動画でそのシーンが再現されるのを見ることもできます。生成AIは、ルールや事前に設定された結果に基づいてタスクを完了するのではなく、新しいコンテンツの作成を目的として設計されています。  

 

 

GenAIの仕組みとデータストレージの重要性

あらゆる種類のAIは通常膨大な量のデータを伴いますが、生成AIではおそらくそれ以上の量のデータが必要になります。GenAIを含むAIプロジェクトには2つの段階があり、それぞれの段階で研究者は膨大なデータセットを管理・処理する必要があります。  

 

トレーニング段階 

生成AIアルゴリズムを学習させるために、研究者は膨大な量のデータを入力します。これには、オンラインのウェブコンテンツ、書籍、動画、画像、レポート、ソーシャルメディアコンテンツなど、多岐にわたります。AIプラットフォームは、これらのデータを保存できる必要があります。AIアルゴリズムは、これらのコンテンツ群を分析し、関連性、文脈、パターンなどを特定します。そして、それらのパターンや関連性に基づいて数理モデルを作成し、より多くのデータを受け取るにつれて、そのモデルを継続的に改良していきます。法学修士(LLM)は、パターンと意味に対する理解と認識を深めるために、データセットを何度も繰り返し分析します。  

AIトレーニングによって生成されるワークロードは膨大かつ複雑です。ストレージへの読み取りと書き込みの両方において、超高性能が同時に求められます。これらのワークロードをサポートするハードウェアとソフトウェアは、その性能に対応できなければなりません。  

 

推論段階 

GenAIアルゴリズムのトレーニングが完了すると、ユーザーがクエリを実行し、コンテンツの出力をリクエストできるようになります。これらのタスクには、AIシステムがストレージ内の数十億、あるいは数兆ものパラメータにクエリを適用し、わずか数秒で最適な応答を生成する必要があるため、高性能な読み取り能力が求められます。また、この段階の性質上、ほとんどのシステムでは、ユーザーが期待する速度とパフォーマンスを実現するために、並列データパスが必要になります。  

 

生成AIで考慮すべきデータ保存要素

生成AIの膨大なストレージニーズに対応するため、組織はデータストレージと管理方法の見直しを迫られています。多くの組織は、データストレージにハイブリッドアプローチを採用し、クラウドとオンプレミスの両方のストレージを活用するメリットを活用してAIプロジェクトを推進しています。  

AI に適したデータ ストレージには、通常、次のものが含まれます。  

      • 大容量 – ペタバイトは出発点です
      • 超高性能 – 低レイテンシ、高IOPS、高スループットを実現
      • 並列処理 – 大規模なコンピューティングアレイと複数の独立したネットワークに理想的に接続

生成AIに必要なパフォーマンスを実現するために、多くの組織がオンプレミスのストレージアレイにフラッシュベースのSSDを採用しています。AIデータのストレージにはハードディスクドライブも使用できますが、フラッシュが最適と考えられています。実際、 1人の専門家 業界アナリスト企業 NAND Research のアナリストは最近、「大規模言語モデルに真剣に取り組んでいる組織は、ハイエンドのフラッシュ ストレージを購入している」と述べています。  

SSD を使用することで、組織はより小さなフットプリントとより少ない消費電力で、必要な高い IOPS を提供できます。また、SSD は、AI プロジェクトで一般的に選択されるストレージタイプである高性能オブジェクトストレージにも適しています。  

AWS、Azure、Google Cloud Platform などのハイパースケーラーも、顧客が求めるパフォーマンスを提供するために、SSD を搭載したフラッシュベースのシステムに移行しています。  

 

Phisonは生成AI向けの革新的なデータストレージを提供

組織が生成 AI の価値とそれがビジネスにどのように役立つかを認識するようになるにつれ、Phison は進化するデータ ストレージのニーズを満たすために研究開発とイノベーションへの投資を継続しています。  

PhisonはAIとその成功に必要なストレージの種類を熟知しています。そのため、同社はAI計算モデルとAIサービス向けソリューションを含む独自のカスタマイズサービス「IMAGIN+」を立ち上げました。  

同社はまた、 aiDAPTIV+IMAGIN+の拡張版です。この新しいサービスは、Phisonの「革新的な統合 「SSDをAIコンピューティングフレームワークに組み込み、AIアプリケーション市場におけるNANDストレージソリューションを拡大します。」  

Phisonは、AIコンピューティングフレームワークにSSDを統合することで、AIハードウェアソリューションの運用パフォーマンスを向上させ、GPUとDRAMへの依存を軽減することでAIプロジェクトのコスト削減に貢献します。Phison SSDはオフロードサポートとして機能し、組織はGPUとDRAMの必要性を低減しながら、生成型AIモデルのトレーニングを行うことができます。  

PhisonのaiDAPTIV+ソリューションを活用すれば、あらゆる規模の企業が、自社データの管理を維持しながら、生成AIのメリットを享受できます。もはや、組織は大量の専用ハードウェアやGPUを購入し、自社データでAIを学習させる必要はもうありません。  

生成AIは、あらゆる業界において、ビジネスオペレーション、製品設計、顧客サービス、マーケティング活動など、あらゆる分野を根本的に変革する可能性を秘めています。PhisonのフラッシュベースストレージとSSDを活用すれば、組織はこうした変革に対応できるようになります。   

 

 

Phison からの追加 AI コンテンツ

 

イノベーションを加速する財団™

ja日本語