AI基盤の礎

はじめに
ハイライト
関連製品
適用事例

はじめに

AI採用の傾向は、不可逆的ですが、真の試練は、データから継続的に価値を創造し続けることにあります。

GS 5000Uは、AI基盤向けに特別に設計され、企業がよりコスト効率の良い初期投資で驚異的な性能を得られるよう支援します。AIトレーニングや推論を加速するGPU演算性能を使えるよう設計されたストレージシステムです。柔軟かつ長期間の使用に耐える拡張性を持つことで、GS 5000Uは、AI改革の信頼できるストレージ基盤として働きます。

ハイライト

早さ、拡張性そして未来

AIコンピューティングパワーを解き放つ

GS 5000Uシリーズは、最大125GB/sの読み取りスループットと2.4MのIOPSを提供します。200GbEをサポートするため、GPUのデータ待ちを排除するのに十分なバンド幅を確保し、複数ノードを使ったトレーニングと推論を加速します。そのため、高性能AIのモデル導入サイクルを短縮できます。

GPUを余すことなく使い、業務を加速

NVMe-oFとGPUDirectストレージ（GDS）を使うことで、システムは、0.3ミリ秒という超低レイテンシを達成します。この超高速アクセスにより、チェックポイントにおける書き込み停滞を排除し、GPUの使用率を最大化します。GS 5000Uは、トレーニング、推論、メタデータ集約型の業務に破格の性能を提供します。

Fully Utilize GPUs, Accelerate Workflows

連続的な可用性

（コントローラー、ファン、電源装置の）完全二重化ハードウェア設計を採用したことで、システムはダウンタイムが発生するリスクを最小限に抑えます。高可用性（HA）機構を組み込むことで、サイトレベルのフェールオーバー防御を提供できます。秒単位の回復によって、データ損失を無くし、ゼロに近いダウンタイムを実現します。

HAクラスタの詳細については、ここをクリックしてください。

比類なき将来に向けての拡張性

GS U.2シリーズは、幾何級数的なデータの増加に対処することで、長期的な価値を保証します。同シリーズには、高密度JBODや高性能NVMe JBOFを含む幅広い拡張方法があります。AI開発の全ての段階において、ホット階層にトレーニングデータ、コールド階層に保存データの配置をサポートするため、必要に応じてリソースを構成します。

NVMe-oF AIストレージ

企業により早く、より効率的にAI業務を完遂させる高速、知的、安全なAIデータストレージ基盤を構築します。

高速ネットワークを装備したストレージシステム: GS 5000Uは、NVMe-oFと200GbEを使って最大125GB/sのバンド幅と0.3ミリ秒という超低レイテンシを提供します。この性能は、GPUのデータ待ちを完全に排除し、重要なホットデータのために十分なスループットを保証し、GPUを最大限有効に使うことができます。
GPUへの直接アクセス: GPUDirectストレージ（GDS）は、CPUをバイパスし、高速ネットワークを経由して直接GPUのメモリにデータを送ることを可能にします。この直接の経路は、GPUの演算力を完全に活用するため、CPUのボトルネックを解消し、レイテンシを低減し、I/Oスループットを最大化するのに重要です。
拡張筐体: Infortrendは、AIデータのライフサイクルに合わせて筐体の選択肢を用意します: 高速NVMe SSD JBOFは、ホットデータの拡張のため、高密度JBODは、これまでの資産を保存するために使われます。柔軟な拡張方法は、性能とリソースの効率化の間で理想的なバランスを達成します。

AIストレージ用ソフトウェア設計

HPCファイルシステム互換性

GSのファイルシステムは、POSIX互換で、Lustreのような高性能並列ファイルシステムと円滑に統合できます。これにより、演算サーバーは、ボトルネックなく効率的にデータにアクセスできるようになり、データの品質と整合性が保護されます。

多層に渡る耐障害設計

このシステムには、内蔵のRAIDによる耐障害性、システム内でのスナップショット、SSD障害の同期発生を妨げる知的なアルゴリズムなどの機能を備えています。この堅牢なストレージレベルの設計は、事前に障害発生を警告することによって、最高のデータ安全性、一貫性、防御を可能にします。

サイトを跨いだ復旧戦略

このシステムは、サイトを跨いだ同期あるいは非同期のデータ複製（例えば、リモートリプリケーション）とクラウド統合（EonCloud Gatewayサービス）をサポートします。これにより、災害後に1秒以下の目標復旧時間（RTO）での完全なデータ可用性を保証します。

ローカル/リモートリプリケーションの詳細については、ここをクリックしてください。

EonCloud Gatewayの詳細については、ここをクリックしてください。

AIデータの知的なライフサイクル管理

最大4階層の自動階層化をサポートし、知的なアルゴリズムが自動的にデータ移行を処理します。単一のソリューションによって、管理を簡素化し、ホットなトレーニングからコールドな保存までの全ての要求に対応するため、効率を最大化し、費用を削減できます。

自動ストレージ階層化の詳細については、ここをクリックしてください。

最高性能ハイブリッドフラッシュスU.2 NVMe SSDユニファイドストレージ

EonStor GS 5000Uは、負荷の重いAIやHPCアプリケーションに非常に優れた性能を提供します。Intel® Xeon® 6プロセッサと PCIe 5.0 NVMe SSDのサポートにより、驚異的な125GB/sのスループット性能と2.4MのIOPSを0.3ミリ秒という低レイテンシで達成します。

EonStor GS 5000Uの詳細については、ここをクリックしてください。

適用事例

AIデータの基盤となる要素と性能

異なるタイプのAI業務は、全く違ったI/Oパターンとストレージシステムに対する性能要求を持ちます:

基本モデルトレーニング: 複数ノード、複数GPU環境をサポートするための最高レベルの持続的なスループットが必要です。システムはまた、トレーニングプロセス中に発生する頻繁なチェックポイントでの書き込みによる大規模なI/O突出に耐えられなければなりません。
推論 / RAGサービス: 非常にレイテンシに敏感で、極端に低いレイテンシが求められると共に、ランダムI/Oのための非常に高いIOPSが求められます。それによって、高負荷の同時ユーザー要求の元でも、モデルが瞬時にロード可能で、リアルタイムで反応できます。
微調整: トレーニングプロセスを通じて基本モデルとチェックポイントに対する頻繁なアクセスを処理するため、安定性と効率的なランダム読み取り/書き込み性能が求められ、それによって、モデル反復サイクルを加速します。

基本モデルトレーニング
（LLM事前トレーニング）

業界に特化した基本モデルトレーニング（例えば、金融、医療、製薬）

推論

企業内チャットボット
文書要約
リアルタイム画像分類

検索拡張生成（RAG）

企業知識ベースQ&Aシステム
AI支援顧客サービスセンター

微調整

ブランドを意識したAIアシスタント
製造ライン欠陥検出
軽量エッジ導入モデル

推論

ある製造業の大企業が、微細な欠陥を特定し、品質の偏りを最小化するため、AI支援による欠陥検出システムを4本の高速生産ラインに導入した。そのシステムは30 FPSの映像をフレーム落ち無しで処理し、画像撮影から自動選別の間でレイテンシをミリ秒レベルで維持しなければならない。また、長期保存および将来のモデル再トレーニングのために、全ての画像（欠陥とサンプルされたもの）の保管をサポートしなければならない。

弊社の利点

高帯域幅のデータスループット: GS 5000Uは、125GB/sの持続可能な読み取り性能を提供し、フレーム落ちの無いリアルタイム検査のためにGPUクラスタへの継続的で欠損のない画像データ転送が行えます。
ミリ秒以下のリアルタイム応答: 0.3ミリ秒という超低レイテンシによって、システム全体のレイテンシはミリ秒単位に抑えられ、瞬時のAI推論結果の提示とリアルタイムのロボティクスによる意志決定が可能になります。
高性能保管: 40GB/sの持続可能な書き込みスループットを提供することで、システムは、フロントエンドの推論に影響を与えること無しに、欠陥画像と監査データを迅速に保管します。
PB規模のデータライフサイクル管理: 高密度JBOD拡張筐体と自動ストレージ階層化を使うことで、システムは、数PBの画像データ増加を効率的に処理し、長期間、価格効率の良いデータ保管ソリューションを提供できます。

検索拡張生成（RAG）

ある大手の通信事業者が400名以上の実働エージェントを使ってカスタマサービスセンターを運営していた。同社は、15TBの知識ベースの効率的な運用を強化し、エージェントの負担を軽減し、対応の正確さを改善するため、AI支援サポートシステムの導入を考えていた。核心となる課題は、400名全てのエージェントから同時に起きる照会を1秒以内に対応できるAI作成と重い負荷の元でもリアルタイム性能と信頼性を維持することが含まれる。

弊社の利点

1ミリ秒以下の応答: 0.3ミリ秒という超低レイテンシによって、システムは効果的にRAG取得のボトルネックを解消し、1秒以下のAI応答時間を実現します。
超多数同時処理のサポート: 2.4MのIOPSを提供することで、数百のカスタマサービスエージェントが、知識ベースに同時に照会することで生じるI/O負荷を難無く処理できます。
データ経路の最適化: NVMe-oFとGDSがGPUへ直接、低レイテンシの経路を作成します。それによって、モデルのロードを加速し、高負荷の同時照会の元でも安定的な1秒以下のRAG性能を実現します。

微調整（ドメイン適応）

ある金融機関が、同社の知的な投資顧問サービスの的確性を挙げるため、AIモデルを導入しようと計画した。トレーニングに際して同社は、16個のH100 GPUを搭載したクラスタを使って、ドメイン専用アプリケーションのための80億個のパラメータで汎用言語モデルの微調整を行おうとした。

GPUの効率を維持するため、ストレージシステムは、迅速なデータロードのために120GB/sのスループットを持たなければならない。加えて、チェックポイントファイルは15分毎に書き込まれるので、GPUの待ち時間を最小化し、演算での使用率を最大化するため、書き込み処理は素早く完了させなければならない。

弊社の利点

高性能で低レイテンシ: 200GbE NVMe-oFを使うことで、GS 5000Uは、ミリ秒レベルのレイテシにより、最大125GB/sの性能を発揮し、I/Oのボトルネックを効率的に解消できます。
GPUへの直接データ経路: GPUDirect ストレージは、CPUを通らないデータ経路を提供し、モデルのロードとチェックポイントのアクセスを加速し、トレーニング効率を最大化できます。
高い書き込みスループットとランダムI/O: 40GB/sの継続可能な書き込みスループットとランダム操作のための2.4MのIOPSを提供できます。それによって、数GBのデータの書き込みが数秒で完了し、GPUの待ち時間を最小化できます。
驚異的な拡張性: 最大3台のNVMe JBOF拡張筐体を接続でき、円滑な拡張性によってPBレベルの容量を提供でき、スループットと容量を同時並行的に増加可能です。

将来を見据えたソリューションで御社のデータを強化しましょう

弊社の新製品や新機能の情報を更新するため、弊社営業にご連絡を！