AI 存储 | Infortrend

介绍

毫无疑问 AI 的广泛应用已是大势所趋。但是 AI 发展真正的考验，关键在于如何从数据中不断创造价值。

GS 5000U 作为 AI 专属的基础硬件，仅需有限的前期投入就能达到出色性能。实现这一目标，GS 5000U 着力释放 GPU 算力，加速 AI 训练与推理过程。GS 5000U 弹性部署，灵活扩展，适合企业 AI 长期运行，为企业人工智能转型奠定坚实基础。

方案亮点

效能、扩展与未来

释放 AI 算力

GS 5000U 可提供高达 125GB/s 的读带宽和 240 万 IOPS。支持 200GbE 高速通道，确保充足带宽消除 GPU 延迟，加速多节点训练与推理进程。缩短高性能 AI 模型部署周期。

充分释放 GPU 潜力，推动业务进度

该系统利用 NVMe-oF 和 GPUDirect 存储技术，达成超低延迟 (低至 0.3 毫秒)。访问速度显著提高避免检查点 (checkpoint) 的写停顿，最大程度提高 GPU 利用率。GS 5000U 为训练、推理以及元数据密集型业务提供惊人性能。

Fully Utilize GPUs, Accelerate Workflows

持续可用性

存储的硬件组件 (控制器、风扇、电源) 完全冗余化设计，将停机风险降到最低。集成高可用性 (HA) 架构，可主动提供站点级故障转移保护，确保数据零丢失，实现秒级恢复，停机几乎为零。

了解更多关于 HA 集群的内容

无与伦比的扩展性

GS U.2 能够承受数据爆炸式增长，因此时间越长产品越值。用户能够获得多种扩展方式，包括高密度 JBOD 和高性能 NVMe JBOF。可根据需求配置各种扩展操作：热数据 tier 用于训练或冷数据 tier 用于归档，配合 AI 部署各个阶段。

NVMe-oF AI 存储

搭建高品质 AI 数据存储 : 高速、智能、安全。助力企业更快、更快完成 AI 业务。

配备高速网络的存储系统 : GS 5000U 采用 NVMe-oF 技术和 200GbE 通道，提供高达 125GB/s 的带宽，低至 0.3 毫秒的超低延迟。完全解决 GPU 利用率不高问题，确保关键热数据拥有充足带宽，GPU 能够以最高效率运行。
直通 GPU 加速 : GPUDirect 存储技术确保数据绕过 CPU，通过高速网络直接传输到 GPU。消除 CPU 瓶颈、降低延迟，实现 I/O 最大化，充分释放 GPU 算力。
扩展柜 : Infortrend 根据数据从热到冷的访问频率变化，为客户提供不同的扩展柜机型：搭载高速 NVMe SDD 的 JBOF 保存热数据用于访问，或容纳高密度 JBOD 用于归档历史数据资产。这种灵活的扩展方式实现性能与成本的完美平衡。

软件转为 AI 存储设计

兼容 HPC 文件系统

GS 文件系统符合 POSIX 标准，可与 Lustre 等高性能并行文件系统无缝集成。确保计算服务器能够高效访问数据，避免出现瓶颈，从而保障数据传输质量和完整性。

多重容错设计

GS 内置 RAID 容错功能、本地快照功能以及智能算法，可防止 SSD 同时故障。通过故障预警机制，保护数据的安全性和一致性，功能十分强大。

跨站点恢复策略

该系统支持同步和异步的跨站点数据复制 (如远程复制)，并支持云集成 (EonCloud Gateway)。在发生灾难后，实现亚秒级恢复时间目标 (RTO)，确保数据完全可用。

了解更多关于本地/远程复制的内容

了解更多关于 EonCloud Gateway 的内容

AI 数据智能生命周期管理

支持多达四层介质的自动分层存储，智能算法自主处理数据迁移。简化管理流程，满足从热数据训练到冷数据归档的所有需求，最大程度提高效率、降低成本。

了解更多关于自动化存储分层的内容

性能级统一存储 NVMe U.2 SSD 全闪阵列解决方案

GS 5000U 出色的性能非常适合高强度业务，如 AI 和 HPC。搭载 Intel® Xeon® 6 处理器，支持 PCIe 5.0 NVMe SSD，性能可达 125GB/s 带宽及 240 万 IOPS，延迟低至 0.3 毫秒。

更多 EonStor GS 5000U 内容

应用场景

AI 数据与性能的支柱

不同类型的AI业务对存储系统提出多元化 I/O 模式和性能要求 :

基础模型训练 : 需要极高的连续带宽，支持多节点、多 GPU 环境。同时训练过程中检查点频繁写入，存储必须能够承受所引起的大规模 I/O 突发。
推理/RAG : 对延迟极为敏感，要求随机 I/O 具备超低延迟和极高IOPS。在大量并发用户请求时，模型仍能实现即时加载并实时响应。
微调 : 训练需要频繁访问基础模型和检查点，存储需要提供稳定高效的随机读写性能，以便处理这样的访问，从而加速模型迭代周期。

基础模型训练 (LLM 预训练)

特定领域基础模型训练 (如金融、医疗、制药领域)

推理

企业内部聊天机器人
文档摘要
实时图像分类

检索增强生成 (RAG)

企业知识库问答系统
AI 辅助客户服务中心

微调

品牌人工智能助手
生产线缺陷检测
轻量化边缘部署模型

推理

一家大型制造企业在四条高速生产线上部署 AI 辅助视觉缺陷检测系统，用于识别微小瑕疵，降低质量偏差到最小。存储必须以每秒 30 帧 (FPS) 的速率处理图像且无丢帧现象，确保图像采集与机器人分拣之间的延迟保持在毫秒级。同时还需支持对所有图像 (包括缺陷图像和抽样图像) 进行长期归档，以备未来模型重新训练使用。

Infortrend 优势

高带宽数据 : GS 5000U 提供 125GB/s 性能，确保图像能够持续无损传输至 GPU 集群，达成零丢帧实时检测。
亚毫秒级实时响应 : 0.3 毫秒超低延迟，总延迟控制在毫秒范围内，使 AI 推理结果能够即时输出，支持机器人实时决策。
高性能归档 : 存储提供 40GB/s 写带宽，可快速归档缺陷图像和审计数据，不影响前端推理性能。
PB 级数据生命周期管理 : 通过高密度 JBOD 和自动存储分层功能，存储能够有效应对 PB 级图像数据增长，提供高性价比解决方案用于长期数据归档。

检索增强生成 (RAG)

一家大型电信运营商运营 400 多名客服规模的客户服务中心。该公司计划部署一套 AI 辅助支持系统，提高 15TB 知识库的检索效率，减轻客服人员的工作负担，增加响应准确性。主要挑战在于 400 名客服同时发起查询，AI 响应时间需在亚秒级，同时确保系统在重度负载下仍能高效可靠运行。

Infortrend 优势

亚毫秒级响应 : 存储延迟低至 0.3 毫秒，有效消除 RAG 检索瓶颈，保证 AI 响应时间在亚秒级。
支持超高并发 : 存储可提供 240 万 IOPS，轻松应对数百名客服同时查询知识库时的 I/O 负载。
优化数据路径 : NVMe over Fabrics 和 GPU Direct 存储技术为 GPU 创建直通低延迟的数据传输路径，加速模型加载。即使在高并发情况下，RAG 仍能保持稳定的亚秒级性能。

微调 (领域适配)

一家金融机构计划部署 AI 模型，提高智能投资顾问服务精准度。在训练过程中，该公司使用由 16 块 H100 GPU 组成的集群，对一个拥有 80 亿参数的通用语言模型进行微调，以便适应特定领域应用。

为确保 GPU 持续高效运行，存储必须提供 120GB/s 带宽，实现数据快速加载。此外存储需每 15 分钟写入一次检查点文件，且必须迅速完成，尽可能减少 GPU 空闲时间，将计算资源利用率提至最高。

Infortrend 优势

高性能与低延迟 : GS 5000U 采用 200GbE NVMe over Fabrics 技术，提供高达 125GB/s 性能和微秒级延迟，有效消除 I/O 瓶颈。
直通 GPU 数据路径 : 通过 GPUDirect存储技术数据路径绕过 CPU，加速模型加载和检查点访问，最大化训练效率。
高性能写，随机 I/O : 存储提供 40GB/s 持续写带宽和 240 万 IOPS。GB 级数据的写能在数秒内完成，将 GPU 空闲时间降至最低。
卓越扩展性 : 存储可连接三台 NVMe JBOF，提供 PB 级容量无缝扩展，实现带宽与容量同时增长。

AI 存储，硬件基础

效能、扩展与未来

释放 AI 算力

充分释放 GPU 潜力，推动业务进度

持续可用性

无与伦比的扩展性

NVMe-oF AI 存储

软件转为 AI 存储设计

兼容 HPC 文件系统

多重容错设计

跨站点恢复策略

AI 数据智能生命周期管理

性能级统一存储 NVMe U.2 SSD 全闪阵列解决方案

AI 数据与性能的支柱

推理

Infortrend 优势

检索增强生成 (RAG)

Infortrend 优势

微调 (领域适配)

Infortrend 优势

引导未来，为企业数据赋能