AI训练实例
高性能GPU训练实例
概述
AI训练实例提供H100/A100等顶级GPU资源,专为大模型训练设计。支持多机多卡分布式训练,弹性调度GPU集群,按需计费大幅降低训练成本。
AI训练实例
规格参数
以下为可用GPU训练实例规格,支持按需/包月/竞价计费
gpu.train.h100x1
1×H100
vCPU
96
内存
768GB
GPU显存
80GB
网络带宽
100Gbps
gpu.train.h100x4
4×H100
vCPU
192
内存
1536GB
GPU显存
320GB
网络带宽
200Gbps
gpu.train.h100x8
8×H100
vCPU
256
内存
2048GB
GPU显存
640GB
网络带宽
400Gbps
gpu.train.a100x1
1×A100
vCPU
96
内存
768GB
GPU显存
80GB
网络带宽
100Gbps
gpu.train.a100x8
8×A100
vCPU
256
内存
2048GB
GPU显存
640GB
网络带宽
400Gbps
核心功能
H100/A100实例
NVIDIA H100 80GB/A100 80GB,NVLink互联,8卡/节点
分布式训练
多机多卡DDP/FSDP/DeepSpeed,RDMA高速通信
弹性调度
训练任务排队调度,抢占式/预留式GPU资源池
成本优化
闲时GPU竞价实例,Spot中断自动续训,节省70%
核心优势
顶级算力
H100单卡FP16算力1979 TFLOPS,8卡集群15.8 PFLOPS
高速互联
NVLink 900GB/s + InfiniBand 400Gb/s,通信开销极低
训练加速
Megatron-DeepSpeed框架预置,千亿模型训练加速5倍
应用场景
LLM预训练
GPT/LLaMA等大语言模型千亿参数预训练
多模态训练
图文音多模态大模型联合训练
科学计算GPU
分子动力学、量子化学GPU加速计算
推荐模型训练
DeepFM/DIN等推荐模型大规模训练