AI推理实例
低延迟GPU推理实例
概述
AI推理实例配备T4/L4等推理优化GPU,专为大模型在线推理设计。支持低延迟高并发服务,弹性伸缩应对流量波动,性价比优于训练卡。
AI推理实例
规格参数
以下为可用GPU推理实例规格,支持按需/包月/竞价计费
gpu.infer.t4x1
1×T4vCPU32
内存128GB
GPU显存16GB
网络带宽25Gbps
gpu.infer.t4x4
4×T4vCPU96
内存384GB
GPU显存64GB
网络带宽50Gbps
gpu.infer.l4x1
1×L4vCPU32
内存128GB
GPU显存24GB
网络带宽25Gbps
gpu.infer.l4x4
4×L4vCPU96
内存384GB
GPU显存96GB
网络带宽50Gbps
核心功能
T4/L4实例
NVIDIA T4 16GB/L4 24GB,推理性价比最优
低延迟推理
TensorRT/DeepSpeed推理加速,P99延迟<100ms
高并发服务
单卡千级QPS,多副本弹性扩展,万级并发
弹性伸缩
基于QPS自动扩缩容,闲时缩容省钱,峰值扩容保稳
核心优势
性价比高
L4推理性能达A100的60%,价格仅1/4
快速部署
模型一键部署为推理服务,分钟级上线
稳定可靠
99.99%服务可用性,自动故障恢复
应用场景
大模型API服务
LLM在线对话推理,流式输出
图像生成服务
Stable Diffusion/ControlNet推理
语音合成TTS
流式语音合成,实时对话
视觉检测推理
YOLO/SAM目标检测与分割在线推理