1.用户在筛选区进行筛选,筛选出所需要的机器。
用户可选择:选择镜像、计费模式、GPU数量、地区、可靠性选择、最长可租赁时间、数据盘空间大小,进行筛选。
注意!数据盘空间大小会影响计费价格。
2.选择一台机器,点击【租赁】,系统弹出确认支付弹框。
3.根据页面信息,完成以下配置:
Quadro类型: Quadro系列显卡一般用于特定行业,比如设计、建筑等,图像处理专业显卡,比如CAD、Maya等软件。
GeForce类型: 这个系列显卡官方定位是消费级,常用来打游戏。但是它在深度学习上的表现也非常不错,很多人用来做推理、训练,单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多,但是性价比却高很多。
Tesla类型: Tesla系列显卡定位并行计算,一般用于数据中心,具体点,比如用于深度学习,做训练、推理等。Tesla系列显卡针对GPU集群做了优化,像那种4卡、8卡、甚至16卡服务器,Tesla多块显卡合起来的性能不会受>很大影响,但是Geforce这种游戏卡性能损失严重,这也是Tesla主推并行计算的优势之一。
Quadro类型分为如下几个常见系列
NVIDIA RTX Series系列: RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000Quadro RTX Series系列: RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000
GeForce类型分为如下几个常见系列
Geforce 10系列: GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080TiGeforce 16系列:GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660TiGeforce 20系列:RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080TiGeforce 30系列: RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti
Tesla类型分为如下几个常见系列
A-Series系列: A10、A16、A30、A40、A100T-Series系列: T4V-Series系列: V100P-Series系列: P4、P6、P40、P100K-Series系列: K8、K10、K20c、K20s、K20m、K20Xm、K40t、K40st、K40s、K40m、K40c、K520、K80
内存应当选择采用时序频率高以及容量大的内存,虽然机器学习的性能和内存大小无关,但是为了避免GPU执行代码在执行时被交换到磁盘,需要配置足够的RAM,也就是GPU显存对等大小内存。
例如使用24G内存的Titan RTX,至少需要配置24G内存,不过,如果使用更多GPU并不需要更多内存。如果内存大小已经匹配上GPU卡的显存大小,仍然可能在处理极大的数据集出现内存不足的情况,这个时候应该升配GPU来获得比当 前双倍的内存或者更换内存更大实例。
因为内存在充足的情况下不会影响性能,如果内存使用超载则会导致进程被Killd或者程序运行缓慢情况。
在load数据过程中,就需要用到大量的CPU和内存,如果CPU主频较低或者CPU核心较少的情况下,会限制数据的读取速度,从而拉低整体训练速度,成为训练中的瓶颈。
建议选择核心较多且主频较高的的机器,每台机器中所分配的CPU核心数量可以通过创建页面查看,也可以通过CPU型号去搜索该CPU的主频和睿频的大小。
CPU的核心数量也关系到num_workers参数设置的数值,num_worker设置得大,好处是寻batch速度快,因为下一轮迭代的batch很可能在上一轮/上上一轮…迭代时已经加载好了。坏处是内存开销大,也加重了CPU负担(worker加载数据到RAM的进程是CPU进行复制)。num_workers的经验设置值是 <= 服务器的CPU核心数。
在进行训练或者推理的过程中需要不断的与磁盘进行交互,如果磁盘IO性能较差,则同样会成为整个训练速度的瓶颈;恒源云一直推荐用户使用 /hy-tmp目录进行数据集存储和训练,因为该目录为机器本地磁盘,训练速度最快,IO效率最高。
平台的所有机器中,目前大多数机器都采用SSD高效磁盘,比传统机械磁盘速度要高几倍,还有速度更快的NVME磁盘,在进行机器选择的时可根据需要选择磁盘IO较好的磁盘。
以下内容均测试为随机读/写性能,这也是磁盘在日常的使用场景,磁盘厂商所描述的3000MB+、5000MB+这种磁盘读写效率均为顺序读写,并不符合我们日常使用场景。
NVME类型磁盘: 每秒随机写 >= 1700MB 每秒随机读 >= 2400MB
SSD类型磁盘: 每秒随机写 >= 460MB 每秒随机读 >= 500MB
HDD类型磁盘: 每秒随机写 ~= 200MB 每秒随机读 ~= 200MB
CPU非常重要!尽管CPU并不直接参与深度学习模型计算,但CPU需要提供大于模型训练吞吐的数据处理能力。比如,一台8卡NVIDIA V100的DGX服务器,训练ResNet-50 ImageNet图像分类的吞吐就达到8000张图像/秒,而扩展到16卡V100的DGX2服务器却没达到2倍的吞吐,说明这台DGX2服务器的CPU已经成为性能瓶颈了。
我们通常为每块GPU分配固定数量的CPU逻辑核心。理想情况下,模型计算吞吐随GPU数量线性增长,单GPU的合理CPU逻辑核心数分配可以直接线性扩展到多GPU上。每块GPU应配备至少4~8核心的CPU,以满足多线程的异步数据读取。分配更多的核心通常不会再有很大的收益,此时的数据读取瓶颈通常源于Python的多进程切换与数据通信开销(如使用PyTorch DataLoader)。在我们的测试中,单核CPU实例的数据读取能力就超过了基于Python的八核心实例,真正做到了为模型训练保驾护航。服务器的CPU一般不如桌面CPU的主频高,但是核心数量多。因此您从以前使用桌面CPU切换到服务器CPU上后,需要充分利用多核心的性能,否则无法发挥服务器CPU的性能。
按照GPU架构大致分为五类: