RTX 3090深度学习性能实测奉上!模型训练可提升40~60%
点击标题下「云轩cloudhin」可快速关注
| 匠心 | 专业 |
Cloud hin,寓意以“云计算助力科技发展”
Cloud hin的品牌目标是“解决计算的问题”,品牌定位是“让专业的计算机装备为无限的计算潜能服务”。
RTX 3090在深度学习训练任务中,性能表现究竟如何,它能否取代Titan RTX成为最强消费级AI训练卡?现在已经有了答案。如果需要搭建128块以上的GPU集群,8块成组的Tesla A100显然效率更高;如果超过512块GPU,则推荐使用DGX A100系统。目前RTX 3090更适合于高校、科研单位、企业的模型训练应用,性价比高、部署快、模型训练效率提升可实现40%~60%!
3DMARK 理论性能测试
全新的NVIDIA Ampere GPU核心拥有280亿个晶体管,628平方毫米的面积,基于三星的8nm NVIDIA定制工艺,来自美光的GDDR6X显存,RT Core、Tensor Core、SM三大处理核心均为初代Turing的两倍速率,构成了目前消费级性能最强大的RTX 30系列GPU。
我们首先来看下基准测试,采用3DMARK,测试平台配置如下:
衡量显卡DX11理论性能的3DMARK FS套装:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能,取显卡分数实际测试结果如下:
针对显卡DX11性能的3DMARK FS套装测试,RTX 3080比RTX 2080 Ti在FS中分数高22%,在FSE中分数高26%,在FSU中分数高35%;RTX 3090比RTX 2080 Ti在FS中分数高34%,在FSE中分数高41%,在FSU中分数高53%。
DLSS是3DMARK中专门针对深度学习超级采样的测试项,在DLSS都开启的情况下,RTX 3080相比RTX 2080 Ti的FPS提升了23%;RTX 3090相比RTX 2080Ti的FPS提升了35%。
AI训练性能测试
由于RTX 3090现阶段不能很好地支持TensorFlow 2,因此先在TensorFlow 1.15上进行测试。在FP32任务上,RTX 3090每秒可处理561张图片,Titan RTX每秒可处理373张图片,性能提升50.4%!
而在FP16任务上,RTX 3090每秒可处理1163张图片,Titan RTX每秒可处理1082张图片,性能仅提升7.5%。
NVIDIA官方现已提供了支持RTX 3090的CUDA 11.1,Google官方在TensorFlow nightly版中也已加入了对最新GPU的支持。于是又有用户再次测试了RTX 3090和Titan的性能对比。
▲ 训练性能:每秒处理的图片数量
可以看出,使用FP32进行的所有模型训练,RTX 3090都能实现40%~60%的训练提升。而大多数模型的FP16训练速度几乎不变,最多提升20%。
RTX 3090虽然是3080价格的两倍,但是比起A100这种专业卡来说真的还是白菜价,上述测评也已指出3090的目标受众并不仅限传统的游戏用户,专业用户一样被瞄准。
此刻@Cloudhin云轩
专属补贴定制深度学习利器
Cloudhin®云轩专业售前工程师可为您量身定制深度学习AI服务器/工作站,并可预装ubuntu、centos、redhat、TensorFlow、cuda、cudnn等软件环境,让您收到即用,快速开展实验项目。
购买以上塔式工作站,教育用户可领专属补贴,欢迎联系我们详询。工作站CPU可选Intel酷睿X i9-10900X/10920X /10940X/10980XE 等高性能多线程处理器;GPU除 RTX 30 系列外,另可选 RTX 2070S/2080S/2080Ti/Titan RTX 单或双路配置。以上均支持按需定制,为开发者们构建最适配的算力装备,加速HPC、数据科学、深度学习等领域的应用。
专业勤修,锐意进取。云轩技术工程师毕业于NVIDIA深度学习研究所,丰富经验,值得信赖。更多定制方案请联系客服,我们将实时响应您的定制需求。
如果您有合作需求或宝贵建议,欢迎来信。
邮箱:hezuo@kuanfans.com
合作热线:021-5415 5559