我的位置:

适合深度学习训练:服务器案例

2024-02-24

需求分析

 

深度学习(Deep Learning)可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言处理等。深度学习采用的模型为深层神经网络(Deep Neural Networks,DNN)模型,即包含多个隐藏层(Hidden Layer,也称隐含层)的神经网络(Neural Networks,NN)。深度学习利用模型中的隐藏层,通过特征组合的方式,逐层将原始输入转化为浅层特征,中层特征,高层特征直至最终的任务目标。

 

深层模型参数多,计算量大,训练数据的规模也更大,需要消耗很多计算资源。利用GPU来训练深度神经网络,可以充分发挥其数以千计计算核心的高效并行计算能力,在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。如果对深度神经网络进行合理优化,一块GPU卡可相当于数十甚至上百台CPU服务器的计算能力,因此GPU已经成为业界在深度学习模型训练方面的首选解决方案。

 

一般来说,GPU卡数量越多越能提升深度学习模型训练的速度,深度学习模型训练还需要存储海量的训练数据,训练过程中会有大量的小文件频繁读写,对于方案的存储容量和硬盘读写速度均有较高要求。

 

解决方案

 

机器外观方面,元素魔方深度学习训练服务器分为静音塔式服务器和机架式服务器两种,适应客户办公室和机房不同的使用场景。

 

机器硬件方面,元素魔方深度学习训练服务器既有基于Intel Xeon CPU平台方案,又有基于AMD EPYC CPU平台方案,具有支持2GPU卡、4GPU卡、8GPU卡、10GPU卡等多种机型,以及以这些机型为基础构建的GPU集群方案,可以满足科研人员多层次需求。元素魔方深度学习训练服务器支持高达2个2260、2280、22110 M.2 SSD硬盘位,高达4个2.5英寸热插拔U.2 SSD硬盘位,支持高达12块3.5英寸热插拔SATA/SAS硬盘位,可以满足用户对硬盘读写速度的要求,和存储容量的要求。

 

机器软件方面,元素魔方深度学习训练服务器出厂预装TensforFlow,Pytorch等常用或者客户指定的深度学习框架,集成CUDA开发环境,cuBlas,cuFFT,cuSparse,cuDNN等多种函数库,安装Ubuntu,CentOS等多种操作系统,部署机器管理系统和作业调度系统软件。

方案价值

 

元素魔方深度学习训练服务器分为静音塔式服务器和机架式服务器两种,静音塔式服务器可以放置在办公室像台式机一样使用,机架式服务器可以放置在机房远程使用,用户使用起来非常方便。

 

元素魔方深度学习训练服务器,最大支持10块GPU卡,GPU卡可采用NVIDIA A100、RTX A6000、Geforce RTX 3090等产品,单精度浮点计算能力高达387Tflops,双精度浮点计算能力高达97Tflops,GPU显存高达480GB,GPU计算能力强劲,可以加快完成客户的深度学习训练任务。最大支持4个U.2 SSD固态硬盘,容量高达32TB,每块SSD读写速度高达2000MB/s,读写速度是普通机械硬盘的十几倍,较大提升小文件读写速度,从而提升训练速度。最大支持12块3.5英寸机械硬盘,容量高达240TB,方便在本地存储海量的训练数据。

 

元素魔方深度学习训练服务器,出厂预装深度学习框架软件、开发环境、函数库、操作系统,真正做到了交钥匙工程,用户开箱即用。部署机器管理系统软件,可以监控服务器CPU、内存、硬盘、网络等组件的配置情况,负载情况,以及健康状况,以便用户更好地管理和维护服务器。部署作业调度系统软件,可以创建管理员账户和若干普通用户账户,账户权限设定,提交多个作业时,支持作业状态监控,排队,优先,删除等管理功能。

 

以下为适合深度学习训练的服务器配置表,可参考:

如果您有其他需求,我们专业老师也会为您量需定制,欢迎添加肖老师详细咨询17621920434