什么是GPU服务器
GPU(Graphics Processing Unit),又称显示核心、视觉处理器、显示芯片。是一种专门在个人电脑、工作站、游戏机和一些移动设备上做图形和图像相关运算工作的微处理器。------摘自tencent全栈程序员站长
GPU服务器是基于GPU的应用于视频编解码、深度学习、科学计算等多种场景的快速、稳定、弹性的计算服务。主要应用于科学计算、视频编解码等不同场景领域,为应用提供非凡的加速计算能力。
GPU服务器主要应用场景
海量计算处理
如搜索、大数据推荐、智能输入法等。
应用案例:原本需要数天完成的数据量,采用GPU服务器在数小时内即可完成运算;原本需要数十台CPU服务器共同运算集群,采用单台GPU服务器可完成。
深度学习模型
GPU服务器可作为深度学习训练的平台:
GPU服务器可直接加速计算服务,也可以直接与外界连接通信。
GPU服务器和云服务器搭配使用,云服务器为GPU云服务器提供计算平台。
对象存储COS可以为GPU服务器提供大数据量的云存储服务。
如何正确选择GPU服务器
GPU型号
GPU主要分三种接口:目前市面上可以进行交付的主要是传统总线接口、PCIe接口和NV-Link接口。
传统总线接口的GPU,主流产品例如:PCI-e接口的V100、P40(P开头指的是上一代PASCAL架构)和P4,以及最新的图灵架构T4等。其中比较薄和只占一个槽位的P4和T4,通常用于Inference,目前也已经有成熟的模型进行推理和识别。
传统PCI-e总线的服务器也分两类,一类是OEM服务器,比如曙光、浪潮、华为等其他国际品牌;另一类是非OEM的服务器。
NV-Link接口类型的GPU典型代表是NVIDIA V100,采用SXM2接口。在DGX-2上有SXM3的接口。NV-Link总线标准的GPU服务器可以分为两类,一类是NVIDIA公司设计的DGX超级计算机,另一类是合作伙伴设计的NV-Link接口的服务器。DGX超级计算机不仅仅提供硬件,还有相关的软件和服务。
如何选择
选择服务器时除了分类,还要考虑性能指标,比如精度、显存类型、显存容量以及功耗等,也会有一些服务器是需要水冷、降噪或者对温度、移动性等方面有特殊要求,就需要特殊的服务器。
首先要考虑业务需求来选择适合的GPU型号
在HPC高性能计算中需要根据精度来选择:比如有的高性能计算需要双精度,这时如果用P40或者P4就不合适,只能使用V100或者P100。
对显存容量有要求:比如石油或石化勘探类的计算应用对显存要求比较高。
对总线标准有要求。
在人工智能领域应用也比较多:教学场景中,对GPU虚拟化要求比较高,根据课堂人数,一个老师可能需要将GPU服务器虚拟出30甚至60个虚拟GPU,因此批量Training对GPU要求比较高,通常用V100做GPU的训练。模型训练完后需要进行推理,因此推理一般会使用P4或者T4,少部分情况也会用V100。
当GPU型号选定后再考虑用什么样GPU的服务器
在边缘服务器租用上需要根据量来选择T4或者P4等相应的服务器,同时也要考虑服务器的使用场景,比如火车站卡口、机场卡口、公安卡口等;在中心端做Inference时可能需要V100的服务器,需要考虑吞吐量以及使用场景、数量等。
考虑客户本身使用人群及运维能力,对运营能力较强的大公司来说,会选择通用的PCI-e服务器;对于一些IT运维能力不那么强的客户,他们更关注数字及数据标注等。
需要考虑配套软件和服务的价值。
要考虑整体GPU集群系统的成熟程度及工程效率。
GPU与CPU的区别
理解其区别的简单方式就是比较它们如何处理任务:
CPU由专为顺序串行处理而优化的几个核心组成,而GPU则拥有一个由数以千计的更小、更高效的核心(专为同时处理多重任务而设计)组成的大规模并行计算架构。
CPU擅长统领全局的复杂操作。GPU擅长对大数据进行简单重复操作。(GPU最近非常火爆也有深度学习需要大量训练数据这一原因)
CPU逻辑运算单元较少,控制器占比较大。GPU逻辑运算单元小而多,控制器功能简单,缓存较少。
没有CPU的服务器是无法工作的。没有GPU的服务器照样可以进行计算和使用。