GPU的架构知识介绍

若水1864由分享时间：2021-04-13 18:18:23

推荐文章

浅谈税务系统内控机制的架构及路径选择

热度：

GPU中文翻译为“图形处理器”，又称显示核心、视觉处理器、显示芯片。这里给大家分享一些关于GPU架构知识介绍，希望对大家能有所帮助。

GPU的起源

GPU缩写为Graphics Processing Unit的，一般称为视觉处理单元。GPU被广泛用于嵌入式系统、移动电话、个人电脑、工作站和电子游戏解决方案当中。现代的GPU对图像和图形处理是十分高效率的，这是因为GPU被设计为很高的并行架构这样使得比通用处理器CPU在大的数据块并行处理算法上更具有优势。

1985年 8月20日 ATi公司成立，同年10月ATi使用ASIC技术开发出了第一款图形芯片和图形卡，1992年 4月 ATi发布了 Mach32 图形卡集成了图形加速功能，1998年 4月 ATi被IDC评选为图形芯片工业的市场领导者，但那时候这种芯片还没有GPU的称号，很长的一段时间ATI都是把图形处理器称为VPU，直到AMD收购ATI之后其图形芯片才正式采用GPU的名字。

NVIDIA公司在1999年发布GeForce 256图形处理芯片时首先提出GPU的概念。从此NVIDIA显卡的芯片就用这个新名字GPU来称呼。GPU使显卡削减了对CPU的依赖，并执行部分原本CPU的工作，尤其是在3D图形处理时。GPU所采用的核心技术有钢体T&L、立方环境材质贴图与顶点混合、纹理压缩及凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬体T&L技术能够说是GPU的标志。

工作原理

电脑显卡的处理器称为图形处理单元(GPU)，它对于显卡的功能就相当于CPU对于整台电脑，但是GPU的设计初衷是为了处理图形渲染所需要的复杂的数学和几何运算。一些高速的GPU往往包含比CPU更多的晶体管，而且，GPU的运行会产生大量的热量，因而，它们一般都安装有必需的散热片或者散热风扇。

GPU是能够从硬件上支持T&L(Transform and Lighting，多边形转换与光源处理)的显示芯片，因为T&L是3D渲染中的一个重要部分，其作用是计算多边形的3D位置和处理动态光线效果，也可以称为“几何处理”。一个好的T&L单元，可以提供细致的3D物体和高级的光线特效;只大多数PC中，T&L的大部分运算是交由CPU处理的(这也就是所谓的软件T&L)，由于CPU的任务繁多，除了T&L之外，还要做内存管理、输入响应等非3D图形处理工作，因此在实际运算的时候性能会大打折扣，常常出现显卡等待CPU数据的情况，其运算速度远跟不上今天复杂三维游戏的要求。即使CPU的工作频率超过1GHz或更高，对它的帮助也不大，由于这是PC本身设计造成的问题，与CPU的速度无太大关系。

GPU是显示卡的“大脑”，它决定了该显卡的档次和大部分性能，同时也是2D显示卡和3D显示卡的区别依据。2D显示芯片在处理3D图像和特效时主要依赖CPU的处理能力，称为“软加速”。3D显示芯片是将三维图像和特效处理功能集中在显示芯片内，也即所谓的“硬件加速”功能。

GPU加速技术

当前CPU发展速度已经落后于摩尔定律，而GPU正以超过摩尔定律的速度快速发展。

在SIGGRAPH2003大会上，许多业界泰斗级人物发表了关于利用GPU进行各种运算的设想和实验模型。SIGGRAPH会议还特地安排了时间进行GPGPU的研讨交流。与此同时，在计算机进入DirectX 9 Shader Model 3.0时代，新的Shader Model在指令槽、流控制方面的显著增强使得对应GPU的可编程性能得到了大大的提升。GPGPU的研究由此进入快车道。

下面对几个值得关注的技术做简单介绍。

CUDA

为充分利用GPU的计算能力，NVIDIA在2006年推出了CUDA(ComputeUnified Device Architecture，统一计算设备架构)这一编程模型。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员现在可以使用C语言来为CUDA架构编写程序。

通过这个技术，用户可利用NVIDIA的GeForce 8以后的GPU和较新的QuadroGPU进行计算。以GeForce 8800 GTX为例，其核心拥有128个内处理器。利用CUDA技术，就可以将那些内处理器串通起来，成为线程处理器去解决数据密集的计算。而各个内处理器能够交换、同步和共享数据。

从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动。

开发库是基于CUDA技术所提供的应用开发库。CUDA的1.1版提供了两个标准的数学运算库——CUFFT(离散快速傅立叶变换)和CUBLAS(离散基本线性计算)的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题，也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外，开发人员也可以在CUDA的技术基础上实现出更多的开发库。

运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种，一种是运行在CPU上的宿主代码(Host Code)，一种是运行在GPU上的设备代码(Device Code)。不同类型的代码由于其运行的物理位置不同，能够访问到的资源不同，因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分，基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口，开发人员可以通过运行期环境的编程接口实现各种类型的计算。

由于目前存在着多种GPU版本的NVIDIA显卡，不同版本的GPU之间都有不同的差异，因此驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层，提供硬件设备的抽象访问接口。CUDA提供运行期环境也是通过这一层来实现各种功能的。由于体系结构中硬件抽象层的存在，CUDA今后也有可能发展成为一个通用的GPGPU标准接口，兼容不同厂商的GPU产品

OpenCL

OpenCL是Open Computing Language(开放式计算语言)的简称，它是第一个为异构系统的通用并行编程而产生的统一的、免费的标准。OpenCL最早由苹果公司研发，其规范是由Khronos Group推出的。OpenCL支持由多核的CPU、GPU、Cell类型架构以及信号处理器(DSP)等其他的并行设备组成的异构系统。OpenCL的出现，使得软件开发人员编写高性能服务器、桌面计算系统以及手持设备的代码变得更加快捷。

OpenCL是一个为异构平台编写程序的框架，此异构平台可由CPU，GPU或其他类型的处理器组成。OpenCL由一门用于编写kernels (在OpenCL设备上运行的函数)的语言(基于C99)和一组用于定义并控制平台的API组成。其框架如下：

OpenCL平台API：平台API定义了宿主机程序发现OpenCL设备所用的函数以及这些函数的功能，另外还定义了为OpenCL应用创建上下文的函数。

OpenCL运行时API：这个API管理上下文来创建命令队列以及运行时发生的其他操作。例如，将命令提交到命令队列的函数就来自OpenCL运行时API。

OpenCL编程语言：这是用来编写内核代码的编程语言。它基于ISO C99标准的一个扩展子集，因此通常称为OpenCL C编程语言。

OpenCL由用于编写内核程序的语言和定义并控制平台的API组成，提供了基于任务和基于数据的两种并行计算机制，使得GPU的计算不在仅仅局限于图形领域，而能够进行更多的并行计算。OpenCL还是一个开放的工业标准，它可以为CPU和GPU等不同的设备组成的异构平台进行编程。OpenCL是一种语言，也是一个为并行编程而提供的框架，编程人员可以利用OpenCL编写出一个能够在GPU上执行的通用程序。在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。

AMD Fusion

与Nvidia不同，AMD走了一条全新的路子：将CPU和GPU融为一体，打造了AMDFusion，即APU(Accelerated Processing Units)。这是AMD融聚未来理念的产品，它第一次将处理器和独显核心做在一个晶片上，协同计算、彼此加速，同时具有高性能处理器和最新支持DX11独立显卡的处理性能，大幅提升电脑运行效率，实现了CPU与GPU真正的融合。与传统的x86中央处理器相比， APU提出了“异构系统架构”(Heterogeneous System Architecture，HSA)，即单芯片上两个不同的架构进行协同运作。以往集成图形核心一般是内置于主板的北桥中。而AMD Fusion项目则是结合现时的处理器和绘图核心，即是将处理一般事务的CPU核心、处理3D几何任务以及图形核心之扩展功能的现代GPU核心、以及主板的北桥融合到一块芯片上。这种设计允许一些应用程序或其相关链接界面来调用图形处理器来加速处理进程，例如OpenCL。

未来AMD将会在AMD APU上实现存储器统一寻址空间，使CPU和GPU进一步结合。最终的目标是要将图形处理器和中央处理器“深度集成”、“完全融合”，可根据任务类型自动分配运算任务予不同的运算单元中。

目前计算机业界认为，类似的统合技术将是未来处理器的一个主要发展方向。

知识介绍相关文章：