APU是什么

一声忧伤2020-10-12

APU中文名字叫加速处理器,是AMD“融聚未来”理念的产品,它第一次将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持DX11游戏和最新应用的“加速运算”,大幅提升了电脑运行效率。

APU(Accelerated Processing Unit)中文名字叫加速处理器,是 AMD“融聚未来”理念的产品,它第一次将中央处理器和独显核心做在一个晶片上,它同时具有高性能处理器和最新独立显卡的处理性能,支持 DX11 游戏和最新应用的“加速运算”,大幅提升了电脑运行效率。

APU是什么

2011 年 1 月,AMD 推出了一款革命性的产品 AMD APU,是 AMD Fusion 技术的首款产品。

2011 年 6 月面向主流市场的 Llano APU 正式发布。2012 年 10 月,AMD 发布 Trinity 系列芯片。AMD 宣称,Trinity 笔记本电脑比英特尔芯片电脑便宜,但运行速度相当。Trinity 运行速度比 Llano 快 25%,图形核心的运算速度快 50%。

2013 年 6 月 AMD 又推出全新一代 APU,分别为至尊四核 Richland、经典四核 Kabini 和至尊移动四核 Temashi,分别成为桌面版 APU 和移动版 APU 的最新领军产品。

AMD 于 2014 年推出了 Kaveri 系列 APU,支持 HSA 异架构运算,使 CPU 与 GPU 协同工作,并使用 28nm 制程与 GCN 架构 GPU,性能相较于前几代 APU 而言达到了新的水准。

AMD 在 2013 年还推出了 PS4 APU 和 Xbox One APU,在性能上 PS4 APU 是 Xbox One APU 的 1.5 倍,是电脑 APU-7850k 的 5 倍。

平台

PS4 的 APU 在性能上十分的强大,拥有 1.84T/s 浮点的 GPU,以及 176GB/s 速度的 8GB GDDR5 共享内存,在性能上可以媲美中高端的电脑独显

APU 将通用运算 x86 架构 CPU 核心和可编程矢量处理引擎相融合,把 CPU 擅长的精密标量运算与传统上只有 GPU 才具备的大规模并行矢量运算结合起来。AMD APU 设计综合了 CPU 和 GPU 的优势,为软件开发者带来前所未有的灵活性,能够任意采用最适合的方式开发新的应用。AMD APU 通过一个高性能总线,在单个硅片上把一个可编程 x86 CPU 和一个 GPU 的矢量处理架构连为一体,双方都能直接读取高速内存。AMD APU 中还包含其他一些系统成分,比如内存控制器、I/O 控制器、专用视频解码器、显示输出和总线接口等。AMD APU 的魅力在于它们内含由标量和矢量硬件构成的全部处理能力。

所谓 APU 其实就是“加速处理器”(Accelerated Processing Unit)的英文缩写,是 AMD 推出的整合了 x86/x64 CPU 处理核心和 GPU 处理核心的新型“融聚”(Fusion)处理器,因此我们也能在网上找到“融聚加速处理器”的说法。AMD 的 APU 平台分两种,一种是此前已经能在市面上买到的 E 系列入门级 APU,一种是 2011 年才在欧美市场正式上市的 A 系列主流级 APU,A 系列 APU 分 A4/A6/A8/A10 四大系列,就是我们一般讲的“Llano APU 处理器”(拉诺 APU 处理器)。

因此,A 系列的 APU 平台一般就称为 Llano APU 平台,当然,也有人针对 APU 整合的 GPU,把 Llano APU 平台叫做“Lynx 平台”(猞猁平台)。

AMD 认为,CPU 和 GPU 的融合将分为四步进行:

第一步是物理整合过程(Physical Integration),将 CPU 和 GPU 集成在同一块硅芯片上,并利用高带宽的内部总线通讯,集成高性能的内存控制器,借助开放的软件系统促成异构计算。

第二步称为平台优化(Optimized Platforms),CPU 和 GPU 之间互连接口进一步增强,并且统一进行双向电源管理,GPU 也支持高级编程语言,这部分才是最关键的。

第三步是架构整合(Architectural Integration),实现统一的 CPU/GPU 寻址空间、GPU 使用可分页系统内存、GPU 硬件可调度、CPU/GPU/APU 内存协同一致,这已在 APU 中初步完成。

第四步是架构和系统整合(Architectural & OS Integration),主要特点包括 GPU 计算环境切换、GPU 图形优先计算、独立显卡的 PCI-E 协同、任务并行运行实时整合等等,这些需要和微软、ADOBE 等行业软件巨头不停的沟通交流。

APU 正是 AMD 公司对融合技术多年研究的成果,传统计算中的绝大部分浮点操作都脱离 CPU 而转入擅长此道的 GPU 部分,GPU 不再只是游戏工具,混合计算将大放光芒。在不远的未来,CPU 和 GPU 的概念也会渐渐模糊起来,正如 AMD 所宣传的:The Future is Fusion。

架构

Trinity APU 已在 2012 年 10 月 2 日正式发布,距 Llano APU 发布一年又三个月,桌面平台代号为“Virgo”,移动平台为“Comal”,新一代 APU 采用 GlobalFoundries 32nm SOI HKMG 工艺制造,拥有 2-4 个基于改进的推土机架构 CPU 核心,核心代号为“Piledriver”,可以说这一部分的改进还是比较大的,因为上一代 Llano 的 CPU 部分还是采用的较老的 K10 架构,融合的 GPU 部分也进行了大刀阔斧的改进,HD6000 核心将被采用 VLIW4(Cayman 核心的 HD6900 就是采用的这种架构)架构的新图形核心取代。直接竞争将在四月份推出的 Intel Ivy Bridge 架构处理器。AMD 在处理器性能上继续落后,同时在图形性能上大幅领先。新一代 AMD Ryzen APU2/12 正式上市。

显示核心

Trinity APU 基于增强版的推土机架构“打桩机”(Piledriver),最多双模块四核心,支持第三代动态加速技术 Turbo Core 3.0,同时整合 VLIW4 架构的 Radeon HD 7000 系列图形核心。

性能预测

关于 Trinity APU 处理器的性能我们可以从 AMD 展示的移动版平台来一窥端倪。AMD 在搭载了 Trinity APU 的笔记本上运行了 DX11 新作《杀出重围 3:人类革命》,为了方便了解,AMD 还拿 Intel 的 Sandy Bridge 平台进行了对比(移动版 Sandy Bridge 均是内置 HD Graphics 3000),在开启了开启 DX11、形态抗锯齿(MLAA)、纹理过滤、屏幕环境光遮蔽(SSAO)、景深(DOF)、后期处理、曲面细分等特效和技术后,Trinity APU 平台运行更为流畅,而 Sandy Bridge 平台则会时不时出现明显的卡顿现象。 以 PCMark Vantage、3DMark Vantage 的成绩进行衡量,台式机版本的处理器性能、图形性能相比 Llano APU 均可提升最多 30%,而笔记本版本则是最多 25%、50%。 Trinity APU 将针对 Windows 8 操作系统进行专门优化,并引入新的视频处理能力,尤其是视频压缩引擎“VCE”,对手直指 Intel QuickSync 转码引擎。

功耗续航

至于电池续航能力,AMD 内部测试给出的答案是:Windows 桌面空闲待机 12 小时 28 分钟、播放 DVD 标清电影 7 小时 15 分钟、播放 BD 蓝光高清电影 4 小时 2 分钟、运行 3DMark06 测试 3 小时 20 分钟。

内存控制器

Trinity APU 还改进了 DDR 内存控制器,可以支持到 DDR3-2133 内存,从 Llano APU 的测试来看,内存性能的提升直接影响到图形显示部分的性能,从 DDR3-1333 内存升级为 DDR3-1866 后游戏性能最高可提升 55%。也许是由于修改部分较多,Trinity APU 采用了新的 FM2 封装接口,和 FM1 接口互不兼容。

未来展望

这一代的 Llano APU 由于缺货的原因并未发挥出它应有的能量——Fusion APU 于 2011 年 3 月 1 日正式发布,主流的 Llano APU 于 2011 年 6 月 1 日正式发布,而在 9 月中下,隶属 A 系列 APU 的 A8-3850 和 A6-3650 还并未在卖场铺货,起码中关村卖场还未见到货。在 Sandy Bridge 早早完成铺货并开始大势宣传的情况下,Llano APU 还有多少的表现空间还不得而知,也许 APU 真正的能量在 Trinity APU 身上才能爆发出来。 加强了整数运算性能的全新推土机架构处理核心和更侧重通用计算的全新 VLIW4 架构图形核心将使新一代 Trinity APU 具有更强的诱惑力,AMD 首先提出的融聚概念的威力也将在那时候宣泄出来。

架构解析

APU 与融合

不同于推土机,Llano APU 并没有使用全新的内核架构,甚至不像 Brazos APU 平台那样至少处理器部分是新的“山猫”(Bobcat)架构,说白了主要就是 K10 处理器、DX11 显卡(以及北桥芯片)的合体,但显然也不是 1+1=2 那么简单。Llano APU 面临的问题不仅仅是要避免 1+1<2,还要争取做到 1+1>2。

Llano APU 的设计目标主要有这么几条:

CPU、GPU 性能综合:同时提供最好的 CPU、GPU 性能。

独立显卡级别的 GPU 体验:完整的 DX11 和功能集;拖拽转码和 Aero 效果等 Windows 7 体验。

独有双显卡技术:配合 AMD Radeon 独立显卡提供额外性能。

下一代视频加速:也就是 UVD3 引擎,创新的显示和画质功能,更高带宽。

行业和开放标准计算 API 支持:主要是 OpenCL、DirectCompute,同时数据传输延迟更低。

3D 立体:支持 HD3D,包括蓝光 3D、DisplayPort 1.1(不及独立显卡的 DP 1.2)、HDMI 1.4a。

可以看出,六个目标中有五个半是关于 GPU 的,涉及 CPU 的只有半个,Llano APU 的关注重点也就不言而喻了,也与 AMD VISION 这样的平台名字相符。

Llano APU 芯片采用 GlobalF
oundries 32nm HKMG 工艺制造,又分为两种版本,其一是完整版本,集成 14.5 亿个晶体管,核心面积 228 平方毫米,又称为 Big Llano 或者 Llano 1;其二是精简版本,集成 7.58 亿个晶体管,核心面积暂时不详,又称为 Small Llano 或者 Llano 2。二者都采用了新的 micro PGA 封装接口 Socket FS1,772 针无顶盖,引脚间距 1.2192 毫米,芯片尺寸 35×35=1225 平方毫米。

从各方面看,首批发布的 Llano APU 都是采用了第一个完整版本,双核版本也是由四核屏蔽而来的,因此热设计功耗同样较高。不知道何时才能看到原生的双核版本,但是 AMD 透露说会在近期推出不需要风扇散热的低功耗型号,想来就是了。

和之前的 Brazos APU 类似,Llano APU 也在单独一颗硅片上集成了以下众多模块:x86 处理器核心、二级缓存、DDR3 内存控制器、图形 SIMD 阵列(也就是 GPU)、显示控制器、UVD 解码引擎、PCI-E 控制器。从下边这两张图上你就可以看出各个模块的分布位置和相对大小。

Llano APU 内集成了如此众多的功能模块,如何确保它们之间的高速互连、以便让整体随时保持在最佳状态、避免任何潜在的瓶颈,这无疑是 APU 设计过程中最关键的一点,也是获得 1+1>2 效果的基本前提。AMD 在这方面显然是下足了功夫,比如特意设计了全新的 Fusion Compute Link(Fusion 计算连接)来将北桥模块、GPU、IO 输入输出串联在一起,允许 GPU 访问一致性缓存/内存,同时在 GPU 和北桥之间还搭建了 Radeon Memory Bus(Radeon 内存总线),让没有独立显存的 GPU 通过高速带宽去访问系统内存。

说到底,APU 并不是简简单单地把 CPU、GPU 整合到一块硅片上就完事了,不然也不会花费 AMD 三年多的时间,反复修改设计才最终修成正果。

CPU 与 Turbo Core

Llano APU 中的处理器部分来源于 Stars 架构,也就是俗称的 K10 架构,与 Phenom Ⅱ/Athlon Ⅱ系列同宗同源,在移动平台上更确切地说相当于此前的 Phenom Ⅱ Mobile 系列,自带 128-bit 浮点单元、一级缓存(每核心 64KB+64KB)、二级缓存(每核心 1MB),但没有三级缓存。

当然一切都不是完全照搬而来的。除了制造工艺从 45nm 进步到 32nm,从而更有效地控制晶体管集成度、核心面积、频率和功耗,支持 C6 电源状态,还在细节上进行了大量优化,包括更大容量的二级缓存、改进的硬件预取、更大的窗口尺寸、硬件分割器、支持第二代 Turbo Core 智能超频技术等等,最终将 IPC(每时钟周期指令数)提升了 6%以上。

这里特别需要着重介绍的就是 Tur
bo Core,官方中文名:“智能超频”。该技术最早出现于六核心的 Phenom Ⅱ X6 系列上,如今已经进化到第二代,支持从推土机到 APU 的全系列产品,不过截至 2011 年基本还没有软件工具能够实时监测 Turbo Core 的动态频率,只有 AIDA64 附带的 CPUID 还凑合。

我们知道,处理器在不同负载下的实际功耗差别很大,而且都距离最大热设计功耗还有一定的空间,另一方面多核心处理器在不同应用环境中活跃的核心数量也有所不同,这都造成了处理器资源无法得到充分利用,形成了浪费。

解决方案就是由功耗监视器实时测量每个处理器核心的功耗,由北桥汇总,然后统一报告给 P-State 电源状态管理器,再由其根据需要让处理器的各个核心运行在适当的电源状态下,或者降速或者提速,特别是提速的时候能短时间超过原始频率,并且保证始终不超过整体热设计功耗。

AMD Turbo Core 的创新之处在于使用了数字式高级电源管理(APM)模块,相比于类似技术中的模拟温度和电流监测方法,能够提供高灵敏度的电源管理,精确度更高,具备完全可重复性。

更关键的是,Turbo Core 会自动协调 CPU、GPU,让需要更多资源的能够获得更高速度。在 GPU 闲置的时候,它就会大幅降低其频率,去尽可能高地提升 CPU 频率。

如果碰到了较为繁重的图形或者视频任务,GPU 就会获得更高优先级,CPU 退而求其次。

如果 GPU 执行的是 DVD 视频播放等轻负载任务,那么留给 CPU 的加速空间就要在整体热设计功耗中排除掉 GPU 的那一部分。

极端情况下,如果 CPU、GPU 都面临繁忙的任务,或者需要携手进行 OpenCL APP 加速计算,此时 CPU、GPU 就会同时得到加速,甚至会在短时间内超过热设计功耗限制,然后再根据情况去降低 CPU 的频率和功耗(GPU 不变),保证核心温度不致于过高。这一点倒是和 Sandy Bridge 上的第二代 Turbo Boost 有些相似。

内存支持上,Llano APU 移动版支持双通道 DDR3 SO-DIMM,每通道一条内存条,也就是总共只能插两条内存,容量最大 32GB。频率和电压方面标准版 DDR3 最高 1600MHz,电压 1.5V,低压版 DDR3L 最高 1333MHz,电压 1.35V,带宽最高 25.6GB/s。

Llano APU 的桌面版则支持双通道 DDR3 DIMM,每通道两条内存条,总共可以插入四条内存,容量最大 64GB,支持 1.35V DDR3-1333、1.5V DDR3-1866,带宽最高 29.8GB/s。

由于 CPU、GPU“同处一室”,难免会争夺资源(事实上 APU 对内存带宽的依赖性确实非常强),为此 AMD 将 GPU 与内存控制器之间的带宽提高到了上代平台的四倍,且高于内存控制器与内存之间的带宽。

DX11 GPU

这部分是 Llano APU 的重点。它
开发代号为“Sumo”(相扑),源于第一代 DX11 家族中 Radeon HD 5600/5500 系列的 Redwood 核心,最多 400 个流处理器、20 个纹理单元、2 个渲染后端、8 个 ROP 单元,显存位宽 128-bit。遗憾的是,独立的 GDDR5 显存是没有了,而且也不像 880G 主板那样有板载硬显存,只能去共享系统 DDR3 内存。

除了继承原有的 TeraScale 2 统一处理架构,以及完全的 DX11、OpenGL 4.1、各种抗锯齿和各向异性过滤(包括形态抗锯齿 MLAA)、APP 并行计算加速技术之外,Sumo 核心还增加了来自 Radeon HD 6000 系列家族的 UVD3 视频解码引擎、功率门控(深度电源管理与节能),重新设计了通往北桥的显存接口,制造工艺也同步采用了最新的 GlobalFoundries 32nm。

Sumo 核心自然还是 VLIW5 5D 式流处理器架构,单精度浮点计算性能最高 480GFlops,整数计算性能最高 480Gints,都是每秒钟 4800 亿次。

作为 Fusion APU 的竞争对手,Intel Sandy Bridge 所集成的 HD Graphics 3000/2000 虽然比前一代也有了巨大的进步,但是在图形技术、视频技术方面依然落后得很多,尤其是 OpenCL 并行计算仅有处理器支持,图形核心并不支持,无法协同加速。

Llano APU 的处理器、图形核心部分都支持 AMD APP 加速并行处理技术,尤其是 OpenCL 标准规范,为此 AMD 将不断更新 APP SDK 开发包,提供更好性能和更多功能。按照规划,APP SDK 2.5 版将于八月份推出,主要更新有 Windows 7/Linux 性能优化、多 GPU 支持(Windows 7)、快速傅立叶变换(根基数 5)、UVD3/MPEG2 解码、PowerExpress 独显集显切换支持、GPU 调试器(Windows 7)等等。

值得一提的是,Llano APU 正式支持的 OpenCL 规范版本已更新至 1.2

芯片组与节能

随着芯片集成度的提高,无论桌面还是移动平台的构成都越来越简单,传统的处理器加南北桥双的三片架构已经消失,取而代之的是处理器加互连芯片的双芯片架构。原来由北桥负责的大部分功能都已经转移到处理器内部,包括图形核心,所谓的芯片组也就剩下了一颗充当南桥功能的小芯片。

Llano APU 处理器搭配的 Hudson 系列芯片组同样是单芯片设计,在移动平台上有 A70M、A60M 两款型号,代号分别为 Hudson-M3、Hudson-M2,通过 UMI 总线(PCI-E 1.0 x4+DP)与处理器互连。和之前用于 Brazos APU 平台的 Hudson-M1 A50M 是同门师兄弟。

A70M/A60M 芯片组采用65nm 工艺制造,605 球脚 FC BGA 封装,芯片尺寸 23×23=529 平方毫米,典型热设计功耗 2.7-4.7W

两款芯片组均支持六个 SATA 6Gbps 存储接口并支持 RAID 0/1 阵列方式,可提供四条 PCI-E 2.0 x1 连接通道,集成时钟发生器、消费级红外接收器、风扇控制、电压感应、DAC(支持 VGA)等等,主要区别则在于 USB 接口:A70M 原生支持四个 USB 3.0、十个 USB 2.0和两个内部 USB 1.1,A60M 则没有 USB 3.0,而是改成了十四个 USB 2.0

这套平台上还有个可选的替补角色,那就是 Vancouver Radeon HD 6000M 系列独立显卡,通过 PCI-E x16 通道与处理器相连。它不但能为笔记本带来独显性能,还支持与 Llano APU 集成的图形核心组成双显切换、加速系统。

最后再说一下电源管理与节能技术,这方面同样很丰富,包括 32nm HKMG 新工艺、AMD Turbo Core 2.0 动态调速技术、系统管理模式(SMM)、ACIP 兼容、多重性能状态(P-states)、多重节能状态(C-states)、S0/S3/S4/S5 休眠状态、每个核心功率门控(CC6)、PCI-E 核心功率门控、Radeon 流处理器核心与 UVD3 视频引擎功率门控。

功率门控(Power Gating)尤为值得一提。它是 A
MD 45nm 时代非常欠缺的技术,如今终于得到了彻底的支持。相比于时钟门控(Clock Gating),它不仅可以实时调节各个模块的运行频率、电压,还能在不需要的时候彻底关闭,实现部分零功耗。换句话说,Llano APU 的每个处理器核心、每个 PCI-E 控制器、流处理器阵列、UVD3 引擎都是可以完全关闭的,Turbo Core 技术也是因此更上一层楼。

以上种种,都属于 AMD AllDay 全天计算技术。按照 AMD 给出的数据,ⅥSION 2010 移动平台的待机时间最长为 6 个半小时,迎来了 APU 的ⅥSION 2011 则可长达 10 个小时;同时相比竞争对手,待机续航时间长一个半多小时,满载续航时间也要长一个小时。

技术参数

桌面级

Richland 平台

Richland APU 上的动态调频技术为“Hybrid Boost”,芯片内部集成了更多的温度传感器,并调整了 Turbo 加速的算法使之更加智能化。以前需要加速的时候往往是 CPU 和 GPU 同时加速,但是这种情况并不多见,现在的算法则能保证那个部分需要更强性能就加速哪个。

Virgo 平台

移动平台为“Comal”,新一代 APU 采用 GlobalFoundries 32nm SOI HKMG 工艺制造,拥有 2-4 个基于改进的推土机架构 CPU 核心,核心代号为“Piledriver”,可以说这一部分的改进还是比较大的,因为上一代 Llano 的 CPU 部分还是采用的较老的 K10 架构,融合的 GPU 部分也进行了大刀阔斧的改进,HD6000 核心将被采用 VLIW4(Cayman 核心的 HD6900 就是采用的这种架构)架构的新图形核心取代。

Trinity APU 于 2012 年 5 月 15 日正式发布,它的主要任务是接替 Llano 成为新一代面向主流和高性能移动领域的融合处理器。它和 Llano APU 一样最多拥有四个物理核心,不过核心架构从 K10 升级至 Piledriver(打桩机,也就是第二代推土机),融合单显部分则最多拥有 384 个 DX 11 Radeon 流处理器(升级至 HD 6900 系列的 VLIW 4 架构),所搭配的单芯片依然支持 SATA 6Gbps、USB 3.0、PCI-E 2.0 等规范,至于双显混合交火功能也是继续支持的。

与上一代 AMD APU 相比,新一代的打桩机内核 Trinity 在性能上有着飞跃的提升,他的每一个运算模块是由两颗核心组成,每个模块搭配 2MB 的缓存,打桩机提供了 IPC improvement、leakage reduction、CAC reduction 和 frequency uplift 等增强功能,这些有别于 Llano 的设计让 Trinity 在性能上的发挥更为强大,性能提升将会非常明显。在以往公布的 APU 机构途中,内存控制器、核心单元吞吐量和信息处理能力一直是重要提升项目,因为融合的原因,这些单项功能的提升将会大大提升 AMD Trinity 的实际应用性能。

Lynx 平台

“Llano” (32 nm)

CPU 支持:MMX,SSE,SSE2,SSE3,SSE4a,Enhanced 3DNow!,NX bit,AMD64,Cool’n’Quiet,AMD-V,Turbo Core

CPU 部分代号 Husky,基于改进版 K10.5 架构

GPU 部分基于 Redwood 核心

带 K 字的型号开放倍频

全型号通用参数:

晶体管数量:14.5 亿

核心面积:228 平方毫米

步进:B0

接口:Socket FM1

UMI 总线:5GT/s

注:GPU 核心配置格式为:流处理器数量,纹理单元数量,光栅单元数量

猜你喜欢