6700为什么显示八核(i7 6700 8核)

RADEON RX 6700 XT 的发布背景

自打去年下半年起,各种物价飞涨,对 PC 玩家来说,感受最深的则是加密币暴涨导致的显卡缺货和价格哄抬,厂商缺货、玩家买不到显卡的状态已经维持了几个月,而这又正恰逢新旧显卡更新的时间点,旧卡库存不多,新卡供应不上,正所谓青黄不接又适逢币潮,所以大家的感受尤为明显。

无论是玩家还是厂商,都希望有更多的显卡投放市场,哪怕价格略高也会被玩家和矿主、黄牛马上秒掉,RADEON RX 6700 XT 12GB 就是在这样的市场背景下问世的。

NAVI 22 芯片与 RADEON RX 6700 XT 介绍

从产品型号来看的话,RADEON 6700 XT 被设定为 RADEON 5700 XT 的换代产品,现实中 RADEON 5700 XT 其实早就没货了,所以在正常情况下 RADEON 6700 XT 真正插入的市场区间其实是英伟达当下的 GeForce RTX 3060 Ti 和 GeForce RTX 3070 之间。

RADEON 6700 XT 采用的是 AMD 代号 Navi 22 的 GPU,芯片采用台积电 7 纳米制程生产,集成了 172 亿只晶体管,芯片面积 336 平方毫米,基于 RDNA 2 架构。

从功能特性来说,RDNA 2 相对于 RDNA 1 来说主要的变化是引入了 DX12U 的硬件支持,例如 DXR 1.1 硬件光线追踪加速、倍率可变着色(VSR)、网格着色器(Mesh Shader)、采样器反馈(Sampler feedback,可以让开发人员以通用计算的方式直接对场景中的对象进行高耗时的打光计算)等。

在性能拓展方面,6700 XT 和 5700 XT 的通用计算单元数量是完全一样的(40 个 CU,或者说2560 个 SP),主要是依靠提升频率来提高单精度性能,前者的频率可以高达 2581MHz(基频 2424MHz)以上,比后者的 1905MHz(基频 1755MHz)高大约 35%,单精度性能达到 13.2 TFLOPS(5700 XT 是 9.75 TFLOPS)。

具体频率取决于具体应用,根据观察有时候可以达到 2.6GHz 甚至更高,在驱动内置的官方自动超频表格里超频上限可以达到 2.8GHz。

RADEON 6700 XT 拥有 12 GiB GDDR6 板载显存,内存总线为 192-bit,默认运行频率为 8GT/s,带宽为 384 GiB/s,不过RDNA 2 的一个重要特点是集成了庞大的末级高速缓存(LLC)——Infinity Cache(无限高速缓存,下面我将其简称为 LLC),RX 6700 XT 也具备同样的特性,拥有高达 96MiB Infinity Cache,按照 AMD 的说法,这个设计可以有效降低传输每个位元的能源消耗。

根据 AMD 自己的测试,96MiB LLC能在主流 1440p 游戏中实现 60% 的命中率,将其乘与 12 条 64字节高速模式为 1.9GHz的 LLC 规格(12 * 64Byte * 1.9GHz * 0.6 = 875.52GiB/s),接近 256-bit 12Gbps GDDR6 的 2.5 倍等效带宽(256-bit/8-bit per byte * 12Gbps * 2.5= 960GiB/s)。

875 vs 960,差距好像有点大。这里 1.9GHz 是 AMD review guide 中的说法,要是将数字换成 2.1GHz 的话,更接近于 960GiB/s,当然,另一个可能就是命中率可能更高(例如 67%)。撇除这些细节上的纠结,你只需要知道,有了这个 Infinity Cache 后,游戏中的访存性能是可以显著改善的。

6700 XT 引入了 40 个硬件光线追踪加速器(Raytracing Accelerator,简称 RA),每个 CU匹配一个 RA。

关于 RA 的细节我们所知甚少,AMD 所公开的资料表明该单元是一个固定功能单元,只用于执行光线追踪中的求交(intersection)加速,性能指标方面是每个 RA 可以每个周期实现 4 个盒体或者一个三角形的求交加速。

这个做法其实和 NVIDIA 的 RTCore 是非常类似的,所不同的是 RTCore 在加速能力上涵盖了更多的部分。第二代 RTCore 对运动模糊下的光线追踪也做了优化,在三角形求交的时候安培 RTCore 的速度可以做到图灵的两倍。

BVH 是当前硬件光线追踪的主要加速结构,原理就是把场景中的物件以多层包围框的方式包起来,类似套瓷娃,整个场景和各个模型射线求交的时候先进行 BVH 遍历、求交。

光线追踪需要从数以百万计的三角形中找到被当前射线击中的三角形(这一步被称为遍历),采用 BVH 加速体可以显著减少实际遍历三角形的次数。

RDNA 2 光线加速器和 RT Core 相比的主要问题是缺乏对遍历操作进行硬件加速,按照 AMD 的官方说法,在 RDNA 2 上遍历操作是使用流处理器或者说软件方式执行。

RDNA 2 的大容量 Infinity Cache 能够为求交类操作提供降低时延新的效果。

目前的游戏基本都是采用光栅+光线追踪渲染方式,也就是光线追踪用于计算出场景中所需特效后输出到一个渲染目标缓存中,然后和光栅渲染的渲染目标缓存混合形成最终的画面效果。

这样的好处是速度比纯光线追踪快很多,但是依然能提供出色的光线追踪才能达成的画面效果,例如下面这两张图就是游戏 Control 中开关光线追踪透明反射的区别。

开启光线追踪透明反射:

关闭光线追踪透明反射:

Variable Rate Shading 或者说可变倍率着色在 PC 上最早是 NVIDIA 的图灵架构引入并在 DX12U 中成为微软标准,它可以让程序员以 8*8 像素块为基本单位实现纵横比例分别为 1:1、2:1、1:2、2:2 的渲染比率,控制画面不同区域的渲染分辨率比率。例如画面中心区域采用较高的渲染比率,四周采用较低的渲染比率,从而在画面效果折扣较低的情况下实现更快的渲染速度。

DX12U 的 VSR 具有 Tier 1 和 Tier 2,和 Tier 1 相比 Tier2 的区别主要是粒度,Tier 1 的比率是写死在各个渲染调用里,而 Tier 2 允许在屏幕空间纹理里指定渲染比率。

这句话怎么理解?简单来说就是在 tier 2 下,可以将屏幕输出为一张纹理,然后对其进行分析,找出可以不牺牲画质的低渲染率位置,用于下一帧画面的渲染比率设定,如此一来我们就实现了智能化的 VSR 了。

下图使用 VSR Tier 1(彩色块区表示应用了较低的渲染比率):

下图使用 VSR Tier 2(彩色块区表示应用了较低的渲染比率):

按照微软使用 Radeon RX 6900 XT 在游戏 Gears Tactics 上的测试,在打开屏幕空间全局光照的情况下,采用 VSR 高品质模式性能最高可以提升 14%,此时的画质区别肉眼很难分辨。

RADEON RX 6700 XT 公版实物

我收到的是来自 AMD 的 RADEON RX 6700 XT 公版,该卡采用了双槽双风扇散热设计,外观设计语言与之前的 RADEON RX 6800/6900 系列如出一辙,最大的区别其实就是风扇数量从 3 个改为两个,插槽占位从 2.5 槽减少为双槽,外接供电是 8+6(6800 XT 是 8+8),你可以将其看作是 6800 XT 的瘦身版。

从实测情况看,RX 6700 XT 的散热曲线默认情况下偏向于静音,我建议大家尽量再手动调高风扇/温度转速曲线,让显卡的工况更符合你的期待。

由于手头没有好的硅脂和散热垫片了,加上现在对拆解兴趣不是很大,所以这次我没有拆卡,不过 AMD 这边提供了 6700 XT 的裸图(经过修饰的),大家可以看一下了解一下布局:

RADEON 6700 XT 公版提供了 DP+HDMI+DP+DP 的四头输出,能实现 8K 60Hz 或者 4K 144Hz输出。

在视频编解码方面,Radeon 6700 XT 提供了包括 AV1 在内的最新视频解码能力,属于目前同级水平,我希望下一代的 RDNA 能提供更新的 H.266 硬件支持:


VP9

H.264/AVC

H.265/HEVC

AV1

解码

4K 90fps

8K 24fps

4K 180fps

4K 90fps
8K 24fps

4K 120fps
8K 30fps

编码

不具备

4K 90fps

4K 60fps

8k 24fps

不具备

测试平台

CPU:AMD Ryzen 7 5800X八核全速定频 4.5GHz 超线程开启

主板:华硕 ROG Strix X570-E Gaming;BIOS 3405;Resizable Bar/SAM 开启(RX 6700 XT 有效、RTX 3060 Ti/3070 无效)

内存:阿斯加特 Asgard DDR4 3600 8GB 洛极系列-W3 柔光炫彩RGB灯条 * 4

显卡驱动:AMD Radeon Software 20.50

电源:Thermaltake 钢影Toughpoewr PF1 850W 白金牌认证电源

游戏测试结果

测试说明:

地铁离去使用的是游戏内带官方基准测试;刺客信条:英灵殿使用的是游戏内带官方基准测试;Cyberpunk 2077 使用的是第一个救人任务出来后返回家中的过场(从女警官说“好啦”开始),时间长度为 100 秒,使用帧率采集工具采集;Control 是使用帧率采集工具采集,位置是从新游戏开始的大厅跑到清洁工人,时间为 35 秒;神陨使用的是游戏内带官方基准测试;古墓丽影之暗影使用的是游戏内带官方基准测试;看门狗:军团使用的是游戏内带官方基准测试;荒野大镖客 2 使用的是游戏内带官方基准测试。

从游戏测试结果来看,RADEON 6700 XT 的性能基本处于 GeForce RTX 3060 Ti 和 GeForce RTX 3070 之间的区间,其中占优较大的游戏是刺客信条之英灵殿,在 1920x1200 和 2560x1600 分辨率下达到了 RTX 3070 的 1.6 倍和 1.1 倍。

RADEON RX 6700 XT 在一些光线追踪效果相对简单的游戏中可以和 GeForce RTX 3060 Ti 一较高下,例如神陨(GodFalll),这个游戏的光线追踪只有阴影处理,比较适合 RDNA 2 光线 BHV、三角形求交单元较多、频率较高的特点。但是遇到更复杂的光线追踪效果游戏时候,RDNA 2 缺乏硬件遍历加速还是拉了后腿。

由于目前缺乏类似 DLSS 的画面重构技术,RADEON RX 6700 XT 有些情况下还是比较吃亏的。

游戏实际功耗和温度表现

我们使用 CapFrameX 来做手动游戏测试的时候也一并记录下了 RX 6700 XT 的功耗、发热等信息,下图均为游戏 Control 测试时记录的信息,测试设置为 2560x1600 最高特效、光线追踪全开、DLSS 关闭下记录的信息。

RADEON RX 6700 XT:

GeForce RTX 3060 Ti:

GeForce RTX 3070:

从传感器记录的数字来看,RX 6700 XT 的平均耗电要比 RTX 3060 Ti 低大约 10 瓦,比 RTX 3070 低大约 33 瓦。

不过 RX 6700 XT 驱动采用了相对偏静音的风扇转速/温度控制包线,因此在温度上会高不少(我没有拆卡,所以温度值是在原封不动的情况下测试出来的),玩家们要是觉得偏高最好自行在驱动中调整一下,当然非公版的散热效果很可能会更好。

同场加映——RDNA 2光线追踪能力测试

正如我们前面提到的那样,RDNA 2 的 RA(光线加速器,一共 40 个)具备每个周期 4 个 BVH求交和一个三角形求交硬件加速,但是缺乏遍历硬件加速,硬件遍历加速是用 GPU 流处理器以软件方式执行,那么这样的设计会带来什么影响以及为什么 AMD RDNA 2 会采用这样的设计呢?接下来我会尝试用实测来说明。

遍历、求交、递归是光线追踪渲染最常见的三个术语。

遍历:从数以百万计的三角形中找到当前射线击中的三角形;

求交:在击中的三角形或者加速体上计算出具体击中的位置;

递归:递归是光线追踪渲染与光线投射的最主要区别,递归光线追踪增加了射线命中物体后的一系列衍生射线或者说次生射线,例如反射、折射等,光线追踪中的倒影、折射效果都离不开递归。

对于普通读者来说,这三个概念并不需要准确掌握,你需要知道的是,在真正的光线追踪渲染中,最耗时的过程就是遍历、求交,而递归会让遍历和求交的次数几何级上升。

只有找到被击中的三角形后,光线追踪的着色处理才能进行。

遍历、求交虽然属于真实光线追踪中最繁重的任务,但是这种任务其实又傻又楞,最适合交给硬件固定单元来实现,因此在英伟达的图灵架构中开始引入了遍历和求交硬件加速电路——RTCore,每个 SM 搭配一个 RTCore。

有理由相信,相对于其他竞争对手而言,英伟达在 GPU 实现光线追踪加速方面有更丰富的经验,因为英伟达的 CUDA 在 GPU 计算市场广度和深度上远高于其他对手。

它在 2007 年时已经收购了著名的光线追踪渲染器 Mental Ray,在图灵架构之前已经构建起了围绕 OptiX 的完整光线追踪应用生态,在如何做硬件光线追踪这点上英伟达的确是更有话事权。

例如 Keyshot,这是一个长期被英特尔支持的一直坚持纯软件的工业用光线追踪渲染器,在图灵架构发布后,马上转投图灵支持。我相信在图灵架构之前英伟达已经和各个光线追踪渲染器厂商有深入的接触,了解对方的需求,从而使得图灵的光线追踪生态搭建顺风顺水。

AMD 这边当然也有在努力,例如 Radeon Rays 就是一个类似于 OptiX 的光线追踪库,但是说实话,这个东西在生态培植方面和 OptiX 相比差距颇大,这和前几年 AMD 财务状况一般不无关系。

不扯远了,我们马上就要展开光线追踪的测试。

我这里使用到的有两个小程序,都是 github 上的开源项目,分别是 Tanguy Fautre 的 RayTracingInVulkan 和 Will Usher 的路径跟踪器 ChameleonRT。

RayTracingInVulkan 是 Tanguy Fautre 编写的基于 Vulkan 的光线追踪渲染演示程序,最初它是使用 NVIDIA 的厂商 Vulkan 光线追踪扩展来做电子书《一周搞定光线追踪》(Peter Shirley 编写)的代码实现。

去年年底 Vulkan 的 KHR(Vulkan 的官方组织)通用光线追踪扩展发布后,这个小程序也更新了对 KHR 的支持,最新版本实现了对 AMD RDNA 2 的正式支持和优化,我测试的就是前两天才从 github 上 clone 下来的最新版本,使用程序源码附带的 .bat 脚本配合 Vulkan SDK 1.62 和微软 VS 2019 编译,测试结果如下:


这里的 scene 1 到 scene 5 具体名字分别是 Ray Tracing In One Weekend、Planets In One Weekend、Lucy In One Weekend、Cornell Box 以及 Cornell Box & Lucy。

场景 4、5或者说 Cornell Box 和 Cornell Box & Lucy 由于场景相对简单,因此可以视作更偏重三角形求交性能的测试,基于安培架构的 GeForce RTX 3060 Ti 由于 RTCore 具备两倍的三角形求交单元,因此在这个测试中取得了更强的性能。

场景 1、2、3 涉及大量的程序化几何体,在这类测试中 Radeon RX 6700 XT 取得了优势,这也许是因为安培架构的光线追踪性能受限于 RTCore 的数量( 40 RA vs 36 RTCore)或者 RADEON RX 6700 XT 具备 96 MiB infinity cache 发挥了优势。

接下来让我们看看路径跟踪器 ChameleonRT 下双方的表现。

我使用了名为 Hairball 的场景,这是一个由 288 万个三角形构成的场景,测试分辨率依然是 2560x1600。

RADEON RX 6700 XT:

GeForce RTX 3060 Ti:

ChameleonRT 是一个支持多个光线追踪后端(Embree/DXR/OptiX/Vulkan/Metal/OSPRay)的路径跟踪器。

所谓路径跟踪是光线追踪的一种实现方式,前面我们说过,光线追踪和光线投射的最大区别是引入了递归的概念,射线击中物体可能会根据物体的特性产生衍生射线,这里就涉及到如何判断衍生射线的方向,路径跟踪或者说 Path Tracing 一般采用了蒙特卡洛随机算法来确定衍生射线的方向。目前大部分的光线追踪器都采用了 Path Tracing 来实现反射、折射等效果。

从测试结果来看,在这个涉及大量几何体的测试中,RADEON RX 6700 XT 的性能是 4.8 fps,而 GeForce RTX 3060 Ti 取得了接近一个数量级的成绩 40 fps。

从测试来看,RDNA 2 采用着色器来做遍历加速的话,遇到类似 hairball 这种场景的时候,大量的三角形导致的递归引发了海量的遍历操作,性能的确会远不如集成了硬件遍历的安培架构。

我相信,下一代的 RDNA 应该会在这方面做重大改进。

产品总结

RADEON RX 6700 XT 是第二波 RDNA2 显卡,从产品的角度来看,它的游戏性能位于 RTX3060 Ti 和 RTX 3070 之间,填补了 AMD 目前在 3000 到 4000 元的市场空白,如果能以官方报价 3699 购买到的话,是一个非常合理选择。

不过今年由于众所周知的原因,我估计不是那么容易抢到的,因为3699 元不仅是 RDNA 2 的市场空白区间,而且是事实上整个显卡市场的空白区间。

要知道这个价格区间在一周前也就可以买到非 Ti 版本的 RTX 3060,而前两天隔壁的蜜汁操作把解除挖矿限制的驱动挂出来后,现在 RTX 3060 非 Ti 也都蹿升到 4000 甚至 5000 以上,3000-4000 元价格区间再成为是空白中的空白,所以手速决定一切。

以上就是这次 RADEON RX 6700 XT 公版测试报告全文,欢迎大家就产品和技术展开讨论。