vulkanrt(vulkanrt是什么软件)



在英特尔近期发布的消费级产品中,除了12代酷睿系列处理器,最重要的莫过于英特尔Arc锐炫系列高性能独立显卡,这是自从1998年i740之后,英特尔重新回归游戏GPU领域,并且一步到位,不仅支持时下主流的实时光线追踪、DX12 Ultimate,同时也引入了先进的架构设计,以及英特尔的独门技术。是的,即便刚刚起步,英特尔Arc同样显得诚意满满。



事实上,在英特尔Arc锐炫系列独显正式发布的同时,诸如三星Galaxy Book2 Pro这样的笔记本也已经同步上市,并且在第二季度,OEM厂商也将陆续在国内推出采用英特尔Arc锐炫系列独显的笔记本,并纳入英特尔Evo严苛认证的体系内。


那么英特尔Arc锐炫系列独显在上市之初为何可以收到如此青睐,它能否可以解决我们工作、游戏、移动场景需求?现在不妨让我们在英特尔Arc锐炫系列全面铺货之前,预习一番。



Arc 3、5、7新品蓄势待发


在没有正式涉足消费领域之前,英特尔其实已经准备了一套完整的GPU架构和设计方案,并在10代酷睿上Iris核显Xe-LP开始付诸应用,然后发展到游戏独立显卡的Xe-HPG,也就是之前常被提到的DG2。



Xe-HPG代表着一整套英特尔GPU技术的发展体系,现阶段首先面世的是Alchemist(炼金术士)架构GPU,在未来的技术演进中,还将包括Battlemage(战斗法师)、Celestial(天人)和Druid(德鲁伊)多个架构,通过一套组合拳,来表达英特尔在GPU领域严谨的技术发展规划。



回到产品本身。首发的Alchemist架构下包含Intel Arc 3、Intel Arc 5和Intel Arc 7三个系列定位,与英特尔的Core i系列相同,也便于消费者更好的理解。


首发的Intel A350M和A370M属于Intel Arc 3系列,与轻薄型笔记本搭配,用来解决1080p分辨率的主流游戏产品,以及提供一定程度内容创作性能。在今年第二季度,Intel 5和Intel 7也会陆续推出,分别定位性能游戏,以及硬核性能游戏,对应的GPU性能与创作能力也更强。



这里英特尔也大方的展示了三个系列5个型号的具体产品细节。例如A370M拥有8个Xe内核和光追单元,64bit位宽,功耗设计在35W到50W,A550M拥有16个Xe内核和光追单元,显存位宽来到128bit。而象征着高端的A770M则拥有32个Xe内核和光追单元,256bit显存位宽,16GB显存容量,功耗也来到了120W到150W之间。



无一例外的是,所有独立显卡都将配备GDDR6显存,具备独立的硬件实时光线追踪单元,支持微软DXR和Vulkan RT,并且也支持DirectX 12 Ultimate里面所需要的可变速率着色、网格着色、采样器反馈等功能。



在英特尔官方提供的游戏帧率参考中可以发现,通过A370M与酷睿i7-12700H搭配,目前主流的游戏可以达到60FPS以上,而对竞技性要求更高的《堡垒之夜》等在线对抗类游戏,更是可以突破90FPS。



同样,针对新推出的游戏,Intel Arc也进行了提前优化。英特尔已经与顶级游戏工作室展开合作,将GPU的AI引擎,新技术,以及用于游戏帧率优化的XeSS超级采样技术融入到游戏和内容创作软件中,让新版游戏和创作软件在到手的那一刻就能发挥出GPU的应有性能。这一点我们会在文章后半部分进行相对深度的解析。



让技术先行


Xe-HPG循序渐进的发展体系,注定了英特尔GPU在推向消费市场是产品走向成熟化的结果。在了解Intel Arc,Xe-HPG架构之前,不妨让我们从产品技术基础开始,这也将帮助我们理解英特尔GPU,以及对英特尔GPU未来数年规划是如何产生影响的。


从结构上来看,Xe-HPG并非Xe-LP的粗暴扩充版本,而是引入了一套英特尔全新的IP内核Xe-Core,也就是Xe内核。这也意味着,诸如EU、执行单元之类的描述,是无法准确表达Xe-HPG相关GPU的。



Xe内核可以理解成为向量与张量ALU的集合,具备独立的L0和L1缓存,在逻辑层面上与Xe-LP子切片、NVIDIA SM流处理器相近。这样的设计主要是方便不同的开发人员在逻辑上调用的方便性,以便更好的与主流市场兼容。需要注意的是,单元层级之间也并非一成不变,可以根据市场需求情况进行调整,比如NVIDIA就曾经数次对SM层级进行修改,匹配当时的游戏和视觉运算需要。


每一个Xe内核中都配备了16个矢量引擎(Xe Vector Engines,XVE)和16个矩阵引擎(Xe Matrix eXtensions,XMX)。


先说矢量引擎。每个矢量引擎在每个周期内可以处理256bit,主要为传统图形着色器执行大部分运算。如果再向下拆解,每个矢量引擎包含8个FP32 ALU,与Xe-LP EU大致相同。由于16个矢量引擎每个时钟能够处理128次FP32操作,即FMA吞吐量为256 FLOPS。在每时钟吞吐量上,英特尔Arc的表现与世面主流显卡NVIDIA Ampere GPU SM吞吐量是相同的。



在Xe内核中,与16个矢量引擎进行1:1配对的是16个矩阵引擎,主要负责传统图像处理的计算任务,解决一系列大型的矩阵乘法和累加算法问题,包括游戏中会使用到的XeSS超采样技术,以平衡实时光线追踪技术对游戏帧率造成的衰减。



这里英特尔使用了一个专有名词来命名,即Xe Matrix eXtensions,缩写XMX,可见其重要性。XMX主要用于AI加速、矩阵/张量计算,每个XMX引擎使用一个8深度脉动阵列制。XMX每个时钟周期执行8个512位宽的矩阵计算运算。这些矢量引擎和矩阵引擎由一个可以每个时钟周期取回512B数据的宽加载/存储单元支持。从而有效提高执行性能和算力,可以同时调度和执行浮点FP、整数INT和 XMX 指令,并以锁步形式并行两个引擎和共享资源。



Xe内核向上一个层级,被称为渲染切片(Rendering Slice),渲染切片将给英特尔GPU提供大部分的功能,包括前面提到的可变速率着色、网格着色、采样器反馈等等。其中实时光线追踪单元也与主流的RT Core类似,通过加速光线遍历、求交测试、交汇点着色计算获得光追结果。



在Alchemist(炼金术士)架构中,1个渲染切片包含4个Xe内核,4个光线追踪单元,4个纹理采样器、几何/光栅化前端,2个像素后端。这样4:4:4的布局意味着炼金术士GPU内,每个Xe内核都能拥有自己的纹理采样器和光线追踪单元。


同时这也提升了Xe-HPG灵活的特性。通过叠加或者删减渲染切片,就可以打造匹配不同规格和关进的GPU,目前可以提供至少2个最多8个的渲染切片配置。在未来制程工艺如果再进步,即使不更改逻辑层,也能通过融入更多的渲染切片达到更高的吞吐量和更好的效果。



黑科技加持


新GPU如果想在市场站稳脚跟,必然需要一些黑科技的加持。在文章中被反复强调的XeSS超采样技术正式其中之一,利用XMX的AI性能加速,通过一系列AI优化算法,以更低的运算资源作为代价,换取更高的性能和图像质量。



在技术层面,XeSS技术是一种结合了空间和时间在AI图像提升的方式,在宣布Arc品牌发布之前,英特尔已经进行了很长时间的研发,SDK也已经先行交个游戏开发工作室,因此在正式发布英特尔GPU的时候,已经获得了14款游戏对XeSS技术的支持。



在另一个层面,英特尔则引入了一套Deep Link技术,这是涵盖不同技术的总称,包括了英特尔旗下诸多技术革新,包括动态功率共享,超级编码和超级算力。



动态功率共享顾名思义,这项技术能在系统功耗的限制范围内,尽可能最大化释放CPU或GPU的性能。早在KabyLake-G时代,英特尔就已经开始尝试CPU与GPU之间的动态功率分配。


在实际运行中,英特尔会循环采集各种系统信息,包括但不限于CPU和GPU的温度,占用率,各自的功耗等等,最核心的参数还是GPU的利用率。根据游戏的负载不同,当系统发现GPU负载过高会动态调整GPU和CPU的功率配比,将更多的功率分配给GPU。当系统发现GPU负载较低,会动态调整功率配比,将功率分配向CPU。如果达到了良好的动态平衡,就维持当前的功率配比。


重点是,英特尔会以100毫秒为最小间隔来动态调控功率配比,实现CPU与GPU之间功耗的高速匹配。



针对编码,英特尔则引入了一套名为超级编码的技术,如果笔记本同时使用了英特尔的CPU和GPU,这套超级编码技术就会启用,同时使用CPU的核显以及独立GPU协同工作,以提升效率。这套技术是通过OneVPL的API来实现的,而OneVPL本身就是一个跨平台开放性架构,这意味着更多的媒体引擎都可以加入到这项技术中,充分发挥视频的处理能力。



Deep Link技术还包括了一项超级算力技术。这项技术主要应用在AI运算上,同样是CPU核显与GPU搭配使用,基于OpenVINO框架实现,通过延迟敏感度、吞吐量、性能要求、功率消耗情况,将AI运算分配给核显或者独立GPU。这也使得在同时拥有英特尔CPU和英特尔Arc独显的情况下,笔记本在诸如视频降噪、提升分辨率、锐化等AI加速表现上,拥有更强的提升。



除此之外,Xe-HPG也融入了Xe媒体引擎,提供了包括H.265 / HEVC、H.264 / MPEG-4 / AVC、VP9 以及业界首个对 AV1编码和解码的硬件加速支持,英特尔也成为第一家为AV1构建硬件编码支持的GPU提供商。



在规格上,AV1的效率比最常见的编解码器H.264高了50%,比HEVC高了20%,能够以更低的带宽和更小的文件大小提供更高的画面质量,并且没有版权费用的禁锢。Intel Arc中的AV1编码硬件加速与传统的软件实现相比,效率提升了50倍。目前为止,FFMPEG、Handbrake、Adobe和XSplit都集成了对Intel Arc AV1的支持。



Xe显示引擎还支持包括HDMI 2.0b和DisplayPort 1.4a的规格,最高能够提供1080p@360Hz输出,或者4个4k@120Hz HDR显示器扩展。



同时英特尔还引入了支持VESA标准的Adaptive Sync技术。为了追求跟高的游戏帧率和更快的响应速度,游戏玩家通常会关闭显示器垂直同步V-Sync,但会造成在高渲染率下玩电子竞技游戏时的画面撕裂的问题。英特尔Adaptive Sync运用了模糊化两个撕裂帧之间的边界,来减少视觉失真,从而实现打开Smooth Sync功能,让画面连贯的效果。



全面融入英特尔生态


无论哪一家GPU厂商,都并非简单提供一个GPU硬件,为了推向更广阔的市场,必须要包办软件和应用在内的完整解决方案。事实上这也正是英特尔生态体系下最为擅长的地方。在英特尔Arc锐炫推出的同时,英特尔也开始注重GPU带来的实际体验,并将其融入英特尔Evo严苛认证体系范围之内。



在发布新显卡的同时,英特尔同步推出了Arc Control 锐炫控制面板,能够一站式提供与锐炫显卡相关的设定或者信息接收,包括可以让用户快速升级驱动,及时看到显卡性能的工作负载,虚拟摄像头设定,自动生成游戏高光时刻,主播软件设定等等。


与GFE类似,Arc Control控制面板提供了一套无关操作系统的图层叠加技术,在尽可能少使用处理器工作负载的前提下,完成快速便捷的交互任务。同时Arc Control控制面板也支持快速安装和自动更新,比如新游戏上架之后,Arc Control控制面板也能快速提供对应的新游戏驱动,优化Arc显卡运行游戏的性能。



针对性能玩家,Arc Control控制面板也提供了一套性能检测参考,以及完整的GPU工作负载情况,在未来针对台式机GPU,还会提供功率控制和风扇速度。同时,Arc Control还提供了直播、串流相关的功能和设置,能够更快的将游戏画面上传至直播平台。虚拟摄像头也可以帮助玩家快速提供背景移除、自动画面比例调整、自动保存高光时刻功能。



如开头所说,全球首款搭载锐炫A350M显卡的笔记本是三星Galaxy Book2 Pro已经开始在部分地区销售,而很快英特尔的OEM和ODM合作伙伴也会跟进,在中国市场推出对应的英特尔锐炫产品,高端游戏笔记本中也将出现英特尔的身影。



毫无疑问的是,随着英特尔锐炫A系列独立显卡的推出,英特尔的笔记本体系也将变得更为完整和高效。这也将促进合作伙伴加速整个笔记本生态应用和效能升级,更进一步催生出多样化的笔记本产品。无论对游戏玩家、内容创作者还是基本办公需求的用户而言,都将带来体验上的全新改变。而这一点对于消费者而言,是最为重要的。