#01
1.1 相关背景介绍
为了给OEM提供革命性的机会,英特尔在其AI座舱创新体验活动中推出了首款独立图形处理单元(dGPU)——英特尔® Arc™汽车图形处理器。这款产品将于2025年正式投入商用,旨在推动汽车AI的发展,加速汽车技术进步,开启AI驱动的座舱体验和增强个性化的新时代,为制造商和驾驶员带来全新的可能性。
英特尔进军汽车独立GPU领域,以满足日益复杂的车辆座舱对计算能力的不断增长需求。通过将英特尔Arc汽车图形处理器加入现有的AI增强型软件定义汽车(SDV)系统级芯片(SoC)产品组合,英特尔为汽车制造商提供了一个开放、灵活且可扩展的平台解决方案,使车辆能够带来下一代高保真体验。
OEM现在可以设计一个灵活扩展的平台,以满足不同配置级别的需求。入门级和中端车型可以利用英特尔SDV SoC,而高端车型则可以通过增加dGPU的强大计算能力来支持更多高端功能。这种方法简化了开发过程,因为软件在集成GPU和独立GPU之间完全兼容。
“dGPU”和”GPU”这两个术语通常都与图形处理单元(Graphics Processing Unit)有关,但它们指的是不同的产品形态和用途。以下是两者之间的主要差异:
特性 | GPU(图形处理单元) | dGPU(离散显卡) |
定义 | 通用术语,指任何用于图形处理的处理器,包括集成和独立GPU。 | 特指独立显卡,不集成在主处理器中,需要插入到主板的PCIe插槽。 |
性能 | 集成GPU通常性能较低,受限于共享系统内存和功耗预算。 | 独立GPU通常提供更高性能,有自己的专用显存和更高功耗设计。 |
用途 | 适合日常计算任务,如网页浏览、办公软件、轻量级游戏等。 | 适用于高性能应用,如高端游戏、3D渲染、视频编辑等。 |
功耗和散热 | 功耗较低,散热要求较低,与CPU共享散热方案。 | 功耗较高,通常需要额外电源和更复杂的散热系统(如风扇、水冷)。 |
成本 | 成本较低,集成在主处理器中,无需额外硬件组件。 | 成本较高,作为单独组件需要额外硬件和工程投入。 |
升级性 | 固定无法升级,集成在主处理器中。 | 可以单独升级,为未来的性能提升提供灵活性。 |
*iGPU和dGPU的主要区别在于它们的集成方式和内存访问方式。iGPU与CPU集成在一起,可以直接访问系统内存,而dGPU则独立存在,不能直接访问系统内存。
Intel作为全球知名的CPU制造商,长期以来在处理器领域占据着领先地位。然而,随着图形处理技术的不断演进和市场需求的多样化,Intel意识到仅凭CPU已无法满足用户对高性能图形处理的需求。因此,近年来Intel开始积极布局独立显卡(dGPU -Discrete Graphics Processing Unit)市场,力图通过技术创新为用户提供更加全面的解决方案。
Intel推出了其首款专为车载环境设计的独立显卡A760A(锐炫)。这款显卡支持多达8块独立显示屏和4K分辨率,并在每秒浮点运算能力上实现了相较于集成显卡的4倍提升,平台AI算力高达229TOPS,拥有16GB大容量显存,性能可以支持4K分辨率、3A游戏。这表明Intel在dGPU市场的布局不仅限于传统的个人电脑和游戏领域,还扩展到了车载系统,旨在为智能座舱系统提供更强大、更个性的AI座舱方案与体验。
在今年(2024)的CES会议上,英特尔发布了其第一代SDV(AI增强型软件定义)座舱SoC(系统芯片)。这款芯片拥有12个核心,采用了7纳米制程工艺,与英特尔面向PC市场的酷睿芯片技术同源。这标志着英特尔在车载计算领域的重要步伐,旨在为汽车提供更加强大和智能的计算能力。
英特尔发布的第一代SDV(AI增强型软件定义)座舱SoC(系统芯片)的具体性能指标包括以下几点:
核心数量:这款SoC最高配置为12核心。
功耗:其功耗范围从12瓦到45瓦不等,适应不同应用场景的需求。
显示支持:这款SoC支持最多4块独立的8K屏幕,为高级信息娱乐系统和多屏幕应用提供了强大的支持。
车规标准:该芯片符合AECQ100的车规标准,确保了其在汽车环境中的可靠性和稳定性。
英特尔的这一举措可以被看作是其在智能座舱领域的重大布局,其第一代SDV SoC的第一个客户是中国汽车制造商极氪汽车,他们将使用这款SoC来打造增强的座舱体验。英特尔计划在2024年下半年开始大规模使用这款新产品。
此外,这款SoC的发布也体现了英特尔对汽车行业的三大挑战的应对策略:集中化的电子电气架构、电车能源和材料问题,以及兼顾主机厂计算平台的需求。英特尔在笔记本电脑领域的经验为其在电车新标准的制定上提供了参考,特别是在提升续航能力方面。
锐炫独立显卡可以看作是该座舱SoC的能力补充,提供额外的图形处理能力,从而使整个系统在处理高负荷图形任务时更加高效。从市场意义来看,A760A的推出对英特尔及整个dGPU市场都产生了深远影响。对于英特尔而言,A760A的成功推出不仅增强了其在dGPU市场的竞争力,还为未来的产品创新和技术升级奠定了坚实基础。同时,A760A的上市进一步提升了英特尔的品牌形象和知名度,巩固了其在全球半导体行业的地位。
此外,汽车制造商现在能够设计一个可以在不同配置级别上灵活扩展的平台。入门级和中端车型可以使用英特尔SDV SoC,而高端车型则可以通过添加dGPU,利用其强大的计算能力来支持更多高端功能。这种方式简化了开发流程,因为软件在集成GPU和独立GPU之间具有完全的兼容性。
1.2 技术特点概览
英特尔Arc汽车图形处理器(GPU)专为高强度计算任务设计,能够高效处理需求,带来更丰富、更流畅的用户体验。与英特尔AI驱动的系统级芯片(SDV SoC,内置GPU)结合使用,新的独立显卡(dGPU)能实现性能倍增,为汽车原始设备制造商(OEM)提供更高的可扩展性,同时降低单位成本,使这一组合成为未来智能投资。该方案不仅能适应快速变化的汽车行业,还不会显著增加成本。
关键是,随着技术进步和消费者需求的增长,OEM可以依赖英特尔系统的开放平台,轻松集成并升级,满足不断变化的需求,而无需大幅改造系统。凭借先进的图形处理能力,dGPU支持高保真视觉效果和复杂的3D人机界面(HMI),从流畅沉浸的AAA级游戏体验,到响应迅速的上下文感知AI助手,再到高质量的3D人机界面,这些都是现代市场中消费者对无缝、互动、引人入胜的娱乐系统的核心需求。
关键功能:
汽车软件与优化驱动:基于Linux的开源汽车操作系统,支持dGPU和iGPU的图形驱动。
英特尔GPU SR-IOV优势:在虚拟机环境下性能提升高达40%,同时增强安全性、隔离性和稳定性。
汽车专用的大型语言模型框架:英特尔优化集成于行业标准LLM框架中,大幅提升效率、定制化能力和用户体验。
Xe显示引擎:支持多达4个显示输出,分辨率可达4K,满足更多车载娱乐需求。
OpenGL和Vulkan:支持开放标准图形和下一代图形API,具备光线追踪功能,实现更逼真的图形效果。
高性能AAA级游戏:基于游戏优化的Xe HPG微架构,提供卓越的性能、效率和可扩展性。
项目 | 规格 | 解释 |
Xᵉ 核心 | 28 | 图形处理单元的核心数量,负责处理图像渲染和计算任务。 |
光线追踪单元 | 28 | 提供光线追踪功能,使图形效果更加逼真。 |
矩阵引擎(XMX) | 448 | 用于AI计算的矩阵引擎,提升深度学习和推理的性能。 |
向量引擎 | 448 | 并行计算的引擎,优化了图形处理和数据计算的效率。 |
内存大小/接口 | 16GB / 256bit | 配备16GB显存,256位接口宽度,确保高带宽和数据处理能力。 |
GDDR6容量 | 16 GB | 使用GDDR6类型显存,提供更高的带宽以支持高性能应用。 |
PCI Express 配置 | Gen4 x16 | 使用第四代PCI Express x16接口,提供高速数据传输通道。 |
SR-IOV(Single Root I/O Virtualization) | 支持 | 支持单根输入/输出虚拟化,允许虚拟机直接访问硬件,提升虚拟化环境中的性能和安全性。 |
FP32浮点运算性能(TFLOPS) | 高达14 TFLOPS | 表示设备每秒执行的浮点运算次数,衡量计算性能。 |
峰值TOPS | 高达229 TOPS | 测量AI推理性能的指标,表示每秒可执行的运算次数。 |
总功率(TBP) | 225 W | 设备的最大功耗,影响能耗和散热设计。 |
显示端口数量 | 4 | 支持多达4个显示器连接,适合复杂的车载显示系统。 |
视频解码 | AVC, HEVC, VP9, AV1 | 支持多种视频格式解码,用于播放不同格式的视频内容。 |
视频编码 | AVC, HEVC, VP9, AV1 | 支持多种视频格式编码,用于视频压缩和传输。 |
操作系统、管理程序及编排 | ACRN管理程序, Linux (Yocto), Android, Linux-in-Container (Android虚拟机内) | 支持多种操作系统和虚拟化技术,适应不同的车载系统需求。 |
支持的技术 | Vulkan, OpenGL, OpenCL, OpenVINO, OneAPI, Proton, virgl, Venus, SR-IOV, virtio display | 提供广泛的图形和计算API支持,提升图形处理能力和AI计算性能。 |
自动温度控制 | 扩展温度支持(-40°C至105°C) | 适应严苛的工作环境,确保设备在极端温度下的稳定性。 |
产品上市时间 | 2025年第一季度 | 预计产品的市场发布和供货时间。 |
*据英特尔介绍,该独立显卡支持4屏4K分辨率,与座舱SOC一起可以支持8个独立显示屏;同时还支持3D 人机界面(HMI)、3A游戏等。
*SR-IOV是一种允许单个I/O设备在多个虚拟机之间共享的技术,这对于提高虚拟化环境中的资源利用率和服务质量非常关键。在AI和数据中心应用中,这项技术可以提升效率,降低延迟,对于云计算和大数据处理尤为重要。
AVC、HEVC、VP9 和 AV1 是几种常见的视频编码标准。它们各自有不同的特点和应用场景:
编码标准全称 | 别名 | 特点 | 应用场景 |
AVC高级视频编码(Advanced Video Coding) | H.264 | 广泛使用,良好的压缩效率和视频质量,支持多种分辨率和高分辨率视频,兼容性较好 | 高清视频播放、网络视频流、蓝光光盘等 |
HEVC高效视频编码(High-Efficiency Video Coding) | H.265 | 比AVC提供更高的压缩效率,在相同的质量下比AVC减少了约50%的数据量,支持4K 和更高分辨率的视频 | 高质量视频流和存储 |
VP9(由 Google 开发的视频编码) | - | 类似HEVC的压缩效率,主要用于YouTube 和Chrome浏览器,免费且开放 | 视频流、网络视频 |
AV1(由开放媒体联盟开发的编码标准) | - | 新一代视频编码标准,提供比HEVC和VP9 更高的压缩效率,同时保持开源和免版权费,支持高分辨率视频和高动态范围(HDR) | 未来的视频流和广播应用 |
以下技术和标准在图形渲染、计算和虚拟化方面扮演了重要角色:
技术/标准名称 | 用途 | 特点 | 应用场景 |
Vulkan | 现代图形和计算API | 低开销、高性能,细粒度GPU控制 | 游戏开发、图形应用、计算密集型任务 |
OpenGL | 传统图形API | 广泛支持,易于使用,性能灵活性稍逊 | 2D/3D 图形渲染、游戏和可视化应用 |
OpenCL | 异构计算API | 支持多种计算设备,通用计算任务 | 科学计算、数据分析、图像处理 |
OpenVINO | 深度学习推理优化工具包 | 优化加速推理任务,支持Intel 硬件 | 计算机视觉、深度学习应用 |
OneAPI | 跨架构编程模型 | 统一编程模型,支持多种计算加速器 | 多种计算和图形任务,提高开发效率 |
Proton | Linux上Windows 游戏兼容层 | 基于Wine,集成Vulkan 支持,优化游戏性能 | Linux上的游戏兼容性 |
Virgl | 虚拟机中的3D图形加速 | 通过虚拟化技术提供3D 图形支持 | 虚拟机中的图形渲染和加速 |
Venus | Vulkan API 的虚拟化实现 | 虚拟化环境中实现Vulkan 图形API | 虚拟机中Vulkan图形处理 |
SR-IOV (单根 I/O 虚拟化) | I/O 虚拟化技术 | 允许设备资源在多虚拟机共享,提高 I/O 性能 | 数据中心、高性能 I/O 需求 |
virtio display | 虚拟化显示设备 | 提供高效的显示虚拟化支持 | 虚拟机中的图形和显示虚拟化 |
这些技术和标准涵盖了从图形渲染到计算加速以及虚拟化的各种需求,每种技术都在特定的应用场景中发挥重要作用。
#02
2.1 Xe HPG微架构解析
Xe HPG 架构是英特尔为其高性能游戏和图形处理单元(GPU)开发的专用架构,旨在提升图形性能和计算能力,满足现代游戏、3D 渲染、人工智能和计算密集型任务的需求。该架构从零开始设计,采用全新的Xe内核,并全面支持DirectX 12 Ultimate。
Alchemist系列SoC基于Xe HPG微架构,采用台积电N6工艺,首批产品将于2022年第一季度上市,并采用新品牌名英特尔锐炫(Intel Arc)。
架构概述
全称:Xe HPG 全称为 Xe High Performance Graphics,是英特尔 Xe 系列 GPU 的一个分支。
定位:Xe HPG 专注于高性能图形处理,特别面向游戏玩家和创意专业人士,兼顾高效能和较低的功耗。
架构特点
基于 Tile 的设计:Xe HPG 架构采用了模块化的 Tile 设计,允许 GPU 在多个计算单元(称为 Tiles)之间灵活扩展。这种设计能够提高芯片的可扩展性和效率,适应不同的功率和性能需求。
计算单元:Xe HPG 内部包含多个执行单元(Execution Units, EUs),每个执行单元负责处理图形计算任务。通过增加执行单元的数量和优化它们之间的并行处理,Xe HPG 提供了显著的图形性能提升。
光线追踪(Ray Tracing)支持:Xe HPG 原生支持硬件加速的光线追踪技术,使得实时光线追踪在游戏和图形应用中更加高效。光线追踪能够模拟光线的物理行为,提升画面真实性和视觉效果。
AI 加速:该架构集成了专用的 AI 处理单元,用于加速深度学习和人工智能推理任务。AI 加速单元可以显著提升图像处理、视频增强和其他 AI 驱动的应用程序的性能。
显存支持:Xe HPG 支持高带宽显存(如 GDDR6),提供更大的数据吞吐量和更快的存取速度,以满足高分辨率游戏和大型数据处理需求。
架构组成与核心组件
1. Xe内核(Xe-cores):
每个Xe内核都配置了一组256位矢量引擎,用于加速传统图形和计算工作负载。
新增的1024位矩阵引擎或Xe矩阵扩展(XMX),专门用于加速人工智能工作负载。
每个Xe核心包含16个矢量单元,每个矢量单元每时钟周期可处理256位数据,可以细分为8个FP32 ALU单元。
2. 渲染切片(Render Slice):
Xe-HPG架构最多可以扩展到8个渲染切片,每个渲染切片由4个Xe核心组成,加上4个专为光线追踪加速的单元。
这种设计使得英特尔可以通过叠加渲染切片的方法来构建不同核心数量的GPU,从而实现高度的灵活性和可扩展性。
3. 光线追踪单元:
每个渲染切片中包含4个光线追踪单元,这些单元能够提供硬件级光追支持,满足现代游戏对光线追踪的需求。
4. 缓存与内存:
Xe-HPG GPU通常配备有L2缓存和GDDR6显存,以确保高速的数据传输和存储。
性能与优化
AI加速:Xe内核中的XMX矩阵引擎能够加速AI工作负载,如XeSS升频技术,可以实现高性能、高保真游戏体验。
上一篇:高德地图上线CarPlay仪表盘投屏功能
下一篇:智能座舱将走向智能体方向