在Arm 2023 全面计算解决方案推出的全新产品和解决方案,为整个系统的关键工作负载带来了显著提升。
当前,生成式AI、层出不穷的移动应用,对算力提出了更高的要求。与此同时,越来越多的创新应用不仅对CPU提出了更高的性能要求,对GPU的性能要求也越来越高。面对未来计算的复杂需求,Arm正式推出了Arm 2023全面计算解决方案,并发布了全新的CPU、GPU等系列产品。在近期举办的Arm 技术媒体分享日上,来自Arm不同产品线的技术专家详细介绍了Armv9 Cortex 计算集群、基于第四代X内核的全新、基于第五代打造全新Arm GPU等产品,并通过一系列的产品对比,让参会媒体更加直观的了解到了全新产品在性能方面的提升。
(相关资料图)
Arm 产品营销副总裁 Ian Smythe在开场致辞中指出,为了满足定义未来计算的复杂需求,并确保数百万开发者能够轻松地在 Arm 架构平台上实现无缝开发,我们不断突破
Ian Smythe表示,在Arm 2023 全面计算解决方案推出的全新产品和解决方案,为整个系统的关键工作负载带来了显著提升。
基于Armv9.2 架构构建全新CPU,能效比全面提升
在本次技术交流上,Arm详细介绍了基于Armv9.2 架构构建的Cortex-X4、Cortex-A720 、Cortex-A520、DSU-120全新CPU产品。
Arm 终端事业部产品管理总监Saurabh Pradhan率先介绍了最新的 Cortex-X CPU——Arm Cortex-X4,以及集合了 Cortex-X4 与全新 Cortex-A720 和Cortex-A520 的新一代 CPU 集群。他表示,Arm不仅通过扩展性和PPA 表现,同时还拥有全新的功能。以上特性均基于全新 Armv9.2 架构之上,确保 Arm CPU的架构优势始终延续。
据介绍,相较于去年的安卓旗舰设备,Cortex-X4其性能提升了 15%,其能效比提高了 40%。在保持性能和效率优势的基础上,还兼具支持更高的可扩展性,每个内核的 L2 缓存可多达 2MB,广泛适用于各类消费电子设备。
Saurabh Pradhan表示,与所有的IPC 增长。在智能手机上启动应用、浏览网页、页面的加载和渲染,以及相机功能,两位数的爆发式”工作负载提供了峰值性能。得益于前端微架构中指令带宽的逐步增加,Cortex-X4达到了同类产品中的一流性能。
新一代Cortex-A720的面积尺寸与。除此之外,与上一代Arm Cortex-A715相比,能效提升了表示,优化后的
Cortex-A520 是全新小核,始终不懈地专注于在更小的芯片尺寸中实现更高的能效,与上一代 Cortex-A510 相比能效提高了 22%。这降低了低强度后台工作负载所需的计算功耗,并由此延长了消费电子设备的电池续航时间,从而提供更加持久的流畅体验。基于两年前推出的 Cortex-A510 合并核心 (merged-core) 架构,及重点围绕数据预取和分支预测进行的新微构架级的调整,我们大幅提高了新一代产品的能效。Cortex-A520 秉承“效率至上”的设计理念,且其性能也比 Cortex-A510 提升了 8%。
据介绍,Cortex-A520 是真正意义上的首个纯 64 位 Arm 小核 CPU,随着纯 64 位的移动设备进入市场,预计很快将会涌现更多此类设备。实际上,这也是Arm全面放弃32位CPU,全面进入64位芯片时代。
新款 DSU-120 支持最高多达 14 个的内核和更大的L3缓存,可助力构建比前代产品更强大、性能更高的 CPU 集群。全新的 DSU-120 针对 DSU 的各方各面进行了优化提升。 在扩展性方面,它支持从最低单核到最高 14 核,适用于消费电子设备的各类 CPU 集群,其范围涵盖了从入门级智能手机、可穿戴设备到旗舰智能手机和高端笔记本电脑的各个领域。DSU-120 还提供了全新的先进功能,例如智能节能模式,它有助于提高整个 CPU 集群的效率。更高级别的效率表现能延长特定集群所针对的任何消费电子设备的工作天数。DSU-120 还新增了24MB 和 32MB的 L3 缓存配置选项,进而使得对应集群拥有更高的性能和更低的系统功耗。
Saurabh Pradhan表示,无论是搭载于高性能笔记本电脑中的由十核Cortex-X4 和四核 Cortex-A720 CPU 所组成的集群,还是用于旗舰智能手机中的由单核Cortex-X4、四核 Cortex-A720 和四核Cortex-A520 所组成的集群,高度可扩展的 DSU 都为 Arm 2023 全面计算解决方案(TCS23)奠定了根基。
据介绍,此次Arm 基于全新的 Armv9.2 架构构建了所有的新CPU 产品,以快速地将我们的全新架构推向市场。除了内存标记扩展(MTE)和 可伸缩矢量扩展 SVE2,Armv9.2 架构还为指针验证(PAC)全新添加了 QARMA3 算法,以提高在 Armv9 CPU 上激活安全功能时的性能表现。
基于第五代GPU 架构打造的全新 Arm GPU,重新定义视觉计算
众所周知,越来越多的创新应用,除了对CPU性能要求更高之外,GPU扮演的角色也越来越重。在本次技术分享会上,Arm也全面分享了基于第五代 GPU 架构打造的全新 Arm GPU:Immortalis-G720。
Immortalis-G720专为旗舰智能手机而设计,可带来 15% 的性能提升,减少多达 40% 的内存带宽用量,有助于实现更出色且持久的帧率,最终带来更高质量图形性能,实现更加扣人心弦的视觉感受。
第五代架构提高了所有 GPU 的系统级图形性能,意味着不仅大幅提高了 GPU 性能,还优化了全新 Arm 2023 全面计算解决方案中的外部内存、新的 CPU 集群和系统级缓存 (SLC) 之间的交互过程,从而提升了整体的性能表现。
第五代架构致力于提升图形管道,在移动设备上实现下一代高级别几何学渲染游戏和实时 3D 应用也成为了可能。据介绍,为了处理这些更复杂的场景,图形管道首先引入了延迟顶点着色 (DVS) 以重新定义 Arm GPU 中的图形数据流。DVS 利于性能随内核数增加而提升,使 Arm 的合作伙伴能够在未来达到更高的性能水平。DVS 还有助于在高度复杂的游戏场景中保持稳定帧率,同时为未来下一代的几何内容提供支持。
活动现场,Arm还通过一组数据,详细介绍了Immortalis-G720在各种应用中的性能表现。数据显示,与 Immortalis-G715 相比,Immortalis-G720 的峰值性能提高了 25%,占用的内存带宽减少了 22%。 每个 Immortalis 和 Mali GPU 都实现了更高水平的能效表现,其平均能效比上一代产品提升了 15%。意味着新产品的每瓦性能更高,持久性能更出色。此外,系统级效率也有了显著提高,内存带宽使用减少了多达 40%,且 CPU 负载有所降低。这要归功于全新添加的 GPU 指令和驱动程序的优化。
在 TCS23 中,Arm做了大量的投入,保证 CPU、 GPU 协同工作,以发挥最优化的系统级效率。在TCS23 中, Arm 的整体系统级效率不仅限于 CPU 和 GPU 一起,而是指系统级别的,还包括很多部分,尤其是 Immortalis-G720,我们将其建立在新的第五代架构之上,其中一个最核心的变化就是延迟顶点着色 (DVS),减少了 DRAM 流量,从而进一步提升效率。
Arm的目标是每年都能在 GPU 领域提供行业出众的性能和效率,同时为开发者提供丰富的工具和资源,助其打造美轮美奂的视觉盛宴。
正如Ian Smythe所述,Arm2023 全面计算解决方案提供 64 位计算性能、支持安全创新,以抵御更先进的数字威胁,并提供可扩展的解决方案,从而为更广泛的市场带来更多高级的功能。所有这些,都是为了能够确保开发者充分释放其创造潜力,为现代工作负载充分发挥设计才能。