更重要的是,通过集成增强的Armv9 的 Neon 和 SVE2 向量处理技术,在 INT8 通用矩阵乘法 (GEMM) 中测得 Cortex-A320 的 ML 处理能力比 Cortex-A35 高出至多 10 倍。此外,通过对 BF16 等新的数据类型、新的点积和矩阵乘法指令的支持,Cortex-A320 的 ML 性能比目前全球最受欢迎的 Armv8-A CPU Cortex-A53 高出至多六倍。
Cortex-A320 在 ML 能力的大幅提升,以及极高的面积能效比,使其在 ML 应用中成为最高能效的 Cortex-A CPU 核心。
与 Arm Cortex-M 处理器相比,Cortex-A320 的 ML 性能同样提高了数倍。例如,在 GEMM 性能方面,Cortex-A320 相较目前性能最高的 Cortex-M CPU (Cortex-M85) 提高了八倍。这种性能提升不仅归功于 Armv9 架构在 AI 处理上的增强,还源于 Cortex-A320 内存访问性能的大幅提高和频率的增加。
与此同时,得益于 Arm 的 A 处理器架构、多核执行,以及灵活的内存管理,这使 Cotex-A320 成为 Cortex-M 系列微处理器进行性能升级的合适选项。
另一方面,由于其所具备的 A 处理器架构特性,Cortex-A320 可以提供开箱即用的 Linux 支持,并为安卓系统等现有的功能丰富的操作系统提供软件可移植性。Cortex-A320 具备出色的灵活性,适用于众多细分市场、应用和操作系统。
引入 Armv9 边缘 AI 异构计算平台
Arm Ethos-U85 NPU 旨在应对 Cortex-A 系统中的常见高延迟内存,并与 Cortex-A320 处理器协作良好。
Ethos-U85 驱动程序已完成更新,该 NPU 现可直接由 Cortex-A320 驱动,而无需基于 Cortex-M 的 ML 岛。这一更新不仅改善了延迟,还为 Arm 的合作伙伴免去了使用 Cortex-M 来驱动 NPU 的成本和复杂性。
此外,Cortex-A320 的内存访问性能和增强的内存系统使其能够执行更大规模的 ML 模型,例如超过 10 亿个参数的大语言模型 (LLM)。由于可寻址内存空间有限,这些模型很难在基于 Cortex-M 的系统上高效运行。
Ethos-U NPU 通过量化数据类型,来满足边缘 AI 用例有限的成本和能耗要求。Ethos-U85 不支持的 ML 算子和数据类型都将自动回调到 Cortex-A320 上进行处理,并利用 Neon/SVE2 引擎进行加速。
Armv9 架构实现了显著的 ML 性能提升,得益于此,在 2GHz 频率下运行,以 8 位 MAC/周期测得,四核 Cortex-A320 可以执行高达 256 GOPS。因此,无需外部加速器,Cortex-A320 便可直接在 CPU 上运行高级 ML 和 AI 用例。这为针对各种 ML 和 AI 应用的设备节省了系统面积、功耗和复杂性,并带来最高可达 0.25 TOP 的表现。
边缘 AI 新时代未来可期
Cortex-A320 将 Armv9 架构的安全性和卓越的 AI 性能引入了 Cortex-A 的超高能效系列,为软件开发者提供了开发和部署更严苛用例的新可能,开创了边缘 AI 设备的新时代。通过结合 Arm 的 A 处理器架构及相关的软件生态系统,并在高能效和灵活性支持下,Cortex-A320 为物联网领域的各个细分市场提供了卓越的可扩展性和多样化。
点击,了解超高能效的 Arm Cortex-A320 CPU 如何以其卓越性能、安全性和能效革新物联网领域。