Arm CM85

相关链接:瑞萨电子RA8搭载强大的Arm CM85核 为边缘AI应用提供支持(上)

集成Helium的RA8 MCU支持什么?

Helium性能提升是通过处理宽128位矢量寄存器来实现的,这些寄存器可以通过一条指令保存多个数据元素 (SIMD)。在流水线执行阶段,可能会有多个指令重叠。Cortex-M85是一个双节拍CPU内核,可以在一个时钟周期内处理两个32位数据字,如图1所示。乘法累加操作需要从内存加载到向量寄存器,然后进行乘法累加,这可能会在从内存加载下一个数据的同时发生。加载和乘法的重叠使CPU的性能是同等标量处理器的两倍,而不会造成面积和功耗上的损失。

1.png

图1 CM85是一个双拍CPU

这意味着每个时钟周期可以处理两个32位字

Helium引入了150条新的标量和矢量指令,用于加速信号处理和机器学习,包括:

  • 低开销分支扩展(LOBE),用于优化分支和环路操作

  • 允许有条件地执行向量中每个通道的通道预测

  • 用于读取和写入非连续内存位置的矢量收集-加载和分散存储指令,在实现循环缓冲区时很有用

  • DSP算法中使用的复数的算术运算,例如加法、乘法、旋转

  • DSP功能,例如用于FIR滤波器的循环缓冲器、用于FFT实现的位反转寻址、图像和视频处理中的格式转换

  • 支持有限域算术、加密算法和纠错的多项式数学

  • 支持音频/图像处理中使用的8、16和32位定点整数数据,以及用于信号处理的ML和半精度、单精度和双精度浮点数据

这些特性使支持Helium的MCU特别适合AI/ML和DSP类型的任务,而无需在系统中使用额外的DSP或硬件AI加速器,从而降低成本和功耗。

采用RA8M1 MCU的语音AI应用

瑞萨在一些AI/ML用例中成功展示了Helium的这种性能提升,与Cortex-M7 MCU相比,性能显着提升——在某些情况下超过3.6倍。其中一个应用是在RA8M1上运行的语音命令识别用例,它实现了深度神经网络(DNN),该网络经过数千种不同的声音进行训练,并支持40多种语言。此语音应用程序对简单的关键字识别进行了增强,并支持自然语言理解(NLU)的修改形式,该形式不仅依赖于命令单词或短语,而是寻找意图。这样就可以使用更自然的语言,而不必记住确切的关键词或短语。

语音实现利用了带有Helium的Cortex-M85内核上提供的SIMD指令。RA8M1具有大容量内存、支持音频采集,最重要的是,Cortex-M85内核和Helium实现了高性能和ML加速,因此非常适合此类语音AI解决方案。即使该解决方案在有和没有Helium的情况下初步实现也表明,与基于 Cortex-M7的MCU相比,提高了2倍以上的推理性能,如图2所示。

2.png

图2 RA8M1 MCU上的语音AI应用展示了CM85在有和没有 Helium的情况下比CM7的性能改进

很明显,采用Helium的RA8 MCU无需任何额外的硬件加速即可显著提高神经网络性能,从而为实现更简单的AI和机器学习用例提供了低成本、低功耗的选择。

引用

本文引用了以下文档:

“Arm® Helium™ Technology,M-Profile Vector Extension(MVE)for Arm® Cortex-M®  Processors”,作者:Jon Marsh,Arm

“Armv8.1-M 架构简介”,作者:Joseph Yiu,Arm,2019年2月

资源

RA8M1产品详细介绍页

https://www.renesas.cn/cn/zh/products/microcontrollers-microprocessors/ra-cortex-m-mcus/ra8m1-480-mhz-arm-cortex-m85-based-microcontroller-helium-and-trustzone 

工程师博客:终端AI在嵌入式视觉应用中的革命

https://www.renesas.cn/cn/zh/blogs/revolution-endpoint-ai-embedded-vision-applications 

阅读应用说明,详细了解携带Helium的RA8 MCU 的性能优势

renesas.cn/cn/zh/document/apn/high-performance-ra8-using-cm85-core-helium-v10 

RA8系列产品介绍

RA8系列目前已有3款产品量产,包含RA8M1、RA8D1 及RA8T1。

RA8M1

此产品是RA8系列主流通用型MCU,适用于工业自动化、家用电器、智能家居、消费品、楼宇/家居自动化和医疗/保健细分市场中的各种高性能和计算密集型应用场景。同时由灵活软件包(FSP)和一整套软硬件开发工具提供全面支持。

3.png

RA8D1

此产品针对HMI应用,集成了高性能CM85内核和大内存,以及丰富的外设集,包括带并行RGB和MIPI-DSI接口的高分辨率TFT-LCD控制器、2D绘图引擎、16位摄像头接口和多个外部内存接口,经过优化可满足各种图形和视觉AI应用的需求。同时由灵活软件包(FSP)和一整套软硬件开发工具提供全面支持。

4.png

RA8T1

此产品针对电机应用,不仅集成了高达2MB的大容量闪存、1MB SRAM(包括TCM)、PWM定时器、模拟功能、多种连接功能,还支持高级安全特性和安全功能。RA8T1产品组通过其高性能和丰富的集成功能,在用户系统上实现高级电机控制或附加功能。RA8T1产品组支持灵活配置软件包(FSP)和合作伙伴生态系统,以及电机控制评估套件、软件和工具。

5.png

您可点击链接进入瑞萨技术论坛:

https://community-ja.renesas.com/zh/forums-groups/mcu-mpu/ 

来源:瑞萨嵌入式小百科

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 16

随着物联网的爆炸式增长,设备通过无处不在的有线和无线连接相互连接和通信。这种超连接性允许收集大量数据,然后将这些数据进行收集、分析从而做出明智的决策。从数据中获取见解并根据这些见解做出自主决策的能力是人工智能(AI)的本质。人工智能(AI)和物联网(IoT)或人工智能物联网(AIoT)的结合,可以创建“智能”设备,这些设备可以从数据中学习并在没有人为干预的情况下做出决策。

在边缘设备上构建智能的趋势有以下几个驱动因素:

  • 边缘决策可减少与云连接相关的延迟和成本,并使实时操作成为可能

  • 云带宽不足导致计算和决策需要边缘设备

  • 安全性是一个关键的考虑因素 - 对数据隐私和机密性的要求推动了在设备本身上处理和存储数据的需求

因此,边缘人工智能具有自主性、更低延迟、更低功耗、更低带宽要求、更低成本和更高安全性等优势,所有这些都使其对新兴应用和用例更具吸引力。

AIoT为MCU开辟了新的市场,使越来越多的新应用和用例成为可能,这些应用和用例可以使用MCU与某种形式的AI加速相结合,以促进边缘和端点设备的智能控制。这些支持AI的MCU为计算和机器学习(ML)提供了独特的DSP功能,并用于关键字识别、传感器融合和振动分析等各种应用。更高性能的MCU可实现更复杂的视觉和成像领域的应用,如人脸识别、指纹分析和物体检测。

神经网络用于AI/ML应用,例如图像分类、人员检测和语音识别。这些是用于实现机器学习算法的基本构建块,并广泛使用线性代数运算,例如用于推理处理、网络训练和权重更新的点积和矩阵乘法。正如您可能想象的那样,将AI构建到边缘产品中需要处理器具有强大的计算能力。这些新兴AI应用的设计人员需要满足对更高性能、更大内存和更低功耗的需求,同时保持低成本。在过去的日子里,这是GPU和MPU的职权范围,它们具有强大的CPU内核、大内存资源和用于分析的云连接。最近,可以使用AI加速器从主CPU卸载此任务。其他边缘计算应用(如音频或图像处理)需要支持快速乘法累加运算。通常,设计人员选择在系统中添加DSP来处理信号处理和计算任务。所有这些选项都提供了所需的高性能,但会大大增加系统成本,并且往往更耗电,因此不适合低功耗和低成本的端点设备。

MCU如何填补这一空白?

更高性能MCU的出现使得低成本、低功耗的边缘AIoT成为现实。AIoT是通过最新MCU更高的计算能力以及更适合这些终端设备中使用的资源受限MCU的轻量级神经网络模型来实现的。与MPU或DSP相比,基于MCU的物联网设备上的AI可实现实时决策和更快的事件响应,并且还具有更低的带宽要求、更低的功耗、更低的延迟、更低的成本和更高的安全性等优势。MCU还提供更快的唤醒时间,从而实现更快的推理时间和更低的功耗,以及与存储器和外设的更高集成度,以帮助降低成本敏感型应用的整体系统成本。

基于Cortex-M4/M33的MCU可以满足更简单的AI用例的需求,例如性能需求较低的关键字识别和预测性维护任务。然而,当涉及到更复杂的用例时,如视觉AI(目标检测、姿态估计、图像分类)或语音AI(语音识别、NLP),需要更强大的处理器。较旧的Cortex-M7内核可以处理其中一些任务,但推理性能较低,通常仅在2-4 fps范围内。

我们需要的是具有AI加速功能的更高性能微控制器。

RA8系列高性能AI MCU简介

全新RA8系列MCU采用基于Arm v8.1M架构的Arm Cortex-M85内核和7级超标量流水线,可提供计算密集型神经网络处理或信号处理任务所需的额外加速。

Cortex-M85是性能最高的Cortex-M内核,配备Helium™,即Arm v8.1M架构中引入的Arm M -Profile矢量扩展(MVE)。Helium是一种单指令多数据(SIMD)向量处理指令集扩展,它可以通过使用单个指令处理多个数据元素来提升性能,例如在多个数据上重复乘法累加。与较旧的Cortex-M7内核相比,Helium显著加速了资源受限的MCU器件中的信号处理和机器学习能力,并在ML任务中实现了前所未有的4倍加速,在DSP任务中实现了前所未有的3倍加速。RA8 MCU具有大容量内存、高级安全性以及丰富的外设和外部接口,非常适合语音和视觉AI应用,以及需要信号处理支持的计算密集型应用,例如音频处理、JPEG解码和电机控制。

有关瑞萨RA MCU的更多信息请访问:

RA MCU

https://www.renesas.cn/cn/zh/products/microcontrollers-microprocessors/ra-cortex-m-mcus 

您可识别下方二维码或复制网址到浏览器中打开进入瑞萨技术论坛:

https://community-ja.renesas.com/zh/forums-groups/mcu-mpu/ 

来源:瑞萨嵌入式小百科

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 29
订阅 RSS - Arm CM85