AI

AI(人工智能)是指计算机系统通过模拟、复制、甚至超越人类智能的能力。这包括执行诸如学习、推理、问题解决和语言理解等智能任务。AI系统使用算法和模型,通过从大量数据中学习并适应,以实现对复杂任务的执行。

新唐科技宣布推出基于微控制器的终端AI平台,使AI生态系扩展至微控制器领域。此解决方案是基于新唐全新架构设计的微控制器和微处理器,包括NuMicro® MA35D1、NuMicro® M467以及配备Arm® Ethos™-U55 NPU的NuMicro® M55M1系列,新唐科技提供完整的软件堆栈及开发工具,有助于快速部署先进的机器学习及深度学习模型,利用低功耗及经济性等优势,加速AI应用的普及,提升生产力及便利人们的生活。

新唐作为技术领先的微控制器平台供应商,不仅提供先进的硬件芯片,也提供开发者完整的软件开发工具,大幅提升开发效率。NuEdgeWise是一个易于使用的图形化Python机器学习开发工具,提供丰富的机器学习范例程序,涵盖数据收集、标签、模型训练及验证等流程,使机器学习开发过程更轻松。新唐全新的微控制器终端AI平台可适用于智能家居、安全门禁、智慧城市、工业自动化、智能农业、互动玩具、健身器材、穿戴式设备等应用,为嵌入式系统产品加入AI价值。

搭载Ethos-U55 NPU的Endpoint AI微控制器:NuMicro M55M1

全新的NuMicro M55M1系列微控制器是一个创新的终端人工智能(Endpoint AI)解决方案,完美整合了全方位的微控制器功能,包括控制、连接和安全性,同时提供先进的机器学习推论能力。M55M1微控制器搭载200 MHz Arm® Cortex®-M55 CPU和200 MHz Arm® Ethos™-U55 NPU,提供机器学习推论能力,支持CNN和RNN运算。内建1.5 MB SRAM和2 MB快闪存储器并可利用HYPERBUS™接口扩充HYPERRAM™或HYPERFLASH™。为了提升应用系统的整体效能,M55M1微控制器特别设计了三项独特功能,以优化系统的效能、安全性和功耗表现。第一,在CPU进入低功耗睡眠模式时,图像感测器、麦克风和各种感测器能够持续运作并监测预先定义的特殊事件,例如人员出现、声响、震动检测等。第二,能够将机器学习模型数据储存于仅NPU能够读取而CPU无法访问的区域,以防范恶意程序窃取模型数据,进而保护知识产权。第三,M55M1亦实现sine和cosine硬件电路,并将其定义于Arm定制指令中,以便应用软件调用。上述三项M55M1的独家功能,可以有效帮助开发者开发兼顾高效、省电和安全的终端AI应用。

高效能边缘工业物联网系列:NuMicro MA35D1

NuMicro MA35D1系列异核同构微处理器是专为满足高阶工业物联网需求而设计,搭载双核心Arm Cortex-A35 64位处理器、主频高达800 MHz,以及一颗180 MHz的Arm Cortex-M4F核心,搭配USB 摄影机以及CNN模型,可执行物体辨识等终端 AI 任务。

提供优异安全性和连接性的Ethernet/Crypto MCU:NuMicro M467

NuMicro M467 系列是基于 Arm Cortex-M4F 核心的 32 位微控制器,支持 200 MHz 工作频率,内建 DSP 指令集和单精度浮点运算单元(FPU)。搭配 tinyML 软件技术,M467 可执行多种终端 AI 应用,如手势识别、设备异常检测和关键词识别。M467 系列微控制器在 MLPerf Tiny Benchmark 测试的四种终端 AI 任务中,展现了优异的推论速度。

完整的机器学习开发工具 – 加速AI应用落地

除了创新的微控制器规格,新唐科技也支持完整的机器学习软件开发堆栈,以便开发者开发机器学习应用。软件堆栈包括NuEdgeWise™ Python开发环境及机器学习应用示例代码、Tensorflow机器学习模型训练框架、Ethos NPU专用的Vela神经网络编译器、Tensorflow Lite for microcontroller推理框架、Arm CMSIS-NN机器学习函数库,以及Ethos-U55 NPU驱动程序。在以微控制器/微处理器为基础的应用如智能家居、安全门禁、智慧城市、工业自动化、智能农业、互动玩具、健身器材、穿戴式设备中,都可以利用新唐科技提供的终端AI微控制器,引入AI特色功能,为产品增值。欢迎系统开发厂商利用新唐AI网页www.nuvoton.com/ai「联系我们」表单,与新唐团队联系,共同探索终端AI新价值。

来源:新唐MCU

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 23

Silicon Labs(亦称“芯科科技”)最新发布的EFM32PG26(PG26) 32位微控制器(MCU)系列通过提升两倍的闪存和RAM容量,以及GPIO的数量来满足各种低功耗和高性能嵌入式物联网应用需求。面向无线连接功能的需求,PG26可作为EFR32xG26多协议无线SoC平台的软件兼容MCU版本,有助于开发人员基于同一平台设计快速且无缝地升级低功耗蓝牙、Matter、Thread、Zigbee或专有无线连接设计。

1.png

高效的PG26提供80 MHz ARM Cortex-M33内核并支持LCD控制器,不仅具有丰富的模拟和通信外设,低电流消耗等特性,还引入了更多的GPIO来解决复杂的系统设计挑战。PG26还配备了硬件人工智能和机器学习(AI/ML)硬件加速器,可以实现各种边缘人工智能(Edge AI)应用,并以更低的功耗进行更快的推理,使机器学习算法的处理速度提高了8倍,而功耗仅为原来的1/6,实现了更高的能量效率。

PG26 32位MCU关键功能特性

低功耗SoC架构

具有 DSP 指令和浮点单元以实现高效信号处理的高性能 32 位 80 MHz ARM Cortex®-M33

  • 高达 2048 kB 的闪存程序内存

  • RAM 数据内存高达 256 kB

低系统功耗

  • 44.6 μA/MHz(活动模式 (EM0),在 80 MHz 条件下)

  • 1.4 μA EM2 深度睡眠电流(16 kB RAM 保留并从 LFRCO 运行 RTC)

宽工作范围

  • 1.71 - 3.8 V 单电源

  • -40 至 +125 °C

小型封装

  • QFN68 8 x 8 x 0.85 mm

  • BGA136 7 x 7 x 0.82 mm

丰富多样的 MCU 外围设备选择:

包括IADC、VDAC、ACMP、PRS、实时计数器、脉冲计数器、看门狗定时器等外设

物联网安全技术:

通过芯科科技Secure Vault™技术和ARM TrustZone技术实现了最佳的安全性。利用芯科科技的定制化元件制造服务(CPMS),xG26产品还可以在制造过程中使用客户设计的安全密钥和其他功能进行硬编码,从而进一步增强其抵御漏洞的能力。

来源:SiliconLabs

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 9

3月18日,“荣耀春季旗舰新品发布会”在京盛大开幕,作为荣耀首款AI PC的荣耀MagicBook Pro 16全新亮相。这款笔记本电脑新品的推出,不仅是荣耀品牌在AI领域的重要里程碑,也标志着芯海科技EC产品再下一城,实现了公司在PC生态领域的重要突破。

1.png

荣耀MagicBook Pro 16作为荣耀首款AI PC,全面实现了性能、续航、通信、音频、屏幕的行业领先,在硬件性能上取得了显著的平衡,树立了Windows PC体验新标杆。特别值得一提的是,该产品选择搭载了芯海科技高性能EC芯片,助力荣耀AI PC在整机性能上实现更为流畅、高效和可靠的用户体验。

技术创新 助力客户商业成长

技术创新始终是芯海科技的核心竞争力。

芯海32位高性能EC芯片,具有高安全、高扩展、低功耗、易开发等技术特点,且芯海为中国大陆地区唯一进入Intel PCL列表的EC厂商,获得了行业的认可,其整体性能及安全性达到业界先进水平,填补了国内笔记本嵌入式控制器的市场空白,为荣耀MagicBook Pro 16的卓越性能体现,提供了坚实保障。

此外,芯海EC提供了完善的参考代码及开发资料包,为笔记本电脑产品的研发提供了极大便利,帮助终端厂商更快地缩短产品研发周期,降低开发成本,提高研发效率,充分展现了公司在EC领域的深厚技术积累和强大创新力,实现了技术和商业的双重突破。

EC作为服务笔记本电脑的“隐形管家”,承担着笔电的开关机时序、充放电、功耗、安全、键鼠管理等稳定性要求极高的工作任务。自EC诞生以来,每次PC产品重大创新变革的背后,都离不开EC的身影。随着AI PC技术的持续进步和完善,笔电安全防护、电源管理、通信管理的功能迭代,EC作为笔电感知和控制不可或缺的组成部分,将在AI时代,扮演更加重要的角色。

目前,芯海科技已完成面向消费市场EC(E20系列)、商用市场EC(E21系列)的全面布局,公司始终坚持以客户为中心,从客户需求出发,始终致力于打造为客户带来价值的产品,确保每一个产品能够精准地满足客户的期待。

芯海建立了符合ISO9001等国际标准的全面质量管理体系,该体系覆盖产品从芯片定义、设计、制造、封装测试到最终量产交付的全生命周期管理,保障产品的高可靠、高性能和高品质。芯海在EC及周边PC产品上不断的积累系统级经验,可快速响应各种客户支持及服务。 

正因如此,芯海的EC芯片已成功应用于荣耀MagicBook Pro 16及全球多家顶级PC品牌的终端产品中,赢得了广泛的市场赞誉。对此芯海并未止步,仍在不断加强产品迭代,推动EC技术创新,并与多家合作伙伴紧密合作,共同研发前沿的EC芯片和解决方案,助力客户打造出引领市场的终端产品。

生态拓展 共创产业无限可能

自2019年进军PC领域以来,芯海科技始终致力于构建国际领先,以EC为核心横向拓展到PD、HUB、BMS、HapticPad等的多元化计算外围系列产品的PC生态。

此次芯海科技EC芯片助力荣耀AI PC火热上市,不仅是PC生态布局的重要里程碑,更是公司拓展产业无限可能的新起点。公司将持续深化与英特尔等产业界伙伴的合作,联手推动PC创新产品的落地,助力全球PC供应链健康发展。

未来,芯海科技将继续秉承创新、协作、开放的理念,凭借在模拟信号链和MCU双平台驱动的技术优势,与全球合作伙伴携手共进,共同打造更加完善的PC生态。与此同时,芯海EC作为PC生态核心支柱,也将继续发挥技术领先优势,为更多顶级PC品牌厂商提供坚实有力的技术和生态支持,将为全球用户带来更加出色的产品和服务。

如有相关产品咨询请联系芯海科技:guoxin@chipsea.com(郭工)。

来源:芯海科技

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 11

AI如何在数以百亿的MCU嵌入式应用中落地?海思正在给出自己的答案。海思A²MCU聚焦行业专用(Application Specific)和嵌入式AI技术(Artificial Intelligence),将AI领域超轻量级的技术框架、极致性能的推理要求、方便快速的部署能力与MCU深度融合,为MCU行业客户探索智能化应用提供新的选择。在TCL小蓝翼P7新风空调发布会上,海思与TCL空调联合发布“A²MCU,让空调越用越节能”解决方案,正是A²MCU的初露锋芒。

1.jpg

为什么嵌入式AI关注度越来越高?

嵌入式AI是将AI算法嵌入到端侧设备中,使得设备能够具备智能化、自动化和高效化的能力。AI的历史可以追溯到20世纪50年代,进入21世纪,受益于算力的迅猛提升,以及大数据、云计算、深度学习等技术发展,人工智能在图像识别、语音识别、自然语言处理、机器人、自动驾驶等领域取得了突破性的进展。随着应用的拓展和渗透,端侧AI近几年逐渐成为业界热点。相对于数百万到千万的AI服务器,端侧AI MCU的数量级将高达数以百亿。基于现有的AI范式,由于资源的限制、模型的适应性等因素,AI越向下越难做,但同时AI下沉带来的商业潜力也很大。因此将AI技术嵌入到端侧最底层的MCU芯片,已成为业界领先MCU企业都在探索的新方向。

基于MCU的AI方案在行业落地,会有哪些困难?

由于MCU硬件性能限制、AI软件的复杂度高、行业应用实时性要求高、能耗限制严格、数据安全性要求高,嵌入式AI在MCU的行业应用落地需要业务团队同时具备丰富的AI知识经验,以及嵌入式软硬件能力。

一方面要开发团队与落地场景之间要展开深度合作。基于真实场景的基础数据及嵌入式AI团队提供的专业的定制化方案,才能真正解决问题,做出价值。

另一方面要能够实现AI模型到MCU的快速部署。通用AI模型往往并不是针对嵌入式应用设计,AI开发工具品类又非常庞杂,而MCU的RAM、Flash资源及CPU算力通常都非常受限,如何选择合适的AI模型和开发工具用来开发出解决特定场景问题模型,又如何将AI模型部署到受限资源的MCU上,这是一个复杂的工程。

海思A²MCU嵌入式AI通过哪些关键技术解决了这些问题?

海思嵌入式AI提供了超轻量级的AI技术框架、极致性能完全满足MCU的推理要求、并能够将多模型快速转换为代码并导入工程,开发者进行方便快速的产品部署。

1)极简框架:在MCU上部署的AI模型,转为网络层的运行代码后,直接调用RISC-V核的优化算子库,省去了模型解析器等一般复杂的框架。RISC-V的开源架构支持自定义指令集,能够更好的支持算子库的优化实现,这也是RISC-V相对于其他内核的一个关键优势。

2.jpg

2)极致性能:意味着在确保场景收益的前提下,将训练推理过程做到极简。包括但不限于:训练模型优化:包括模型结构优化,减少内存读写和计算量;模型训练后量化,使模型更小,推理更快。算子的轻量化、内存优化以及深度性能调优:通过算子库轻量化、算子数据预重排与内存复用、使用算法减少乘法运算次数与内存访问的开销、深度算法调优减少运算次数,与访存开销进行平衡。

3.png


模型剪枝、压缩的轻量化

4.png


训练后量化,模型更小,推理更快

3)易开发部署:海思A²MCU嵌入式AI方案可提供多种模型的转换,例如通过TensorFlow Lite、PyTorch、MindSpore等开发的模型,可快速便捷的转成代码,并导入部署到工程代码中。

5.gif


海思A²MCU嵌入式AI应用效果如何?

12月10日,在TCL小蓝翼P7新风空调发布会上,海思与TCL空调联合发布了“A²MCU,让空调越用越节能”解决方案,该方案基于空调环境、运行和目标参数,通过嵌入式AI算法对复杂工况进行学习,提高运行周期内的整体能效。通过业务场景和AI强化学习模型的深度融合,给空调产品的节能带来代级的差异化竞争力,最终达成调温阶段能耗降低16%的效果。

结语

万物智能时代,我们既需要云端大算力的训练推理,也离不开嵌入式AI在千行百业的端侧普惠应用。相对而言AI服务器的体量是百万~千万数量级,而小算力的MCU则是数百亿数量级,嵌入式AI在绿色节能、人机交互、故障预测、安全防护等行业显示出巨大的潜力。

在嵌入式AI技术中,AI和MCU的关系是相互促进、共同发展的,而嵌入式AI的难度也恰恰来自AI与MCU两个技术分方向的跨界与结合。海思在AI和MCU领域都有近十年的积累和丰富应用经验,致力于将以往经验和技术积累应用于小算力AI场景,和行业伙伴一起联合创新、创造增量价值。

来源:上海海思

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 26

瑞萨基于Arm® Cortex®-M85处理器的产品在优化图形显示功能的同时,为楼宇自动化、智能家居、消费及医疗应用带来超高性能和领先的安全性

全球半导体解决方案供应商瑞萨电子(TSE:6723)今日宣布推出RA8D1微控制器(MCU)产品群。RA8D1产品群作为瑞萨RA8系列的第二款产品,RA8是基于Arm® Cortex®-M85处理器的首款MCU。RA8D1 MCU具有超过6.39 CoreMark/MHz(注)的突破性性能,结合充足的内存和经过优化图形与外设功能,可满足楼宇自动化、家用电器、智能家居、消费及医疗等广泛应用的各类图形显示和语音/视觉多模态AI要求。

1.jpg

高性能MCU支持图形显示和语音/视觉多模态AI应用

2.jpg

瑞萨RA家族MCU产品阵容

所有RA8系列MCU均利用Arm Cortex-M85处理器和Arm的Helium™技术所带来的高性能,结合矢量/SIMD指令集扩展,能够在数字信号处理器(DSP)和机器学习(ML)的实施方面获得相比Cortex-M7内核高4倍的性能提升。这一性能提升非常适合图形和神经网络处理,可以在某些应用中消除对单独硬件加速器的需求。它们还实现先进的安全性,包括Arm TrustZone®技术、瑞萨安全IP(RSIP-E51A)、在不可变存储中带有第一级引导加载程序的安全启动功能、带有即时解密(DOTF)的八线SPI接口,以及指针验证和分支目标识别(PACBTI)安全扩展。

针对图形显示解决方案和视觉/语音AI优化的功能集

全新RA8D1产品包括一个高分辨率图形LCD控制器,带有连接LCD显示面板的并行RGB和MIPI-DSI 接口、一个2D图形绘制引擎、一个16位摄像头接口(CEU)、多个用于存储帧缓冲和图形资源的外部存储器接口,以及176和224引脚封装。该功能集与SEGGER emWin和微软GUIX的专业品质图形用户界面软件解决方案相结合,完全集成至瑞萨灵活配置软件包(FSP)中。瑞萨还支持开源的轻量级多功能图形库(LVGL),以及强大的图形和AI生态系统合作伙伴网络。具有LCD面板和相机模块的全功能图形评估套件完善了该解决方案,并为工业HMI、视频门铃、病人监护仪、图形计算器、安全面板、打印机显示面板和家电显示器等图形应用搭建了强大的开发平台。

Daryl Khoo, Vice President of the IoT Platform Division at Renesas表示:“为改善用户体验,市场对高品质显示的需求日渐提升。RA8D1 MCU的推出,展示了瑞萨作为微控制器领域全球卓越供应商的设计能力与市场洞察。全新发布的产品利用Cortex-M85内核和Helium技术前所未有的性能优势,满足客户对更佳显示和飞速发展的视觉AI实现(如人员和物体检测、人脸识别、图像分类及姿态估计)日益增长的需求。”

Roeland Nusselder, CEO of Plumerai表示:“Plumerai面向开发智能家居摄像头和物联网设备的客户授权高精度AI解决方案。我们已将Plumerai People Detection AI软件移植到全新RA8D1 MCU上。这一MCU包含功能强大的Arm Cortex-M85 CPU和Helium矢量扩展;与使用Arm CMSIS-NN内核的Arm Cortex-M7相比,RA8D1将我们的软件速度提高了6.5倍。家庭安防、智能楼宇、家用电器和零售业对我们的AI解决方案有很大需求,借助瑞萨的RA8 MCU,我们现在可以充分满足这一需求。”

RA8D1系列MCU的关键特性

  • 内核:480 MHz Arm Cortex-M85,包含Helium和TrustZone技术

  • 存储:集成2MB/1MB闪存和1MB SRAM(包括TCM,512KB ECC保护)

  • 图形外设:图形LCD控制器支持高达WXGA的分辨率(1280x800),并行RGB和MIPI-DSI接口连接外部LCD和/或TFT显示器,强大的2D绘图引擎,16位CEU摄像头接口,32位外部SDRAM接口

  • 其它外设:以太网、带XIP和DOTF的XSPI(八线SPI)、SPI、I2C/I3C、SDHI、USBFS/HS、CAN-FD、SSI、12位ADC和DAC、比较器、温度传感器、定时器

  • 高阶安全性:领先加密算法、TrustZone、安全启动、不可变存储、带DPA/SPA攻击保护的防篡改功能、安全调试、安全工厂编程和生命周期管理支持

  • 封装:176引脚LQFP、224引脚BGA

新型RA8D1产品群MCU由瑞萨灵活配置软件包(FSP)提供支持。FSP带来所需的所有基础架构软件,包括多个RTOS、BSP、外设驱动程序、中间件、连接、网络和安全堆栈,以及用于构建复杂AI、电机控制和云解决方案的参考软件,从而加快应用开发速度。它允许客户将自己的既有代码和所选的RTOS与FSP集成,为应用开发打造充分的灵活性;借助FSP,可轻松将现有设计迁移至新的RA8系列产品。

成功产品组合

瑞萨将全新RA8D1产品群MCU与其产品组合中的众多兼容器件相结合,创建了广泛的“成功产品组合”,包括越野GPS导航系统高效7KW+智能热泵。这些“成功产品组合”基于相互兼容且可无缝协作的产品,具备经技术验证的系统架构,带来优化的低风险设计,以加快产品上市速度。瑞萨现已基于其产品阵容中的各类产品,推出超过400款“成功产品组合”,使客户能够加速设计过程,更快地将产品推向市场。更多信息,请访问:renesas.com/win

供货信息

RA8D1产品群MCU和FSP软件现已上市。瑞萨还推出RA8D1产品群评估套件,其中包括针对图形应用的示例项目。多个Renesas Ready合作伙伴也为RA8D1 MCU带来量产级解决方案。瑞萨期待更多合作伙伴移植其软件解决方案,以充分利用Cortex-M85内核和Helium技术。更多产品相关信息,请访问:renesas.com/RA8D1。样品和套件可在瑞萨网站或通过分销商订购。

瑞萨MCU优势

作为全球卓越的MCU产品供应商,瑞萨电子的MCU近年来的平均年出货量超35亿颗,其中约50%用于汽车领域,其余则用于工业、物联网以及数据中心和通信基础设施等领域。瑞萨电子拥有广泛的8位、16位和32位产品组合,是业界优秀的16位及32位MCU供应商,所提供的产品具有出色的质量和效率,且性能卓越。同时,作为一家值得信赖的供应商,瑞萨电子拥有数十年的MCU设计经验,并以双源生产模式、业界先进的MCU工艺技术,以及由200多家生态系统合作伙伴组成的庞大体系为后盾。关于瑞萨电子MCU的更多信息,请访问:renesas.com/MCUs

(注)EEMBC的CoreMark®基准,用于测量嵌入式系统中使用的MCU和CPU性能。

关于瑞萨电子

瑞萨电子(TSE: 6723),科技让生活更轻松,致力于打造更安全、更智能、可持续发展的未来。作为全球微控制器供应商,瑞萨电子融合了在嵌入式处理、模拟、电源及连接方面的专业知识,提供完整的半导体解决方案。成功产品组合加速汽车、工业、基础设施及物联网应用上市,赋能数十亿联网智能设备改善人们的工作和生活方式。更多信息,敬请访问renesas.com。关注瑞萨电子微信公众号,发现更多精彩内容。

围观 11

概要

当谈到微控制器(MCU)和人工智能(AI)的结合,我们进入了一个激动人心的领域。传统上,AI应用程序需要大型计算机或云服务器的处理能力,但随着技术的发展,现在可以将AI嵌入到微控制器中。这为嵌入式系统、物联网设备、机器人和各种其他应用开启了新的可能性。

MCU AI的崛起

MCU AI代表着微控制器上的人工智能。它是将机器学习和深度学习模型部署到资源有限但功能强大的微控制器中,以实现智能决策和感知。以下是MCU AI的一些关键方面:

  • 低功耗: 微控制器通常以电池供电,因此低功耗是至关重要的。AI模型需要经过优化,以在微控制器上运行,同时尽量减小能耗。

  • 实时性: 微控制器常常用于实时控制系统,因此AI模型需要在极短的时间内执行,以应对即时需求。

  • 感知和决策: MCU AI可以使设备具备感知环境、分析数据并作出决策的能力。这对于自主机器人、智能传感器和自动控制系统尤为有用。

MCU AI的应用

MCU AI可以应用于各种领域,下面是一些示例:

  • 智能物联网设备: 微控制器上的AI可以使物联网设备更加智能,例如智能家居设备、智能灯具和智能门锁。它们可以学习用户的偏好,并自动适应不同环境。

  • 自主机器人: 微控制器上的AI使自主机器人能够避障、规划路径和执行任务,例如清扫机器人和无人机。

  • 医疗设备: 在医疗设备中,MCU AI可以用于监测患者的生命体征,提供早期警报和更好的病人护理。

  • 工业自动化: 微控制器上的AI可用于工业机器人、自动化生产线和质量控制系统,提高效率和质量。

作者开始深入进嵌入式AI这个领域,不过学习之前先了解如何用起来,跑起来。本篇文章聊一下如何移植TinyMaix推理框架到RT-THREAD并运行起来。

TinyMaix

TinyMaix:是矽速科技(Sipeed)利用两个周末的业余时间完成的项目,它是一款专为微控制器设计的轻量级开源机器学习库,面向单片机的超轻量级的神经网络推理库,即TinyML推理库,可以让你在任意单片机上运行轻量级深度学习模型。TinyMaix开源代码链接:https://github.com/sipeed/tinymaix

TinyMaix关键特性

  • 核心代码少于 400行(tm_layers.c+tm_model.c+arch_cpu.h), 代码段(.text)少于3KB

  • 低内存消耗,甚至 Arduino ATmega328 (32KB Flash, 2KB Ram) 都能基于 TinyMaix 跑 mnist(手写数字识别)

  • 支持 INT8/FP32/FP16 模型,实验性地支持 FP8 模型,支持 keras h5 或 tflite 模型转换

  • 支持多种芯片架构的专用指令优化: ARM SIMD/NEON/MVEI,RV32P, RV64V

  • 友好的用户接口,只需要 load/run 模型~

  • 支持全静态的内存配置(无需 malloc )

  • 即将支持 MaixHub 在线模型训练

TinyMaix底层依赖

TinyMaix可以简单理解为一个矩阵和向量计算库,目前已支持如下几种计算硬件:

#define TM_ARCH_CPU                 (0) //default, pure cpu compute
#define TM_ARCH_ARM_SIMD            (1) //ARM Cortex M4/M7, etc.
#define TM_ARCH_ARM_NEON            (2) //ARM Cortex A7, etc.
#define TM_ARCH_ARM_MVEI            (3) //ARMv8.1: M55, etc.
#define TM_ARCH_RV32P               (4) //T-head E907, etc.
#define TM_ARCH_RV64V               (5) //T-head C906,C910, etc.
#define TM_ARCH_CSKYV2              (6) //cskyv2 with dsp core
#define TM_ARCH_X86_SSE2            (7) //x86 sse2

对于ARM-Cortex系列MCU,可以支持纯CPU计算和SIMD计算。其中CPU计算部分无特殊依赖(计算代码均使用标准C实现)。SIMD部分,部分计算代码使用了C语言内嵌汇编实现,需要CPU支持相应的汇编指令,才可以正常编译、运行。

TinyMaix等级选择

TinyMaix目前支持两种等级:1. 选择最少代码和buf 2. 选择速度,需要更多代码和buf

#define TM_OPT0                     (0) //default, least code and buf
#define TM_OPT1                     (1) //opt for speed, need more code and buf
#define TM_OPT2                     (2) //TODO

TinyMaix量化

TinyMaix支持不同位宽的量化:

#define  TM_MDL_INT8    0
#define  TM_MDL_INT16   1
#define  TM_MDL_FP32    2
#define  TM_MDL_FP16    3
#define  TM_MDL_FP8_143 4 //experimental
#define  TM_MDL_FP8_152 5 //experimental

TinyMaix核心API

TinyMaix框架对上层应用程序提供的核心API主要位于代码仓的tinymaix.h文件中,其中:

1、模型API包含四个:模型加载,模型卸载,预处理,推理。

/******************************* MODEL FUNCTION ************************************/
tm_err_t tm_load  (tm_mdl_t* mdl, const uint8_t* bin, uint8_t*buf, tm_cb_t cb, tm_mat_t* in);   //load model
void     tm_unload(tm_mdl_t* mdl);                                      //remove model
tm_err_t tm_preprocess(tm_mdl_t* mdl, tm_pp_t pp_type, tm_mat_t* in, tm_mat_t* out);            //preprocess input data
tm_err_t tm_run   (tm_mdl_t* mdl, tm_mat_t* in, tm_mat_t* out);         //run model

2、统计函数:用于输出模型中间层信息

/******************************* STAT FUNCTION ************************************/
#if TM_ENABLE_STAT
tm_err_t tm_stat(tm_mdlbin_t* mdl);                    //stat model
#endif

3、工具函数,包含FP32和uint8的互转

/******************************* UTILS FUNCTION ************************************/
uint8_t TM_WEAK tm_fp32to8(float fp32);
float TM_WEAK tm_fp8to32(uint8_t fp8);

这里的模型,通常是预训练模型经过脚本转换生成的TinyMaix格式的模型;

TinyMaix移植到RT-Thread

1、TinyMaix移植到RT-Thread工作量其实不到,主要适配tm_port.h文件即可。

2、RT-Thread的配置是通过Kconfig设置一些参数的,所以我把硬件类型,选择等级,量化类型都修改为Kconfig进行配置。

#define  TM_ARCH                                   R_TINYMAIX_USING_ARCK_TYPE
#define TM_OPT_LEVEL               R_TINYMAIX_USING_OPTION_LEVEL
#define TM_MDL_TYPE                R_TINYMAIX_USING_MODULE_TYPE

3、TinyMaix需要对接平台内联,内存,打印等接口,所以我们修改对应宏定义,将其适配到RT-Thread平台的接口上。

#define TM_INLINE                   rt_inline
#define TM_WEAK                     rt_weak

#define tm_malloc(x)                rt_malloc(x)
#define tm_free(x)                  rt_free(x)

#define TM_PRINTF(...)              rt_kprintf(__VA_ARGS__)

4、TinyMaix调试依赖于精准的计时,我们需要适配其对应的几个宏定义,因为RT-Thread系统没有提供微秒级的接口,只有毫秒级的接口,所以我做了简单的适配。

#define TM_GET_US()                rt_tick_get_millisecond() / 1000;

#define TM_DBGT_INIT()              uint32_t _start,_finish;\
                                    float _time;\
                                    _start = TM_GET_US();

#define TM_DBGT_START()             _start = TM_GET_US();

#define TM_DBGT(x)                  {\
                                        _finish=TM_GET_US();\
                                        _time = (float)(_finish-_start) / 1.0;\
                                        TM_PRINTF("===%s use %.3f ms\n", (x), _time);\
                                        _start=TM_GET_US();\
                                    }

5、TinyMaix提供了多个实例,如:cifar10,mnist,vww等,RT-Thread支持命令行输入,为了实例可以在通过命令函运行,我们需要修改一下文件名和接口名字。

  • 我们将examples下的cifar10,mnist,vww三个实例下的main.c修改为对应实例的名字:cifar10.c,mnist.c,vww.c。

  • 将cifar10.c,mnist.c,vww.c中的main函数修改为对应实例名字。

int cifar10(int argc, char** argv)

int mnist(int argc, char** argv)

int vww(int argc, char** argv)
  • 将实例接口导出到命令行中。

MSH_CMD_EXPORT(cifar10, TinyMaix cifar10 example);

MSH_CMD_EXPORT(mnist, TinyMaix mnist example);

MSH_CMD_EXPORT(vww, TinyMaix vww example);

TinyMaix运行效果

实例的运行环境:STM32F401RE,M4内核,时钟频率:84MHz,RAM:96 KB,Flash:512 KB

1、cifar10实例,分类检测,识别图片是一只鸟:

1.jpg

2.jpg

2、mnist实例,数字识别,图片是一个数字2:

3.png

4.jpg

vww实例,检测有没有人,图片有人:

5.jpg

6.png

总结

1、TinyMaix作者已经做了一个RT-Thread的软件包:r-tinymaix。可以在RT-Thread中工程中加入软件包即可以验证。

2、r-tinymaix的开源链接:https://github.com/RiceChen0/r-tinymaix

3、TinyMaix非常赞,可以让一个普普通通的单片机拥有AI能力,让嵌入式AI成本减低。

来源:RTThread物联网操作系统

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 24

2023年9月12日,中国上海——芯原股份 (芯原,股票代码:688521.SH) 今日宣布以色列人工智能 (AI) 芯片制造商Hailo在其Hailo-15™高性能AI视觉处理器产品系列中,采用了芯原的图像信号处理器 (ISP) IP ISP8000L-FS和视频处理器 (VPU) IP VC8000E。这两款被采用的IP使Hailo创新的AI解决方案能够在广泛的应用中得到高效的实施部署,并缩短相关上市时间和降低工程成本。

1.png

芯原的ISP8000L-FS IP专为先进且高性能的摄像头应用而设计,具备面向特定应用的硬件安全机制,并已通过ISO 26262和IEC 61508功能安全标准双认证,非常适合对功能安全要求严苛的汽车及工业应用。ISP8000L-FS为单路4K@60fps或双路4K@30fps摄像头提供高质量且可靠的视频处理,并支持高动态范围 (HDR) 处理和2D/3D降噪等。

芯原的VC8000E视频编码器为用于回放和机器学习的多个视频流提供紧凑的存储。其可选择的视频格式和色位深度,以及用户可控的编码参数,能够在不同应用场景实现最优的视频编码。

Hailo视觉处理器产品总监Ori Katz表示:“通过集成芯原的ISP IP和高效的视频编码器IP,我们的AI视觉处理器将使监控和工业应用变得更加智能、安全、可靠和准确。”

芯原执行副总裁,IP事业部总经理戴伟进表示:“监控市场竞争激烈,产品需要高效率地满足特定功能。芯原丰富且灵活的IP解决方案旨在高效解决低延时、低功耗和最小化DDR等挑战。我们很荣幸能与Hailo开展长期合作,共同赋能快速增长的AI监控摄像头市场及其他工业领域。”

关于Hailo

Hailo是一家专注于AI的芯片制造商,其正在研发能够在边缘设备上实现数据中心级性能的AI处理器。该处理器基于传统计算机架构进行创新,使智能设备能够以最低的功耗、尺寸和成本,实时执行复杂的深度学习任务,如目标检测和分割。公司产品适用于多种智能机器和设备,覆盖的行业包括汽车、安防、工业4.0和零售。了解更多信息,请访问:https://hailo.ai

关于芯原

芯原微电子 (上海) 股份有限公司 (芯原股份,688521.SH) 是一家依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务的企业。在芯原独有的芯片设计平台即服务 (Silicon Platform as a Service, SiPaaS) 经营模式下,通过基于公司自主半导体IP搭建的技术平台,芯原可在短时间内打造出从定义到测试封装完成的半导体产品,为包含芯片设计公司、半导体垂直整合制造商 (IDM)、系统厂商、大型互联网公司和云服务提供商在内的各种客户提供高效经济的半导体产品替代解决方案。我们的业务范围覆盖消费电子、汽车电子、计算机及周边、工业、数据处理、物联网等行业应用领域。

芯原拥有多种芯片定制解决方案,包括高清视频、高清音频及语音、车载娱乐系统处理器、视频监控、物联网连接、智慧可穿戴、高端应用处理器、视频转码加速、智能像素处理等;此外,芯原还拥有6类自主可控的处理器IP,分别为图形处理器IP、神经网络处理器IP、视频处理器IP、数字信号处理器IP、图像信号处理器IP和显示处理器IP,以及1,500多个数模混合IP和射频IP。

芯原成立于2001年,总部位于中国上海,在中国和美国设有7个设计研发中心,全球共有11个销售和客户支持办事处,目前员工已超过1,400人。

来源:芯原VeriSilicon

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 13

2023年7月11日,慕尼黑上海电子展盛大开幕。STM32携物联网&智能互联等领域的世界级领先产品和智能解决方案精彩亮相,各种前沿技术和应用演示令ST展位人气爆棚。

1.png

2.png

3.jpg

STM32:以边缘AI解决方案引领嵌入式AI新时代

2023年7月12日,ST微控制器市场部门市场经理丁晓磊在本次慕尼黑上海电子展的国际嵌入式系统创新论坛发表演讲,介绍ST在边缘人工智能领域的相关产品和技术,并分享ST边缘人工智能工具,实际应用案例以及生态系统等重点内容,让更多人了解了ST如何帮助客户使用我们的边缘人工智能产品和解决方案最终实现项目落地。

嵌入式人工智能将成为主流

随着企业的业务部署场景和数据产生正在向端侧、边缘侧“迁移”,嵌入式AI也迎来了快速发展的机遇期。

在边缘侧设备中运行AI有很多优势:设备响应速度快、超低延时;降低数据传输量;更有效地保护隐私、增强信息安全;降低边缘侧设备的运行功耗;还可以降低推理成本以实现其他新的功能操作。因此,边缘AI 可以为很多领域提供价值,比如:工业预测性维护,从家电到工业机器的控制系统,以及物联网 (IoT)应用,如智慧城市, 智慧楼宇, 智慧家庭和工业自动化等。

STM32 边缘AI解决方案加快嵌入式AI部署

作为该趋势的主要推动者,ST已经在AI方面投入大量资源,旨在帮助开发人员在基于微控制器/微处理器(STM32系列)和传感器(MEMS、ToF…)的嵌入式系统上快速部署AI应用。

ST提供了一整套工具、设计支持和服务,包括软件工具、模型库、 软件参考,硬件芯片,开发板等,在STM32 MCU、MPU和智能传感器上实现边缘AI,通过简单、快速、低成本的方式为许多解决方案带来智能化,例如:预测性维护、物联网产品、智能楼宇、资产跟踪、人数统计等等。

通过嵌入式AI,轻松增强应用,开启全新应用可能性,解锁AI应用普惠之道。ST在帮助客户使用我们的边缘人工智能产品和解决方案最终实现项目落地方面,已取得了丰富的应用案例,涵盖智慧城市、智能家居、娱乐、玩具、智能楼宇、交通运输、智能办公、工业、家电等各个领域。

4.png

▲ 图:STM32在电弧检测中的应用

STM32 Cube.AI:一个工具,两个版本,轻松将AI部署到STM32

STM32Cube.AI 软件工具,是ST提供的嵌入式AI工具,支持全系列STM32芯片,致力于在STM32实现优异的AI性能,可在 STM32硬件上实现更加便捷的评估、转换和部署机器学习或深度神经网络。该工具集成在STM32Cube MCU开发环境中,可以优化和调整模型,直接部署在目标板上。

STM32Cube.AI工具的两个版本包括:STM32Cube.AI和STM32Cube.AI开发者云。

5.png

STM32Cube.AI是STM32嵌入式AI工具的PC版本,可帮助优化STM32项目中经过训练的AI模型的性能和内存占用。

STM32Cube.AI开发者云平台是STM32最新的线上 AI 服务器,可直接评估模型的在板推理时间。它可用来创建、优化和生成适用于STM32微控制器的人工智能,以及进行基准测试。无需安装任何软件,也无需评估板。

NanoEdge AI Studio软件工具是ST为无AI专业知识的嵌入式开发者提供等一体化机器学习方案,助用户从头开始做自己的AI解决方案。ST重写了从代数、机器学习和信号处理的各种算法,并且使这些算法能够在MCU内学习和推理。

ST为嵌入式AI准备了一站式网站资源: https://stm32ai.st.com/zh,客户可随时登陆获取相关信息。

STM32 DEMO 展示精选
在本次慕尼黑电子展上,ST展示了两个重磅边缘AI技术方案:边缘人工智能洗衣机DEMO:该Demo演示了AI如何通过提供更准确的衣服重量测量, 帮助经典的电机控制设备达到更高的节能与节水等级。由NanoEdge AI Studio 生成的AI模型通过对电流信号进行特征分析与学习,使测量精度相对传统算法得到大幅提升。

6.jpg


STM32最新一代高性能MPU ——STM32MP257。STM32MP2是ST新推出的第二代64位工业4.0级边缘AI MPU,通过SESIP 3级认证,配备工业应用接口和专用边缘 AI加速单元。该产品在继承了STM32生态系统基础上,采用了全新的处理器架构,提升了工业和物联网边缘应用的性能和安全性。

7.jpg


STM32展台还展出了更多丰富的产品技术和解决方案Demo,涵盖图形界面、无线连接、安全类应用以及基于STM32的各类开发板演示。

图形界面类Demo包括:基于STM32U599驱动大圆屏的集合DEMO,Qt图形界面演示 -基于Qt+openST Linux的图形方案,基于LVGL+ 裸机程序图形方案的LVGL图形界面演示,基于OpenST Linux + LVGL的图形界面演示。

STM32WBA无线连接 Demo: 演示了STM32WBA 灵活的主从一体和强大的多连接功能,在低功耗蓝牙常规点对点通信功能上,扩展实现低延时和低功耗的星状网络通信,满足客户低功耗蓝牙更广的网络覆盖需求。

安全类应用Demo:STMH573I-DK板TrustZone隔离保护和OTFDEC性能演示

板卡类Demo包括:STM32C031系列NUCLEO板,STM32C031系列Discovery板,STM32C011系列Discovery板。

8.png

9.png

10.jpg

11.jpg

12.jpg

13.jpg

来源:STM32

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 101

ST开辟边缘AI专区,请点击访问 https://stm32ai.st.com/zh/ 

嵌入式AI无疑将是下一个“科技风口”。

随着企业的业务部署场景和数据产生正在向端侧、边缘侧“迁移”,嵌入式AI也迎来了快速发展的机遇期——将推理过程移到深度边缘计算会带来诸多优势,比如系统响应能力、用户隐私保护、降低连接成本和功耗。

作为该趋势的主要推动者,意法半导体已经在AI方面投入大量资源,旨在帮助开发人员在基于微控制器/微处理器(STM32系列)和传感器(MEMS、ToF…)的嵌入式系统上快速部署AI应用。

ST提供了一整套工具,在STM32 MCU、MPU和智能传感器上实现边缘AI,通过简单、快速、低成本的方式为许多解决方案带来智能化,例如:预测性维护、物联网产品、智能楼宇、资产跟踪、人数统计等等。

应用案例

通过嵌入式AI,轻松增强应用,开启全新应用可能性,解锁AI应用普惠之道。ST提供了丰富的应用案例,涵盖智慧城市、智能家居、娱乐、玩具、智能楼宇、交通运输、智能办公、工业、家电等各个领域。用户可以探索这些具有启发性的真实示例,利用ST的资源打造自己的应用。

1.png

▲ 点击图片,了解详情

产品与解决方案

意法半导体为用户提供多种面向STM32和智能传感器的AI解决方案,多种微型机器学习解决方案,用于将AI嵌入到微控制器、微处理器和智能传感器上。无论在机器学习上的专业水平如何,ST提供的广泛产品都能让用户找到适合的工具,满足任何边缘AI项目需求。

2.png

▲ 点击图片,了解详情

NanoEdge AI Studio是一款简单易用的桌面工具,可增添新的数据处理功能以增强产品。任何涉及异常值/异常检测、分类或使用回归技术预测未来状态的应用案例,都可以利用机器学习的强大功能。NEAI Studio可在数分钟内创建针对任何STM32进行了优化的定制库,用以分析信号,提升产品智能性。

利用NanoEdge AI Studio,用户可以轻松为嵌入式器件生成机器学习库,其中包含数以百万计的预构建模型。这意味着无需收集和记录大而复杂的数据集。用户的模型也可以在自己器件上进行自我训练。

STM32Cube.AI是一款免费工具,可帮助优化STM32项目中经过训练的AI模型的性能和内存占用。它支持TensorFlow™ Lite、Keras和ONNX格式。如果用户具备AI知识,STM32Cube.AI将自动优化经过训练的人工神经网络,并为STM32微控制器生成对应的C代码。

STM32Cube.AI开发者云平台

STM32Cube.AI开发者云平台是STM32Cube.AI的在线版本。它可用来创建、优化和生成适用于STM32微控制器的人工智能,以及进行基准测试。无需安装任何软件,也无需评估板。利用ST Board Farm,甚至能通过多个评估板远程测试算法的实际性能。

该工具有PC版,也可通过STM32Cube.AI开发者云直接在线使用。这款在线平台提供基准测试服务,可以远程评估一系列STM32板件上的AI性能。此外,还可以访问STM32 Model Zoo,其中汇集了大量经过优化的AI模型以及一些应用示例、训练脚本等。

对于使用STM32 MPU的开发人员而言,X-LINUX-AI是一个库和运行系统的集合,可简化基于OpenSTLinux的项目中经训练的AI模型的集成。ST针对使用OpenSTLinux的开发人员开发了一个完整的框架,让用户轻松集成AI模型。

ST提供多种微控制器、微处理器和智能传感器,用以开发优化了功耗、尺寸和成本的边缘AI应用。

3.png

▲ 点击图片,了解详情

丰富的资源

用户可以在此寻找了解嵌入式机器学习所需的一切资源,查找各解决方案有用内容的链接:NanoEdge AI Studio、STM32Cube.AI和X-LINUX-AI;查找集成具体示例的功能包,轻松启动项目。

4.png▲ 点击图片,了解详情

准备好了吗?速速登陆STM32 AI解决方案专区,找到最适合的工具,通过AI升级你的产品,让我们一起开启AI应用创新的崭新旅程!

来源:STM32

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 58

本文重点解释如何使用硬件转换卷积神经网络(CNN),并特别介绍使用带CNN硬件加速器的人工智能(AI)微控制器在物联网(IoT)边缘实现人工智能应用所带来的好处。

AI应用通常需要消耗大量能源,并以服务器农场或昂贵的现场可编程门阵列(FPGA)为载体。AI应用的挑战在于提高计算能力的同时保持较低的功耗和成本。当前,强大的智能边缘计算正在使AI应用发生巨大转变。与传统的基于固件的AI计算相比,以基于硬件的卷积神经网络加速器为载体的智能边缘AI计算具备惊人的速度和强大的算力,开创了计算性能的新时代。这是因为智能边缘计算能够让传感器节点在本地自行决策而不受5G和Wi-Fi网络数据传输速率的限制,为实现之前难以落地的新兴技术和应用场景提供了助力。例如,在偏远地区,传感器级别的烟雾/火灾探测或环境数据分析已成为现实。这些应用支持电池供电,能够工作很多年的时间。本文通过探讨如何采用带专用CNN加速器的AI微控制器实现CNN的硬件转换来说明如何实现这些功能。

采用超低功耗卷积神经网络加速器的人工智能微控制器

MAX78000是一款有超低功耗CNN加速器的AI微控制器片上系统,能在资源受限的边缘设备或物联网应用中实现超低功耗的神经网络运算。其应用场景包括目标检测和分类、音频处理、声音分类、噪声消除、面部识别、基于心率等健康体征分析的时间序列数据处理、多传感器分析以及预测性维护。

图1为MAX78000的框图,其内核为带浮点运算单元的Arm® Cortex®-M4F内核,工作频率高达100 MHz。为了给应用提供足够的存储资源,MAX78000还配备了512 kB的闪存和128 kB的SRAM。该器件提供多个外部接口,例如I2C、SPI、UART,以及用于音频的I2S。此外,器件还集成了60 MHz的RISC-V内核,可以作为一个智能的直接存储器访问(DMA)引擎从/向各个外围模块和存储(包括闪存和SRAM)复制/粘贴数据。由于RISC-V内核可以对AI加速器所需的

1.png

图1.MAX78000的结构框图

传感器数据进行预处理,因而Arm内核在此期间可以处于深度睡眠模式。推理结果也可以通过中断触发Arm内核在主应用程序中执行操作,通过无线传输传感器数据或向用户发送通知。

具备用于执行卷积神经网络推理的专用硬件加速器单元是MAX7800x系列微控制器的一个显著特征,这使其有别于标准的微控制器架构。该CNN硬件加速器可以支持完整的CNN模型架构以及所有必需的参数(权重和偏置),配备了64个并行处理器和一个集成存储器。集成存储器中的442 kB用于存储参数,896 kB用于存储输入数据。不仅存储在SRAM中的模型和参数可以通过固件进行调整,网络也可以实时地通过固件进行调整。器件支持的模型权重为1位、2位、4位或8位,存储器支持容纳多达350万个参数。加速器的存储功能使得微控制器无需在连续的数学运算中每次都要通过总线获取相关参数——这样的方式通常伴有高延迟和高功耗,代价高昂。CNN加速器可以支持32层或64层的网络,具体层数取决于池化函数。每层的可编程图像输入/输出大小最多为1024 × 1024像素。

CNN硬件转换:功耗和推理速度比较

CNN推理是一项包含大型矩阵线性方程运算的复杂计算任务。Arm Cortex-M4F微控制器的强大能力可以使得CNN推理在嵌入式系统的固件上运行。但这种方式也有一些缺点:在微控制器上运行基于固件的CNN推理时,计算命令和相关参数都需要先从存储器中检索再被写回中间结果,这会造成大量功耗和时延。

表1对三种不同解决方案的CNN推理速度和功耗进行了比较。所用的模型基于手写数字识别训练集MNIST开发,可对视觉输入数据中的数字和字母进行分类以获得准确的输出结果。为确定功耗和速度的差异,本文对三种解决方案所需的推理时间进行了测量。

2.png

表1.手写数字识别的CNN推理时间和推理功耗,基于MNIST数据集

方案一使用集成Arm Cortex-M4F处理器的MAX32630进行推理,其工作频率为96 MHz。方案二使用MAX78000的CNN硬件加速器进行推理,其推理速度(即数据输入与结果输出之间的时间)比方案一加快了400倍,每次推理所需的能量也仅为方案一的1/1100。方案三对MNIST网络进行了低功耗优化,从而最大限度地降低了每次推理的功耗。虽然方案三推理结果的准确性从99.6%下降到了95.6%,但其速度快了很多,每次推理只需0.36 ms,推理功耗降也低至仅1.1 µW。两节AA碱性电池(总共6 Wh能量)可以支持应用进行500万次的推理(忽略系统其它部分的功耗)。

这些数据说明了硬件加速器的强大计算能力可以大大助益无法利用或连接到连续电源的应用场景。MAX78000就是这样一款产品,它支持边缘AI处理,无需大量功耗和网络连接,也无需冗长的推理时间。

MAX78000 AI微控制器的使用示例

MAX78000支持多种应用,下面本文围绕部分用例展开讨论。其中一个用例是设计一个电池供电的摄像头,需要能检测到视野中是否有猫出现,并能够通过数字输出打开猫门允许猫进入房屋。

图2为该设计的示例框图。在本设计中,RISC-V内核会定期开启图像传感器并将图像数据加载到MAX78000的CNN加速器中。如果系统判断猫出现的概率高于预设的阈值,则打开猫门然后回到待机模式。

3.png

图2.智能宠物门框图

开发环境和评估套件

边缘人工智能应用的开发过程可分为以下几个阶段:

第一阶段:AI——网络的定义、训练和量化

第二阶段:Arm固件——将第一阶段生成的网络和参数导入C/C++应用程序,创建并测试固件

开发过程的第一阶段涉及建模、训练和评估AI模型等环节。此阶段开发人员可以利用开源工具,例如 PyTorch 和 TensorFlow。MAX78000 的GitHub网页也提供全面的资源帮助用户在考虑其硬件规格的同时使用PyTorch构建和训练AI网络。网页也提供一些简单的AI网络和应用,例如面部识别(Face ID),供用户参考。

图3显示了采用PyTorch进行AI开发的典型过程。首先是对网络进行建模。必须注意的是,MAX7800x微控制器并非都配置了支持所有PyTorch数据操作的相关硬件。因此,必须首先将ADI公司提供的ai8x.py文件包含在项目中,该文件包含MAX78000所需的PyTorch模块和运算符。基于此可以进入下一步骤构建网络,使用训练数据对网络进行训练、评估和量化。这一步骤会生成一个检查点文件,其中包含用于最终综合过程的输入数据。最后一步是将网络及其参数转换为适合CNN硬件加速器的形式。值得注意的是,虽然任何PC(笔记本、服务器等)都可用于训练网络,但如果没有CUDA显卡,训练网络可能会花费很长的时间——即使对于小型网络来说也有可能需要几天甚至几周的时间。

开发过程的第二阶段是通过将数据写入CNN加速器并读取结果的机制来创建应用固件。第一阶段创建的文件通过#include指令集成到C/C++项目中。微控制器的开发环境可使用Eclipse IDE和GNU工具链等开源工具。ADI公司提供的软件开发套件(Maxim Micros SDK (Windows))也已经包含了所有开发必需的组件和配置,包括外设驱动以及示例说明,帮助用户简化应用开发过程。

4.png

图3.AI开发过程

成功通过编译和链接的项目可以在目标硬件上进行评估。ADI开发了两种不同的硬件平台可供选用:图4为 MAX78000EVKIT ,图5为 MAX78000FTHR ,一个稍小的评估板。每个评估板都配有一个VGA摄像头和一个麦克风。

5.png

图4.MAX78000评估套件

6.png

图5.MAX78000FTHR评估套件

结论

以前,AI应用必须以昂贵的服务器农场或FPGA为载体,并消耗大量能源。现在,借助带专用CNN加速器的MAX78000系列微控制器,AI应用依靠单组电池供电就可以长时间运行。MAX78000系列微控制器在能效和功耗方面的性能突破大大降低了边缘AI的实现难度,使得新型边缘AI应用的惊人潜力得以释放。

来源:亚德诺半导体

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 33

页面

订阅 RSS - AI