Glow神经网络编译器首次应用于MCU,面向边缘端机器学习

demi的头像
demi 发布于:周四, 08/06/2020 - 10:18 ,关键词:
  • 恩智浦展示了应用于MCU的Glow神经网络编译器为基于视觉和语音的机器学习应用带来的诸多优势。恩智浦也是首家针对MCU实现相较于标准版Glow 2至3倍性能的半导体供应商
  • 开源Glow编译器最初由Facebook开发,恩智浦现在将其集成到eIQ™机器学习软件开发环境中,为旗下i.MX RT系列跨界MCU提供高性能推理
  • 恩智浦的Glow实施面向Arm® Cortex®-M内核和Cadence® Tensilica® HiFi 4 DSP,为i.MX RT系列跨界MCU提供特定平台的优化

8月5日——恩智浦半导体NXP Semiconductors N.V.(纳斯达克代码:NXPI)发布了eIQ机器学习(ML)软件对Glow神经网络(NN)编译器的支持功能,针对恩智浦的i.MX RT跨界MCU,带来业界首个实现以较低存储器占用提供更高性能的神经网络编译器应用。Glow编译器由Facebook开发,能够集成特定于目标的优化,恩智浦利用这种能力,使用适用于Arm Cortex-M内核和Cadence Tensilica HiFi 4 DSP的神经网络算子库,最大程度地提升i.MX RT685以及i.MX RT1050和RT1060的推理性能。此外,此功能已集成到恩智浦的eIQ机器学习软件开发环境中,在恩智浦的MCUXpresso SDK中免费提供。

使用Glow充分发挥MCU架构特性的优势

2018年5月,率先开发PyTorch的Facebook推出了开源社区项目Glow(Graph Lowering神经网络编译器),其目的是提供优化,提高一系列硬件平台上的神经网络性能。作为一种神经网络编译器,Glow基于未优化的神经网络生成高度优化的代码。这个特点有别于典型的神经网络模型处理,后者采用即时编译,因而需要更高的性能,还会增加存储器开销。像Glow这样直接运行优化代码可以显著降低处理和存储器要求。恩智浦也在Glow开源社区中扮演着积极角色,帮助推广和普及Glow的新功能。

Facebook软件工程经理Dwarak Rajagopal表示:“GitHub中提供的标准版Glow可以直接在任何设备上运行,让用户能够灵活地针对感兴趣的基础架构编译神经网络模型,包括Arm Cortex-A和Cortex-M内核以及RISC-V架构。恩智浦使用充分利用MCU计算元件的专用软件库,实现了2-3倍的性能提升,展示了从基于云的高端机器到低成本的嵌入式平台的广泛范围内,将Glow神经网络编译器用于机器学习应用的诸多优势。”

优化机器学习框架以增强竞争优势

未来几年内,对机器学习应用的需求预期将会大幅增加。据TIRIAS Research预测,到2025年,98%的边缘设备将使用某种形式的机器学习/人工智能。根据市场预测,到2025年,预计将有180亿至250亿部设备包含机器学习功能,尽管它们可能并没有专用的机器学习加速器。消费型设备制造商和嵌入式物联网开发人员将需要优化机器学习框架,以便实现使用MCU的低功耗边缘嵌入式应用。

恩智浦半导体资深副总裁兼边缘处理业务总经理Ron Martino表示:“借助eIQ机器学习软件框架,利用高度集成的i.MX应用处理器和高性能i.MX RT跨界MCU的强大功能,恩智浦正在推动机器学习功能在边缘设备上的实现。随着i.MX RT系列跨界MCU增加对Glow的支持,我们的客户能够编译深度神经网络模型,为他们的应用带来竞争优势。”

恩智浦的面向机器学习的边缘智能环境解决方案是一个全面的工具包,提供开发人员需要的构建模块,帮助他们高效地在边缘设备中实施机器学习。Glow整合到eIQ软件后,机器学习开发人员将拥有全面的高性能框架,可在包括i.MX RT跨界MCU和i.MX 8应用处理器的恩智浦边缘处理解决方案上进行扩展。客户拥有了更强大的工具,能够在i.MX RT MCU和i.MX应用处理器上开发机器学习语音应用、对象识别、人脸识别等应用。

利用恩智浦的Glow神经网络实施来提高性能

eIQ现在包含对Glow和TensorFlow Lite的推理支持,对于这些实施,恩智浦通常会执行基准测试以衡量其性能。MCU基准测试包括标准神经网络模型,例如CIFAR-10。以CIFAR-10模型为例,恩智浦采集的基准测试数据表明了如何利用i.MX RT1060器件(采用600MHz Arm Cortex-M7)、i.MX RT1170器件(采用1GHz Arm Cortex-M7)和i.MX RT685器件(采用600 MHz Cadence Tensilica HiFi 4 DSP)的性能优势。

恩智浦对Glow的支持离不开Cadence为Tensilica HiFi 4 DSP提供的神经网络库(NNLib),该DSP提供了4.8GMAC性能。同样以CIFAR-10为例,恩智浦的Glow实施使用这一DSP来加快神经网络运算,实现了25倍的性能提升。

Cadence Tensilica IP企业副总裁Sanjive Agarwala表示:“Tensilica HiFi 4 DSP最初集成在i.MX RT600跨界MCU中,目的是提高各种不同的音频和语音处理应用的速度。但是,当有越来越多机器学习推理应用瞄准了低成本、低功耗的MCU级应用时,HiFi 4 DSP凭借固有的DSP计算性能,成为加快这些神经网络模型的理想选择。随着恩智浦在eIQ机器学习软件中实施Glow,i.MX RT600 MCU的客户能够利用该DSP来满足多种机器学习应用的需求,包括关键词检索(KWS)、语音识别、降噪和异常检测。”

Arm公司机器学习营销副总裁Dennis Laudick表示:“恩智浦将Arm CMSIS-NN软件库包括在elQ中,目的是最大程度地提升性能,减少Arm Cortex-M内核上的神经网络存储器占用。以CIFAR-10神经网络模型为例,恩智浦能够利用CMSIS-NN实现1.8倍的性能提升。其他神经网络模型应该能够产生相似的结果,这清晰地展示了这款高级编译器和我们的优化神经网络算子库的优势。”

上市时间

恩智浦的集成Glow神经网络编译器的eIQ软件现已上市,通过i.MX RT600跨界MCU、i.MX RT1050和i.MX RT1060跨界MCU的MCUXpresso SDK提供。未来将会推出适用于恩智浦其他MCU的集成Glow神经网络编译器的eIQ软件。

关于i.MX RT系列跨界MCU

i.MX RT系列是业内首个跨界MCU产品组合,以经济的价格,提供高性能的Arm Cortex-M内核、实时功能和MCU可用性。该系列代表了低功耗应用处理器与高性能微控制器的融合。i.MX RT系列填补了传统MCU和i.MX应用处理器之间的空白,为MCU客户提供了显著提高性能和改进集成的方法,一如既往地简单易用。

有关更多信息,请访问www.nxp.com.cn/eiqwww.nxp.com.cn/eiq/glow

关于恩智浦半导体

恩智浦半导体(纳斯达克代码:NXPI)致力于通过先进的安全连结解决方案为人们更智慧安全、轻松便捷的生活保驾护航。作为全球领先的嵌入式应用安全连结解决方案领导者,恩智浦不断推动着安全互联汽车、工业与物联网、移动设备及通信基础设施市场的创新。恩智浦拥有超过60年的专业技术及经验,在全球逾30个国家设有业务机构,员工达29,000人,2019年全年营业收入88.8亿美元。更多信息请登录www.nxp.com.cn

围观 38