人工智能

人工智能(Artificial Intelligence,简称AI)是计算机科学的一个分支,致力于开发能够执行需要人类智能的任务的系统。这些任务包括学习、推理、问题解决、感知、语言理解等。人工智能的目标是创建能够模仿人类智能的机器,使其能够执行需要智能的任务。 人工智能在医疗、金融、教育、交通、制造业等各个领域都有广泛的应用,为解决复杂问题和提高效率提供了新的途径。
  • Ceva-Waves™ Links™ IP系列提供完全集成的多协议连接解决方案,包括Wi-Fi、蓝牙、UWBThreadZigbeeMatter,为下一代连接协议丰富的MCUSoC简化开发工作并加快上市时间

  • Ceva-Waves™ Links100 是以物联网为重点的连接平台 IP,采用台积电 22nm 制程的射频技术,已获得一家领先OEM 客户部署使用

帮助智能边缘设备更可靠、更高效地连接、感知和推断数据的全球领先半导体产品和软件IP授权许可厂商Ceva公司(纳斯达克股票代码:CEVA) 推出全新多协议无线平台IP系列Ceva-Waves™ Links™。这款集成产品支持最新的无线标准,以满足消费物联网、工业、汽车和个人计算市场对连接协议丰富的智能边缘设备芯片的激增需求。这些业界领先的 IP 包含Wi-Fi蓝牙超宽带 (UWB) 和 IEEE 802.15.4(用于 Thread / Zigbee / Matter),提供了一系列合規和易于集成的多协议无线通信子系统,每个子系统都具有优化的共存方案,并适用于各种无线电和配置。

1.jpg

Links™系列利用了最近重新命名的 Ceva-Waves无线连接IP 产品组合(前称为 RivieraWaves)。Ceva-Waves Links100是面向物联网应用的集成式低功耗Wi-Fi 6 /蓝牙5.4 / 802.15.4通信子系统IP,它是Ceva-Waves Links 系列的首款IP,目前已获得一家领先的OEM客户部署使用。

市场需要具有多种连接功能的小型、低成本、高性能创新设备,从而推动业界将多种连接协议整合到单一芯片中。调研机构ABI Research研究从模块级集成朝向片上芯片集成的转变状况,并预测Wi-Fi加蓝牙组合芯片组的年出货量将于2028年达到接近16亿片。

ABI Research高级研究总监Andrew Zignani表示:“越来越多的无线连接芯片需要处理多种标准,以满足消费和工业设备不断发展的需求和各种用例要求。Ceva-Waves Links 系列为半导体企业和OEM厂商提供了重要的高价值方案,可以降低将多协议无线连接功能集成到芯片设计中的风险和投资。此外,支持 UWB的Links 系列为真正先进的智能边缘设备提供了创新的微定位和雷达传感功能。”

CEVA副总裁兼无线物联网业务部门总经理Tal Shalev表示:“Ceva-Waves Links无线连接IP以我们广泛的产品组合为基础,这些产品组合每年为超过10亿台设备提供支持,并促使我们在消费和工业物联网应用领域建立稳固且多样化的客户群。由于许多客户设计均要求芯片具备多种无线标准,因此Links是公司产品的自然发展方向,利用我们的技术和专业知识大幅降低技术门槛,同时提供量身定制的最佳解决方案,为业界带来所需的高性能、低延迟和低功耗连接。”

Ceva-Waves Links 主要功能

Ceva-Waves Links 系列的首款产品 Links100 是面向物联网应用的集成式低功耗 Wi-Fi / 蓝牙 / 15.4 通信子系统 IP,具有以下主要特性:

  • Wi-Fi 6 针对成本敏感型物联网应用进行优化

  • 蓝牙 5.4 双模通过 Auracast 支持先进的蓝牙音频,并带有整套蓝牙配置文件

  • 用于智能家居应用的 IEEE 802.15.4(用于 Thread、ZigBee、Matter)

  • 优化的共存方案实现高效的并行通信

  • 预集成低功耗多协议无线电,采用台积电 22nm 工艺制程

Ceva-Waves Links系列产品采用模块化架构,具有满足客户需求的高度通用性,并且利用最新的Ceva-Waves无线IP。即将推出的 Links 平台可能包括:

  • 先进的 Wi-Fi 6/6E/7(带 MLO),适用于从高能效物联网到高速数据流等各种应用案例

  • 用于通道探测和高数据吞吐量的下一代蓝牙

  • UWB支持 FiRa 2.0、CCC Digital Key 3.0 和雷达,实现创新的微定位和传感功能

  • 针对每种具体配置的优化共存方案

  • 预集成无线电解决方案,融合合作伙伴和客户自有技术,以满足各种配置和代工工艺节点需求

如要了解更多信息,请访问公司网页https://www.ceva-ip.com/product/ceva-waves-links/

关于Ceva公司

Ceva热忱地为智能边缘带来全新的创新水平。我们的无线通信、感知和边缘AI技术是现今一些先进智能边缘产品的核心。我们拥有更可靠、更高效地连接、感知和推理数据的广泛IP 组合,包括用于蓝牙连接Wi-FiUWB 和5G 平台 IP,实现无处不在的强大通信;以至可扩展的边缘人工智能 NPU IP传感器融合处理器和提升设备智能的嵌入式应用软件。我们的差异化解决方案在极小的硅片尺寸内以超低功耗提供卓越性能。我们的目标简单:为业界提供半导体产品和软件 IP,创建更智能、更安全和更紧密互连的世界。今天,Ceva 正在努力践行这一理念,支持全球超过 170 亿个创新性智能边缘产品,涵盖从人工智能智能手表、物联网设备和可穿戴设备,直到自动驾驶汽车和 5G 移动网络。

Ceva总部位于美国马里兰州罗克维尔,公司遍布世界各地的运营机构为全球客户群提供有力支持。我们的员工包括各专业领域的顶尖专家,能够持续解决最复杂的设计难题,帮助客户将创新的智能边缘产品推向市场。

Ceva: 助力智能边缘

围观 3
  • 全新胎压监测系统提高自行车安全性和用户体验

  • 意法半导体软件生态系统工具STM32Cube.AI加快STM32微控制器边缘AI功能开发

服务多重电子应用领域、全球排名前列的半导体公司意法半导体(STMicroelectronics简称ST纽约证券交易所代码:STM)宣布,松下自行车科技有限公司(Panasonic)宣布采用 STM32F3 微控制器 (MCU) 和边缘人工智能开发工具  STM32Cube.AI开发TiMO A电动自行车。意法半导体的边缘人工智能解决方案为松下提供一个轮胎压力监测系统(TPMS),利用先进的人工智能功能来提高自行车的安全性和便利性。

1.jpg

松下是日本国内头部电动自行车厂商之一,为日本市场提供各种用途的电动自行车,其中校园通勤电动自行车TiMO A采用STM32F3 MCU运行胎压监测人工智能应用,无需压力传感器数据,只用电机传感器和自行车速度传感器的数据信息,即可推断胎压是否正常,在需要给轮胎充气时,系统会发出胎压低的警告。意法半导体的边缘AI开发工具STM32Cube.AI能够把边缘AI功能部署到STM32F3 MCU中。这项新功能可以简化轮胎气压维护,提高骑手的安全性,并延长轮胎和其他部件的使用寿命,因为不需要增装任何硬件,例如,气压传感器,还有助于降低成本,减少设计工作量。

松下自行车科技公司开发部软件开发组经理 Hiroyuki KAMO 先生表示:“我们研制电动自行车的使命是提供一个人人都能买得起、用得起的环保、安全、舒适的交通工具。ST的STM32F3 MCU让电动自行车具有成本竞争力以及优异的功能和性能。STM32F3 MCU与STM32Cube.AI配套使用,我们无需更改硬件即可实现创新的AI功能。我们将继续增加一系列有人工智能的车型,利用ST的边缘人工智能解决方案完成我们的使命。”

意法半导体人工智能解决方案总经理 Marc Dupaquier 表示:“ST一直积极致力于全球推广边缘人工智能软硬件,为工业、消费类产品等各种产品提供边缘人工智能解决方案。这次合作标志着我们迈出了关键一步,很高兴能够帮助松下电动自行车首次实现人工智能功能。我们将继续开发适合不同市场的人工智能用例和解决方案,帮助人们改善生活方式。”

意法半导体将在东京国际展览中心Tokyo Big Sight举行的人工智能博览会(2024年5月22日至24日)上展示边缘人工智能解决方案,包括STM32 MCU和各种人工智能开发工具。松下自行车科技公司也将在展会上展出采用STM32F3 MCU和STM32Cube.AI的电动自行车和电机单元(剖面样品)。

工作原理

TIMO A车型所采用的 STM32F3 MCU集成最高主频72 MHz 的Arm® Cortex®-M4处理器内核和128KB 闪存,以及适合电机控制的各种高性能模拟和数字外设。除了新的充气提示功能外,MCU还能确定电动助力程度,控制电机运转。

松下利用 STM32Cube.AI工具优化神经网络(NN)模型的代码量,并在 AI 功能的整个开发过程中优化内存空间分配。STM32Cube.AI是意法半导体的免费边缘AI开发工具,可将通用AI框架训练好的NN模型转换为STM32 MCU代码,并优化模型。用这个工具优化松下自行车科技公司的胎压监测 NN 模型,速度快,简单容易,并可以部署在容量有限的片上闪存内。

意法半导体提供一个资源丰富的边缘人工智能生态系统,助力设备厂商将边缘人工智能部署到各种应用场景。该生态系统包括 STM32Cube.AI 和 NanoEdge AI Studio ,这两个工具都将集成到不久后推出的 ST Edge AI Suite内。生态系统的全部软件都是免费使用。

详情浏览以下网页:

关于意法半导体

意法半导体拥有5万名半导体技术的创造者和创新者,掌握半导体供应链和先进的制造设备。作为一家半导体垂直整合制造商(IDM),意法半导体与二十多万家客户、成千上万名合作伙伴一起研发产品和解决方案,共同构建生态系统,帮助他们更好地应对各种挑战和新机遇,满足世界对可持续发展的更高需求。意法半导体的技术让人们的出行更智能,让电源和能源管理更高效,让云连接的自主化设备应用更广泛。意法半导体承诺将于2027年实现碳中和(在范围1和2内完全实现碳中和,在范围3内部分实现碳中和)。详情请浏览意法半导体公司网站:www.st.com

围观 10

2023年12月18日–全球知名的半导体和电子元器件授权代理商,专注于快速引入新产品和新技术的贸泽电子(Mouser Electronics, Inc.)™宣布与低功耗AI领域先进的半导体芯片供应商Ambiq达成新的全球分销协议,面向全球提供适用于可穿戴设备、耳戴式设备、物联网、边缘设备和移动边缘计算应用的低功耗人工智能MCU芯片。

1.png

“ 我们很高兴宣布与Ambiq建立合作伙伴关系,进一步履行了我们向全球客户提供新产品和技术的承诺。我们期待在贸泽先进的物流响应速度和优异的客户服务支持下,为全球的工程师和买家提供创新的嵌入式解决方案。”Kristin Schuetter(贸泽电子供应商管理副总裁)

“ 贸泽以其全球分销和客户支持系统而闻名,我们很高兴能建立这种关系。通过贸泽的分销,我们可以充分利用他们在提供先进技术方面的优势来扩大我们的全球客户群。”Mike Kenyon(Ambiq销售和业务发展副总裁)

贸泽目前推出的Ambiq产品包括Ambiq Apollo4 Blue Lite SoC 和 Apollo4 Blue Lite评估板。Apollo4 Blue Lite SoC具有带浮点运算单元的32位Arm®Cortex-M4®内核,还具有强大无线连接功能的低功耗蓝牙® 5.1子系统。该SoC非常适合用于电池供电的端点设备,包括智能手表、健身手环、动物追踪器、声控遥控器和数字健康产品。Apollo4 Blue Lite评估板则为Apollo4 Blue Lite SoC提供了完整的演示和开发平台。

贸泽还提供Apollo3 Blue Plus评估板和Apollo3 Blue Plus SoC。基于Apollo3 Blue Plus 的Voice-on-SPOT(VoS)平台,是实现始终在线语音助手和语音命令集成的杰出微处理器。Apollo3 Blue Plus评估板则可让客户实现快速、轻松的 产品原型设计。贸泽同时提供Apollo3 Blue Plus Voice-on-SPOT套件,其有助于在Apollo3 Blue Plus SoC上演示、评估和开发超低功耗音频和语音功能。该套件支持始终在线的语音命令应用,并提供单/双麦克风、信号处理、唤醒词/命令检测、音频编解码器和低功耗蓝牙通信等组件。

另外,Artasie AM1805评估板也可通过贸泽购买,它为客户提供了一种简便的方法来测量和评估Ambiq的AM18x5实时时钟(RTC)芯片。该评估板包括具有较低功耗的片内振荡器、完整的RTC功能模块(包括备用电池、可编程计数器和用于定时器和看门狗功能的闹铃/警报)以及用于与主机控制器通信的PC串行接口。

来源:Ambiq

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 12

面向导航辅助、远程信息处理、防盗和运动激活应用,增强驾驶便利性、安全性和舒适性

意法半导体的车规ASM330LHHXG1惯性测量单元(IMU)整合传感器内部人工智能与改进的低功耗工作模式,并将最高工作温度扩展到125°C,确保传感器能够在恶劣环境中可靠地工作。

1.jpg

意法半导体的新车规IMU集成一个三轴加速度计和三轴陀螺仪,工作电流在两个传感器同时运行的情况下小于800µA。低功耗特性可降低系统电源预算,促进该产品在始终感知应用中的推广使用。通过利用内置的机器学习核心(MLC)和有限状态机(FSM),传感器内部人工智能可以减少主处理器的工作负荷,使事件检测和分类工作用时更短,能效更高。宽温使包含ASM330LHHXG1的智能传感器能够灵活地部署在条件恶劣的地方,包括发动机附近、阳光直射地方,或者当板上耗散功率可能将温度提高到标准工作温度以上情况。

通过集成MLC和FSM,ASM330LHHXG1可以用于要求响应快速、确定且功耗小的用途,其中包括导航辅助和远程信息处理、防盗、碰撞检测和运动激活功能。

借助Unico-GUIAlgoBuilder软件工具,以及MEMS传感器转接板(STEVAL-MKI243A),意法半导体的MEMS生态系统有助于加快基于ASM330LHHXG1的应用评估、原型设计和产品开发。此外,工程师能够在ST的GitHub资源库中找到现成的应用代码示例。MLC库包含倾斜、牵引和车辆状态检测等用例。 FSM库有更多的启迪灵感的方案,包括运动/静止检测和抖动检测。

虽然IMU具有双重工作模式,让设计者可以优化数据更新率和功耗,但是,加速度计和陀螺仪的时漂和温漂稳定性都十分出色。加速度计的满量程可设为±2/±4/±8/±16g,陀螺仪的角速率可设为±125、±250、±500、±1000、±2000或±4000度/秒。

ASM330LHHXG1是AEC-Q100认证产品,现已量产,目前采用超模压的14引线塑料栅格阵列(LGA)封装。

详情访问 www.st.com/automotive-experience

关于意法半导体

意法半导体拥有5万名半导体技术的创造者和创新者,掌握半导体供应链和先进的制造设备。作为一家半导体垂直整合制造商(IDM),意法半导体与二十多万家客户、成千上万名合作伙伴一起研发产品和解决方案,共同构建生态系统,帮助他们更好地应对各种挑战和新机遇,满足世界对可持续发展的更高需求。意法半导体的技术让人们的出行更智能,让电源和能源管理更高效,让云连接的自主化设备应用更广泛。意法半导体承诺将于2027年实现碳中和(在范围1和2内完全实现碳中和,在范围3内部分实现碳中和)。详情请浏览意法半导体公司网站:www.st.com

围观 5

在今天开幕的第二届滴水湖中国 RISC-V 产业论坛上,11家本土公司发布了遍布多个领域的RISC-V新品,这里给大家介绍嘉楠科技发布的端侧RISC-V AIoT芯片K230。

1.png

嘉楠科技副总裁汤炜伟指出嘉楠科技是一家做数字新基建算力提供商,主要用高性能计算技术和芯片技术赋能和开创区块链、人工智能两大领域的计算底座。从“区块链”来讲:嘉楠科技是首个交付全球7nm 的ASIC芯片。在AI芯片方面,从2018年发布全球首款RISC-V AI芯片到如今实现了百万级出货。

2.jpg

3.png

目前,嘉楠科技的AI芯片已经迭代到第三代,上图是嘉楠Kendryte(勘智)AI产品家族。全系列产品定位为三大板块:1.消费AIoT芯片。2.行业AIoT。3.边缘计算等。第一代K210芯片产品是小算力的RISC-V双核芯片。2021年推出了第二代人工智能芯片K510,最大达到2T AI算力,今天要发布的就是K230,是在K210基础上有了大幅提升。在消费AIoT及行业AIoT两条产品线之外,此外,嘉楠科技还有规划了边缘计算和类机器人的产品线,这个产品线将在明年后年陆续的推出。

4.jpg

他强调嘉楠科技做了非常多的开源工作,同时在开源之余得到了很多商业化的回报。目前整个K210+K510出货量超过两百万颗,并且出货不仅是在中国、中国为主国外也有接近中国一半的体量,出货的国家超过20国。

“我们坚持开源收获了数万名开发者,以及超过100种第三方制作的开发板、核心板、模组、模块各类开源硬件,并且我们的GitHub开源超过650+。从硬件、软件、AI算法、开放的方案等等,我们从开源开放这一块做了非常多的努力和工作,也得到了广大业界的认可,所以才带来我们非常好的商业化和开源的回报。”他指出。

5.jpg

他表示今天推荐的是第三颗AI芯片K230系列的RISC-V AIoT芯片。预计将在2023年上半年量产。上图是芯片主功能组成,KPU是AI引擎,AI专用的处理器、这个处理器部分是自研第三代AI KPU引擎。K是知识处理器,它有“两高两多”特性。更高的性能、算力利用率高,部分典型网络的利用率超过了70%、在业内来非常领先,“两多”就是多模态和AI工具视力完备性和多样性。多模态可以支持视觉、语音、翻译等,AI工具则是可以支持非常多的算子,并且有非常多的部署。

CPU是和平头哥深度合作,采用的是“玄铁C908双核处理器”,DPU内嵌了一套自研的一套立体视觉全高清3D深度引擎,面向立体视觉、同时具备了非常高的高精度,可以实现全高清1080P的立体视觉的应用,可以适用在中距几米范围到近距三维感知高精度应用。比如刷脸门锁、刷脸支付等其它的一些中度距离的场景。其他组成是视频处理器、支持4K超高清输入。在图象和图形显示等等方面有了极大的加强,并且通过整个媒体的通路对于全流程编解码、多摄等都有非常好的支持。

6.png

他表示K230系列性能强大,CPU性能、AI性能、MAC利用率提升数倍如上图表示。这些提升可为客户带来更高的性能。在数据越来越丰富、图像分辨率越来越高,整个二维感知走向三维感知数据量剧烈提升的时代,更好的AI和CPU性能能够提供给大家更好的AI处理能力、得到更强的感知、认知能力,使得将来身边的各种固定的或者移动的设备都具有更强的智能。

7.png

他最后表示嘉楠科技 秉承 开放+合作+开源的合作模式,在商业化方面希望和重点商业客户、方案商、下游合作伙伴,密切合作、与客户共赢。在开源开放方面 ,嘉楠科技希望和开发者能够共建生态。在Github上可以几乎获取嘉楠科技所有的相关资料。

来源:张国斌公众号

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 117

我们把搜集到的开发者需求汇总,并更新在垂直应用板块,STM32开发者们可以在这里找到各个应用相关的硬件,软件资源,参考设计文档,Demo视频,培训课程或资料等,最近上线的AI 人工智能页面可带你解锁以下丰富资源。

“【收藏】开发者资源汇总-STM32人工智能应用"

嵌入式机器学习能以简单、快速、经济划算的方式来改进许多应用。

预测性维护、物联网产品、智能楼宇、资产追踪、人员计数……集成了人工智能之后,许多应用将变得更加智能!

面向STM32的人工智能解决方案可全面并迅速帮助您在产品中嵌入机器学习功能!

“【收藏】开发者资源汇总-STM32人工智能应用"

市场方向

预测性维护

Predictive Maintenance,简称PdM 。是指通过对设备进行数据收集和状态监测,在故障发生之前,就预测可能出现的故障隐患。并在故障损害发生之前,提出防范措施,更换相关零部件。

数千个STM32产品型号均允许用户通过Nanoedge AI Studio 和STM32Cube.AI工具链实施机器学习和神经网络,从而实现预测性维护的机器学习和深度学习算法。STM32完善全面的生态体系及工业领域的广泛应用帮助客户更好的实现预测性维护。例如:

“【收藏】开发者资源汇总-STM32人工智能应用"

计算机视觉

嵌入式计算机视觉,具有:响应速度快、带宽低、隐私性好、低成本、低功耗的优势。

STM32 MCU 通过STM32Cube.AI的工具,以及STM32 MPU加上X-LINUX-AI可以帮助客户快速的实现计算机视觉中 图像分类和目标检测。 这些计算机视觉能力,可以广泛的应用在各种需要计算机视觉的实际场景中。同时,AI具有的这些优势能力,正在启发越来越多的客户使用场景。

“【收藏】开发者资源汇总-STM32人工智能应用"

音频和传感

低功耗语音识别,STM32的优势在于在语音识别基础上的丰富通用外设和型号组合,相比较AP方案,功功耗。All-in-1 STM32可以使用场景:

  • 显示+语音:可穿戴、智能家居 

  •   无线+语音:智慧照明

  •   控制+语音:家电(空调、洗衣机)

“【收藏】开发者资源汇总-STM32人工智能应用"

软件及工具

面向STM32的人工智能解决方案 ,可提供以下三种工具或软件的支持。

“【收藏】开发者资源汇总-STM32人工智能应用"

1. NanoEdge AI Studio,您的机器学习向导。

“【收藏】开发者资源汇总-STM32人工智能应用"

NanoEdge AI Studio有数以百万计可用的预构建模型,能够轻松为嵌入式设备生成库。

即使您对于AI不太熟悉,只需几天就能创建一个完整的产品!例如,基于其异常检测、分类或回归算法,该工具让您可以轻松开发预测性维护应用。

NanoEdge AI Studio工具介绍视频

 产品下载
  说明

NanoEdge AI Studio

面向STM32开发人员的自动化机器学习 (ML) 工具

2. STM32Cube.AI,有此软件工具在手,即可助您储存和优化人工神经网络。

“【收藏】开发者资源汇总-STM32人工智能应用"

NanoEdge AI Studio有数以百万计可用的预构建模型,能够轻松为嵌入式设备生成库。

即使您对于AI不太熟悉,只需几天就能创建一个完整的产品!例如,基于其异常检测、分类或回归算法,该工具让您可以轻松开发预测性维护应用。

STM32Cube.AI工具介绍视频

产品编号   说明

STM32CubeMX

STM32Cube初始化代码生成器
X-CUBE-AI STM32CubeMX的AI扩展包

通过STM32功能包加速开发

为了简化应用程序开发,我们提供关于重要用例(例如计算机视觉、传感,以及状态监测)的代码示例。我们的功能包完整集成了人工神经网络与预处理/后处理功能,并连接到微控制器外设。

这些软件包帮助您节省宝贵的时间,使您能够专注于人工神经网络模型,让您的应用程序脱颖而出。

产品编号   说明
FP-AI-SENSING1 STM32Cube功能包,用于超低功耗物联网节点,具有基于音频和运动  传感的人工智能(AI)应用
FP-AI-VISION1  STM32Cube功能包,用于高性能STM32,带有用于计算机视觉的人工 智能(AI)应用
FP-AI-NANOEDG1 STM32Cube的人工智能(AI)状态监测功能包
FP-AI-FACEREC STM32Cube的人工智能(AI)面部识别功能包
FP-AI-CTXAWARE1 STM32Cube功能包,用于分布式人工智能(AI)的超低功耗情景感知
FP-AI-MONITOR1 STM32Cube功能包面向超低功耗STM32,基于多种传感器实现人工智能 (AI) 监控应用

3. STM32 MPU的Linux扩展包

  产品编号   说明
X-LINUX-AI 用于AI计算机视觉应用的STM32 MPU OpenSTLinux扩展包
STEVAL-STLKT01V1 SensorTile开发套件

硬件

面向STM32的人工智能解决方案

STM32芯片对AI工具的支持

“【收藏】开发者资源汇总-STM32人工智能应用"

可用于AI评估的STM32开发板

产品编号 说明
B-L475E-IOT01A STM32L4探索套件,包含IoT节点、低功耗无线解决方案、BLE、NFC、SubGHz和Wi-Fi
STEVAL-STLKT01V1 SensorTile开发套件
STEVAL-STWINKT1B 用于工业IoT应用的STWIN SensorTile无线工业节点开发套件和参考设计
STM32L562E-DK 配备STM32L562QE MCU的探索套件
STM32H747I-DISCO

配备STM32H747XI MCU的探索套件

STM32MP157C-DK2 配备STM32MP157C MPU的探索套件
STM32MP157F-DK2 配备STM32MP157F MPU的探索套件
Avenger96 基于STM32MP157A的Avenger96板源自96Boards
B-CAMS-OMV 摄像头模块套装,用于STM32板

设计资源

*点击编号/文档可查看下载

STM32人工智能相关资

如何在OpenMV生态系统中集成STM32Cube.AI生成的代码 实战经验
UM2526_X-CUBE-AI 人工智能 (AI) 扩展包入门 用户手册
UM2611_STM32H7 微控制器的人工智能   (AI) 和计算机视觉功能包 用户手册
UM2870_用于STM32Cube通过分布式人工智能 (AI) 实现超低功耗环境感知 用户手册
UM2721_STM32Cube的人工智能状态监视功能包 用户手册
DB3788_STM32Cube的人工智能AI数据手册 数据手册
DB4255_X_LINUX_AI数据手册摘要 数据手册
DB4418_AI软件示例数据手册 数据手册
DB4467_STM32Cube的人工智能AI和面部识别数据手册 数据手册
DB4196_STM32Cube的人工智能(AI)状态监测功能包 数据手册
DB4494_无线工业节点多传感器AI数据监控框架,STM32Cube功能包 数据手册
Demo & Webinar视频资源
NanoEdge AI  介绍视频 NanoEdge AI Studio V3介绍 
 预测性维护 NanoEdge AI-通过对驱动风扇的电流信号进行监测
NanoEdge AI-STM32微控制器的TinyML预测性维护
基于机器学习的具有嵌入式预测性维护功能的电机控制
 故障检测 X-NUCLEO-IHMO7M1板上的滤网阻塞检测
STM32Cube.AI计算机视觉 光学字符识别 (OCR) STM32 Edge AI解决方案
 人物检测 人物检测——低功耗STM32微控制器上的神经网络(STM32H7或者STM32L4)
 人脸识别 FP-AI-FACEREC1_STM32H7_面部识别应用
 计算机视觉 如何使用STM32Cube.AI进行计算机视觉项目开发?
NanoEdge AI  STM32Cube.AI 计算机视觉 人工智能demo-风扇滤网堵塞检测以及基于视觉的人数统计

训课程及资料

意法半导体边缘人工智能解析

观看视频

ST端侧人工智能之视觉检测培训课件

 下载培训课件

来源:STM32
免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 225

2021年 8月 23日,在一年一度的 Hot Chips 大会上,IBM(纽交所证券代码:IBM)公布了即将推出的全新 IBM Telum 处理器的细节,该处理器旨在将深度学习推理能力引入企业工作负载,帮助实时解决欺诈问题。Telum 是 IBM 首款具有芯片上加速功能的处理器,能够在交易时进行 AI 推理。经过三年的研发,这款新型芯片上硬件加速技术实现了突破,旨在帮助客户从银行、金融、贸易和保险应用以及客户互动中大规模获得业务洞察。基于 Telum 的系统计划于 2022年上半年推出。

“IBM

根据 IBM 委托 Morning Consult 开展的最近研究,90% 的受访者表示,必须做到无论数据位于何处,都能够构建和运行 AI 项目,这一点非常重要。[1]IBM Telum 旨在让应用能够在数据所在之处高效运行,帮助克服传统企业 AI 方法的限制 — 需要大量的内存和数据移动能力才能处理推理。借助 Telum,加速器在非常靠近任务关键型数据和应用的地方运行,这意味着企业可以对实时敏感交易进行海量推理,而无需在平台外调用 AI 解决方案,从而避免对性能产生影响。客户还可以在平台外构建和训练 AI 模型,在支持 Telum 的 IBM 系统上部署模型并执行推理,以供分析之用。

银行、金融、贸易、保险等领域的创新

如今,企业使用的检测方法通常只能发现已经发生的欺诈活动。由于目前技术的局限性,这一过程还可能非常耗时,并且需要大量计算,尤其是当欺诈分析和检测在远离任务关键型交易和数据的地方执行的情况下。由于延迟,复杂的欺诈检测往往无法实时完成 — 这意味着,在零售商意识到发生欺诈之前,恶意行为实施者可能已经用偷来的信用卡成功购买了商品。

根据 2020年的《消费者“前哨”网络数据手册》,2020年消费者报告的欺诈损失超过 33亿美元,高于 2019年的 18亿美元[2]。Telum 可帮助客户从欺诈检测态势转变为欺诈预防,从目前的捕获多个欺诈案例,转变为在交易完成前大规模预防欺诈的新时代,而且不会影响服务级别协议 (SLA)。

这款新型芯片采用了创新的集中式设计,支持客户充分利用 AI 处理器的全部能力,轻松处理特定于 AI 的工作负载;因此,它成为欺诈检测、贷款处理、贸易清算和结算、反洗钱以及风险分析等金融服务工作负载的理想之选。通过这些新型创新,客户能够增强基于规则的现有欺诈检测能力,或者使用机器学习,加快信贷审批流程,改善客户服务和盈利能力,发现可能失败的贸易或交易,并提出解决方案,以创建更高效的结算流程。

“IBM

“IBM

Telum 和 IBM 采用全栈方法进行芯片设计

Telum 遵循 IBM 在创新设计和工程方面的悠久传统,包括硬件和软件的共同创新,以及覆盖对半导体、系统、固件、操作系统和主要软件框架的有效整合。

该芯片包含 8个处理器核心,具有深度超标量乱序指令管道(A deep super-scalar out-of-order instruction pipeline),时钟频率超过 5GHz,并针对异构企业级工作负载的需求进行了优化。彻底重新设计的高速缓存和芯片互连基础架构为每个计算核心提供 32MB 缓存,可以扩展到 32个 Telum 芯片。双芯片模块设计包含 220亿个晶体管,17层金属层上的线路总长度达到 19英里。

“Telum

半导体领先地位

Telum 是使用 IBM 研究院 AI 硬件中心的技术研发的首款 IBM 芯片。此外,三星是 IBM 在 7纳米 EUV 技术节点上研发的 Telum 处理器的技术研发合作伙伴。

Telum 是 IBM 在硬件技术领域保持领先地位的又一例证。作为世界上最大的工业研究机构之一,IBM 研究院最近宣布进军 2纳米节点,这是 IBM 芯片和半导体创新传统的最新标杆。在纽约州奥尔巴尼市 — IBM AI 硬件中心和奥尔巴尼纳米科技中心的所在地,IBM 研究院与公共/私营领域的行业参与者共同建立了领先的协作式生态系统,旨在推动半导体研究的进展,帮助解决全球制造需求,加速芯片行业的发展。

了解更多信息,请访问:

www.ibm.com/it-infrastructure/z/capabilities/real-time-analytics

关于 IBM 未来方向和意向的声明仅表示目标和目的,可能随时更改或撤销,恕不另行通知。

了解更多信息,请访问:www.ibm.com

围观 12

嵌入式电子+人工智能

在技术发展的历史上,技术先独立发展再相互融合以改变世界的例子比比皆是。原子能和喷气式发动机的融合催生了核动力航母,改变了20世纪大部分战争的形态。计算机和射频通信的融合产生了智能手机,同时也重新定义了我们与技术以及彼此之间的互动方式。今天,嵌入式电子和人工智能(AI)的融合正日益成为下一个具有颠覆性的技术组合。接下来我们就看一下这种融合的发展演变。

欢迎来到网络边缘

人工智能的概念最早出现在古希腊人的著作中,但直到20世纪上半叶,才开始将其作为一种实际技术进行开发。从根本上来说,人工智能让数字技术仿佛人脑一样,能够与模拟世界高效而快速地互动沟通。为了让人工智能在现实世界获得实际应用,比如在自动驾驶车辆中,那么在处理多个动态输入时,电子设备和物理世界之间的交互必须接近瞬时完成。值得庆幸的是,随着机器学习算法的发展,嵌入式电子系统也在不断进步。他们的联姻催生出了边缘计算的概念。
边缘计算将过去只有云端强大处理硬件才具备的处理能力,带给了位于物理-数字接口边缘的本地设备。再加上MCU和传感器等价格便宜而又性能强大的嵌入式组件的普及,最终在自动化领域掀起了一场规模、功能都史无前例的革命。

“图1:Google的“TensorFlow
图1:Google的“TensorFlow Lite for Microcontrolller”网站(图片来源:Google)

TensorFlow Lite:基于微型硬件的大型机器学习算法

TensorFlow是Google主导开发的一套开源软件库,使开发人员能够轻松地将复杂的数值计算算法和机器学习(ML)集成到他们的项目中(图1)。按照Google的说法,这些库为Python(所有平台上的Python 3.7+)和C语言提供稳定的应用程序编程接口(API)。此外,它们还为C++、Go、Java和JavaScript提供不保证向后兼容的API。针对Apple公司的Swift语言,它也提供了一个alpha版本。

TensorFlow为深度神经网络(DNN)的开发和利用提供了我们常说的端到端机器学习支持。DNN是机器学习的一种应用类型,特别擅长模式识别以及对象检测与分类。TensorFlow库支持机器学习过程的两个阶段,即训练和推断。其中第一阶段是深层神经网络的训练,这需要大量算力,通常由服务器级硬件和图形处理单元(GPU)提供。张量处理单元(TPU)则是最近开发的一种专用集成电路,用于支持这种训练。第二阶段是推断,即利用在现实世界中接受训练的DNN来回应新的输入:按照培训好的模型分析这些输入,并根据分析结果提出建议。这应该是嵌入式产品开发人员比较感兴趣的阶段。

适用于MCU的TensorFlow Lite(TensorFlow库的一个子集)专门用于在内存受限的设备上执行推断,大多数嵌入式系统应用中都存在这种设备。它不允许您训练新的网络,那仍然需要更高端的硬件。

实用为王:ML应用实例

在嵌入式系统上运行人工智能算法的目标,就是要比传统程序或面向对象的编程方法更高效地处理传感器收集的真实世界数据。也许在大家的意识中,最常见的使用案例是从传统汽车到具有自动辅助功能(如车道偏离警报和防撞系统)的汽车,再到无人驾驶汽车这个最终目标的发展历程。不过,深度学习还有其他一些不那么显眼的用例,虽然你不知道,但已经在使用了。智能手机中的语音识别或Amazon Alexa等虚拟助手均使用了深度学习算法。其他用例包括用于安防领域的面部检测和/或背景替换、去除绿幕、远程会议软件(如Zoom)等。

人工智能、神经网络和机器学习等术语有时候给人的印象就像科幻小说或行话。那么这些新兴技术的现实意义何在?

“图2:使用AI,可以自动监测安全源来识别某些人(图源:Monopoly919
图2:使用AI,可以自动监测安全源来识别某些人(图源:Monopoly919 - stock.adobe.com)

同时使用机器学习算法和联网设备(如物联网设备)带来的一个巨大优势就是,随着时间的推移,产品可以通过简单的OTA固件更新来集成新的或经过更好训练的模型。这意味着产品可以逐渐变得更加智能,并且不局限于制造时能够实现的功能,只要新的模型和固件不超出硬件的物理内存和处理能力即可。

“图3:将TensorFlow模型转换为可在MCU等内存受限设备上使用的版本。(图源:NXP)"
图3:将TensorFlow模型转换为可在MCU等内存受限设备上使用的版本。(图源:NXP)

工作流程

根据适用于MCU的TensorFlow Lite的说明文档,开发人员的工作流程可以分为五个关键步骤(图3),具体如下:

1、创建或获取一个TensorFlow模型

该模型必须足够小,以便在转换后适合目标设备,并且它只能使用支持的运算。如果要使用当前不支持的运算,可以提供自定义实现。

2、将模型转换为TensorFlow Lite FlatBuffer

使用TensorFlow Lite转换器将模型转换为标准TensorFlow Lite格式。您可能希望输出一个量化模型,因为这种模型的尺寸更小,执行效率更高。

3、将FlatBuffer转换为C位数组

模型保存在只读程序内存中,并以简单的C文件形式提供。可以使用标准工具将FlatBuffer转换为C位数组。

4、集成适用于MCU的TensorFlow Lite C++库

编写MCU代码来收集数据,使用C++库执行推断,然后使用结果。

5、部署到设备

编写程序并将其部署到您的设备。

选择与TensorFlow Lite库一起使用的兼容嵌入式平台时,开发人员应注意以下几点:

  • 基于32位架构(如Arm Cortex-M处理器)和ESP32的系统。

  • 它可以在内存仅有数十KB的系统上运行。

  • 适用于MCU的TensorFlow Lite采用C++ 11编写。

  • 适用于MCU的TensorFlow Lite可作为Arduino库提供。该框架还可以为其他开发环境(如Mbed)生成项目。

  • 不需要操作系统支持、动态内存分配或任何C/C++标准库。

后续步骤

Google提供四个预先训练的模型作为示例,可用于在嵌入式平台上运行。只需稍做修改,就能在各种开发板上使用。这些示例包括:

1、Hello World

演示使用适用于MCU的TensorFlow Lite的必备基础知识。

2、Micro-Speech

用麦克风捕捉音频以检测单词“yes”和“no”。

3、Person Detection

用图像传感器捕捉摄像头数据,以检测是否有人。

4、Magic Wand

捕获加速度计数据以对三种不同的身体姿势进行分类。

本文为贸泽电子独家原创文章,转载请注明来源。
免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:
cathy@eetrend.com)。

围观 281

AI设计主要参与方都是功能强大的CPU,GPU和FPGA等。微型微控制器与强大的人工智能(AI)世界有什么关系?

但随着AI从云到边缘的发展,使得这一观点正在迅速改变,AI计算引擎使MCU能够突破嵌入式应用可能的极限,嵌入式设计已经能够提高网络攻击的实时响应能力和设备安全性。

支持AI的MCU

云计算推动了对具有AI功能的MCU的需求;它减少了数据传输所需的带宽,并节省了云服务器的处理能力,如下图。


配备AI算法的MCU正在应用包含对象识别,启用语音服务和自然语言处理等功能的应用程序。它们还有助于提高物联网(IoT),可穿戴设备和医疗应用中电池供电设备的准确性和数据隐私性。

那么,MCU如何在边缘和节点设计中实现AI功能?下面简要介绍了三种基本方法,这些方法使MCU能够在IoT网络边缘执行AI加速。

三个MCU + AI场合

第一种方法(可能是最常见的方法)涉及各种神经网络(NN)框架(例如Caffe 2,TensorFlow Lite和Arm NN)的模型转换,用于在MCU上部署云训练的模型和推理引擎。有一些软件工具可以从云中获取经过预训练的神经网络,并通过将其转换为C代码来针对MCU进行优化。

在MCU上运行的优化代码可以在语音,视觉和异常检测应用程序中执行AI功能。工程师可以将这些工具集下载到MCU配置中,并运行优化神经网络的推论。这些AI工具集还提供了基于神经网络的AI应用程序的代码示例。

AI执行模型转换工具可以在低成本和低功耗MCU上运行优化神经网络的推论,如下图所示。


第二种方法是绕过了对从云借用的预训练神经网络模型的需求,设计人员可以将AI库集成到微控制器中,并将本地AI培训和分析功能纳入其代码中。

随后,开发人员可以基于从边缘的传感器,麦克风和其他嵌入式设备获取的信号来创建数据模型,并运行诸如预测性维护和模式识别之类的应用程序。

第三,AI专用协处理器的可用性使MCU供应商能够加快机器学习功能的部署。诸如Arm Cortex-M33之类的协处理器利用了诸如CMSIS-DSP之类的流行API来简化代码的可移植性,从而使MCU与协处理器紧密耦合,可加快AI功能,如协处理相关和矩阵运算。

上述软件和硬件平台演示了如何通过根据嵌入式设计要求开发的推理引擎在低成本MCU中实现AI功能。这很关键,因为支持AI的MCU很有可能在IoT,工业,智能建筑和医疗应用中改变嵌入式设备的设计。

本文转自:STM32嵌入式开发,转载此文目的在于传递更多信息,版权归原作者所有。

围观 83

作者:张国斌

随着算力、算法和大数据日益进步,带动了人工智能技术的迅速普及,目前在人工智能技术应用主要分成两步,首先在GPU等上利用大数据进行训练,优化算法和模型,然后在端侧通过特定的人工智能处理器NPU/APU上实现推理应用,有没有可能同时将训练和推理在一个处理器上实现呢?如果有,这是不是更高效?那将是可以颠覆行业的,也可能实现机器的自我学习和进化呢?

有!Graphcore --一家英国的人工智能领域的独角兽(估值17亿美元),提出了新的IPU(人工智能处理器)架构,它们在2016年10月获得了 3000 万美元A 轮融资(已经累计获得超过3.25亿美元投资),希望其产品可以对抗像英特尔和英伟达这样的人工智能巨头。其投资者包括Dell、微软、Bosch、BMW、Microsoft和Samsung等,它的处理器可以同时支持推理和训练,这可以说是继CPU、GPU、FPGA和ASIC之后的第五类人工智能处理器。

Graphcore的投资主体来自很多大公司

Graphcore的投资主体来自很多大公司

目前,Graphcore的已经量产,主要产品是一款可插入服务器的double-width、full-height 300W PCI Express卡,顶部连接器可以实现卡间互连。每一片Graphcore C2卡都配有两颗Colossus IPU处理器芯片;该芯片本身,即IPU处理器,是迄今为止最复杂的处理器芯片──在16nm单芯片上容纳了240亿个晶体管,每颗芯片可提供125 TFLOPS运算力。以静态影像的前馈卷积神经网络(feed-forward convolutional neural networks)来对比,IPU的性能优势是目前GPU的两到三倍有时甚至是五倍。

Graphcore的IPU产品​​​​​​​

Graphcore的IPU产品

全球第一台IPU服务器---Dell DSS8440

全球第一台IPU服务器---Dell DSS8440

Dell DSS8440是第一台Graphcore IPU服务器,具有16个IPU处理器,并在服务器中全部连接了IPU-Link™技术,因此IPU系统具有超过100,000个完全独立的程序,所有程序均在机器智能知识模型上并行工作。

2019年11月14日,Graphcore还宣布与微软进行合作,并发布Microsoft Azure上Graphcore智能处理单元(IPU)的预览版。Graphcore表示,这是公有云领导供应商首次提供GrapchoreIPU,看来未来云计算领域将是Graphcore大展身手的地方,今天我们来聊聊这款人工智能处理器有哪些独特的地方?

独特的架构

Graphcore联合创始人兼CEO Nigel Toon

Graphcore联合创始人兼CEO Nigel Toon

Graphcore联合创始人兼CEO Nigel Toon去年在接受电子创新网等媒体采访时曾表示对于CPU、GPU、FPGA和ASIC而言,Graphcore的IPU处理器是与它们完全不同的,Graphcore 的IPU特点可概括为:

1、同时支持训练和推理

2、采用同构多核(many-core)架构,有超过1000个独立的处理器;

3、支持 all-to-all的核间通信,采用Bulk Synchronous Parallel的同步计算模型;

4、采用大量片上SRAM,不需要外部DRAM。

Graphcore的IPU处理器架构

Graphcore的IPU处理器架构

他强调IPU是专门为AI/Machine Learning设计的处理器。Graphcore的IPU有强大并行处理能力,能在自然语言处理以及理解自动驾驶方面取得重大进展,这是区别于其他处理器的一个重要因素。当然,他也顺便喷了一下GPU,

“我们接触过的所有创新者都说使用GPU正在阻碍他们创新。如果仔细看一下他们正在研究的模型类型,你会发现他们主要研究卷积神经网络。因为递归神经网络和其他类型的结构,并不能很好地映射到GPU,加上没有足够良好的硬件平台,其研究领域受到限制。而这正是我们将IPU推向市场的原因。”Nigel Toon指出。

“大家常常对CPU解决不了的问题,试图用FPGA来解决,其实FPGA用的大量场景不在AI领域,而是在网络和存储加速里面。另外,针对AI应用,FPGA无法支持训练,另外易用性差,只可以做一些推理场景。而IPU很明确,专为机器智能或AI应用场景设计,可同时做训练和推理。” Graphcore销售副总裁卢涛补充表示,“IPU是一个处理器,针对IPU我们开发了一套叫做 Poplar 的软件,对程序员来说,在 IPU 上进行开发就是写一个TensorFlow或者Pytorch 的程序,可能就几十行代码,易用性非常好。”

而对于业界认为ASIC方案在场景应用中效能更高的说法,Nigel Toon表示他不认同这个说法,因为不管是什么样的神经网络,不管处理什么应用,最后在底层都会表征成一个计算图,所以IPU设计是来处理计算图的,不管是在处理图片也好,语言也好,最后就是个计算图。所以在我们往后在下一代产品发布的时候,可能会有一些微小的优化,但基本架构还是会维持当前的产品架构,只是处理器的能力强、规模更大,能支持更大的系统,但架构本质上还是当前的架构。

不过Graphcore也表示小型加速器是适合ASIC化的,例如一个拥有大量用户的具有非常特定工作量的公司,或许他们运营着一个庞大的社交网络,他们可以创建一个非常具体的功能并将其构建到一个芯片中,然后将其部署到数据中心以提高这一功能的效率。所以Graphcore不care这个市场,它所做的是一个通用处理器,可以通过编程以惊人的效率来做许多不同的事情。

在人工智能训练过程中,什么是最重要的?有什么方法可以捕捉到训练数据,并捕捉到这些数据间的关系?让所有数据产生关联,有了足够的数据才能建立出模型。就像小孩子一样,他们的大脑不断地吸收知识,消化知识才能产生知识模型,这些都需要经过长时期才可以建立。有了这样一种模型之后,我们还要有推理引擎,从这些新的知识得到新的输出。其实训练、推理的过程都是一样的,在训练时需要很多计算,而计算需要有足够长的时间,才能让我们的知识得到很好的训练。要培训、要训练这样一个知识模型,就要去监督这些学习过程,才能知道到底从这些数据中学到了什么。我们要建立这样的知识模型是非常复杂的,任何机器的计算模型都可以总结成为计算模式,可以用这些计算模式的描述,来描述这些数据到底是怎么样的,并把这些描述放在神经网络里面,让它们进行学习,然后把知识传输到新的输出上。我们Graphcore的芯片都是高度并行计算,很多种子数据都是同时并行计算的,就像档案里面同时处理很多数据一样。还有很多的并行计算过程正在发生,所以,要用不同的指令、多个机器,让并行计算成为现实。这里的挑战是怎么样确保不同的数据放到合适的地方,在合适的时间进行计算。我们还需要有海量数据带宽来实现高度、大量的数据计算,这就是发明Graphcore IPU的基本思路。”

这是一些对比数据,下图是自然语言处理,Graphcore过BERT语言模型实现了最先进的性能和准确性,在IPU服务器系统中用7张C2 IPU处理器PCIe卡(每个都有两个IPU)在56小时内训练了BERT Base。通过BERT推理,吞吐量提高了3倍,延迟缩短了20%以上。

Graphcore IPU自然语言训练对比

Graphcore IPU自然语言训练对比

与其他领先处理器相比,Graphcore C2 IPU处理器PCIe卡吞吐量提升了3.4倍,延迟优化了20倍! 

第五类人工智能处理器杀出,训练推理通吃?

Nigel Toon表示:“Graphcore的IPU 同时有上千个处理器在工作,单个IPU的存储带宽能达到45TB,比性能最快的HBM提升了50倍以上,且在相同算力的基础上能耗降了一半。”

他表示人工智能技术经过简单感知、自然学习的学习处理之后就会到了第三步--就是高度感知,从经验中去学习,要了解到接下来的那一步会发生什么。在自动驾驶汽车里面面临的几大难题就是智能汽车能不能认识到前面的物体,以及它下一步要做什么,在这方面,已经取得了很多进步。这些模型比之前的模型都要复杂,它们高度集成的模型,要把很多东西集成在一起才能做决定。所以,“实际生活中,我们看到的不是单一的知识模型,而是多个知识模型,让它们形成复杂决策过程,这就跟我们的大脑类似,因为我们的大脑可以处理不同的信息。”他强调,“谷歌的智能系统模型正在大规模增长,2016年它只能认识到2500万信息量,2019年2月推出的GPT-2就能处理15亿的参数了,未来还要能处理1万亿的参数,我们需要很大的计算。”他指出,“摩尔定律尽管放缓,但依然有效。我们需要有一种新的处理器,这个新处理器跟过去的CPU和GPU不一样,它是能够产生智能机器的处理器,还可以在同一个处理器同时处理数以千亿的参数,此外还要有能力把不同的IPU系统联系在一起,最后成为一个复杂的系统。而这个处理器要有更加复杂的存储器,能助力更大的机器学习模式,这就是Graphcore的IPU。”

据介绍,借助Graphcore的IPU,一个完整的机器学习模型可以在处理器内部生成。而且IPU处理器具有数百兆字节的RAM,可在处理器上以1.6 GHz的速率全速运行,Nigel Toon说,一个4U机箱中有16个IPU将使用户拥有无可比拟的内存带宽,其上可以运行成千上万的线程,而且同时运行,这是Graphcore得以加速机器智能工作的部分原因。

Nigel Toon表示,Graphcore的IPU相比友商竞品,有三个核心区别:

一是处理器的“核”的架构不同,IPU 是 MIMD 的架构;

二是Graphcore的knowledge model在处理器之内;

三是IPU能解决大规模并行计算处理器核之间的通信效率,这是个非常难的事情。在这一点上,Graphcore有大量的创新,关于多核之间如何通信,如何让软件工程师和程序员处理起来比较简单。

IPU开发复杂吗?

“我们有一个BSP的算法,是硬件和我们的软件一起协同工作的,这样对软件公司来说,虽然处理器有1000多个核,7000多个线程,但是不需要太担心通信问题,可以让软件工程师非常方便地使用,而且处理器核之间的通信效率非常高。”Nigel Toon强调说。

Nigel Toon表示在人工智能领域,框架算法都变化很快,人工智能处理器需要应对灵活性问题,Graphcore的IPU速度会非常快,处理单元可以支撑很多不同的神经网络系统,可以作出新的技术突破,而在这个领域,像今天的CPU或者GPU都难做出技术突破,这些处理器的框架难以需求人工智能领域越来越多的需求。

他表示随着AI的进化,会产生了很多创新的算法,面临的挑战很多,Graphcore和很多知名专家一起合作解决这些挑战,例如Zoubin Ghahramani是剑桥的教授,也是Uber的首席科学家,他发表了很多关于创新算法的论文。他现在也是Graphcore的咨询顾问。另外Graphcore也和AI领域很多知名科学家或者学者合作。

Graphcore销售副总裁卢涛(左)和联合创始人兼CEO Nigel Toon      

Graphcore销售副总裁卢涛(左)和联合创始人兼CEO Nigel Toon      

Graphcore销售副总裁卢涛补充表示,“IPU是一个处理器,针对IPU,Graphcore开发了一套叫做 Poplar 的软件堆栈,对程序员来说,在 IPU 上进行开发就是写一个TensorFlow或者Pytorch 的程序,可能就几十行代码,易用性非常好。”他也表示AI算法发展非常快,核心问题是怎么样能够支持未来的挑战。而IPU是一个处理器,基于这样一个处理器,我们通过软件来实现一些算法,所以它有足够灵活性。“像目前机器学习框架,我们有一套自己的,能够把这个计算图表征成大规模并行计算的一整套库,所以我们觉得很重要的就是,你不能做一个针对当前某一个具体问题,做一个具体的实现,你一定要可编程的。"他强调。“我们在一个芯片里有1200多个处理器核,这里面有一个叫all-to-all exhcange的总线,基本上就是从任何一个核到另外一个核,都可以直接访问,不仅仅是互联,这是第一个维度。 第二个维度,跨到多个芯片时,我们有个IPU-Link协议,可以把多个IPU联结在一起,组成一个集群。all-to-all总线中间的BSP算法,不仅仅是在同一个芯片里面核之间的芯片,跨芯片核之间也可以通过那个协议总线做通信。IPU-Link可以最多支持128个核互联。此外,通过IPU-Link over fabric技术,还能把几千几万颗的处理器连在一起。”   

Graphcore的IPU芯片

Graphcore的IPU芯片

但这样的强大系统并不意味着就不用对模型做优化了,他表示Graphcore在模型上也做稀疏和剪枝,一般剪枝是要减少参数数量,主要用在推理、部署场景。“有些场景不用做剪枝,因为最后用的是FP16(16位浮点数)来做推理,所以很大程度上剪枝是跟量化在一起的。比如训练一个模型, FP16部署的时候成INT8了,那这时肯定需要做剪枝。

另外,IPU芯片里面有一千多个核,每个核里面都有计算单元和Memory,所以IPU天生就是做稀疏化应用场景性能会更好。

Nigel Toon表示从AI产业的角度来看,AI处理器市场是很大,但目前玩家还是不多,Graphcore的目标是让产品、技术能真正解决行业和客户的问题,然后获得很大的市场。

卢涛表示在AI领域,可编程的处理器虽然目前还只是GPU,但Graphcore认为未来会有更多应用场景,Graphcore要做的是一个非常灵活的处理器,“我们是从0开始,专门针对AI做处理器架构。我们认为未来有很多新型AI应用,我们的IPU会有自己的领域和赛道,并大放异彩。”他强调。

注:本文为原创文章,转载请注明作者及来源

围观 29

页面

订阅 RSS - 人工智能