深度学习

深度学习是机器学习的一个分支,它试图通过模拟人脑的神经网络结构来实现对数据的学习和理解。深度学习的核心思想是通过多层次的神经网络(深度神经网络)来学习输入数据的表示,从而使得计算机能够执行各种任务,如图像和语音识别、自然语言处理等。

成功案例

行走在田园和山间,欣赏美好景色和呼吸新鲜空气时,常常可以见到用于灌溉的机井。你可能除了小心,并没有更多留意它们。然而你可曾想到,它们与人工智能和微控制器也会关联在一起?

虽然人工智能早已在身边,但是在“原味”的微控制器应用场景中如何落地深度学习技术,人们还一直还在摸索。这次,小编就给还在上下求索的小伙伴们讲一个让“微控制器+AI”成功落地的小故事。

深井中强大的边缘抄表器

故事的主角是由北京市水务局和北京鸿成鑫鼎智能科技有限公司联合开发的“边缘抄表器”模块,这个模块将率先用于机械水表的智能抄表。我们先上靓照——

“深井中的深度学习:MCU+AI,让“不可能”的田园机井智能抄表成为可能!"

左边那个戴在水表上面浅蓝色的“帽子”就是它了,右边的图则是它的“裸照”。这个边缘智能抄表模块采用恩智浦i.MX RT1020跨界单片机读取摄像头并运行基于深度学习的“SlimSSD”检测算法,直接扣在水表表盘上就可以拍照并且识别表盘的读数。

这个模块非常强大,可以用在很多场合,除了安装在家里,还可以“落地”到主干水管上——

“深井中的深度学习:MCU+AI,让“不可能”的田园机井智能抄表成为可能!"

甚至还不只满足于 “落地”,更要“落井”——

“深井中的深度学习:MCU+AI,让“不可能”的田园机井智能抄表成为可能!"

方案广受好评,获得发明专利

这款模块经过近两年的开发和严格测试,在成果鉴定中得到了肯定的评价:

“边缘AI抄表器通讯畅通率达95%以上,平均识别准确率为83.42%,其中8块表识别准确率在98%以上,在性能方面取得了不错的成绩;自动辅助数据矫正和人工审核矫正率100%,数据真实可用;耗电量按1天1条数据功耗折算,可平均工作4425.6天(约12.1年),已大大超过了8年的设计寿命。”

更可喜的是,经过改进模型,最新的讯畅通率达96%!

下图是使用边缘AI抄表器检测出识别区域,识别出读数,并把识别结果和原始图片中检测区域一并上传的效果,一次无线传输的数据量仅几百字节(而发送全图要几万字节)。

“深井中的深度学习:MCU+AI,让“不可能”的田园机井智能抄表成为可能!"

北京水务局还计划在北京市东水西调管理处、门头沟区70多处机井、甘家口大大厦等地进行应用推广试点。实现乡村水井、耕地和林区机井、供水管道网络处无人值守的用水计量,实现了无需替换原有水表,就实现了自动抄表的功能。

更加可喜的是,这个边缘AI抄表器的设计经过多次反复设计、打版,边缘AI抄表器的适用性越来越强,并且得到了含金量很高的发明专利。

“深井中的深度学习:MCU+AI,让“不可能”的田园机井智能抄表成为可能!"

解析方案的精髓:深度学习

接下来,小编就给大家讲讲作为这个方案最“精髓”的部分——深度学习。

最让小编赞叹的是,这个抄表模块使用了比图像分类更先进的物体检测(Object Detection, OD)技术,实现了无需调整参数就能自动适应新的各种表盘。而直到最近,我们看到其他一些厂商才刚刚提出类似的基于深度学习技术,但使用手写数字分类的参考模型——注意,是刚刚才提出——而且还是使用深度学习计算机视觉中最基础的“图像分类”技术。

图像分类和物体检测的关键区别是啥呢,小编画了一个草图来说明(原谅小编的美术是数学老师教的)。

“深井中的深度学习:MCU+AI,让“不可能”的田园机井智能抄表成为可能!"

最重要的是分类模型把图像当作整体,给出一个类别(确切地说是预测各类别的概率并选最大的那一类);而检测模型要干两个事,既要找出图像中各个物体的位置,也要判断找出的物体是什么类别。不过,虽然看起来检测比分类强大得太多了,但神奇的是他们共享的技术却高度相似——特别地,在检测模型的组成部分中,最重要的被称为“骨干”(backbone)的关键部分,就是来自于分类模型的卷积神经网络部分,它用来提取出抽象概括的图像特征。

可以认为分类模型在卷积神经网络的基础上追加分类器(常常是单层全连接层,又叫感知机,就够了);而检测模型抽取卷积神经网络的多处中间结果和最终输出,并添加检测颈和检测头的相关结构,只是比分类器要复杂得多。骨干网络的训练一般也是借助分类模型来实现。

回到AI抄表的应用,如果用分类模型,就要为每种规格的表盘人工设定分类区域,每个数字一个,麻烦得很;但是检测模型就能自动找出在哪里读数,读几个数,显然是方便多了。而在这个具体的专利中,使用了一种单发多框检测器(Single Shot Multibox Detector, SSD)模型的优化版本——发明人称为 “SlimSSD”,从名字上可以看出它是一种更“苗条(Slim)”的SSD——发明人还使用注意力机制来更准确地帮助裁剪模型。

有关SSD的详情后面咱们再接着聊,这里不妨先给出某一个高度精简后类SSD模型的“长相”。

“深井中的深度学习:MCU+AI,让“不可能”的田园机井智能抄表成为可能!"

图中那个醒目的三段显示的竖长条就是这个模型的骨干,来自一个简洁的分类模型中卷积子网络的部分。下部的几支“并联”的结构用于各自检测和分类输入图片中不同大小的物体,最终汇总成左、右两支,分别给出检测出的物体坐标信息和物体类别信息。(查看有关SSD模型的论文,请点击这里>>)。

小贴士

在物体检测领域,最近的Yolo系列模型也非常有生命力,还有其他的一些超轻量级物体检测模型,如NanoDet,YoloX-nano, PP-PicoDet等正如同雨后春笋般的涌现。物体检测技术因为实用、方便,它们的超轻量化研究十分活跃。

SSD和很多其它深度神经网络一样,都非常的灵活,它的构成可以根据应用要求的不同像搭积木一样魔改和优化,对算力要求甚至可以有上百倍的优化,使得微控制器也可以承载。小编通过查阅专利号“CN113255650B”,发现客户优化的这个SlimSSD,把官方的SSD模型瘦身到仅有原版SSD模型的0.5%大小,而仍然保持99%的精度!这是什么概念?形象地说,就是原来一个200斤的壮汉能背200斤的麻袋,现在是一个1斤的小人能背198斤的麻袋!嗯,差不多就是葫芦娃中的大红娃。

别让算力限制了你的想象

这个成功的故事也深深地震撼了小编,感觉自己对深度学习和实际应用的认知不足,限制了自己的想象力。

有感于很多人觉得“算力小于0.5TOPS都干不了啥事”,而这个智能边缘抄表方案是在理论上有效算力仅有0.0003TOPS的i.MX RT1020平台上完成的,这可是1600多倍啊!并且是无人值守的环境下仅靠电池就能一天抄一次连续工作12年以上!

看到这里,小编想用一句话来表达内心的感叹:

深度学习 => 创奇迹

深度学习 + NXP微控制器 => 再创奇迹

除了模型本身的先进性,更难能可贵的是这个模块的主要开发团队北京鸿成鑫鼎科技公司在两年前就开始了项目,而NXP用于微控制器的eIQ机器学习套件是半年前才发布,他们仅凭我们的技术支持就独自完成了这样一个看似不可能,甚至我们也没敢想的奇迹!

其中,令小编印象最深的,就是北京鸿成鑫鼎的总裁廉永康先生,三年前小编与他在一次MCU+AI研讨会中相识,当时小编对该项目的想法是——可以使用基础的图像分类“试一试”,而廉永康先生却毅然启动了这个项目,以极大的胆识采用了更先进的物体检测方法。要知道,3年前别说是基础的图像分类,就算是深度学习在微控制器上的基础软件也几乎还是空白,Arm CMSIS-NN也才发布几个月。

写在最后的话

上面的小故事告一段落,但完整的故事还在继续。小编了解到,北京鸿成鑫鼎科技公司没有就此止步,而是在此基础上,进一步开发出了可以用在水表以外的像灭火器压力计、液晶显示仪表上的改版,让微控制器和人工智能的结合给人民的安居乐业保驾护航!在这其中,恩智浦的高品质长寿命微控制器也将继续履行承担计算平台的光荣使命。

最后,小编想说,深度学习的抻缩性远比我们想象要大得多,只要根据应用的实际要求和硬件平台的特点合理优化和化简模型,有很多想都不敢想的应用都可以变成现实。尤其是不要小看了微控制器的潜力。

微控制器虽然算力比PC或应用处理器弱得多,但是它上面的负担开销轻得更多,再加上深度学习模型这种极大的伸缩性,有太多的“不可能”实际上是可能的,就等您延续奇迹的故事。奇迹多了,也就变得平凡了。

本文作者为恩智浦半导体系统工程师宋岩。感谢北京鸿成鑫鼎智能科技有限公司为本文提供的相关图片,文中部分数据和信息参考自以下这篇文章>>

来源:NXP客栈
免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 47

摘 要: 无人机的广泛运用,在给人们带来便利的同时,也引发了不良影响。比如,无人机飞入禁飞区引发安全问题,由于不正当的使用侵犯公民的隐私等,因此需要构建一个无人机警察系统,对无人机实施监控,遏制乱飞现象。采用传统的识别方法,灵活性不足,精度也不够高。为此提出一种基于深度学习的无人机识别算法,通过训练一个基于卷积神经网络(CNNs)的学习网络,得出一个高效的识别模型,实现无人机和非无人机间的分类。模型的测试结果表明,该方法具有较高的识别率。

引言

无人机技术的发展十分迅速。从美军无人机的使用,到现在无人机在研究、民用等多方面的普及,无人机已成为一种新的潮流[1-2]。随之而来也带来很多新问题,此前无人机险撞战机事件的发生,就给人们敲响了警钟。因此,无人机警察系统的搭建势在必行。本文的研究重点为:建立视觉传感网,用于无人机的图像捕捉和信息存储;引入深度学习对无人机进行识别,及时发现“黑飞无人机”,并采取相应报警措施,实现对无人机的全面监管。

1、视觉传感网

整个视觉传感网(Visual Sensor Networks,VSNs)由多个节点组成,每个节点都将由摄像机阵列构成,这将作为整个系统的基础部分[3],如图1。

基于深度学习的无人机识别算法研究

城市环境下一个节点的安置示意图如图2。

基于深度学习的无人机识别算法研究

为了减轻对居民的干扰,可以修改摄像机焦距参数,从而限制摄像机的拍摄范围。通过多台摄像机交叉覆盖,成功地将中间的空地区域全方位地纳入监控之中。

考虑到多节点所提供的庞大数据量以及优化控制结构的需要,将数据网络设计成三层结构。位于最底层的第三层由数量不等的节点构成一系列簇组成,每个簇内的节点统一将数据发往一台次级处理服务器。整个网络内的次级处理服务器构成网络的第二层,将数据送往位于第一层的中央高级服务器。

2、基于深度学习的图像识别中心

无人机警察系统中关键组成是图像识别中心,其任务是将视觉传感网中的图像信息进行分析和处理,从图像中识别出无人机,从而实现对无人机的监控,属于目标识别领域。目前这一领域已经有了大量的优秀成果出现。最常见有行人检测问题,可用的特征包括:Haar、HOG、CSS、LBP等多种,这些特征表达了人体的各个重要部分,并且充分考虑了遮挡等情形。王晓刚和欧阳万里更提出了基于深度学习的行人检测手段,通过联合学习行人检测中的4个重要组成部分——特征提取、人体部件形变处理、遮挡处理和分类,最大化了各自的作用[4]。他们在传统的卷积神经网络的基础上,加入了形变处理层,最终习得的特征具有很强的判别力,优于HOG等特征。王晓刚团队的方案,是深度学习在目标识别领域的成功应用,给本文的研究提供了研究参考。再比如人脸识别问题[5-6],则具有更复杂的变化,因为人脸受种族、肤色、表情、情绪、光照环境、物体遮挡等众多因素的影响。推广到各种特定物体的识别乃至场景识别、深度学习也有很多方案[7]。由于无人机警察系统中图片信息量丰富,且无人机的飞行状态多样,因此识别难度较大。为此,本文将引入深度学习算法,并以卷积神经网络作为图像识别中心。

2.1 卷积神经网络

2006年,Hinton等人首次提出深度学习的概念[8],并开启了深度学习的研究浪潮,其认为:多隐层的人工神经网络能够更好地模拟人脑的思考过程,具有更加优异的学习能力,能够对数据进行更本质的刻画,从而提高可视化或者分类的能力。

卷积神经网络是深度学习中第一个真正多层结构学习算法,其在图像识别领域优势明显。它利用感受野、局部连接等概念极大地减少了参数量,降低了网络模型的复杂度,提高了训练效率,且网络对于平移、缩放的各种变形都具备高度不变性。

卷积神经网络属于前馈多层神经网络的一种,每层由多个二维平面组成,多个神经元组成了每个平面,其结构如图3所示。

卷积神经网络利用了一系列的卷积层,降采样层构建了多层网络,来模拟人脑感知视觉信号的逐层处理机制,从而提取图像的多层次特征。

通过加入卷积层,可以实现局部连接网络,有效减少了需要训练的网络参数。例如,对一张大的图片输入,其尺寸为r×c,随机采样为a×b的小图片,如果隐含节点为k个,那么最终学习到的特征数为:

基于深度学习的无人机识别算法研究

卷积神经网络利用了一系列的卷积层,降采样层构建了多层网络,来模拟人脑感知视觉信号的逐层处理机制,从而提取图像的多层次特征。

通过加入卷积层,可以实现局部连接网络,有效减少了需要训练的网络参数。例如,对一张大的图片输入,其尺寸为r×c,随机采样为a×b的小图片,如果隐含节点为k个,那么最终学习到的特征数为:

基于深度学习的无人机识别算法研究

池化层是为了解决网络输出维数过大、造成分类器难以设计的问题。同样是根据统计结果的相似性原理,池化操作对卷积得到的结果进行统计计算,减少了需要训练的系统参数。

权值更新采用BP反向传播算法。反向传播的误差可看做每个神经元的基的灵敏度(即误差E对基b变化率的偏导函数),然后利用以下关系式:

基于深度学习的无人机识别算法研究

最后的分类应用了Logistic Regression扩展的一种多分类器:Softmax Regression。其系统方程及系统损失函数分别为:

基于深度学习的无人机识别算法研究

2.2 基于深度学习的无人机识别流程

由于视觉传感网获得的一系列图像中,关注的对象可能只占其中的一小部分像素区域,又由于对象具有运动性,故在识别中心操作之前将采取帧差法提取感兴趣的对象,作为算法的正式输入[10-11]。二帧差法基本原理如下:

基于深度学习的无人机识别算法研究

其中i(t)、i(t-1)分别为t、t-1时刻对应像素点的像素值,T为阈值。

基于深度学习卷积神经网络的无人机识别流程如下所示。

步骤一:数据预处理

(1)帧差法提取目标区域;

(2)数据格式转换;

(3)预定义标签;

步骤二:深度网络训练、测试

(1)构建卷积神经网络,确定网络层次结构和权重参数等;

(2)数据依次进入卷积层、池化层、全连接层,进行计算;

(3)采用Backpropagation Pass反向传播,进行参数调整;

(4)当误差满足或者迭代次数满足时,网络停止训练,进入Accuracy层计算准确率并输出(只在测试阶段执行,训练时不执行)。

3、识别性能与结果分析

首先构建了视觉传感网,设置了2个节点,目前系统仅限于白天工作。

输入2 848张图片进行训练,基础学习率设置为0.001,迭代5 000次后获得的模型用于之后的测试分析。测试时输入712张图片,模型正确分类的情形共有634例,可得:

基于深度学习的无人机识别算法研究

由于目前无人机识别方面没有其他现成的模型可供比较,因此本文分析了ROC曲线参数。在信号检测理论中,接收者操作特征(Receiver Operating Characteristic,ROC)是一种对灵敏度进行描述的功能图像,该图像称为ROC曲线。应用ROC曲线来表示分类器的性能非常直观。同时为了定量且简洁地表达这种性能,Area Under roc Curve(AUC)被提出。AUC的值等于ROC曲线正下方的面积,AUC的数值越大,分类器的性能越好。图4表示的是与ROC曲线绘制相关的一些量,依次为TP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative)。

基于深度学习的无人机识别算法研究

在随机分类模型,对于任一样本输入,模型对其的预测score是完全随机的,假设预测score落在区间[0,1]上,则预测概率数学表达为:

基于深度学习的无人机识别算法研究

因此本文的ROC曲线图结果如图5所示。图中整个曲线越向点(0,1)逼近,模型的性能就越好。

基于深度学习的无人机识别算法研究

4、结论

本文较好地将深度学习的方法应用到了无人机警察系统这个新颖的概念上,对无人机的识别率比较高。在网络结构的设计上,可能存在冗余,导致模型收敛速度不够快,训练效率有所损失。后期将继续对网络结构的进行研究,希望能够进一步提高模型的质量,并使其具有更广的适应性。

参考文献

[1] 闫玉巧.面向无人机的自动检测系统设计与实现[D].西安:西安电子科技大学,2011.
[2] 胡占双.无人机飞行姿态检测及控制研究[D].沈阳:沈阳航空航天大学,2013.
[3] AHMAD N.Modelling and optimization of sky surveillance visual sensor network[D].Mid Sweden University,2012.
[4] OuYang Wanli,Wang Xiaogang.Joint deep learning for pedestrian detection[C].ICCV,2013.
[5] Li Ming,Yu Chengyang,Nian Fuzhong,et al.A face detection algorithm based on deep learning[C].IJHIT,2015.
[6] Nagpal Shruti,Singh Maneet,Singh Richa,et al.Regularized deep learning for face recognition with weight variations[J].IEEE Access,2015,3:3010-3018.
[7] Yuan Yuan,Mou Lichao,Lu Xiaoqiang.Scene recognition by manifold regularized deep learning architecture[J].IEEE Transactions on Networks & learning,2015,16(10):2222.
[8] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313:504-507.
[9] SAXE A M,KOH P W.On random weights and unsupervised feature learing[C].International Conference on Machine Learing,2011:1089-1096.
[10] 王鑫.检测不规则图形的改进广义Hough变换[D].北京:首都师范大学,2012.
[11] 唐俐勒.视频监控中运动图像检测与测距技术的研究[D].西安:西安科技大学,2010.

蒋兆军1,成孝刚2,彭雅琴3,王 俊1,李 智2

(1.无锡职业技术学院 汽车与交通学院,江苏 无锡 214121;
2.南京邮电大学 通信与信息工程学院,江苏 南京210003;
3.三江学院 计算机科学与工程学院,江苏 南京 210012)

来源: 电子技术应用

围观 469
订阅 RSS - 深度学习