语音识别

随着科技的飞速发展,人机交互的方式也在不断演变。在键盘、触摸屏之后,语音识别技术正逐渐成为人机交互的新宠。从技术路线上来讲语音识别又分为在线语音和离线语音,不同于在线语音受制于网络的局限性,离线语音完全在本地运行,不需要联网和后台服务器,具有明显的低成本、低功耗优势。本文分享一款基于MCU平台的离线语音方案,具有识别灵敏度高、成本低廉和应用方便等特点,供大家参考。

废话不多说,直接上干货。

此方案基于PT32Z192 Cortex-M3的MCU,内置AI语音识别算法库,默认普通话,可支持多种语言词条,支持语音播报。识别距离:安静环境下可达10米。

01、主控MCU资源

  • 型号:PT32Z192,Cortex-M3内核

  • 主频:160MHz

  • FLASH:512Kbytes,RAM:128Kbytes

  • 12位高精度ADC,最高转换速率1Msps

  • 高级定时器:最多可配置4路互补PWM输出

  • UART串口数量:2

  • IIC/SPI

  • 封装:QFN32/LQFP64

02、咪头

选用了一款高灵敏度咪头,30dB或更高。

03、显示

采用了一个2.8寸TFT显示屏,三线SPI接口,移植了LVGL图形库进行UI界面交互;

04、通讯接口

预留两路UART通讯口,方便以后的应用扩展,如连接蓝牙/NB/Zigbee等无线通讯模块。

05、语音播报

兼容两种方案,专用语音播报芯片和PWM语音播放方案。

1)采用专用语音播放芯片,其中语音数据是存储在语音芯片内部的,可以找厂家定制或者自己用工具采样生成并烧录,方法灵活多样。然后,语音芯片的输出端连接一个功放(可不要,加功放可驱动大功率喇叭)和扬声器,MCU通过串口控制语音芯片进行声音播报。这种采用专用语音芯片的方案优点就是控制起来比较简单,软件开发也比较容易,只需要调通语音芯片的通讯协议即可。

2)PWM语音播报,就是MCU把采集好的语音数据(语音数据比较大,可存放在nor flash中)通过PWM方式输出,经过功率放大后驱动扬声器发出声音。如果不使用专用语音芯片同时对播报音量强度要求不高的情况下,可以采用PWM+功放+nor flash的方案。这种方案等于把专用语音芯片用一个功放IC和nor flash替代,成本上是否有优势读者可根据实际情况去评估,另外有一个缺点就是软件处理上相对复杂一点,声音的音质没有保证,需要花精力去调试和优化。

06、AI语音识别算法库

MCU厂家提供语音识别算法库和现成的应用DEMO,接口简单易懂、调用方便,拿到DEMO程序后保留原有语音识别框架不动,然后添加自己的应用程序代码,可以很方便的实现应用开发。

基本功能讲完了,下面直接上原理图

电源部分

1.jpg

MCU主控部分

2.jpg

语音咪头电路

3.jpg

语音播报芯片电路

4.jpg

功放电路

5.jpg

PWM语音播报电路

6.jpg

NOR FLASH电路

7.jpg

TFT显示屏接口

8.jpg

工程源代码如下图

9.png

10.jpg

此方案简单易用,可应用于多种智能控制场景,如语音灯,语音风扇、智能窗帘等。

语音识别技术作为人机交互的新宠,正逐渐改变我们的生活方式。从智能家居到车载导航,从智能客服到语音助手,语音识别技术的应用场景越来越广泛。未来,随着技术的不断进步,语音识别技术将在更多领域发挥重要作用。让我们共同期待一个充满智慧与便捷的语音识别技术时代!

来源:澎湃微电子

免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:cathy@eetrend.com)。

围观 131

基于AVR单片机的语音识别系统设计,系统以AVR单片机为控制核心,实现对人的语音的识别控制。系统采用的主控芯片为Atreel公司的ATMEGAl28,语音识别功能采用ICR oute公司的单芯片LD3320。LD3320内部集成语音识别算法,无需外部FLASH,RAM资源,可以很好地完成非特定人的语音识别任务。同时该芯片内部集成了MP3播放功能,支持MPEG等格式,可实现语音提示或MP3歌曲的播放功能。由于内部含有16位A/D、D/A转换器和功放电路,所以不需要外接功放电路就可以产生清晰的声音。该系统已经预留好各种接口,具有良好的扩展性。

控制器电路

控制器选用Atmel公司生产的ATMEGA128芯片,采用先进的RISC结构,内置128 KB FLASH,4 KB SRAM,4 KB E2PROM等丰富资源。该芯片是业界高性能、低功耗的8位微处理器,并在8位单片机市场有着广泛应用。

LD3320语音识别电路

LD3320芯片是一款“语音识别”专用芯片。该芯片集成了语音识别处理器和一些外部电路,包括A/D、D/A转换器、麦克风接口、声音输出接口等,而且可以播放MP3。不需要外接任何的辅助芯片如FLASH,RAM等,直接集成到产品中即可以实现语音识别、声控、人机对话功能。图3为LD3320电路原理图,与MCU通信采用SPI总线方式,时钟不能超过1.5MHz。


麦克风工作电路如图所示,音频输出只需将扬声器连接到SPOP和SPON即可。使用SPI总线方式时,LD3320的MD要设为高电平,SPIS设为低电平。SPI总线的引脚有SDI,SDO,SDCK以及SCS。INTB为中断端口,当有识别结果或MP3数据不足时,会触发中断,通知MCU处理。RSTB引脚是LD3320复位端,低电平有效。LED1,LED2作为上电指示灯。


讨论了基于AVR单片机的语音识别系统设计的可行性,并给出了设计方案。通过多次测试结果表明,本系统具有电路运行稳定,语音识别率高,成本低等优点。同时借助于LD3320的MP3播放功能,该系统具有一定的交互性和娱乐性。移植性方面,系统通过简单的修改,可以很方便地将LD3320驱动程序移植到各种嵌入式系统中。随着人们对人工智能功能的需求,语音识别技术将越来越受到人们的关注,相信不久的将来,语音识别将会拥有更广阔的应用。

来源:畅学单片机

围观 90

大联大控股宣布,其旗下品佳推出基于新唐科技(Nuvoton)ISD9160+Cyberon算法的语音识别方案,此方案可支持20条本地的语音命令,还可外挂SPI Flash存储声音数据,实现语音唤醒、语音识别、语音播放、MCU控制等功能。

大联大品佳集团推出基于新唐科技的智能语音识别解决方案
图示1-大联大品佳推出基于Nvuoton ISD9160 +Cyberon算法的语音识别方案示意图

新唐的ISD9160是以语音/音频系统单芯片(SoC)ChipCorder®,Cortex™-M0为基础,能为需要语音/音频功能的应用提供强大而又成本低廉的解决方案。其高度整合式架构32位Cortex™-M0处理器、2.4至5.5V的宽广运作电压、I²S数字音频接口、1瓦喇叭驱动器、内建闪存、3V调节器及多功能GPIO皆是为消费性产品及工业应用市场提供成本低廉的语音/音频系统单芯片而设计。

大联大品佳集团推出基于新唐科技的智能语音识别解决方案
图示2大联大品佳推出基于Nvuoton ISD9160 +Cyberon算法的语音识别方案系统架构图

与ADPCM相比,ISD9160的高压缩算法能达成超过50%的压缩,因此不但能降低内存大小,同时又能传达高质量的语音/音频。其内嵌闪存可用来做为用户程序代码及音讯储存空间。ISD9160可使用外接闪存储存音讯,以延长回放时间。其高度整合式的单芯片解决方案非常适合工业应用及消费性产品市场中广泛的语音/音频应用。

特点

• ARM®Cortex™-M0核心,最高执行速度可达50MHz
• 深度省电(<1µA)
• Sigma-Delta ADC含PGA,以及适用于麦克风接口的增益加强阶段,92dB讯号噪声比(SNR)
• 音频PWM喇叭驱动器、在5.5V时为1W
• 模拟式GPIO(端口B)可为传感器接口及电容式感测连接可程序电流来源

围观 502

来源:TI

在万物互联的世界中,越来越多能够理解语音内容的电子设备逐渐进入我们的视线。在智能手机、平板电脑和笔记本等拥有Siri或Cortana应用程序的设备中,语音识别能够帮助用户搜索答案或控制周围的电子器件等。虽然这些应用程序让人眼前一亮,但是它们却占用了大量的处理能力和内存。所以,人们对于微控制器(MCU)因过小而无法识别语音的误解也就不足为奇了。

没错,MCU的低功耗和小尺寸设计虽然使它不足以理解全部语音内容,不过对于小型低功耗的嵌入式应用而言,也许只需识别几个定义明确的短语就大功告成了,例如“给我的咖啡加热”或“关灯”等。最近,德州仪器(TI)在CES上所展示的低功耗MSP432™ MCU上演示了这个功能。

TI还发布了一个用C语言代码编写的语音识别器库,这个库使得基于MSP432 MCU的应用能够识别用户个人经常使用的语音短语,在忽略其它语音内容的情况下可识别的短语多达11个。虽然用户在设置时必须重复几遍希望被识别的短语,不过一旦这一步成功完成,后面就可以顺利使用了。

这个语音识别器库具有很多令人期待的功能,例如:

用户可以随时更改自己的短语

用户可以设定识别器只对少数几个短语做出响应

当然,用户也可以根据个人需要将短语库中某些短语进行删除

此外,连同语音识别库一起提供的还有一些易于使用的头文件和用户与API指南,以帮助用户快速上手。下载内容还包括针对MSP432 MCU LaunchPad™ 开发套件、Audio BoosterPack™ 插入式模块以及Sharp或Kentec LCD BoosterPack套件的示例演示程序。

这个演示应用通过MSP432 MCU内集成的14位模数转换器(ADC14)来收集语音,以及用于显示菜单的液晶显示屏(LCD)。这个菜单能够成功运行识别功能,用户可以选择:

l首先说出一个希望识别器记住的短语。识别器将生成一个针对这个语音的模型,并将其存储在闪存中(一个被称为注册的任务)。

l再说一次已注册的短语。识别器将用它来制作一个更好的模型,以提升性能(一个被称为更新的任务)。

l删除被注册的第一个模型

l运行识别功能

了解完MCU在语音识别方面的能力后,是不是对于这些可以用语音激活、基于MCU的应用和器件已经跃跃欲试了呢?赶紧基于MCU定制一个属于自己的语音识别应用吧!

围观 319
订阅 RSS - 语音识别