您当前的位置:首页 > 电脑百科 > 电脑知识

语音识别系列之基于脉冲神经网络的语音唤醒

时间:2023-03-21 11:28:15  来源:今日头条  作者:21dB声学

作者:王佳杰

引言

语音唤醒(Keyword Spotting,KWS)是较为初级的语音识别任务,在2014年陈果果的工作[1]后,学界兴起大量研究,业界也获普遍应用,如智能家居(音箱、TV)、智能穿戴(TWS耳机、手表)、智能座舱等。KWS参、算量远低于ASR,可离线工作。作为智能语音系统的入口,KWS常要全天候(Always On)运行,若应用场景是功耗敏感、内存受限的可穿戴设备,则参、算量要求更为严苛。脉冲神经网络(Spiking Neural.NETwork, SNN)作为所谓的第三代神经网络,相比于人工神经网络(Artificial Neural Network,ANN)有功耗及内存优势,近年来逐渐拓宽应用。在音频领域,场景分类和KWS较早获得SNN应用。

 

一、历史工作

2018年,加州大学圣迭戈分校的Bruno U. Pedroni等人[2]在TIMIT数据集中挑选出greasy, oily, water, carry, dark, wash六个词语做KWS,余下词、静音及噪声作为其他类别,共七分类。文中SNN及做对比之用的ANN均采用前向全连接结构,SNN又分为基于速率的SNN(RBSNN),和基于时间的SNN(TBSNN),前者可使用映射方程将预训练的ANN参数“翻译”给RBSNN,后者则需要其他方法训练。

RBSNN选用输出层脉冲数最多的类别作为胜出类别,TBSNN则是脉冲最先到达的类别。由于脉冲神经元激活与否可用0/1二进制代替,因此与(浮点)权重的乘法(Multiply-and-Accumulate operations,mac)可简化为权重自身的加法(Accumulate,AC)。结果表明,RBSNN及TBSNN与ANN性能基本相当,但RBSNN的计算代价为ANN的91%,TBSNN仅为ANN的16%,这是因为TBSNN依据脉冲间隔编码,相比于依据同等时间内脉冲个数编码的RBSNN更为“优雅”高效。该工作指出未来的优化方向是基于TBSNN做网络结构优化,即将前馈全连接结构优化为卷积结构。

2020年10月,新加坡国立大学李海洲组的Emre Yilmaz等人[3]宣称首次将深度卷积结果应用于SNN-KWS,该网络使用串联学习(Tandem Learning)训练,数据使用Hey Snips及google Speech Commands数据集,加噪使用MUSAN数据库,加噪信噪比-5至10 dB。实验结果表明,在各测试条件下,SpikeCNN-KWS的ROC性能与CNN-KWS基本相当或略有优势,在类脑芯片上能耗仅是后者的15~30分之一。该工作代码开源。

时隔不久,同年11月,法国图卢兹大学的Thomas Pellegrini等人[4]将扩张卷积引入SNN-KWS,且施加关于SNN各层脉冲数的正则项,以求神经脉冲激发尽可能稀疏,以进一步节省能耗。训练使用替代时间反传(Back-Propagation Through Time with Surrogate Gradient, BPTT with SG)法。该工作代码开源,且宣称将尝试SNN-ASR。

2021年,时识科技(SynSense)[5]瑞士中心的研发副总Sadique Sheik和Philipp Weidel受WaveNet结构的启发,指出脉冲神经元的膜电位积累机制,同WaveNet中扩张时间卷积之前存在一定的相似性,因此提出具有一组固定膜时间常数和简单前馈结构的WaveSense来替代WaveNet做KWS。结果表明在Aloha, Hey Snips, Google Speech Commands数据集上均优于前述SNN-KWS工作,且逼近ANN-KWS的SOTA性能,所提SNN含脉冲神经元864个,权重参量18k。

2022年7月,国内另一家类脑芯片公司九天睿芯[6]发布智能语音芯片ADA100,宣称其感、存、算语音唤醒方案支持预设多大30个关键词,还支持用户提取特征做自定义语音唤醒,但不确定其方案是否基于SNN。

同年月,荷兰Yin Bojian及华为Guo Qinghai等人[7]使用含注意力机制的循环脉冲神经网络Attention-RSNN做流式KWS,宣称在Google Speech Commands v1&v2数据集上,性能优于GRU基线和时识科技的WaveSense。

2023年1月,瑞典吕勒奥理工大学嵌入式智能系统实验室的Mattias Nilsson等人[8]基于脉冲时差编码器和突触兴奋/抑制单元对音频脉冲串做更深层次的信息抽取,所抽取的信息组合后接线性分类器,对TIDIGITS数据集分类。此架构有别于先前SNN-KWS的工作,遗憾的是,未与其他工作进行性能对比。

2023年2月,比利时根特大学的Sun Pengfei等人[9]指出当前SNN在音频领域应用时的局限性——训练时大多只关注突触权重,而少关注脉冲传递过程中的轴突延迟,因此提出在训练中逐层调整轴突延迟上限,具体做法是先对网络预训练几个epoch得到初始的延迟,再使用滑动窗口大小和上限比例来校准上限并微调延迟。训练使用SLAYER框架,在SHD和NTDIDIGITS数据集上,和其他工作相比,以最少的参数取得最佳分类准确率超过。

二、讨论

(1)在学界的研究论文中,KWS的性能指标主要以分类准确度为主,多词(唤醒词+命令词)常以混淆度矩阵展示分类性能。但在业界,KWS性能主要表现方式是某时段(如每天)内误唤醒1次下的唤醒率,误唤醒测试由各团队在自收集的语料库上测得。工业界的表达自然更为直观。KWS本质还是一个分类问题,分类越精准,业界指标也会更好。由于学界没有一个各方共用的误唤醒测试数据集,因此给出分类准确率即可。

(2)目前SNN还不成熟,“入局”的科研人才和工程人员太少,训练框架不少却没有一个占主导地位,甚至背后的理论都还在摸索实践中。目前,SNN-KWS论文发表者多在学术领域,不了解业界先进水平(实际上,产业界基于ANN-KWS路线的语音唤醒方案已经做到参、算量均极小的水平,且KWS问题的核心在训练策略、击中策略的设计,而不在网络的具体实现形式),且原本也不做KWS,只是为了验证SNN可应用于KWS,故而基于SNN路线的KWS也并没有优化到极致,未来还有很大的发展空间。

(3)虽然目前SNN的训练还比较困难,应用有限。但回顾ANN的发展历程,在误差反传出现之前,ANN不也同样如陷泥潭、裹足不前么?因此还是应当对SNN的发展抱有期待,它毕竟是人类对脑工作机制的模仿(即便现在还很拙劣),是朝着轻量、节能的路线上的努力探索。在当下以ChatGPT为代表的大功耗、大参量模型搅动学界、业界乃至世界的时代狂热背景下,持续投入SNN发展的科研及工程人员,仿佛背离时代主流在坐冷板凳。但当初DNN的先驱如Hinton等人,不也同样坐了好久的冷板凳么?

参考文献:

[1] Chen, Guoguo, Carolina Parada, and Georg Heigold. “Small-footprint keyword spotting using deep neural networks.” 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.

[2] Pedroni, Bruno U., et al. “Small-footprint spiking neural networks for power-efficient keyword spotting.” 2018 IEEE Biomedical Circuits and Systems Conference (BioCAS). IEEE, 2018.

[3] Yilmaz, Emre, et al. “Deep convolutional spiking neural networks for keyword spotting.” Proceedings of INTERSPEECH. 2020.

[4] Pellegrini, Thomas, Romain Zimmer, and Timothee Masquelier. “Low-activity supervised convolutional spiking neural networks Applied to speech commands recognition.” 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2021.

[5] Weidel, Philipp, and Sadique Sheik. “WaveSense: Efficient Temporal Convolutions with Spiking Neural Networks for Keyword Spotting.” arXiv preprint arXiv:2111.01456 (2021).

[6] https://www.52audio.com/archieves/126158.html

[7] Yin, Bojian, et al. “Attentive decision-making and dynamic resetting of continual running SRNNs for end-to-end streaming keyword spotting.” Proceedings of the International Conference on Neuromorphic Systems 2022. 2022.

[8] Nilsson, Mattias, et al. “A Comparison of Temporal Encoders for Neuromorphic Keyword Spotting with Few Neurons.” arXiv preprint arXiv:2301.09962 (2023).

[9] Sun, Pengfei, et al. “Adaptive Axonal Delays in feedforward spiking neural networks for accurate spoken word recognition.” arXiv preprint arXiv:2302.08607 (2023).



Tags:语音识别   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
作者:王佳杰引言语音唤醒(Keyword Spotting,KWS)是较为初级的语音识别任务,在2014年陈果果的工作[1]后,学界兴起大量研究,业界也获普遍应用,如智能家居(音箱、TV)、智能穿戴(TWS耳机、...【详细内容】
2023-03-21  Tags: 语音识别  点击:(0)  评论:(0)  加入收藏
近日,华为曝光了旗下输入法,而这里指的并不是EMUI或是HarmonyOS系统自带输入法,而是通过全新设计的新作,目前命名为“华为小艺输入法”。目前已经有不少人参与到华为小艺输入法...【详细内容】
2021-09-10  Tags: 语音识别  点击:(298)  评论:(0)  加入收藏
语音识别的研究历史悠久,出现了许多著名的算法和工具。从事语音算法工作两年期间,我在语音识别方向做了一点工作,对此有一些体会。面对诸多的算法如何学习掌握呢?我认为一个不错...【详细内容】
2021-08-11  Tags: 语音识别  点击:(281)  评论:(0)  加入收藏
开发工具:vs 2017AI 平台:http://ai.baidu.com/准备工作1、注册百度账号2、登录百度 AI 开发平台,http://ai.baidu.com/3、在控制台点击“百度语音”服务,点击“创建应用”,填写...【详细内容】
2021-06-10  Tags: 语音识别  点击:(454)  评论:(0)  加入收藏
如上图,我们通过微信发送了一段语音,在对语音进行转文字时。语音识别引擎首先会将把这段语音进行分帧(切分成若干小段),然后利用声学模型将提取的每一帧的声学特征识别为一个个...【详细内容】
2020-12-23  Tags: 语音识别  点击:(850)  评论:(0)  加入收藏
语音识别是一门综合性学科,涉及的领域非常广泛,包括声学、语音学、语言学、信号处理、概率统计、信息论、模式识别和深度学习等。语音识别的基础理论包括语音的产生和感知过程...【详细内容】
2020-08-10  Tags: 语音识别  点击:(137)  评论:(0)  加入收藏
中新网4月26日电 近日,搜狗输入法更新至10.8版本。据悉,新版本主要针对语音输入和多语言输入两大功能进行了创新升级。9种外语语音识别,搜狗输入法成国内支持语种最多输入法首...【详细内容】
2020-04-26  Tags: 语音识别  点击:(306)  评论:(0)  加入收藏
语音识别功能现在已经很普遍,用PHP如何实现语音识别功能呢?这些功能都需要有一定的技巧,接下来,由IT培训网来详细描述一下,用PHP语言如何实现语音识别功能。 PHP如何实现语音识...【详细内容】
2019-09-26  Tags: 语音识别  点击:(376)  评论:(0)  加入收藏
▌简易百科推荐
作者:王佳杰引言语音唤醒(Keyword Spotting,KWS)是较为初级的语音识别任务,在2014年陈果果的工作[1]后,学界兴起大量研究,业界也获普遍应用,如智能家居(音箱、TV)、智能穿戴(TWS耳机、...【详细内容】
2023-03-21  21dB声学  今日头条  Tags:语音识别   点击:(0)  评论:(0)  加入收藏
做国外项目,免不了要和环境打交道,即使你做的是所谓的正规如亚马逊,tiktok 项目,但操作上依然少不了批量测试这个必须掌握的手法,日常中,大家对 IP 应该是最熟悉的了,知道要看 yout...【详细内容】
2023-03-13  猎者笔记  今日头条  Tags:UA   点击:(10)  评论:(0)  加入收藏
很多朋友都觉得,安装系统很简单,只要按照方法步骤来操作不久可以了嘛!但是这样想就不对了哦,安装系统不是那么容易的一件事,因为要了解的东西很多很多。比如说你的电脑配置适合安...【详细内容】
2023-02-27  韩博士装机大师官方号    Tags:电脑   点击:(23)  评论:(0)  加入收藏
那么这些技术是如何发展到今天这种形态呢,本文将以独特视角切入,带你畅读计算机的今生、前世。 Part 01引言 计算机发展史洋洋洒洒近80年,一篇短文想讲透是不现实的。但不必担...【详细内容】
2023-02-18  移动Labs  51CTO  Tags:计算机   点击:(21)  评论:(0)  加入收藏
什么是负载均衡 ? 负载均衡( LoadBalance ),顾名思义就是把任务压力进行平衡的分摊到集群中各个操作单元(或机器)上,使得避免集群中部分机器压力过大而部分机器过于空闲。经过...【详细内容】
2023-02-17  Linux码农  今日头条  Tags:负载均衡   点击:(19)  评论:(0)  加入收藏
家用电脑怎么用来做服务器呢?我是艾西,今天我跟大家详细的说家用电脑可以当服务器使用吗?咱们先把家用电脑不足的点列出来就清楚了 一、外网端口映射 以前的宽带大多数是adsl拨...【详细内容】
2023-02-09  艾西ONEPIECE  今日头条  Tags:电脑   点击:(21)  评论:(0)  加入收藏
说到二维码,大家再熟悉不过了,我们每天都会扫一扫,支付、加好友、登录账号、进出车站等等,它存在于我们生活的方方面面,用途广泛,已经成为我们不可或缺的朋友。总之,这个由黑白两种...【详细内容】
2023-02-05  莹尾狐科学  搜狐号  Tags:二维码   点击:(49)  评论:(0)  加入收藏
打开电脑之后,我们会发现电脑中似乎只有C盘D盘E盘,但却没有A盘和B盘,尽管很多人都没在意过,但有些人却对此十分疑惑。其实电脑中是有过A,B盘的,不过那时候大家不叫硬盘,而是叫驱动...【详细内容】
2023-01-30  小町科普  今日头条  Tags:电脑   点击:(34)  评论:(0)  加入收藏
中国科技大学在2020年底公开宣布,其科研团队已成功建造76个光子的量子计算机,能实现快速求解“高斯玻色取样”任务,这台量子计算机命名九章。这个九章名字,并非随意得来,起源是根...【详细内容】
2023-01-16  大可数学人生工作室    Tags:量子计算机   点击:(50)  评论:(0)  加入收藏
便携计算机(还真是计算机, 不是计算器 Pocket Computer...)这台是 CASIO 于 1983 推出的内置BASIC解释器的便携式计算机 PB-700.由于年代久远, 液晶已经发褐发淡.拆开, 摊平...【详细内容】
2023-01-14  智能改变世界   网易号  Tags:计算机   点击:(38)  评论:(0)  加入收藏
站内最新
站内热门
站内头条