一种声学警报识别方法及装置与流程

    专利2026-05-07  3


    本发明涉及音频信号处理,特别涉及一种声学警报识别方法及装置。


    背景技术:

    1、网络摄像头不仅能够观测和记录图像信息,也能记录声音信息,并结合图像信息给予网络另一端的负责人恰当的反馈。比如发生爆炸,婴儿啼哭,玻璃破碎等声音时,可通过网络摄像机上植入的相关音频检测算法进行识别,并将结果发送给相关人员。

    2、当前的音频模式识别算法采用的普遍是神经网络算法,只需覆盖各种场景的数据和适合的网络模型,便可以得到比较理想的识别结果。但是神经网络也有一定缺点:首先是严重依赖于数据,如果训练数据本身较少或者所覆盖的场景较少,便难以得到鲁棒性较好的结果;其次是想要有足够的建模能力,要求模型的参数个数会较多,带来的资源消耗也比较大,给实际落地带来一定难度;最后神经网络一经训练好,效果就基本固定,如果遇到效果不好的场景,也比较难调试。

    3、无论是基于神经网络的音频模式识别还是传统的音频模式识别,多数是在频域进行,需要进行时频变化,消耗了一定的资源。

    4、需要说明的是,公开于该发明背景技术部分的信息仅仅旨在加深对本发明一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。


    技术实现思路

    1、本发明的目的在于提供一种声学警报识别方法及装置,以解决神经网络存在过度依赖训练数据和资源消耗较大等缺点的问题。

    2、为解决上述技术问题,本发明第一方面提供一种声学警报识别方法,包括以下步骤:

    3、s1:存储多个音调相同且固定的第一类源信号,并通过理想麦克风采集所述第一类源信号获得对应的所述理想麦克风信号,获取所述第一类源信号和所述理想麦克风信号之间的理想相关程度;

    4、s2:提供待识别的输入信号,获取所述第一类源信号和所述输入信号之间的实际相关程度,所述第一类源信号、理想麦克风信号及输入信号具有相同的采样率;

    5、s3:将所述理想相关程度和所述实际相关程度进行匹配,根据两者的匹配程度判断所述输入信号中是否含有所述第一类源信号。

    6、优选地,对所述第一类源信号和所述输入信号求实际相关程度包括:对所述第一类源信号和所述输入信号求互相关,获得所述第一类源信号和所述输入信号的每帧相关性。

    7、优选地,对所述第一类源信号和所述输入信号求实际相关程度包括:以所述第一类源信号为基,将待识别的输入信号投影到所述第一类源信号,获得所述第一类源信号和所述输入信号的每帧相关性。

    8、优选地,将所述理想相关程度和所述实际相关程度进行匹配:

    9、计算所述理想相关程度和所述实际相关程度之间的差值:

    10、

    11、其中,将所述理想相关程度记为corr_ref[t],所述实际相关程度记为corr_buff[t],t表示针对于当前信号的分帧个数,所述理想相关程度和所述实际相关程度之间的差值与匹配程度呈负相关。

    12、优选地,将所述理想相关程度和所述实际相关程度进行匹配:

    13、对所述理想相关程度和所述实际相关程度求相关:

    14、corr_b(k)=corr_buff(k)-e(corr_buff)

    15、corr_r(k)=corr_ref(k)-e(corr_ref)

    16、

    17、xcorr_n=xcorr/(|corr_b|*|corr_r|)

    18、其中,将所述理想相关程度记为corr_ref[t],所述实际相关程度记为corr_buff[t],t表示当前信号的分帧个数,所述理想相关程度和所述实际相关程度的相关值与匹配程度呈正相关。

    19、优选地,存储的所述第一类源信号至少包括发声时的波形,且波形长度大于所述输入信号每帧输入的数据长度。

    20、本发明的第二方面提供了一种声学警报识别方法,采用如第一方面的声学警报识别方法对输入信号中是否含有第一类源信号的判断后,还进行以下步骤:

    21、存储多个第二类源信号,所述第一类源信号为音调相同且固定的音频信号,所述第二类源信号为音调变化的音频信号;

    22、获取所述输入信号和所述第二类源信号之间的实际相关程度,所述第二类源信号和输入信号具有相同的采样率;

    23、根据所述实际相关程度判断是否含有第二类源信号。

    24、优选地,在所述实际相关程度大于预设阈值时,则认定所述输入信号中含有所述第二类源信号。

    25、优选地,存储的第二类源信号含有整个发声周期的波形。

    26、本发明的第三方面提供了一种声学警报识别装置,包括:

    27、处理器;

    28、用于存储处理器可执行指令的存储器;

    29、其中,所述处理器被配置为:

    30、执行如第一方面的声学警报识别方法。

    31、在本发明提供的声学警报识别方法,通过直接在时域进行识别,省去了dft的资源消耗,进一步的,提供了对于音调相同且固定的警报声的识别方法,用传统音频信号处理的方式进行识别,只需要用到一个样本音频数据,且资源消耗远小于神经网络方案。而在本发明提供的另一种声学警报识别方法中,依次识别第一类源信号和第二类源信号,直接对时域波形进行识别,省去了dft的资源消耗,进一步的,使用相关度对音调固定且不变的警报声进行识别,所需的存储空间相对较小,占用系统资源较少。

    32、本发明提供的声学警报识别装置与本发明提供的声学警报识别方法属于同一发明构思,因此,本发明提供的声学警报识别装置至少具有本发明提供的声学警报识别方法的所有优点,在此不再赘述。进一步的,依次识别第一类源信号和第二类源信号,直接对时域波形进行识别,省去了dft的资源消耗,进一步的,使用相关度对音调固定且不变的警报声进行识别,所需的存储空间相对较小,占用系统资源较少。



    技术特征:

    1.一种声学警报识别方法,其特征在于,包括以下步骤:

    2.如权利要求1所述的声学警报识别方法,其特征在于,对所述第一类源信号和所述输入信号求实际相关程度包括:对所述第一类源信号和所述输入信号求互相关,获得所述第一类源信号和所述输入信号的每帧相关性。

    3.如权利要求1所述的声学警报识别方法,其特征在于,对所述第一类源信号和所述输入信号求实际相关程度包括:以所述第一类源信号为基,将待识别的输入信号投影到所述第一类源信号,获得所述第一类源信号和所述输入信号的每帧相关性。

    4.如权利要求1所述的声学警报识别方法,其特征在于,将所述理想相关程度和所述实际相关程度进行匹配:

    5.如权利要求1所述的声学警报识别方法,其特征在于,将所述理想相关程度和所述实际相关程度进行匹配:

    6.如权利要求1所述的声学警报识别方法,其特征在于,存储的所述第一类源信号至少包括发声时的波形,且波形长度大于所述输入信号每帧输入的数据长度。

    7.一种声学警报识别方法,其特征在于,采用如权利要求1-6任一项所述的声学警报识别方法对输入信号中是否含有第一类源信号的判断后,还进行以下步骤:

    8.如权利要求7所述的声学警报识别方法,其特征在于,在所述实际相关程度大于预设阈值时,则认定所述输入信号中含有所述第二类源信号。

    9.如权利要求7所述的声学警报识别方法,其特征在于,存储的第二类源信号含有整个发声周期的波形。

    10.一种声学警报识别装置,其特征在于,包括:


    技术总结
    本发明公开了一种声学警报识别方法及装置,属于音频信号处理技术领域,该声学警报识别方法,包括以下步骤:存储多个音调相同且固定的第一类源信号,并通过理想麦克风采集第一类源信号获得对应的理想麦克风信号,获取第一类源信号和理想麦克风信号之间的理想相关程度;提供待识别的输入信号,获取第一类源信号和输入信号之间的实际相关程度,第一类源信号、理想麦克风信号及输入信号具有相同的采样率;将理想相关程度和实际相关程度进行匹配,根据两者的匹配程度判断输入信号中是否含有第一类源信号。通过直接在时域进行识别,省去了DFT的资源消耗,提供了对于音调相同且固定的警报声的识别方法,只需要用到一个样本音频数据。

    技术研发人员:罗本彪,邹灵琦,董鹏宇,居彩霞,尹东
    受保护的技术使用者:上海富瀚微电子股份有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-96794.html

    最新回复(0)