一种基于语音识别的目标识别方法以及相关装置与流程

2022-04-13 20:16:12 来源：中国专利 TAG：

1.本发明涉及声音识别技术领域，特别是涉及一种基于语音识别的目标识别方法以及相关装置。

背景技术：

2.现有技术中，一般对监控目标进行监控时，要求监控目标每天进行固定次数的人脸打卡。但是这种方式存在部分人员每天固定时段自行打卡报到后，将手机放在监控区域，而人离开监控区域，形成人机分离现象。现有的一种通过声音进行打卡的方式，要求监控目标每天固定时间段完成固定次数的录音打卡，将录音与预先采集的声纹进行比对，从而确认监控目标是否离开监控区域。
3.但是上述的人脸打卡与声音打卡均无法解决人机分离现象，仍然存在监控目标脱离监控的风险。

技术实现要素：

4.本发明提供一种基于语音识别的目标识别方法以及相关装置，该方法能够有效防范人机分离情况，并且有效的避免监控目标脱离监控。
5.为解决上述技术问题，本发明提供的第一个技术方案为：提供一种基于语音识别的目标识别方法，包括：随机向识别目标发送通话请求；响应于识别目标接听通话请求，采集识别目标的语音信息；基于语音信息而判断识别目标是否为监控目标。
6.其中，基于语音信息而判断识别目标是否为监控目标的步骤，包括：提取语音信息的声纹特征；将声纹特征与预设声纹特征进行比对，得到比对结果；基于比对结果判断识别目标是否为监控目标。
7.其中，提取语音信息的声纹特征的步骤，包括：对语音信息进行质量检测；响应于语音信息的质量符合预设条件，则提取语音信息的声纹特征。
8.其中，提取语音信息的声纹特征的步骤，还包括：从语音信息中提取干扰参数；方法还包括：基于干扰参数、干扰参数对应的干扰放大系数、干扰参数对应的权重系数以及预设范围确定阈值；所述基于所述比对结果判断所述识别目标是否为监控目标的步骤，包括：基于所述比对结果以及所述阈值判断所述识别目标是否为监控目标。
9.其中，基于比对结果以及阈值判断识别目标是否为监控目标的步骤，还包括：响应于比对结果不小于阈值，将语音信息中的实时信息与预设信息进行比对；响应于实时信息与预设信息匹配，则确定识别目标为监控目标。
10.其中，响应于语音信息的质量不符合预设条件，则返回步骤：控制机器人随机向识别目标发送通话请求；或者响应于比对结果小于阈值，则返回步骤：控制机器人随机向识别目标发送通话请求；或者响应于实时信息与预设信息不匹配，则返回步骤：控制机器人随机向识别目标发送通话请求。
11.其中，响应于机器人发送通话请求的次数达到预设次数，则确定识别目标不是监
控目标。
12.其中，方法还包括：将声纹特征进行存储，形成历史声纹特征；预设声纹特征包括历史声纹特征中的至少部分；将声纹特征与预设声纹特征进行比对，得到比对结果的步骤，包括：将声纹特征与每一预设声纹特征进行比对，得到多个比对结果；基于比对结果判断识别目标是否为监控目标的步骤，包括：响应于比对结果中预设数量的比对结果不小于阈值，则确定识别目标为监控目标。
13.其中，基于语音信息而判断识别目标是否为监控目标的步骤之后，还包括：响应于识别目标为监控目标，利用声纹特征对声纹特征提取模型进行更新；声纹特征提取模型用于提取声纹特征。
14.其中，响应于阈值不处于预设范围内，则返回步骤：控制机器人随机向识别目标发送通话请求；预设范围为基于历史计算的阈值确定。
15.其中，干扰参数包括：噪音、季节或天气、身体状态、情绪中至少一种。
16.为解决上述技术问题，本发明提供的第二个技术方案为：提供一种基于语音识别的目标识别装置，包括：控制模块，用于控制机器人随机向识别目标发送通话请求；采集模块，响应于识别目标接听通话请求，采集模块采集识别目标的语音信息；判断模块，用于基于语音信息而判断识别目标是否为监控目标。
17.为解决上述技术问题，本发明提供的第三个技术方案为：提供一种电子设备，包括相互藕接的处理器以及存储器，其中，存储器用于存储实现上述任一项的方法的程序指令；处理器用于执行存储器存储的程序指令。
18.为解决上述技术问题，本发明提供的第四个技术方案为：提供一种计算机可读存储介质，存储有程序文件，程序文件能够被执行以实现上述任一项的方法。
19.本发明的有益效果，区别于现有技术，本发明的方法随机向识别目标发送通话请求；在识别目标接听通话请求后，采集识别目标的语音信息；基于语音信息而判断识别目标是否为监控目标。该方法能够有效防范人机分离情况，并且有效的避免监控目标脱离监控。
附图说明
20.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：
21.图1为本发明基于语音识别的目标识别方法的一实施例的流程示意图；
22.图2为图1中步骤s13的一实施例的流程示意图；
23.图3为本发明基于语音识别的目标识别装置的一实施例的结构示意图；
24.图4是本发明电子设备的一实施例的结构示意图；
25.图5本发明计算机可读存储介质的结构示意图。
26.具体实施方法
27.本技术中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中，“多个”的含义是至
少两个，例如两个，三个等，除非另有明确具体的限定。本技术实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
29.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.步骤s11：随机向识别目标发送通话请求。
31.在对监控目标进行日常监管的过程中，控制机器人随机向识别目标发送通话请求。具体的，通过自动外呼功能，由机器人在随机的时间拨打电话，从而发送通话请求。
32.步骤s12：响应于识别目标接听通话请求，采集识别目标的语音信息。
33.在识别目标接听通话请求后，可以询问一些问题，并在询问问题的过程中采集识别目标的语音信息。
34.可以理解的，在通话过程中采集机器人与识别目标的对话信息。该对话信息中包含机器人的语音和识别目标的语音，需要进一步对对话信息进行分割，将识别目标的语音信息提取出来。具体的，可以根据电话上下行音频特性对对话信息进行分割，区分机器人与识别目标，进而将识别目标的语音信息提取出来，从而采集识别目标的语音信息。
35.步骤s13：基于语音信息而判断识别目标是否为监控目标。
36.基于采集的语音信息而判断识别目标是否为监控目标。具体的，在对监控目标开始登记监控时，采集监控目标的声音信息，将通话过程中采集的语音信息与预先采集的声音信息进行比对，从而确定识别目标是否为监控目标。可以理解的，若通话过程中采集的语音信息与预先采集的声音信息匹配，则说明识别目标即为监控目标；若不匹配，则说明识别目标不是监控目标。
37.本实施例随机向识别目标发送通话请求并采集语音信息，随机地基于语音信息判断识别目标是否为监控目标，能够有效防范人机分离情况，并且有效的避免监控目标脱离监控。
38.另外，本技术语音信息是通话被接听后采集的，只需要接听电话即可，对于中老年、低文化人群的操作要求低，且普通的非智能手机也能接听电话，相对于人脸识别等覆盖率比较广。
39.在一具体实施例中，请结合图2，步骤s13包括：
40.步骤s21：提取语音信息的声纹特征。
41.具体的，利用声纹特征提取模型对语音信息进行处理，进而提取语音信息的声纹特征。
42.在一具体实施例中，在提取声纹特征时，还需要对语音信息进行质量检测，在语音信息的质量符合预设条件时，提取语音信息的声纹特征。具体的，采用音频质量检测算法对语音信息进行分析，判断语音信息的音频质量，在音频质量达标时，提取语音信息的声纹特征。在音频质量不达标时，则重新采集识别目标的语音信息。例如，若当前采集的语音信息的质量不达标，则通知机器人，控制机器人重建向识别目标发送通话请求，从而采集识别目标的语音信息。
43.步骤s22：将声纹特征与预设声纹特征进行比对，得到比对结果。
44.将提取的声纹特征与预设声纹特征进行比对，得到比对结果。具体的，预设声纹特征为监控目标在登记时采集的声音信息得到的。具体的，利用声纹特征提取模型对登记时采集的声音信息进行特征提取，得到预设声纹特征，将预设声纹特征存储。在得到当前通话时的声纹特征后，将声纹特征预设声纹特征进行比对，得到比对结果。
45.步骤s23：基于比对结果判断识别目标是否为监控目标。
46.具体的，若比对结果不小于阈值，则确定识别目标为监控目标。
47.在一实施例中，不同时间段采集的语音信息会被一下存在的干扰参数影响，例如识别目标在生病期间采集的语音信息可能会与平常不同，再例如，在识别目标情绪低落时采集的语音信息也可能与平常不同，再例如，采集的语音信息也可能会被天气因素影响，例如语音信息中包含下雨的声音。为了得到更准确的判断结果，则需要考虑这些干扰因素。具体的，在提取语音信息的声纹特征的同时，从语音信息中提取干扰参数。基于提取的干扰参数、干扰参数对应的干扰放大系数、干扰参数对应的权重系数以及预设范围确定阈值。
48.在一具体实施例中，假设提取到的干扰参数包括：噪音x1、季节或天气x2、身体状态x3、情绪x4；并且干扰参数对应的干扰放大系数为：噪音放大系数p1、季节或天气放大系数p2、身体状态放大系数p3、情绪放大系数p4；干扰参数对应的权重系数为：噪音权重系数f1、季节或天气权重系数f2、身体状态权重系数f3、情绪权重系数f4，并且假设预设范围为[0，m]，则阈值x的计算公式为：
[0049][0050]
其中，f1 f2 f3
…
fn＝n，需要说明的是，预设范围为声纹特征提取模型的阈值范围，其基于声纹特征提取模型的属性决定。
[0051]
在将声纹特征与预设声纹特征进行比对时，得到比对结果y，如果比对结果y≥阈值x，则检验通过，确定识别目标为监控目标。可以理解的，如果比对结果y＜阈值x，则检验不通过，此时重新采集识别目标的语音信息。例如，若比对结果y＜阈值x，则通知机器人，控制机器人重建向识别目标发送通话请求，从而采集识别目标的语音信息。
[0052]
在一实施例中，在基于声纹特征确定识别目标就是监控目标之后，可以进一步利用声纹特征对声纹提取模型进行更新。以此可以使得声纹提取模型在提取声纹特征时更加准确。
[0053]
在一实施例中，采用统计学远离，针对每一个监控目标，建立阈值趋势图。例如，针对监控目标a，每次进行核验时会计算出一个阈值，基于计算出的阈值会得到一个趋势图，
也即阈值区间，在某一次计算出的阈值未处于该阈值区间内时，则这一次的值就确定为坏点，此时将获取的声纹信息剔除掉，并且返回步骤控制机器人随机向识别目标发送通话请求。具体的，响应于阈值不处于预设范围内，则返回步骤：控制机器人随机向识别目标发送通话请求；预设范围为基于历史计算的阈值确定。
[0054]
本实施例引入了干扰参数进行检测，进一步提高了检测的准确性。
[0055]
进一步的，本技术在一实施例中，响应于比对结果不小于阈值，将语音信息中的实时信息与预设信息进行比对；响应于实时信息与预设信息匹配，则确定识别目标的身份与预设声纹特征对应的目标的身份相符。具体的，如果比对结果y≥阈值x，则进一步将语音信息中的实时信息与预设信息进行比对。例如，在识别目标接听电话时，机器人可以询问识别目标一些问题，例如询问时间、日期、天气、身份证号、姓名等等，识别目标会针对每一问题进行回答，进而使得采集的语音信息中包含这些问题的答案，该答案即为实时信息。进一步将这些实时信息与预设信息进行比对。如果实时信息与预设信息匹配，则确定识别目标为监控目标。可以理解的，如果实时信息与预设信息不匹配，则通知机器人，控制机器人重建向识别目标发送通话请求，从而采集识别目标的语音信息。
[0056]
在一具体实施例中，如果机器人发送通话请求的次数达到预设次数例如3次，则确定识别目标不是监控目标。此时可以向监控平台发送警报，以提示监控目标脱离监控范围。
[0057]
随着时间的推移，样本库中的预设声纹特征逐渐陈旧，会出现即使识别目标与监控目标为同一目标，声纹特征与预设声纹特征的比对结果也会出现小于阈值的情况。另外单次校验存在偶然因素，会导致核验的准确率下降。因此，在一实施例中，从历史音频中抽取多个样本作为比对对象，与当前音频进行声纹比对核验，全部通过则本次抽样核验正常通过，否则不通过。
[0058]
具体的，在核验通过后，将参数核验的声纹特征进行存储，形成历史声纹特征。从历史声纹特征中选择至少部分作为预设声纹特征。可以理解的，可以基于历史声纹特征的时间先后顺序，从中选择至少部分作为预设声纹特征；或者，可以在不同的时间段中选取一个历史声纹特征作为预设声纹特征。在当前的核验过程中，将当前采集的声纹特征与预设声纹特征(此时的预设声纹特征为历史声纹特征)进行比对，得到多个比对结果。例如预设声纹特征包括3个历史声纹特征，则将当前采集的声纹特征与预设声纹特征1进行比对，得到比对结果1；将当前采集的声纹特征与预设声纹特征2进行比对，得到比对结果2；将当前采集的声纹特征与预设声纹特征3进行比对，得到比对结果3。响应于比对结果中预设数量的比对结果不小于阈值，则确定识别目标为监控目标。具体的，在一实施例中，如果比对结果1、2、3均不小于阈值，则确定识别目标为监控目标。
[0059]
在一具体实施例中，本技术的基于语音识别的目标识别方法可以应用于社矫人员的监控。具体的，在社矫对象入矫登记时，获取社矫对象的样本语音、社矫对象的身份信息以及语音的语种，并提出得到预设声纹特征，建立社矫对象的数据库。控制机器人随机向社矫人员拨打电话，在社矫人员接听电话后采集对应的语音信息，以此实时检测社矫人员是否处于监控范围内。
[0060]
请参见图3，为本发明基于语音识别的目标识别装置的一实施例的结构示意图，具体包括控制模块31、采集模块32以及判断模块33。
[0061]
其中，控制模块31用于随机向识别目标发送通话请求。
[0062]
响应于识别目标接听通话请求，采集模块32采集识别目标的语音信息。具体的，采集模块32采集机器人与识别目标的对话信息，并对对话信息进行分割，提取识别目标的语音信息。
[0063]
其中，判断模块33用于基于语音信息而判断识别目标是否为监控目标。具体的，判断模块33提取语音信息的声纹特征；将声纹特征与预设声纹特征进行比对，得到比对结果；基于比对结果判断识别目标是否为监控目标。在一实施例中，判断模块33还用于对语音信息进行质量检测；响应于语音信息的质量符合预设条件，则提取语音信息的声纹特征。
[0064]
在一实施例中，响应于比对结果不小于阈值，则判断模块33确定识别目标为监控目标。
[0065]
在一实施例中，判断模块33还用于从语音信息中提取干扰参数；基于干扰参数、干扰参数对应的干扰放大系数、干扰参数对应的权重系数以及预设范围确定阈值。干扰参数包括：噪音、季节或天气、身体状态、情绪中至少一种。
[0066]
在一实施例中，响应于比对结果不小于阈值，判断模块33将语音信息中的实时信息与预设信息进行比对；响应于实时信息与预设信息匹配，则判断模块33确定识别目标为监控目标。
[0067]
在一实施例中，响应于判断模块33确定语音信息的质量不符合预设条件，则利用控制模块31控制机器人随机向识别目标发送通话请求。或者响应于判断模块33确定比对结果小于阈值，则利用控制模块31控制机器人随机向识别目标发送通话请求。或者响应于判断模块33确定实时信息与预设信息不匹配，则利用控制模块31控制机器人随机向识别目标发送通话请求。
[0068]
在一实施例中，响应于控制模块31确机器人发送通话请求的次数达到预设次数，则判断模块33确定识别目标不是监控目标。
[0069]
在一实施例中，判断模块33将声纹特征进行存储，形成历史声纹特征；预设声纹特征包括历史声纹特征中的至少部分；判断模块33将声纹特征与每一预设声纹特征进行比对，得到多个比对结果，响应于比对结果中预设数量的比对结果不小于阈值，则判断模块33确定识别目标为监控目标。
[0070]
在一实施例中，判断模块33利用声纹特征提取模型对语音信息进行处理，以提取语音信息的声纹特征。响应于识别目标为监控目标，利用声纹特征对声纹特征提取模型进行更新。
[0071]
在一实施例中，响应于判断模块33确定阈值不处于预设范围内，则利用控制模块31控制机器人随机向识别目标发送通话请求；预设范围为基于历史计算的阈值确定。
[0072]
请参见图4，为本发明电子设备的一实施例的结构示意图。电子设备包括相互连接的存储器82和处理器81。
[0073]
存储器82用于存储实现上述任意一项的方法的程序指令。
[0074]
处理器81用于执行存储器82存储的程序指令。
[0075]
其中，处理器81还可以称为cpu(central processing unit，中央处理单元)。处理器81可能是一种集成电路芯片，具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器
也可以是任何常规的处理器等。
[0076]
存储器82可以为内存条、tf卡等，可以存储电子设备中全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器，电子设备才有记忆功能，才能保证正常工作。电子设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存)，也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。
[0077]
在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方法实现。例如，以上所描述的装置实施方法仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方法，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0078]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方法方案的目的。
[0079]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0080]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方法的全部或部分步骤。
[0081]
请参阅图5，为本发明计算机可读存储介质的结构示意图。本技术的存储介质存储有能够实现上述所有方法的程序文件91，其中，该程序文件91可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方法的全部或部分步骤。而前述的存储装置包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。
[0082]
以上仅为本发明的实施方法，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：啸叫抑制方法、装置、计算机设备和存储介质与流程

一种基于语音识别的目标识别方法以及相关装置与流程

相关文献

最热文献