基于声纹识别的语音提醒方法、装置、设备及存储介质与流程

2022-12-31 16:40:48 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，具体涉及基于声纹识别的语音提醒方法、装置、设备及存储介质。

背景技术：

2.智能语音交互包括收音降噪、语音唤醒、语音识别、语义理解、语音合成等，其中现有技术中语音唤醒存在不同程度的问题和缺陷，大多只能针对特定唤醒词激活语音唤醒，使得智能语音交互的发起方只能是人有意识的特意行为，因此限制了很多应用场景。并且对于语义的理解只能做到固定的问答，无法像人类一样思考，再加上人类语言有大量的不同表达方式和歧义语句，导致了已有的设备没有办法精确地去判断出来用户的情绪或对应的场景，给出精确提醒。

技术实现要素：

3.为了能准确判断出用户情绪及场景，及时给出提醒，从而减少不断发生的矛盾与争吵问题，本发明提供基于声纹识别的语音提醒方法、装置、设备及存储介质，旨在解决仅能针对特定唤醒词激活语音唤醒，发起方为人有意识的特意行为，从而限制了应用场景的问题，以及对于语义理解只能做到固定回答，且容易引起理解错误的问题。本发明通过对应用场景的判断，进一步地在人们有情绪争吵发生初期就可识别，并通过不同种语音文字提醒家庭成员控制情绪。
4.为实现上述的技术目的，本发明能够提供一种基于声纹识别的语音提醒方法，该方法可包括但不限于如下的至少一个步骤。
5.建立第一语音数据库，第一语音数据库中存储有目标用户已录制的第一声纹信息以及与第一声纹信息相对应的应用场景信息，不同的应用场景信息与不同的预设语音相对应。
6.接收目标用户发出的第二声纹信息，将第二声纹信息与第一语音数据库中的第一声纹信息进行比较，以得到比较结果。
7.如果比较结果包含第一语音数据库中存在与第二声纹信息相匹配的第一声纹信息，则确定当前的应用场景信息。
8.发出与当前的应用场景信息对应的预设语音。
9.进一步地，建立第一语音数据库包括：接收目标用户的第一声纹信息；获取与第一声纹信息相对应的应用场景信息；利用第一声纹信息和应用场景信息建立第一语音数据库。
10.进一步地，利用第一声纹信息和应用场景信息建立第一语音数据库包括：对第一声纹信息进行降噪处理，得到降噪后的第一声纹信息；利用降噪后的第一声纹信息和所述应用场景信息，建立第一语音数据库。
11.进一步地，接收目标用户的第一声纹信息包括：通过麦克风阵列进行收音的方式
接收目标用户的第一声纹信息；对第一声纹信息进行降噪处理包括：对通过麦克风阵列获取的第一声纹信息背景噪音去除和混响处理，并循环覆盖式录制语音存储；背景噪音包括所处环境中非人的声音。
12.本发明在获取第一声纹信息后进行背景噪音去除和混响处理，将第一声纹信息进行进一步的优化处理，为后续识别判断提供了更准确的依据，提高了识别的准确性。
13.进一步地，将第二声纹信息与第一语音数据库中的第一声纹信息进行比较包括：第二声纹信息与第一语音数据库中的第一声纹信息依据特征参数及副语言信息进行比较；特征参数包括目标用户的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹；副语音信息包括语速、语调、重音、高音中的至少一种。
14.进一步地，预设语音包括预录制语音、预导入资源语音、通过语音合成引擎生成的语音中的至少一种。
15.进一步地，通过语音合成引擎生成的语音包括童声、播音声、变形金刚声中的至少一种。本发明基于上述改进后的方案能够将发出与当前应用场景信息对应的预设语音，通过第一语音数据库预录制语音、预导入资源语音、语音合成引擎变声进行语音输出，通过幽默巧妙的言语设计，吸引并转移使用者注意力，将其矛盾初期产生的不满，怒气化解在萌芽阶段，避免进一步伤害和破坏家庭成员关系。
16.基于上述过程，本发明还提供了一种基于声纹识别的语音提醒装置，该装置可包括但不限于语音数据库建立模块、声纹信息接收模块、声纹信息比较模块、应用场景确定模块以及语音输出模块。
17.语音数据库建立模块，用于建立第一语音数据库。
18.声纹信息接收模块，用于接收目标用户的声纹信息。
19.声纹信息比较模块，用于比较目标用户声纹信息与第一数据语音库声纹信息是否一致。
20.应用场景确定模块，用于通过比较第一语音数据库中是否存在与第二声纹信息相匹配的第一声纹信息，来确定当前的应用场景。
21.语音输出模块，用于输出与当前应用场景相对应的语音。
22.为实现上述的技术目的，本发明还能够提供一种计算机设备，计算机设备可包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行本发明任一实施例中语音提醒的方法的步骤。
23.为实现上述的技术目的，本发明还可提供一种存储有计算机可读指令的存储介质，存储器可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本发明任一实施例中语音提醒的方法的步骤。
24.本发明的有益效果为：
25.通过建立存储有目标用户已录制的第一声纹信息、与第一声纹信息相对应的应用场景信息以及不同的应用场景信息与不同的预设语音相对应的第一语音数据库，然后接收目标用户发出的第二声纹信息，根据目标用户的特征参数及副语言信息与第一语音数据库中的第一声纹信息进行比较，通过比较结果确定当前的应用场景信息，发出与当前应用场景信息对应的预设语音。本发明能够通过声纹信息表现出用户的情绪信息，可通过设备精确地去判断出来用户的声纹信息对应的场景，并给出精确提醒。本发明能够在特定的应用
场景即生气愤怒争吵等场景下，在争吵发生初期识别并提醒家庭成员控制情绪，避免进一步伤害和破坏家庭成员关系，对稳定家庭关系会带来非常正面的效果，对容易生气的个人身体健康也会起到积极作用，因此，本发明会带来很好的社会效益。
附图说明
26.图1示出了本发明一个或多个实施例中语音提醒方法的流程示意图。
27.图2示出了本发明一个或多个实施例中语音提醒装置的工作流程图。
28.图3示出了本发明一个或多个实施例中语音提醒装置的组成示意图。
29.图4示出了本发明一个或多个实施例中语音提醒装置的结构示意图。
30.图5示出了本发明一个或多个实施例中计算机设备的内部结构组成示意图。
具体实施方式
31.下面结合说明书附图对本发明所提出的基于声纹识别的语音提醒方法、装置、设备及存储介质进行详细的解释和说明。
32.如图1所示，本发明一个或多个实施例中具体可提供一种基于声纹识别的语音提醒方法，通过比较当前用户所说的声纹与所记录的语音数据库的声纹，确定当前的应用场景，从而发出相应的预设语音，从而在应用于家庭环境的场景下，本发明实施例可以在争吵发生初期就识别并通过语音提醒家庭成员控制情绪，有助于将矛盾初期产生的不满、怒气化解在萌芽阶段，避免进一步伤害和破坏家庭成员关系；其中语音提醒方法包括但不限于如下的一个或多个步骤。
33.步骤s100，建立第一语音数据库，第一语音数据库中存储有目标用户已录制的第一声纹信息以及与第一声纹信息相对应的应用场景信息。
34.可选地，建立第一语音数据库首先接收目标用户在指定场景下的第一声纹信息；然后获取与第一声纹信息相对应的应用场景信息；最后利用第一声纹信息和应用场景信息建立第一语音数据库。
35.本实施例中，指定应用场景包括但不限于类似于愤怒争吵生气的场景，所接收的在指定应用场景下的第一声纹信息为提前录制用户在生气愤怒情绪下的声纹信息，然后针对家庭矛盾争吵这一特定场景预设了根据不同场景和不同用户的提醒语音。
36.可选地，对第一语音数据库中所包含的目标用户预先录制的第一声纹信息进行收音降噪，得到降噪后的第一声纹信息，包括该用户基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹特征参数以及语速、语调、重音、音高副语音信息。利用降噪后的第一声纹信息匹配特定的应用场景信息建立第一语音数据库；通过麦克风阵列进行收音的方式接收目标用户的第一声纹信息；对通过麦克风阵列获取的第一声纹信息背景噪音去除和去混响处理，并循环覆盖式录制语音存储；背景噪音包括所处环境中非人的声音。
37.在一些实施方式中，获取使用者第一音频信息前，可以在进行声纹采集时入库，也可以在进行收音降噪时选取录制的声音片段补充入库。语音数据库可存储多个用户的声纹信息。
38.可选地，通过麦克风阵列收音，即通过麦克风阵列，判断人在哪个方向，增强人所处方向的拾音效果，开机状态下7*24监测设备所处环境中的人的声音，进行背景噪音去除
和去混响处理，并循环覆盖式录制存储于内置存储设备上。录制的声音有两个用途：一是可根据时间序列查找播放录制的声音。二是可截选特定典型使用者语音加入语音数据库，提高识别准确率。录制的语音根据存储器容量大小循环覆盖式存储，单个语音文件可根据设置时间切分，例如，每10分钟或30分钟等切分一个文件，时间排序，便于后续定位查找。
39.步骤s200，接收目标用户发出的第二声纹信息，将第二声纹信息与第一语音数据库中的第一声纹信息进行比较，以得到比较结果。
40.可选地，第二声纹信息与第一语音数据库中的第一声纹信息依据特征参数及副语言信息进行比较；特征参数包括目标用户的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹等；副语音信息包括语速、语调、重音、高音中的至少一种。
41.步骤s300，如果比较结果包含第一语音数据库中存在与第二声纹信息相匹配的第一声纹信息，则确定当前的应用场景信息。
42.可选地，第一语音数据库中存在与第二声纹信息相匹配的第一声纹信息，声纹信息匹配方法包括但不限于模板匹配法，最近邻方法，神经元网络方法，vq聚类法；根据各个特征参数阈值设定高低，分为高精度级别和低精度级别声纹信息匹配，首先进行高精度级别声纹信息匹配，根据第一语音数据库的第一声纹信息匹配到当前某一特定的矛盾争吵应用场景。当高精度级别声纹信息不匹配的情况下，启用低精度级别声纹信息匹配，如匹配低级别精度，即非特定场景下的通用情形，如仍不匹配，则终止触发后续步骤。结合上述实施例，第一声纹信息与第二声纹信息相匹配包括但不限于第一声纹信息与第二声纹信息的特征参数和/或副语言信息相匹配，例如，第一声纹信息与第二声纹信息的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹、语速、语调、重音、高音中的一种或多种相匹配。
43.可选地，针对家庭矛盾争吵应用场景，并不需要理解复杂的争吵内容，只需要能够识别特定场景，比如家长辅导孩子作业，夫妻或情侣琐事争吵，小孩子发脾气大喊大叫，然后对已识别的场景，确定当前的应用场景信息。
44.步骤s400，发出与当前的应用场景信息对应的预设语音。
45.可选地，预设语音包括预录制语音、预导入资源语音、通过语音合成引擎生成的语音中的至少一种，通过语音合成引擎生成的语音包括童声、播音声、变形金刚声中的至少一种。本发明实施例发出与当前的应用场景信息对应的预设语音，有两种语音输出方式；语音输出方式可选第一语音数据库预录制语音、预导入资源语音，也可选语音合成引擎变声播放；语音合成引擎变声包括但不限于童声、播音声、变形金刚声方式；语音合成引擎未激活情况下，可选第一语音数据库预录制语音或者设备默认预先存储的语音。
46.可选地，根据高精度级别识别的应用场景，设备中预设了根据不同场景和不同用户的提醒文字，在此进行匹配，待语音合成引擎变声使用播放。如果场景判定失败，即非特定场景下的通用情形，也适用设备预设提醒文字，一般为通用的幽默式的提醒文字。
47.可选地，声纹识别(voiceprint recognition,vpr)，也称为说话人识别，有两类，即说话人辨认和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。
48.随着生活节奏日益加快，人们来自各方压力增加，日常生活中家庭成员间争吵发脾气的情况司空见惯，比如夫妻间，情侣间，与长辈，与子女。在这过程中人们难免会说一些“气头话”，这些争吵时的“气头话”恰恰伤害的是最亲近的人，有时甚至会对家庭成员关系带来不可逆的损伤。然而当人们事后回顾争吵的起因时，经常发现是鸡毛蒜皮的小事，虽然事后多数时候也会为此感到懊悔，但是在争吵发生时往往不受控制。大多家庭成员的争吵发生在二人之间，即使有第三人在场，大多时候也不方便劝架或者劝架反而适得其反。
49.在本发明中，结合分贝检测，人声识别，声纹信息特征参数以及副语音信息，比较当前用户发出的声纹信息与语音数据库中预先录制的声纹信息，确定当前特定愤怒情绪的应用场景，从而进行触发唤醒。在争吵发生初期即识别并提醒家庭成员控制情绪，通过幽默巧妙的言语设计，吸引并转移使用者注意力，将其矛盾初期产生的不满，怒气化解在萌芽阶段，避免进一步伤害和破坏家庭成员关系。对稳定家庭关系会带来非常正面的效果，对容易生气的个人身体健康也会起到积极作用。本发明仅针对特定生活场景，也因为通过对特定场景的限定，降低对技术实现要求，在较低成本下可实现较高的识别率，具有一定经济性。
50.本发明还可以有一种精简模式，即不建立语音数据库和声纹信息匹配，语音识别仅识别人声，且人声带有副语言表现为愤怒生气情绪，此时即触发语音输出，输出语音也仅为用户预录制的语音或者设备默认预设语音。
51.如图2所示，本发明一个或多个实施例还能提供一种语音提醒装置的流程，包括但不限于声纹采集、收音降噪、语音唤醒、场景判断及语音输出。如图3所示，与本发明中的语音提醒的方法基于同一发明技术构思，本发明一个或多个实施例还能提供一种语音提醒的装置。本发明实施例所提供的语音提醒的装置包括但不限于语音数据库建立模块、声纹信息接收模块、声纹信息比较模块、应用场景确定模块以及语音输出模块，具体说明如下。
52.语音数据库建立模块，用于建立第一语音数据库；其中第一语音数据库包含目标用户预先录制的第一声纹信息以及与所述第一声纹信息相对应的应用场景信息，不同的应用场景信息与不同的预设语音相对应。
53.声纹信息接收模块，用于接收目标用户的声纹信息。
54.声纹信息比较模块，用于比较目标用户声纹信息与第一数据语音库声纹信息是否一致。
55.可选地，声纹识别芯片结合分贝检测，人声识别，声纹信息包括基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹特征参数，再结合副语音信息包括语速、语调、重音、高音条件组合比较声纹信息是否一致。
56.应用场景确定模块，用于通过比较第一语音数据库中是否存在与第二声纹信息相匹配的第一声纹信息，来确定当前的应用场景。
57.可选地，针对家庭矛盾争吵这一特定应用场景，并不需要理解复杂的争吵内容，只需要能够识别特定场景，比如家长辅导孩子作业，夫妻或情侣琐事争吵，小孩子发脾气大喊大叫。
58.可选地，对已识别的场景，根据语音识别通过说话人辨认技术定位用户，设备中预设了根据不同场景和不同人的提醒文字，在此进行匹配，待下一步使用。如果场景判定失败，即不能判定场景，但可以判定人，也适用设备预设提醒文字，一般为通用的幽默式的提醒文字。
59.语音输出模块，用于输出与当前应用场景相对应的语音。
60.可选地，可以根据需要选用一种或者两种语音输出方式。其一是直接由用户预先
录制的语音或者设备默认预先存储的语音，支持诙谐幽默语音文件多方式的扩展导入，其二是根据得到的预先存储的提醒文字，使用语音合成引擎变声播放出来，语音合成引擎变声可为童声、播音声、变形金刚声。
61.如图4所示，本发明一个或多个实施例还能提供一种语音提醒装置的结构示意图。本发明实施例所提供的语音提醒装置的结构包括但不限于麦克风阵列单元、声纹识别单元、存储单元、语音合成单元、功能按键区、功能按键电路板、液晶显示屏、wifi及蓝牙模块、供电单元以及电源开关，具体说明如下。
62.麦克风阵列单元，包含麦克风模块或麦克风阵列模块，高清消噪模块，是语音输入设备，用于声纹采集，收音降噪，语音唤醒步骤。
63.声纹识别单元，包括语音数据库模块，声纹识别模块和场景判定模块。其中，语音数据库模块采集记录使用者声纹信息入库，声纹信息来源有两种，一种是事前在声纹采集步骤入库，另一种是事后在收音降噪步骤中选取录制的声音片段补充入库。语音数据库可存储多个使用者的声纹信息。
64.声纹识别模块可以在收音降噪步骤中降噪和去混响，并实时监控环境中人的声音，当监控的人声与语音数据库中用户发怒情绪下的声纹信息匹配时，具体方法包括模板匹配法，最近邻方法，神经元网络方法，vq聚类法，即触发语音唤醒步骤。
65.场景识别模块通过预设条件判断唤醒时使用者所处场景，比如，用户单方面持续性的高音频高音量的输出，间断有幼年使用者语音，则为教育辅导场景，如果有两个使用者互相间断性的高音频高音量的输出，则为夫妻间或者恋人间矛盾争吵。这些场景与用户预先设定的不同场景下第一声纹信息匹配，适用于高精度级别声纹信息匹配，当高精度级别声纹信息不匹配的情况下，启用低精度级别声纹信息匹配，即非特定场景下的通用提醒信息。
66.存储单元，各种形式的内置或者外置存储介质。有以下几个功能用途，一是用于语音数据库的物理载体，二是用于将收音降噪步骤采集的语音信息存储起来备用，三是用于存储用户预先录制的语音或者设备默认预设语音以支持语音输出步骤。
67.语音合成单元，包含语音合成引擎和预设语音选择模块。语音合成播报模块，支持文本转语音，预设语音选择模块即直接由用户预先录制的语音或者设备默认预设语音，当语音合成引擎未激活情况下使用。
68.功能按键区，包含多个功能按键，比如模式选择/使用人选择，播放，录制，上一个、下一个，wifi/蓝牙连接。
69.功能按键电路板，设备主板，接收功能按键指令，并根据编译预设分配指令到相对应模块进一步执行，同时如有必要，在液晶显示屏输出结果。
70.音响外放单元，即腔体喇叭扬声器。
71.液晶显示屏，即液晶显示模块，含液晶显示屏，集成电路芯片，液晶屏接口。
72.wifi及蓝牙模块，提供更多的可扩展移动应用场景，适配智能家居环境。比如手机移动端远程设置操作。
73.供电单元，包含电源模块，采用通用直流电压输入充电接口或者内置电池输入。
74.电源开关，开通或者切断设备电源。
75.如图5所示，本施例提供一种计算机设备，包括存储器和处理器，处理器用于读取
存储器中存储的指令，以执行以下操作。
76.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
77.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
78.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
79.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
80.在本发明的描述中，参考术语“本实施例”、“一个实施例”、“示例”、“具体示例”、或“一些实例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
81.此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
82.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：语音识别方法、装置、电子设备及存储介质与流程

基于声纹识别的语音提醒方法、装置、设备及存储介质与流程

相关文献

最热文献