语音交互方法、系统、存储介质以及电子设备与流程

2021-12-17 21:56:00 来源：中国专利 TAG：

1.本发明属于语音交互技术领域，尤其涉及一种语音交互方法、系统、存储介质以及电子设备。

背景技术：

2.在语音交互过程中，用户对话部分起着承上启下的左右，用户通过客户端说的话经过asr(语音识别)转为文本后进入对话系统，在对话系统中通过语义理解和对话决策后，调用指定的服务内容，输出相应的文本内容，再经过tts(从文本到语音)转换成语音后返回给客户端上的用户。目前，通常的语义理解模型都是基于通用话术训练模型来实现的，但是，由于不同用户所处的地域、年龄以及性格不同，导致用户的表达方式风格迥异，表达语义意图的话术的句式结构也各有不同，从而导致大多数的语义理解处理度都不够高，无法准确理解用户的意图。

技术实现要素：

3.本发明正是基于现有的语义理解技术无法准确理解不同用户的意图的技术问题，提出了一种语音交互方法、系统、存储介质以及电子设备。
4.第一方面，本发明实施例提供了一种语音交互方法，包括：
5.获取语音信息；
6.确定发出所述语音信息的发声者的特征信息；其中，所述特征信息能够用于表征发声者所属的群体类别；
7.根据所述特征信息，确定发出所述语音信息的发声者隶属的群体类别；
8.获取与所述群体类别相匹配的语料库；
9.从所述语料库中获取与所述语音信息相匹配的语义意图；
10.控制智能设备执行响应所述语义意图的动作。
11.可选地，预先通过以下步骤建立所述语料库：
12.获取隶属同一群体类别的发声者的历史语音对话数据，其中，所述历史语音对话数据包括历史语音信息以及该历史语音信息所表达的语义意图；
13.通过对所述历史语音对话数据进行统计分析，从所述历史语音对话数据中确定出隶属该群体类别的发声者表达同一语义意图时所使用的历史语音信息的共同语言特征，并将所述共同语言特征与与之对应的语义意图建立关联关系，从而构建所述语料库。
14.可选地，所述共同语言特征包括多频词、关键词、语言句式以及语气词中的至少一种。
15.可选地，通过对所述历史语音对话数据进行统计分析，从所述历史语音对话数据中确定出隶属该群体类别的发声者表达同一语义意图时所使用的历史语音信息的共同语言特征，并将所述共同语言特征与与之对应的语义意图建立关联关系，从而构建所述语料库，包括：
16.当所述共同语言特征包括多频词时，确定历史语音信息中的多频词以及该多频词所表达的语义意图，并将所述多频词与与之对应的语义意图建立关联关系，从而构建所述语料库；其中，所述多频词为出现次数超过预设阈值的词语；
17.当所述共同语言特征包括关键词时，从所述历史语音对话数据中选取出表达同一语义意图的历史语音信息；
18.从选取出的历史语音信息中确定出能够表达该语义意图的关键词，并将所述关键词与与之对应的语义意图建立关联关系，从而构建所述语料库；
19.当所述共同语言特征包括语言句式时，统计所述历史语音对话数据中用于表达同一语义意图的各个历史语音信息对应的语言句式的次数，并将次数最多的语言句式与与之对应的语义意图进行关联，从而构建所述语料库；
20.当所述共同语言特征包括语气词时，统计所述历史语音对话数据中用于表达同一语义意图的各个历史语音信息中的语气词的使用次数，并将使用次数最多的语气词与与之对应的语义意图建立关联关系，从而构建所述语料库。
21.可选地，所述特征信息包括年龄信息、性别信息、性格信息以及地域信息中的至少一种。
22.可选地，确定发出所述语音信息的发声者的特征信息，包括：
23.从所述语音信息中提取声纹特征，并基于所述声纹特征确定发出所述语音信息的发声者的身份信息；
24.根据发声者的身份信息，确定所述发声者的特征信息。
25.可选地，确定发出所述语音信息的发声者的特征信息，包括：
26.当所述特征信息包括年龄信息和/或性别信息时，从所述语音信息中提取声音频谱特征，并根据所述声音频谱特征确定发出所述语音信息的发声者的年龄信息和/或性别信息；
27.当所述特征信息包括性格信息时，确定所述语音信息的语言表达风格，并根据所述语言表达风格，将与所述语言表达风格匹配的性格类型确定为发出所述语音信息的发声者的性格信息；
28.当所述语音特征信息包括地域信息时，从所述语音信息中提取语音特征，根据所述语音特征，确定发出所述语音信息的发声者的地域信息；其中，所述语音特征包括语调、发音以及声调中的至少一种。
29.第二方面，本发明实施例还提供了一种语音交互系统，包括：
30.语音获取模块，用于获取语音信息；
31.特征确定模块，用于确定发出所述语音信息的发声者的特征信息；其中，所述特征信息能够用于表征发声者所属的群体类别；
32.群体类别确定模块，用于根据所述特征信息，确定发出所述语音信息的发声者隶属的群体类别；
33.语料库获取模块，用于获取与所述群体类别相匹配的语料库；
34.语义意图确定模块，用于从所述语料库中获取与所述语音信息相匹配的语义意图；
35.控制模块，用于控制智能设备执行响应所述语义意图的动作。
36.第三方面，本发明实施例还提供了一种存储介质，所述存储介质上存储有程序代码，所述程序代码被处理器执行时，实现如上述实施例中任一项所述的语音交互方法。
37.第四方面，本发明实施例还提供了一种电子设备，所述电子设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如上述实施例中任一项所述的语音交互方法。
38.第五方面，本发明实施例还提供了一种语音交互系统，包括：
39.客户端，其用于获取语音信息；以及
40.服务器，所述服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如上述实施例中任一项所述的语音交互方法。
41.在本发明实施例提供的一种语音交互方法，通过确定发出语音信息的发声者的特征信息，并根据特征信息确定发声者的群体类别，进而获取与该群体类别相匹配的语料库，从而利用该语料库确定该语音信息对应的语义意图，以控制智能设备执行与该语义意图对应的响应动作。可见，本发明实施例提供的语音交互方法，能够根据不同发声者隶属的群体类别来匹配相对应的语料库，从而利用对应的语料库来精确识别该语音信息要表达的语义意图，从而实现对语义意图的准确识别。
附图说明
42.通过结合附图阅读下文示例性实施例的详细描述可更好地理解本公开的范围。其中所包括的附图是：
43.图1示出了本发明实施例一提出的一种语音交互方法的流程示意图；
44.图2示出了本发明实施例二提出的确定发声者的特征信息的流程示意图；
45.图3示出了本发明实施例二提出的构建语料库的流程示意图。
具体实施方式
46.为使本发明的目的、技术方案和优点更加清楚，以下将结合附图及实施例来详细说明本发明的实施方法，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。
47.在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。
48.实施例一
49.根据本发明的实施例，提供了一种语音交互方法，图1示出了本发明实施例一提出的一种语音交互方法的流程示意图，如图1所示，该语音交互方法可以包括：步骤110至步骤160。
50.在步骤110中，获取语音信息。
51.这里，语音信息是指用户与智能设备进行交互的语音对话，如用户与空调进行交互，其发出“帮我查询一下明天的天气”的语音，则“帮我查询一下明天的天气”作为语音信息。其中，智能设备可以是带有语音功能的空调、冰箱、电视以及抽油烟机等智能设备。
52.在步骤120中，确定发出所述语音信息的发声者的特征信息；其中，所述特征信息能够用于表征发声者所属的群体类别。
53.这里，特征信息指的是发声者的属性，其用来对用户的个性化特征进行描述。如特征信息包括年龄、性别、性格以及地域中的至少一种，其也可以是职业、民族等能够反映用户属性的特征信息。例如，按照年龄可以分为60后及以上、70后、80后、90后、00后以及10后等；根据性别分为男性与女性；根据性格划分为开朗活泼型、安静专注型、勇敢自信型、勤劳善良型、独立型、创造型等；根据地域可以划分为东北人、京津人、华北人、西北人、中原人、西南人、两湖人、两广人、江南人、福建人等。
54.在步骤130中，根据所述特征信息，确定发出所述语音信息的发声者隶属的群体类别。
55.这里，发声者隶属的群体类别指的是所属的用户群体，特征信息与群体类别是一个映射关系。例如，确定到的发声者的特征信息包括年龄40岁和广东人，则隶属的群体类别为40岁的广东人。如果确定到的特征信息包括广东人，则隶属的群体类别广东人。
56.在步骤140中，获取与所述群体类别相匹配的语料库。
57.这里，不同的群体类别对应不同的语料库，例如，发声者a的群体类别为广东人，则获取与广东人这一群体类别相匹配的语料库a来对发声者a发出的语音信息进行语义理解。又例如，发声者a是活泼开朗型的广东人，则获取与活泼开朗的广东人这一群体类别匹配的语料库b，从而利用语料库b来对语音信息进行语义理解，以准确识别出发声者a的语义意图。
58.在步骤150中，从所述语料库中获取与所述语音信息相匹配的语义意图。
59.这里，在将语音信息转换为文本信息后，利用转换后的文本信息在语料库中进行匹配，从而获得与该语音信息相匹配的语义意图。其中，将语音信息转换为文本信息可以通过现有的语音识别技术(asr)来完成，在此不多赘述。
60.例如，发出“好热啊”的语音信息的发声者的群体类别为广东人，则利用“好热啊”的文本信息在与广东人关联的语料库中进行匹配，从而匹配到语义意图是“打开空调”。
61.另外，不同群体类别对应的语料库中均存储有文本信息以及与该文本信息相关联的语义意图，但不同的语料库中相同语义意图关联的文本信息可能不一致。例如，广东人习惯说“好热啊”，“好热啊”关联语义意图“打开空调”。而四川人喜欢说“太闷了”，“太闷了”关联语义意图“打开空调”。
62.值得说明的是，在此虽然只对构建不同地域的群体类别的语料库进行了详细说明，对于构建等不同的语料库的具体流程与构建不同地域的语料库的方法一致。
63.在步骤160中，控制智能设备执行响应所述语义意图的动作。
64.这里，在确定发声者的发出的语音信息的语义意图之后，控制智能设备执行响应该语义意图的动作。如语义意图是“打开空调”，则控制空调打开。
65.值得说明的是，控制智能设备执行实现所述语义意图的响应动作可以是在预设的数据库中获取与该语义意图相匹配的响应信息，该数据库中存储着语义意图和与该语义意图关联的响应信息。例如，“打开空调”的语义意图与打开空调的控制指令进行关联。其中，该数据库可以是语料库，即语料库中存储有“文本-语义意图-响应信息”的数据，如“太热了-打开空调-打开空调的控制指令”。
66.另外，该响应语义意图的动作可以是用于实现语义意图的控制指令和/或响应语音，如语义意图是“打开空调”，则响应动作可以是控制空调开启的控制指令和/或向发声者反馈响应语音，该响应语音可以是“已为您打开空调”。
67.在本实施例中，能够根据不同发声者的特征信息来确定其所属的群体类别，从而匹配与发声者的群体类别相对应的语料库，从而利用对应的语料库来精确识别该语音信息要表达的语义意图，以实现对语义意图的准确识别。
68.实施例二
69.在上述实施例的基础上，本发明的实施例二还可以提供一种语音交互方法。该语音交互方法可以包括：步骤210至步骤260。
70.在步骤210中，获取语音信息。
71.这里，语音信息是指用户与智能设备进行交互的语音对话，如用户与空调进行交互，其发出“帮我查询一下明天的天气”的语音，则“帮我查询一下明天的天气”作为语音信息。其中，智能设备可以是带有语音功能的空调、冰箱、电视以及抽油烟机等智能设备。
72.在步骤220中，确定发出所述语音信息的发声者的特征信息；其中，所述特征信息能够用于表征发声者所属的群体类别。
73.其中，特征信息包括年龄信息、性别信息、性格信息以及地域信息中的至少一种。例如，按照年龄可以分为60后及以上、70后、80后、90后、00后以及10后等；根据性别分为男性与女性；根据性格划分为开朗活泼型、安静专注型、勇敢自信型、勤劳善良型、独立型、创造型等；根据地域可以划分为东北人、京津人、华北人、西北人、中原人、西南人、两湖人、两广人、江南人、福建人等。
74.在一个实施方式中，步骤220中，确定发出所述语音信息的发声者的特征信息，可以包括：步骤221至步骤222。
75.在步骤221中，从所述语音信息中提取声纹特征，并基于所述声纹特征确定发出所述语音信息的发声者的身份信息。
76.这里，从语音信息中提取声纹特征，可以是通过vq聚类模块从语音信息中提取声纹特征，声纹特征包括频率、音调、鼻音、呼吸等特征，以及对用户的韵律特征提取，包括：说话节奏、语速、语调、口音等特征。在提取声纹特征后，通过将该声纹特征与数据库中预存的声纹进行对比，从而确定发出该语音信息的发声者的身份信息。
77.在步骤222中，根据发声者的身份信息，确定所述发声者的特征信息。
78.这里，在确定发声者的身份信息后，利用该身份信息可以确定发声者的特征信息。该特征信息是发声者预先录入的特征信息，在数据库中存储着“身份信息-特征信息”的数据，通过身份信息即可查询到对应的发声者的特征信息，即用户预先录入其年龄信息、性别信息、性格信息以及地域信息。
79.在另一个实施方式中，图2示出了本发明实施例二提出的确定发声者的特征信息的流程示意图，如图2所示，确定发出所述语音信息的发声者的特征信息，可以是从语音信息中确定发出该语音信息的发声者的特征信息。
80.其中，确定发声者的年龄信息和/或性别信息的具体过程可以是：从所述语音信息中提取声音频谱特征，并根据所述声音频谱特征确定发出所述语音信息的发声者的年龄信息和/或性别信息。
81.这里，对于不同年龄、不同性别的用户，其发出的语音的声音频谱特征会有所不同，通过声音频谱特征可以确定发出所述语音信息的发声者的年龄信息和/或性别信息。其中，识别年龄信息和/或性别信息的具体过程是：可以采集处于不同年龄段的男性和女性的语音，然后提取出语音的声音频谱特征，并利用该声音频谱特征训练得到一个性别识别模型和/或年龄识别模型。进而利用性别识别模型和/或年龄识别模型来识别从语音信息中的提取到的声音频谱特征，从而确定发声者的性别信息和/或年龄信息。
82.另外，确定发声者的性格信息的具体过程可以是：
83.确定所述语音信息的语言表达风格，并根据所述语言表达风格，将与所述语言表达风格匹配的性格类型确定为发出所述语音信息的发声者的性格信息。
84.这里，不同性格的用户一般说话的风格会不一样，如开朗活泼型的说话风格会较为幽默风趣，性格腼腆的用户说话风格则为委婉含蓄。确定语音信息的语言表达风格可以是先将语音信息转换为文本信息，再分析该文本信息所使用的句式结构以及语气词，从而确定发出所述语音信息的发声者的语言表达风格。而将与所述语言表达风格匹配的性格类型确定为发出所述语音信息的发声者的性格信息，其具体过程可以是预先采集不同性格的用户的语言表达风格，形成“语言表达风格-性格类型”的数据，在确定发声者的语言表达风格后，利用该语音表达风格进行查找，确定与所述语言表达风格匹配的性格类型，从而获得发声者的性格信息。
85.另外，确定发声者的地域信息的具体过程可以是：
86.从所述语音信息中提取语音特征，根据所述语音特征，确定发出所述语音信息的发声者的地域信息；其中，所述语音特征包括语调、发音以及声调中的至少一种。
87.这里，不同地域的人即使说同一句话，其也会存在口音、语速、语调、发音以及声调上的区别，如湖南地区的人通常会混淆n/l的发音。通过采集不同地域的语音，并进行语音特征提取后存放在地域识别数据库中，以用于识别不同地域的语音。接收到语音信息后，提取该语音信息的语音特征，进而将该语音特征在该地域识别数据库中进行识别，从而确定到发出该语音信息的发声者的地域信息。
88.在本实施方式中，通过从语音信息中确定发声者的年龄信息、性别信息、性格信息以及地域信息等特征信息，能够在发声者未录入其对应的特征信息时，准确识别到发声者的特征信息，从而为后续语义意图识别提供准确的数据基础。
89.在步骤230中，根据所述特征信息，确定发出所述语音信息的发声者隶属的群体类别。
90.这里，发声者隶属的群体类别指的是所属的用户群体，特征信息与群体类别是一个映射关系。例如，确定到的发声者的特征信息包括年龄40岁和广东人，则隶属的群体类别为40岁的广东人。如果确定到的特征信息包括广东人，则隶属的群体类别广东人。
91.在步骤240中，获取与所述群体类别相匹配的语料库。
92.在一个实施方式中，提供了一种语料库的构建方法，该构建方法可以包括：步骤2401至步骤2402。
93.在步骤2401中，获取隶属同一群体类别的发声者的历史语音对话数据，其中，所述历史语音对话数据包括历史语音信息以及该历史语音信息所表达的语义意图。
94.这里，隶属同一群体类别的发声者是指具有相同特征信息的用户群体，如性格一
致的用户群体，年龄段一致的用户群体，地域一致的用户群体，性别一致的用户群体。历史语音对话数据则可以包括用户与用户的历史语音对话数据以及用户与智能设备的历史语音对话数据，历史对话数据中包括历史语音信息以及与该历史语音信息关联的语义意图。其中，与该历史语音信息关联的语义意图是指用户发出该历史语音信息最终实现的语义意图。例如，用户表达“我太热了”，其最终的语义意图是“打开空调”。在获取历史对话数据的过程中，不仅要采集用户的历史语音信息，还要采集该历史语音信息想要表达的语义意图。
95.值得说明的是，用户每次与智能设备进行交互的语音信息均可作为用于训练语料库的历史对话数据。例如，用户说出“我太热了”的语音信息，智能设备根据该语音信息本应该执行“打开空调的响应动作”，但用户在后续的交互中，实际语义意图并非“打开空调”，而是“打开风扇”，则利用“我太热了-打开风扇”的历史对话数据对语料库中的语料进行修正，从而符合用户的个性化需求，实现语义意图的准确理解。
96.在步骤2402中，通过对所述历史语音对话数据进行统计分析，从所述历史语音对话数据中确定出隶属该群体类别的发声者表达同一语义意图时的语音信息的共同语言特征，并将所述共同语言特征与与之对应的语义意图建立关联关系，从而构建所述语料库。
97.这里，通过统计分析隶属同一群体类别的用户表达相同语义意图时所使用的语音信息中的共同语言特征，能够找到同一群体类别的用户表达相同意图的共性。将共同语言特征与与之对应的语义意图建立关联关系，从而生成语料数据，得到语料库。
98.其中，共同语言特征包括多频词、关键词、语言句式以及语气词中的至少一种。
99.图3示出了本发明实施例二提出的构建语料库的流程示意图，如图3所示，在一个实施方式中，当所述共同语言特征包括多频词时，步骤2402可以包括：
100.确定历史语音信息中的多频词以及该多频词所表达的语义意图，并将所述多频词与与之对应的语义意图建立关联关系，从而构建所述语料库；其中，所述多频词为出现次数超过预设阈值的词语。
101.这里，多频词是指用户在日常生活中经常说的话语，通过统计历史语音信息中的多频词，并为该多频词关联其表达的语义意图，能够通过多频词来了解用户真正的意图。例如，同一群体类别的用户习惯说的多频词是“热”，该多频词对应的语义意图是“打开空调”，则将“热”与“打开空调”进行关联，得到“热-打开空调”的语料。
102.在一个实施方式中，当所述共同语言特征包括关键词时，步骤2402可以包括：
103.从所述历史语音对话数据中选取出表达同一语义意图的历史语音信息；
104.从选取出的历史语音信息中确定出能够表达该语义意图的关键词，并将所述关键词与与之对应的语义意图建立关联关系，从而构建所述语料库。
105.这里，从历史语音对话数据中选取出表达同一语义意图的历史语音信息的目的是要选取出同一群体类别的用户表达相同语义意图时使用的不同历史语音信息。例如，性格一致的用户表达“打开空调”这一语义意图所使用的历史语音信息包括“我太热了”和“好热啊”。则从“我太热了”和“好热啊”的历史语音信息中能够确定出表达“打开空调”的语义意图的关键词为“热”，则将该语义意图与关键词进行关联，得到“热-打开空调”的语料。当具有同一性格的用户在下次语音交互中提到“热”，则知道用户的意图是打开空调，从而实现语义意图的准确识别。
106.在一个实施方式中，当所述共同语言特征包括语言句式时，步骤2402可以包括：
107.统计所述历史语音对话数据中用于表达同一语义意图的各个历史语音信息对应的语言句式的次数，并将次数最多的语言句式与与之对应的语义意图进行关联，从而构建所述语料库。
108.这里，语言句式可以就是用于表达同一语义意图的各个历史语音信息中使用最多的历史语音信息。例如，统计广东人的历史语音对话数据，确定到广东人表达“打开空调”这一语义意图使用最多的历史语音信息是“好热啊”，则“好热啊”作为语言句式，关联该语言句式与与之对应的语义意图，从而得到“好热啊-打开空调”的语料。在构建好该语料库后，当识别到属于广东人的群体类别的发声者发出语音信息“好热啊”，则根据“好热啊”的文本信息从广东人的语料库中能够查找到语义意图是“打开空调”。
109.在一个实施方式中，当所述共同语言特征包括语气词时，步骤2402可以包括：
110.当所述共同语言特征包括语气词时，统计所述历史语音对话数据中用于表达同一语义意图的各个历史语音信息中的语气词的使用次数，并将使用次数最多的语气词与与之对应的语义意图建立关联关系，从而构建所述语料库。
111.这里，语气词可以是用户日常常用的语气词，如“罢了”。通过统计同一群体类别的用户表达同一语义意图所经常用户的语气词，能够在用户发出相应的语气词时即可完成对用户的语义意图的识别。
112.在上述实施方式中，通过收集、整理隶属于同一群体类别的用户的历史语音对话数据，并对该历史语音对话数据进行对话学习，能够获得同一群体类别表达同一语义意图时所使用的语言的共同语言特征，从而获得语料库。而维护过后的语料库将直接用于人机语音交互语义理解过程，以便提高对用户的语音交互性的语义理解准确度。
113.在步骤250中，从所述语料库中获取与所述语音信息相匹配的语义意图。
114.这里，在将语音信息转换为文本信息后，利用转换后的文本信息在语料库中进行匹配，从而获得与该语音信息相匹配的语义意图。在获取与特征信息相匹配的语料库后，利用该语音信息对应的文本信息在该语料库中进行匹配，从而根据匹配结果确定到该语音信息想要表达的语义意图。例如，发出“好热啊”的语音信息的发声者的特征信息为广东人，则利用“好热啊”的文本信息在与广东人关联的语料库中进行匹配，从而匹配到语义意图是“打开空调”。
115.其中，在匹配时可以通过计算语音信息与语料的相似度来确定语义意图，当匹配到多个语义意图时，将相似度最大的语料对应的语义意图作为发声者想要表达的语义意图。
116.在步骤260中，控制智能设备执行响应所述语义意图的动作。
117.这里，控制智能设备执行实现所述语义意图的响应动作可以是在预设的数据库中获取与该语义意图相匹配的响应信息，该数据库中存储着语义意图和与该语义意图关联的响应信息。例如，“打开空调”的语义意图与打开空调的控制指令进行关联。其中，该数据库可以是语料库，即语料库中存储有“文本-语义意图-响应信息”的数据，如“太热了-打开空调-打开空调的响应信息”。
118.另外，该响应动作可以是用于实现语义意图的控制指令和/或响应语音，如语义意图是“打开空调”，则响应动作可以是控制空调开启的控制指令和/或向发声者反馈响应语音，该响应语音可以是“已为您打开空调”。
119.在本实施例中，能够根据不同发声者的特征信息来确定其所属的群体类别，从而匹配与发声者的群体类别相对应的语料库，从而利用对应的语料库来精确识别该语音信息要表达的语义意图，以实现对语义意图的准确识别。
120.实施例三
121.根据本发明的实施例，还提供了一种语音交互系统，包括：
122.语音获取模块，用于获取语音信息；
123.特征确定模块，用于确定发出所述语音信息的发声者的特征信息；
124.群体类别确定模块，用于根据所述特征信息，确定发出所述语音信息的发声者隶属的群体类别；
125.语料库获取模块，用于获取与所述群体类别相匹配的语料库；
126.语义意图确定模块，用于从所述语料库中获取与所述语音信息相匹配的语义意图；
127.控制模块，用于控制智能设备执行响应所述语义意图的动作。
128.实施例四
129.根据本发明的实施例，还提供了一种存储介质，所述存储介质上存储有程序代码，所述程序代码被处理器执行时，实现如上述实施例任一项所述的语音交互方法。
130.实施例五
131.根据本发明的实施例，还提供了一种电子设备，所述电子设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如上述实施例任一项所述的语音交互方法。
132.实施例六
133.根据本发明的实施例，还提供了一种语音交互系统，包括：
134.客户端，其用于获取语音信息；以及
135.服务器，所述服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的程序代码，所述程序代码被所述处理器执行时，实现如上述实施例中任一项所述的语音交互方法。
136.以上结合附图详细说明了本发明的技术方案，考虑到相关技术中，对语义意图的识别都是利用通用话术训练模型来实现的，导致大多数的语义理解处理度都不够高。本发明提供一种语音交互方法、系统、存储介质以及电子设备，通过确定发出语音信息的发声者的特征信息，并根据特征信息确定发声者的群体类别，进而获取与该群体类别相匹配的语料库，从而利用该语料库确定该语音信息对应的语义意图，以控制智能设备执行与该语义意图对应的响应动作。通过利用与发声者隶属的群体类别对应的语料库来精确识别该语音信息要表达的语义意图，能够实现对语音信息中的语义意图的准确识别。
137.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
138.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
139.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
140.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
141.虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于CNN和LSTM的藏语语音情感识别方法与流程

语音交互方法、系统、存储介质以及电子设备与流程

相关文献

最热文献