技术特征:
1.一种用于关联语音数据的方法,其特征在于,包括:
获取对话语音数据;所述对话语音数据带有第一断句标记信息;
根据所述第一断句标记信息将所述对话语音数据分割成若干个语音片段数据;获取所述对话语音数据对应的对话文本数据,所述对话文本数据包括第二断句标记信息;
根据所述第二断句标记信息将所述对话文本数据分割成若干个文本片段数据;所述文本片段数据的数量与所述语音片段数据的数量相同;
将所述文本片段数据与所述语音片段数据关联存储在预设的语音片段数据库。
2.根据权利要求1所述的方法,其特征在于,获取对话语音数据,包括:
获取录音数据;
去除所述录音数据中的静默片段,获得对话语音数据。
3.一种用于检索语音数据的方法,其特征在于,包括:
获取检索关键词;
获取所述检索关键词对应的文本片段数据;
在预设的语音片段数据库中匹配出所述文本片段数据对应的语音片段数据;所述语音片段数据库中存储有文本片段数据和语音片段数据的关联关系。
4.根据权利要求3所述的方法,其特征在于,所述语音片段数据库通过以下方式获取:
获取对话语音数据;所述对话语音数据带有第一断句标记信息;
根据所述第一断句标记信息将所述对话语音数据分割成若干个语音片段数据;获取所述对话语音数据对应的对话文本数据,所述对话文本数据包括第二断句标记信息;
根据所述第二断句标记信息将所述对话文本数据分割成若干个文本片段数据;所述文本片段数据的数量与所述语音片段数据的数量相同;
将所述文本片段数据与所述语音片段数据关联存储在预设的语音片段数据库。
5.一种用于关联语音数据的装置,其特征在于,包括:
第一获取模块,被配置为获取对话语音数据;所述对话语音数据带有第一断句标记信息;
第一分割模块,被配置为根据所述第一断句标记信息将所述对话语音数据分割成若干个语音片段数据;
第二获取模块,被配置为获取所述对话语音数据对应的对话文本数据,所述对话文本数据包括第二断句标记信息;
第二分割模块,被配置为根据所述第二断句标记信息将所述对话文本数据分割成若干个文本片段数据;所述文本片段数据的数量与所述语音片段数据的数量相同;
存储模块,被配置为将所述文本片段数据与所述语音片段数据关联存储在预设的语音片段数据库。
6.一种用于检索语音数据的装置,其特征在于,包括:
第三获取模块,被配置为获取检索关键词;
第四获取模块,被配置为获取所述检索关键词对应的文本片段数据;
匹配模块,被配置为在预设的语音片段数据库中匹配出所述文本片段数据对应的语音片段数据;所述语音片段数据库中存储有文本片段数据和语音片段数据的关联关系。
7.一种电子设备,包括第一处理器和存储有程序指令的第一存储器,其特征在于,所述第一处理器被配置为在执行所述程序指令时,执行如权利要求1或2所述的用于关联语音数据的方法。
8.一种电子设备,包括第二处理器和存储有程序指令的第二存储器,其特征在于,所述第二处理器被配置为在执行所述程序指令时,执行如权利要求3或4所述的用于检索语音数据的方法。
9.一种可读存储介质,存储有可执行指令,其特征在于,所述可执行指令在运行时执行如权利要求1或2所述的用于关联语音数据的方法。
10.一种可读存储介质,存储有可执行指令,其特征在于,所述可执行指令在运行时执行如权利要求3或4所述的用于检索语音数据的方法。
技术总结
本申请涉及语音搜索技术领域,公开一种用于关联语音数据的方法,包括:获取带有第一断句标记信息的对话语音数据;根据第一断句标记信息将对话语音数据分割成若干个语音片段数据;获取对话语音数据对应的对话文本数据,对话文本数据包括第二断句标记信息;根据第二断句标记信息将对话文本数据分割成若干个文本片段数据;将文本片段数据与语音片段数据关联存储在预设的语音片段数据库。根据文本片段数据通过预设的语音片段数据库查找语音片段数据,实现通过文本数据对语音数据进行查找,提高了对语音数据的查找效率。本申请还公开一种用于关联语音数据的装置、电子设备、可读存储介质,用于检索语音数据的方法、装置、电子设备、可读存储介质。
技术研发人员:黄杰辉;徐世超;李健;梁志婷
受保护的技术使用者:上海明略人工智能(集团)有限公司
技术研发日:2021.05.18
技术公布日:2021.08.24
本文用于企业家、创业者技术爱好者查询,结果仅供参考。