技术特征:
1.一种语音交互系统,其特征在于,包括:
智能音箱,用于采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器;
服务端,用于接收所述句尾检测请求;通过句尾检测模型包括的第一声学特征确定子网络,根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
2.一种语音交互方法,其特征在于,包括:
采集用户语音数据;
若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;
若所述服务端检测到句尾信息,则关闭传声器。
3.根据权利要求2所述的方法,其特征在于,所述静默时长采用如下方式确定:
通过语音活动检测模块,确定所述静默时长。
4.根据权利要求2所述的方法,其特征在于,还包括:
若所述服务端未检测到句尾信息、且静默时间大于第二时长阈值,则关闭传声器。
5.根据权利要求2所述的方法,其特征在于,还包括:
确定环境噪声值;
若环境噪声值大于噪声阈值,则清除所述用户语音数据中的噪声数据;
根据除噪后的用户语音数据,确定所述静默时长。
6.根据权利要求2所述的方法,其特征在于,还包括:
根据所述用户语音数据,确定用户讲话时长;
根据用户历史语音数据,确定讲话时长阈值;
若用户讲话时长达到讲话时长阈值,则确定所述语音数据包括句尾信息。
7.根据权利要求2所述的方法,其特征在于,
若所述服务端检测到句尾信息,则采集用户确定讲话完成的指令信息;
根据所述指令信息,关闭传声器。
8.根据权利要求2所述的方法,其特征在于,
从用户语音数据中提取第一声纹语音数据;
根据第一声纹语音数据,确定所述静默时长;
所述句尾检测请求包括针对第一声纹语音数据的句尾检测请求。
9.根据权利要求2所述的方法,其特征在于,还包括:
根据用户语音数据,判断是否存在上下文语义不关联的第一语音片段数据和第二语音片段数据;
若上述判断结果为是,则关闭传声器。
10.一种语音交互方法,其特征在于,包括:
接收终端设备发送的针对用户语音数据的句尾检测请求;
通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;
通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
11.根据权利要求10所述的方法,其特征在于,还包括:
从与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测模型。
12.根据权利要求10所述的方法,其特征在于,
所述第一声学特征确定子网络包括:第二声学特征确定子网络和第三声学特征确定子网络;
通过第二声学特征确定子网络,根据所述多个数据帧的声学特征信息,确定所述语音数据的声学特征信息;
通过第三声学特征确定子网络,根据所述语音数据的声学特征信息、和所述文本序列,确定所述后续语音的声学特征信息。
13.根据权利要求10所述的方法,其特征在于,
句尾检测模型包括语音识别子网络,所述语音识别子网络包括所述第二声学特征确定子网络和发音单元确定子网络;
所述方法还包括:
通过所述发音单元确定子网络,根据所述语音数据的声学特征信息,确定所述语音数据的发音单元序列。
14.根据权利要求13所述的方法,其特征在于,
句尾检测模型包括语言模型子网络,所述语言模型子网络包括所述语义特征确定子网络和文本预测子网络;
所述方法还包括:
通过所述语言模型子网络,确定所述文本序列;通过所述文本预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定与所述后续语音对应的文本。
15.根据权利要求10所述的方法,其特征在于,
句尾检测模型包括语言模型子网络,所述语言模型子网络包括所述语义特征确定子网络和文本预测子网络;
所述方法还包括:
通过所述语言模型子网络,确定所述文本序列;通过所述文本预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定与所述后续语音对应的文本。
16.根据权利要求14或15所述的方法,其特征在于,
通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;
通过所述文本预测子网络,根据深度融合特征,确定与所述后续语音对应的文本;
通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
17.根据权利要求10所述的方法,其特征在于,
通过句尾检测模型包括的特征深度融合子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述后续语音的声学特征信息和语义特征信息深度融合的特征;
通过所述句尾预测子网络,根据深度融合特征,确定所述语音数据是否包括句尾信息。
18.根据权利要求14所述的方法,其特征在于,还包括:
从标注句子起始符和结束符的语料集中,学习得到所述语义特征确定子网络和所述文本预测子网络的初始化参数;
从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息、标注句子起始符和结束符的文本序列间的对应关系中,学习得到所述语音识别子网络和所述语言模型子网络;
从与训练用语音数据对应的多个数据帧的声学特征信息、与训练用语音数据是否包括句尾的标注信息间的对应关系集中,学习得到所述句尾检测子网络。
19.根据权利要求18所述的方法,其特征在于,还包括:
从与训练用语音数据对应的多个数据帧的声学特征信息、发音单元序列标注信息间的对应关系中,学习得到所述语音识别子网络的初始化参数。
20.根据权利要求12所述的方法,其特征在于,
所述第三声学特征确定子网络的网络结构包括:transformer模型;
所述语义特征确定子网络的网络结构包括:transformer模型。
21.一种句尾检测方法,其特征在于,包括:
获取待检测语音数据;
确定所述语音数据的声学特征信息;
通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
22.一种句尾检测模型构建方法,其特征在于,包括:
确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;
构建句尾检测模型的网络结构;
将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
23.一种语音交互装置,其特征在于,包括:
语音采集单元,用于采集用户语音数据;
请求发送单元,用于若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;
闭麦单元,用于若所述服务端检测到句尾信息,则关闭传声器。
24.一种智能音箱,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。
25.一种语音交互装置,其特征在于,包括:
请求接收单元,用于接收终端设备发送的针对用户语音数据的句尾检测请求;
特征确定单元,用于通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;
句尾确定单元,用于通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
26.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:接收终端设备发送的针对用户语音数据的句尾检测请求;通过句尾检测模型包括的第一声学特征确定子网络,至少根据所述语音数据的多个数据帧的声学特征信息,确定所述语音数据的后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据所述语音数据的文本序列,确定所述后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据所述后续语音的声学特征信息和语义特征信息,确定所述语音数据是否包括句尾信息。
27.一种句尾检测装置,其特征在于,包括:
语音数据获取单元,用于获取待检测语音数据;
声学特征提取单元,用于确定所述语音数据的声学特征信息;
句尾信息确定单元,用于通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
28.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现句尾检测方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:获取待检测语音数据;确定所述语音数据的声学特征信息;通过句尾检测模型,根据所述声学特征信息,确定所述语音数据是否包括句尾信息。
29.一种句尾检测模型构建装置,其特征在于,包括:
训练数据确定单元,用于确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;
网络构建单元,用于构建句尾检测模型的网络结构;
学习单元,用于将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
30.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现句尾检测模型构建方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定与训练用语音数据对应的多个数据帧的声学特征信息、与所述训练用语音数据是否包括句尾的标注信息间的对应关系集;构建句尾检测模型的网络结构;将所述声学特征信息作为所述句尾检测模型的输入数据,将所述标注信息作为所述句尾检测模型的输出数据,训练所述句尾检测模型的网络参数。
31.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现语音交互方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;若所述服务端检测到句尾信息,则关闭传声器。
32.根据权利要求31所述的设备,其特征在于,所述设备包括:点餐机,售卖机,售票机,聊天机器人。
技术总结
本申请公开了语音交互系统、相关方法、装置及设备。其中,所示系统通过智能音箱采集用户语音数据;若用户语音静默时长大于第一时长阈值,则向服务端发送针对所述语音数据的句尾检测请求;服务端通过句尾检测模型包括的第一声学特征确定子网络,根据语音数据的声学特征信息,确定后续语音的声学特征信息;以及,通过句尾检测模型包括的语义特征确定子网络,根据语音数据的文本序列,确定后续语音的语义特征信息;通过句尾检测模型包括的句尾预测子网络,根据后续语音的声学特征信息和语义特征信息,确定语音数据是否包括句尾信息;若检测到句尾信息,则智能音箱关闭传声器。采用这种处理方式,可以有效提升智能音箱闭麦时机的准确度。
技术研发人员:袁园;胡于响;姜飞俊
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2020.01.22
技术公布日:2021.07.23
本文用于企业家、创业者技术爱好者查询,结果仅供参考。