人机交互方法、装置、存储介质及终端设备与流程

2021-09-17 23:00:00 来源：中国专利 TAG：终端设备人工智能人机交互装置

技术特征：
1.一种人机交互方法，其特征在于，应用于终端设备，所述终端设备集成有语音交互组件、n个业务组件和接入方提供的自定义声学模型；所述语音交互组件中封装有与语音交互相关的软件开发工具包sdk；所述n个业务组件是由所述接入方根据自身产品需求在开发方提供的业务组件集合中选择的；一个所述业务组件用于为所述终端设备提供至少一项服务，n为正整数；所述方法包括：通过所述语音交互组件接收所述自定义声学模型采集的音频数据，所述音频数据为用户语音输入；通过所述语音交互组件，将所述音频数据发送至服务器，所述音频数据用于指示所述服务器执行音频处理并生成与所述音频数据匹配的响应数据；通过所述语音交互组件，将所述服务器返回的所述响应数据下发至第一业务组件；响应于所述用户语音输入是任务型提问，所述响应数据用于触发所述第一业务组件执行所述用户语音输入指示的目标操作。2.根据权利要求1所述的方法，其特征在于，所述sdk包括：语音识别sdk、语音合成sdk和文字识别sdk；所述声学模型的路径设置在所述语音交互组件下，所述语音交互组件对外提供用于唤醒所述终端设备的音频数据接收接口。3.根据权利要求1所述的方法，其特征在于，所述音频数据用于指示所述服务器执行以下音频处理：对所述音频数据进行语义解析，基于语义解析结果获取所述音频数据的语义技能数据，所述语义技能数据包括：提问意图、提问所属的知识领域、提问文本和所述响应数据。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：响应于所述用户语音输入不是任务型提问，通过所述第一业务组件显示非语音形式的所述响应数据；或，响应于所述用户语音输入不是任务型提问，通过所述语音交互组件播放语音形式的所述响应数据：或，响应于所述用户语音输入不是任务型提问，且所述终端设备未集成所述第一业务组件，通过所述语音交互组件显示非语音形式的所述响应数据。5.根据权利要求1所述方法，其特征在于，所述语音交互组件与所述服务器之间建立有长连接；所述方法还包括：通过所述语音交互组件，接收所述服务器基于所述长连接下发的推送消息；通过所述语音交互组件，以定向广播方式通知第二业务组件接收所述推送消息，所述第二业务组件预先已向所述语音交互组件注册回调函数或注册监听器。6.根据权利要求1所述方法，其特征在于，所述通过所述语音交互组件，将所述服务器返回的所述响应数据下发至第一业务组件，包括：通过所述语音交互组件，以定向广播方式通知所述第一业务组件接收所述响应数据，所述第一业务组件预先已向所述语音交互组件注册回调函数或注册监听器。7.根据权利要求1所述的方法，其特征在于，在采集音频数据过程中，所述方法还包括：获取第一麦克风采集的第一语音信号，所述第一语音信号包括第一声源信号和第一噪
声信号；获取第二麦克风采集的第二语音信号，所述第二语音信号包括第二声源信号和第二噪声信号；获取所述第一语音信号和所述第二语音信号在频域上的互功率谱；将所述互功率谱由频域变换至时域，得到互相关函数；将最大互相关值对应的时间取值确定为传播时延，所述传播时延为语音信号在所述第一麦克风和所述第二麦克风之间的到达时间差；基于所述传播时延进行声源定位，所述第一麦克风和所述第二麦克风来自于所述终端设备的麦克风阵列。8.根据权利要求1所述的方法，其特征在于，在采集音频数据过程中，所述方法还包括：基于第一滤波器，对麦克风阵列接收到的语音信号进行回声消除处理；其中，第一滤波器的滤波函数无限接近扬声器到所述麦克风阵列的冲激响应；所述麦克风阵列接收到的语音信号是根据声源信号、噪声信号、所述扬声器播放的语音信号和所述冲激响应确定的。9.根据权利要求1所述的方法，其特征在于，在采集音频数据过程中，所述方法还包括：将麦克风阵列接收到的语音信号由时域变换至频域，得到频域信号；基于第二滤波器对所述频域信号进行逆滤波处理，恢复出声源信号；其中，所述麦克风阵列接收到的语音信号是根据声源信号、噪声信号和声源的房屋冲激响应确定的。10.一种人机交互装置，其特征在于，所述终端设备集成有语音交互组件、n个业务组件和接入方提供的自定义声学模型；所述语音交互组件中封装有与语音交互相关的软件开发工具包sdk；所述n个业务组件是由所述接入方根据自身产品需求在开发方提供的业务组件集合中选择的；一个所述业务组件用于为所述终端设备提供至少一项服务，n为正整数；所述自定义声学模型，被配置为采集音频数据，所述音频数据为用户语音输入；所述语音交互组件，被配置为接收所述自定义声学模型采集的音频数据；所述语音交互组件，还被配置为将所述音频数据发送至服务器，所述音频数据用于指示所述服务器执行音频处理并生成与所述音频数据匹配的响应数据；所述语音交互组件，还被配置为将所述服务器返回的所述响应数据下发至第一业务组件；响应于所述用户语音输入是任务型提问，所述响应数据用于触发所述第一业务组件执行所述用户语音输入指示的目标操作。11.根据权利要求10所述的装置，其特征在于，所述sdk包括：语音识别sdk、语音合成sdk和文字识别sdk；所述声学模型的路径设置在所述语音交互组件下，所述语音交互组件对外提供用于唤醒所述终端设备的音频数据接收接口。12.根据权利要求10所述的装置，其特征在于，所述音频数据用于指示所述服务器执行以下音频处理：对所述音频数据进行语义解析，基于语义解析结果获取所述音频数据的语义技能数据，所述语义技能数据包括：提问意图、提问所属的知识领域、提问文本和所述响应数据。13.根据权利要求10所述的装置，其特征在于，
所述第一业务组件，被配置为响应于所述用户语音输入不是任务型提问，显示非语音形式的所述响应数据；所述语音交互组件，还被配置为响应于所述用户语音输入不是任务型提问，播放语音形式的所述响应数据；所述语音交互组件，还被配置为响应于所述用户语音输入不是任务型提问，且所述终端设备未集成所述第一业务组件，显示非语音形式的所述响应数据。14.一种终端设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至9中任一项权利要求所述的人机交互方法。15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至9中任一项权利要求所述的人机交互方法。

技术总结
本申请公开了一种人机交互方法、装置、存储介质及终端设备，属于人工智能技术领域。该方法应用于终端设备，终端设备集成有语音交互组件、N个业务组件和接入方提供的自定义声学模型；该语音交互组件中封装有与语音交互相关的SDK；N个业务组件是由接入方根据自身产品需求在开发方提供的业务组件集合中选择的；一个业务组件用于为终端设备提供至少一项服务，包括：通过语音交互组件接收自定义声学模型采集的音频数据；通过语音交互组件，将音频数据发送至服务器，该音频数据用于指示服务器执行音频处理并生成响应数据；通过语音交互组件，将服务器返回的响应数据下发至第一业务组件。本申请为接入方实现灵活以及简便地智能语音交互提供了可能。互提供了可能。互提供了可能。

技术研发人员：胡孝波
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2020.11.02
技术公布日：2021/9/16

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

人机交互方法、装置、存储介质及终端设备与流程

相关文章

最热文献