语音交互方法、装置、终端、存储介质及程序产品与流程

2022-11-30 16:36:13 来源：中国专利 TAG：

技术特征：
1.一种语音交互方法，其特征在于，所述方法包括：对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果；基于所述文本识别结果构建在线语料库；在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本；基于所述语音识别文本进行人机交互。2.根据权利要求1所述的方法，其特征在于，所述对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果，包括：对所述人机交互界面中的所述界面显示元素进行显性文本识别，得到显性文本识别结果，显性文本在所述人机交互界面中可见；对所述人机交互界面中的所述界面显示元素进行隐性文本识别，得到隐性文本识别结果，隐性文本在所述人机交互界面中不可见。3.根据权利要求2所述的方法，其特征在于，所述对所述人机交互界面中的所述界面显示元素进行显性文本识别，得到显性文本识别结果，包括如下至少一种：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；遍历所述控件树中的各个控件，从所述控件对应的控件信息中提取显性文本属性，得到所述显性文本识别结果；对所述人机交互界面中的所述界面显示元素进行光学字符识别，得到字符识别结果；将所述字符识别结果确定为所述显性文本识别结果。4.根据权利要求3所述的方法，其特征在于，所述对所述人机交互界面中的所述界面显示元素进行光学字符识别，得到字符识别结果，包括：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；确定所述控件树中的第一控件，所述第一控件用于承载包含文本内容的界面显示元素；基于所述第一控件的第一控件坐标，对所述人机交互界面中所述第一控件承载的界面显示元素进行光学字符识别，得到所述字符识别结果。5.根据权利要求2所述的方法，其特征在于，所述对所述人机交互界面中的所述界面显示元素进行隐性文本识别，得到隐性文本识别结果，包括如下至少一种：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；遍历所述控件树中的各个控件，从所述控件对应的控件信息中提取隐藏文本属性，得到所述隐性文本识别结果；对所述人机交互界面中的图标进行图标语义识别，得到图标语义识别结果，所述图标语义识别结果用于表征图标的用途；将所述图标语义识别结果确定为所述隐性文本识别结果；对所述人机交互界面中的图像进行图像语义识别，得到图像语义识别结果，所述图像语义识别结果用于描述图像包含的图像内容；将所述图像语义识别结果确定为所述隐性文本识别结果。6.根据权利要求5所述的方法，其特征在于，所述对所述人机交互界面中的图标进行图
标语义识别，得到图标语义识别结果，包括：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；从所述控件树中获取第二控件的第二控件坐标，所述第二控件用于承载图标；基于所述第二控件坐标，对所述人机交互界面中的图标进行图标语义识别，得到所述图标语义识别结果。7.根据权利要求5所述的方法，其特征在于，所述对所述人机交互界面中的图像进行图像语义识别，得到图像语义识别结果，包括：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；从所述控件树中获取第三控件的第三控件坐标，所述第三控件用于承载包含图像的界面显示元素；基于所述第三控件坐标，对所述人机交互界面中的图像进行图像语义识别，得到所述图像语义识别结果。8.根据权利要求1所述的方法，其特征在于，所述语音识别模型由声学子模型和语言子模型构成；所述在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本，包括：在接收到所述语音指令的情况下，通过所述声学子模型对所述语音指令进行声学处理，得到声学表征序列，所述声学表征序列用于表征所述语音指令的声学特征；基于所述在线语料库，通过所述语言子模型对所述声学表征特征进行文本转换，得到所述语音识别文本。9.根据权利要求8所述的方法，其特征在于，所述基于所述在线语料库，通过所述语言子模型对所述声学表征特征进行文本转换，得到所述语音识别文本，包括：基于所述声学表征特征，通过所述语言子模型构建字符路径图，所述字符路径图由候选字符节点以及所述候选字符节点之间的路径构成，所述候选字符节点对应的候选声学表征特征与所述声学表征特征匹配，且所述候选字符节点之间的路径对应有初始字符连接概率，所述初始字符连接概率基于离线语料库确定得到，所述语言子模型基于所述离线语料库训练得到；基于所述在线语料库中的在线语料，更新所述字符路径图中路径对应的所述初始字符连接概率，其中，更新后所述字符路径图中所述在线语料所包含字符之间的路径对应的字符连接概率为最大值；基于更新后的所述字符路径图确定所述语音识别文本。10.根据权利要求1所述的方法，其特征在于，所述对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果之后，所述方法还包括：对所述文本识别结果与所述界面显示元素进行关联存储；所述基于所述语音识别文本进行人机交互，包括：在所述语音识别文本中包含目标文本识别结果的情况下，基于所述目标文本识别结果确定目标界面显示元素；
基于所述语音识别文本所指示的交互方式，对所述目标界面显示元素进行人机交互。11.根据权利要求1所述的方法，其特征在于，所述对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果，包括：基于设备处理性能从候选文本识别方式中确定目标文本识别方式，和/或，基于人机交互场景从候选文本识别方式中确定目标文本识别方式；基于所述目标文本识别方式对所述人机交互界面中的所述界面显示元素进行文本识别，得到所述文本识别结果。12.根据权利要求11所述的方法，其特征在于，所述目标文本识别方式的处理性能需求与所述设备处理性能呈现正相关关系；所述目标文本识别方式的种类数量与所述人机交互场景的交互准确率需求呈正相关关系。13.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述人机交互界面发生更新的情况下，对更新后所述人机交互界面中的界面显示元素进行文本识别，得到更新后的文本识别结果；基于更新后所述文本识别结果更新所述在线语料库。14.一种语音交互装置，其特征在于，所述装置包括：文本识别模块，用于对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果；构建模块，用于基于所述文本识别结果构建在线语料库；文本转换模块，用于在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本；人机交互模块，用于基于所述语音识别文本进行人机交互。15.根据权利要求14所述的装置，其特征在于，所述文本识别模块，包括：显性文本识别单元，用于对所述人机交互界面中的所述界面显示元素进行显性文本识别，得到显性文本识别结果，所述显性文本识别结果在所述人机交互界面中可见；隐性文本识别单元，用于对所述人机交互界面中的所述界面显示元素进行隐性文本识别，得到隐性文本识别结果，所述隐性文本识别结果在所述人机交互界面中不可见。16.根据权利要求15所述的装置，其特征在于，所述显性文本识别单元，用于：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；遍历所述控件树中的各个控件，从所述控件对应的控件信息中提取显性文本属性，得到所述显性文本识别结果；对所述人机交互界面中的所述界面显示元素进行光学字符识别，得到字符识别结果；将所述字符识别结果确定为所述显性文本识别结果。17.根据权利要求16所述的装置，其特征在于，所述显性文本识别单元，用于：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；确定所述控件树中的第一控件，所述第一控件用于承载包含文本内容的界面显示元素；基于所述第一控件的第一控件坐标，对所述人机交互界面中所述第一控件承载的界面
显示元素进行光学字符识别，得到所述字符识别结果。18.根据权利要求15所述的装置，其特征在于，所述隐性文本识别单元，用于：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；遍历所述控件树中的各个控件，从所述控件对应的控件信息中提取隐藏文本属性，得到所述隐性文本识别结果；对所述人机交互界面中的图标进行图标语义识别，得到图标语义识别结果，所述图标语义识别结果用于表征图标的用途；将所述图标语义识别结果确定为所述隐性文本识别结果；对所述人机交互界面中的图像进行图像语义识别，得到图像语义识别结果，所述图像语义识别结果用于描述图像包含的图像内容；将所述图像语义识别结果确定为所述隐性文本识别结果。19.根据权利要求18所述的装置，其特征在于，所述隐性文本识别单元，用于：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；从所述控件树中获取第二控件的第二控件坐标，所述第二控件用于承载图标；基于所述第二控件坐标，对所述人机交互界面中的图标进行图标语义识别，得到所述图标语义识别结果。20.根据权利要求18所述的装置，其特征在于，所述隐性文本识别单元，用于：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的控件构成，所述控件用于承载所述界面显示元素；从所述控件树中获取第三控件的第三控件坐标，所述第三控件用于承载包含图像的界面显示元素；基于所述第三控件坐标，对所述人机交互界面中的图像进行图像语义识别，得到所述图像语义识别结果。21.根据权利要求14所述的装置，其特征在于，所述语音识别模型由声学子模型和语言子模型构成；所述文本转换模块，用于：在接收到所述语音指令的情况下，通过所述声学子模型对所述语音指令进行声学处理，得到声学表征序列，所述声学表征序列用于表征所述语音指令的声学特征；基于所述在线语料库，通过所述语言子模型对所述声学表征特征进行文本转换，得到所述语音识别文本。22.根据权利要求21所述的装置，其特征在于，所述文本转换模块，用于：基于所述声学表征特征，通过所述语言子模型构建字符路径图，所述字符路径图由候选字符节点以及所述候选字符节点之间的路径构成，所述候选字符节点对应的候选声学表征特征与所述声学表征特征匹配，且所述候选字符节点之间的路径对应有初始字符连接概率，所述初始字符连接概率基于离线语料库确定得到，所述语言子模型基于所述离线语料库训练得到；基于所述在线语料库中的在线语料，更新所述字符路径图中路径对应的所述初始字符连接概率，其中，更新后所述字符路径图中所述在线语料所包含字符之间的路径对应的字
符连接概率为最大值；基于更新后的所述字符路径图确定所述语音识别文本。23.根据权利要求14所述的装置，其特征在于，所述装置还包括：关联存储模块，用于对所述文本识别结果与所述界面显示元素进行关联存储；所述人机交互模块，用于：在所述语音识别文本中包含目标文本识别结果的情况下，基于所述目标文本识别结果确定目标界面显示元素；基于所述语音识别文本所指示的交互方式，对所述目标界面显示元素进行人机交互。24.根据权利要求14所述的装置，其特征在于，所述目标文本识别方式的处理性能需求与所述设备处理性能呈现正相关关系；所述目标文本识别方式的种类数量与所述人机交互场景的交互准确率需求呈正相关关系。25.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至13任一所述的语音交互方法。26.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至13任一所述的语音交互方法。27.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至13任一所述的语音交互方法。

技术总结
本申请实施例公开了一种语音交互方法、装置、终端、存储介质及程序产品，属于人机交互领域。该方法包括：对人机交互界面中的界面显示元素进行文本识别，得到文本识别结果；基于所述文本识别结果构建在线语料库；在接收到语音指令的情况下，基于所述在线语料库以及语音识别模型对所述语音指令进行文本转换，得到语音识别文本；基于所述语音识别文本进行人机交互。采用本申请实施例提供的方案，能够基于当前界面显示元素构建在线语料库，并基于在线语料库对用户语音指令进行识别，有助于提高语音识别的准确性。识别的准确性。识别的准确性。

技术研发人员：陈科鑫张晓帆
受保护的技术使用者：OPPO广东移动通信有限公司
技术研发日：2022.08.30
技术公布日：2022/11/29

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种燃料电池消音装置及燃料电池系统的制作方法

语音交互方法、装置、终端、存储介质及程序产品与流程

相关文献

最热文献