任务驱动型多轮对话系统中的状态追踪方法及装置与流程

2021-11-03 13:02:00 来源：中国专利 TAG：

技术特征：
1.一种任务驱动型多轮对话系统中的状态追踪方法，其特征在于，包括：在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息。2.根据权利要求1所述的方法，其特征在于，每个位置上的建模单元对应多种不同类型的特征；所述获得目标文本信息中多个位置上的建模单元分别对应的特征向量，包括：将同一建模单元对应的多种不同类型的特征进行相加，得到对应建模单元的特征信息。3.根据权利要求2所述的方法，其特征在于，所述多种不同类型的特征包括：位置特征、分段特征以及词义标签特征；所述位置特征为所述建模单元在所述目标文本信息中所在的位置序列信息，所述分段特征为所述建模单元是否属于当前轮次或历史轮次，所述词义标签特征为所述建模单元是否属于实体词。4.根据权利要求3所述的方法，其特征在于，所述将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，包括：按照时间的先后顺序将多个轮次对应的输入文本信息进行拼接，并在不同轮次对应输入文本信息之间以及第一轮次对应的输入文本信息的句首、当前轮次对应的输入文本信息的句尾分别插入标识符，以用于提取所述建模单元的分段特征。5.根据权利要求4所述的方法，其特征在于，所述深度学习模型包括编码器、第一分类器以及第二分类器，其中，所述编码器用于对所述多个建模单元对应的特征向量进行编码，以获得所述上下文信息，并将所述句首插入的标识符对应的隐藏层状态信息输入到第一分类器中，以用于预测当前时刻对话状态的领域信息，将其他建模单元对应的隐藏层状态信息输入到第二分类器中，以用于预测当前时刻对话状态的语义槽以及槽值，以及对是否继承历史轮次对应的对话状态信息进行判断。6.一种建立深度学习模型的方法，其特征在于，包括：获得训练样本集，所述训练样本集中包括多条文本信息以及对应的标注信息，其中，所述文本信息是通过将多轮对话中的文本信息进行拼接并插入标识符获得的，所述标注信息包括所述文本信息多个位置上的建模单元对应的领域或语义槽信息；通过将所述多条文本信息输入到深度学习模型中进行多次迭代，直到算法收敛后完成对所述深度学习模型的训练；其中，在每次迭代过程中，根据深度学习模型的输出结果与所述标注信息之间的差异，对所述深度学习模型多个层的权重进行调整。7.根据权利要求6所述的方法，其特征在于，还包括：在对所述深度学习模型进行训练之前，通过自监督的预训练，确定所述深度学习模型
中多个层的权重初始值。8.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：客户端接收当前轮次的输入信息，并将所述输入信息提交到服务端，以便所述服务端确定当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息，通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息，以用于提供给对话决策模块，生成当前轮次的响应信息；接收所述服务端返回的针对当前轮次的响应信息并输出。9.根据权利要求8所述的方法，其特征在于，所述当前轮次的输入信息包括语音信息，所述服务端在确定所述当前轮次对应的文本信息时，通过语音识别的方式将所述语音信息转换为文本信息；在生成所述响应信息后，将响应信息转换成自然语言以便通过客户端进行语音播放。10.根据权利要求9所述的方法，其特征在于，所述客户端包括终端设备中运行的音乐服务类应用程序的客户端。11.根据权利要求9所述的方法，其特征在于，所述客户端包括智能音箱设备关联的客户端。12.根据权利要求8所述的方法，其特征在于，所述当前轮次的输入信息包括文本信息。13.根据权利要求12所述的方法，其特征在于，所述客户端包括商品对象信息服务类应用程序中的客户服务模块。14.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：服务端接收客户端提交的当前轮次的输入信息；确定当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息，以用于提供给对话决策模块，生成当前轮次的响应信息；将所述响应信息返回给所述客户端。15.一种音视频语音搜索方法，其特征在于，包括：通过多轮语音对话的方式接收音视频搜索请求；在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确
定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息；根据所述当前时刻的对话状态信息生成对话策略，以返回对应当前轮次语音输入的语音响应信息，以及对应的音视频搜索结果。16.一种提供商品对象信息的方法，其特征在于，包括：通过多轮语音对话的方式接收获取商品对象信息的请求；在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息；根据所述当前时刻的对话状态信息生成对话策略，以返回对应当前轮次语音输入的语音导购信息，以及对应的商品对象信息。17.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：智能通话系统接收当前轮次的语音信息；将所述语音信息转换为文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；将所述当前时刻的对话状态信息，提供给对话决策模块，生成当前轮次的响应信息；将所述响应信息转换为自然语言，并进行语音播报。18.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：第一设备接收第二设备输入的当前轮次的输入信息；确定所述当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；将所述当前时刻的对话状态信息，提供给对话决策模块，生成当前轮次的响应信息，并将所述响应信息提供给所述第二设备。19.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：自助售票机设备接收当前轮次的语音信息；将所述语音信息转换为文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；
通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；将所述当前时刻的对话状态信息，提供给对话决策模块，生成当前轮次的响应信息；将所述响应信息转换为自然语言，并进行语音播报。20.一种终端设备升级方法，其特征在于，包括：向终端设备提供升级建议信息；接收到终端设备提交的升级请求后，为所述终端设备赋予通过深度学习模型进行多轮对话过程中状态追踪的权限；其中，所述深度学习模型用于通过将目标文本信息中多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，以及确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息；所述目标文本信息是通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接获得的。21.根据权利要求20所述的方法，其特征在于，还包括：根据所述终端设备提交的降级请求，为所述终端设备关闭所述通过深度学习模型进行多轮对话过程中状态追踪的权限。22.一种任务驱动型多轮对话系统中的状态追踪装置，其特征在于，包括：文本拼接单元，用于在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；特征提取单元，用于通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；输入单元，用于将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息。23.一种建立深度学习模型的装置，其特征在于，包括：训练样本获得单元，用于获得训练样本集，所述训练样本集中包括多条文本信息以及对应的标注信息，其中，所述文本信息是通过将多轮对话中的文本信息进行拼接并插入标识符获得的，所述标注信息包括所述文本信息多个位置上的建模单元对应的领域或语义槽信息；训练单元，用于通过将所述多条文本信息输入到深度学习模型中进行多次迭代，直到算法收敛后完成对所述深度学习模型的训练；其中，在每次迭代过程中，根据深度学习模型的输出结果与所述标注信息之间的差异，对所述深度学习模型多个层的权重进行调整。24.一种任务驱动型多轮对话系统中的信息处理装置，其特征在于，应用于客户端，包括：输入信息接收单元，用于接收当前轮次的输入信息，并将所述输入信息提交到服务端，
以便所述服务端确定当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息，通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息，以用于提供给对话决策模块，生成当前轮次的响应信息；响应输出单元，用于接收所述服务端返回的针对当前轮次的响应信息并输出。25.一种任务驱动型多轮对话系统中的信息处理装置，其特征在于，应用于服务端，包括：输入信息接收单元，用于接收客户端提交的当前轮次的输入信息；文本拼接单元，用于确定当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；特征提取单元，用于通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；对话状态信息确定单元，用于将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息，以用于提供给对话决策模块，生成当前轮次的响应信息；响应信息返回单元，用于将所述响应信息返回给所述客户端。26.一种音视频语音搜索装置，其特征在于，包括：搜索请求接收单元，用于通过多轮语音对话的方式接收音视频搜索请求；文本拼接单元，用于在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；特征提取单元，用于通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；对话状态信息确定单元，用于将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息；对话策略生成单元，用于根据所述当前时刻的对话状态信息生成对话策略，以返回对应当前轮次语音输入的语音响应信息，以及对应的音视频搜索结果。27.一种提供商品对象信息的装置，其特征在于，包括：请求接收单元，用于通过多轮语音对话的方式接收获取商品对象信息的请求；文本拼接单元，用于在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；特征提取单元，用于通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；对话状态信息确定单元，用于将所述多个位置上的建模单元分别对应的特征向量输入
到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息；对话策略生成单元，用于根据所述当前时刻的对话状态信息生成对话策略，以返回对应当前轮次语音输入的语音导购信息，以及对应的商品对象信息。28.一种任务驱动型多轮对话系统中的信息处理装置，其特征在于，应用于智能通话系统，包括：语音信息接收单元，用于接收当前轮次的语音信息；文本处理单元，用于将所述语音信息转换为文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；特征提取单元，用于通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；对话状态信息确定单元，用于将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；响应信息生成单元，用于将所述当前时刻的对话状态信息提供给对话决策模块，生成当前轮次的响应信息；响应信息转换单元，用于将所述响应信息转换为自然语言，并进行语音播报。29.一种任务驱动型多轮对话系统中的信息处理装置，其特征在于，应用于第一设备，包括：输入信息接收单元，用于接收第二设备输入的当前轮次的输入信息；文本处理单元，用于确定所述当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；特征提取单元，用于通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；对话状态信息确定单元，用于将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；响应信息生成单元，用于将所述当前时刻的对话状态信息，提供给对话决策模块，生成当前轮次的响应信息，并将所述响应信息提供给所述第二设备。30.一种任务驱动型多轮对话系统中的信息处理装置，其特征在于，应用于自助售票机设备，包括：语音接收单元，用于接收当前轮次的语音信息；语音识别单元，用于将所述语音信息转换为文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；特征提取单元，用于通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；对话状态信息确定单元，用于将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；响应信息生成单元，用于将所述当前时刻的对话状态信息，提供给对话决策模块，生成
当前轮次的响应信息；响应信息输出单元，用于将所述响应信息转换为自然语言，并进行语音播报。31.一种终端设备升级装置，其特征在于，包括：建议信息提供单元，用于向终端设备提供升级建议信息；权限授予单元，用于接收到终端设备提交的升级请求后，为所述终端设备赋予通过深度学习模型进行多轮对话过程中状态追踪的权限；其中，所述深度学习模型用于通过将目标文本信息中多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，以及确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息；所述目标文本信息是通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接获得的。32.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至21任一项所述的方法的步骤。33.一种电子设备，其特征在于，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至21任一项所述的方法的步骤。

技术总结
本申请实施例公开了任务驱动型多轮对话系统中的状态追踪方法及装置，所述方法包括：在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，以获得当前时刻的对话状态信息。通过本申请实施例，能够更简单有效的实现任务驱动型多轮对话的状态追踪。动型多轮对话的状态追踪。动型多轮对话的状态追踪。

技术研发人员：陈谦
受保护的技术使用者：阿里巴巴集团控股有限公司
技术研发日：2020.04.30
技术公布日：2021/11/2

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于用户分群的物料推荐方法、装置、设备及存储介质与流程

任务驱动型多轮对话系统中的状态追踪方法及装置与流程

相关文献

最热文献