基于深层双向注意力的自动对话方法及系统与流程

2022-12-31 15:57:01 来源：中国专利 TAG：

技术特征：
1.一种基于深层双向注意力的自动对话方法，其特征在于，该方法具体如下：获取自动对话数据集：从网络上下载已经公开的自动对话数据集或自行构建自动对话数据集；构建自动对话模型：基于深层双向注意力构建自动对话模型；训练自动对话模型：在自动对话数据集上对自动对话模型进行训练。2.根据权利要求1所述的基于深层双向注意力的自动对话方法，其特征在于，构建自动对话模型具体如下：构建输入数据：针对自动对话数据集中的每一条数据，联接所有的历史对话语句，句子与句子中间用间隔符“[sep]”隔开，记为h；在多个响应中选择一个响应作为当前响应，形式化为r；根据该条响应是否为正确响应，确定该条数据的标签，即：若该条响应是正确响应，则记为1；否则，则记为0；其中，h、r和标签共同组成一条输入数据；嵌入处理：通过token层、segment层和position层对输入数据进行嵌入处理，并将三层的嵌入表示相加，从而得到历史对话嵌入表示和候选响应嵌入表示；深层双向注意力编码：使用多层编码结构对历史对话嵌入表示和候选响应嵌入表示进行纵向自筛特征编码操作和横向交互特征编码操作，从而得到历史对话纵向自筛特征表示n、候选响应纵向自筛特征表示n和深层横向交互特征表示，记为和特征压缩：使用一层全连接网络dense对深层横向交互特征表示进行映射处理，得到映射处理后的深层横向交互特征表示；再使用relu激活函数对映射处理后的深层横向交互特征表示进行映射处理，从而得到横向交互特征表示公式如下：对历史对话纵向自筛特征表示n、候选响应纵向自筛特征表示n和横向交互特征表示执行联接操作concat，从而得到双向特征表示公式如下：标签预测：将双向特征表示作为输入，经过一层维度为1、激活函数为sigmod的全连接网络处理，从而得到当前响应为正确响应的概率。3.根据权利要求2所述的基于深层双向注意力的自动对话方法，其特征在于，嵌入处理具体如下：通过token层将输入数据中的每个词均转换成固定维度的向量，得到token层的嵌入表示；通过segment层区分历史对话序列中的不同句子，得到segment层的嵌入表示；通过position层识别输入数据中每个词所在的位置，得到position层的嵌入表示；将token层的嵌入表示、segment层的嵌入表示和position层的嵌入表示相加，得到历史对话嵌入表示和候选响应嵌入表示公式如下：公式如下：
其中，h表示历史对话序列；r表示候选响应序列；token_emb()表示token层嵌入操作；segment_emb()表示segment层嵌入操作；position_emb()表示position层嵌入操作。4.根据权利要求2所述的基于深层双向注意力的自动对话方法，其特征在于，深层双向注意力编码具体如下：第一层编码结构encoder1分别对历史对话嵌入表示和候选响应嵌入表示进行编码操作，以得到历史对话编码表示1和候选响应编码表示1，记为和公式如下：公式如下：其中，表示历史对话嵌入表示，表示候选响应嵌入表示；encoder1表示第一层编码结构；对历史对话编码表示1和历史对话嵌入表示进行交叉注意力cross-attention计算，从而得到历史对话纵向自筛特征表示1，记为对候选响应编码表示1和候选响应嵌入表示进行交叉注意力cross-attention计算，从而得到候选响应纵向自筛特征表示1，记为同时，对历史对话编码表示1和候选响应编码表示1进行联接操作，再使用自注意力self-attention机制完成两者的交互处理，从而得到横向交互特征表示1，记为公式如下：公式如下：公式如下：其中，表示历史对话编码表示1；表示历史对话嵌入表示；表示候选响应编码表示1；表示候选响应嵌入表示；第二层编码结构encoder2分别对历史对话纵向自筛特征表示1和候选响应纵向自筛特征表示1进行编码操作，以得到历史对话编码表示2和候选响应编码表示2，记为和公式如下：式如下：其中，表示历史对话纵向自筛特征表示1；表示候选响应纵向自筛特征表示1；encoder2表示第二层编码结构；对历史对话编码表示2和历史对话纵向自筛特征表示1进行交叉注意力cross-attention计算，从而得到历史对话纵向自筛特征表示2，记为对候选响应编码表示2和候选响应纵向自筛特征表示1进行交叉注意力cross-attention计算，从而得到候选响应纵
向自筛特征表示2，记为同时，对历史对话编码表示2和候选响应编码表示2进行联接操作，然后使用self-attention机制完成两者的交互处理，从而得到横向交互特征表示2，记为公式如下：公式如下：公式如下：其中，表示历史对话编码表示2；表示历史对话纵向自筛特征表示1；表示候选响应编码表示2；表示候选响应纵向自筛特征表示1；第三层编码结构encoder3分别对历史对话纵向自筛特征表示2和候选响应纵向自筛特征表示2进行编码操作；以此类推，进行多次反复编码；根据自动对话模型预设的层次深度，直到生成最终的历史对话纵向自筛特征表示n、候选响应纵向自筛特征表示n和横向交互特征表示n；对于第n层编码结构encoder
n
，其分别对历史对话纵向自筛特征表示n-1和候选响应纵向自筛特征表示n-1进行编码操作，以得到历史对话编码表示n和候选响应编码表示n，记为和公式如下：公式如下：其中，表示历史对话纵向自筛特征表示n-1；表示候选响应纵向自筛特征表示n-1；encoder
n
表示第n层编码结构；对历史对话编码表示n和历史对话纵向自筛特征表示n-1进行交叉注意力cross-attention计算，从而得到历史对话纵向自筛特征表示n，记为对候选响应编码表示n和候选响应纵向自筛特征表示n-1进行交叉注意力cross-attention计算，从而得到候选响应纵向自筛特征表示n，记为同时，对历史对话编码表示n和候选响应编码表示n进行联接操作，再使用自注意力self-attention机制完成两者的交互处理，从而得到横向交互特征表示n，记为公式如下：公式如下：公式如下：其中，表示历史对话编码表示n；表示历史对话纵向自筛特征表示n-1；表示候选响应编码表示n；表示候选响应纵向自筛特征表示n-1；
联接横向交互特征表示1、横向交互特征表示2、
……
、横向交互特征表示n，从而获得深层横向交互特征表示，记为公式如下：其中，和分别表示横向交互特征表示1、横向交互特征表示2和横向交互特征表示n。5.根据权利要求1所述的基于深层双向注意力的自动对话方法，其特征在于，训练自动对话模型具体如下：构建损失函数：采用交叉熵作为损失函数，公式如下：其中，y
true
为真实的标签；y
pred
为模型输出的正确概率；构建优化函数：经过对多种优化函数进行测试，最终选择使用adamw优化函数作为优化函数，除了其学习率设置为2e-5外，adamw的其他超参数均选择pytorch中的默认值设置；当自动对话模型尚未进行训练时，需要对自动对话模型进行训练，以优化模型的参数；当自动对话模型训练完毕时，通过标签预测模块预测候选响应中的哪一个是正确响应。6.一种基于深层双向注意力的自动对话系统，其特征在于，该系统包括，自动问答数据集获取单元，用于从网络上下载已经公开的自动对话数据集或自行构建自动对话数据集；自动问答模型构建单元，用于基于深层双向注意力构建自动对话模型；自动问答模型训练单元，用于在自动对话数据集上对自动对话模型进行训练，完成候选响应的预测。7.根据权利要求6所述的基于深层双向注意力的自动对话系统，其特征在于，所述自动问答模型构建单元包括输入数据构建模块、嵌入处理模块、深层双向注意力编码模块、特征压缩模块及标签预测模块；输入数据构建模块用于预处理原始数据集，从而构建输入数据；嵌入处理模块用于通过token层、segment层和position层对输入数据进行嵌入处理，并将token层嵌入表示、segment层嵌入表示和position层嵌入表示相加，从而得到历史对话嵌入表示和候选响应嵌入表示；深层双向注意力编码模块用于接收嵌入处理模块输出的历史对话嵌入表示和候选响应嵌入表示，再使用多层编码结构对历史对话嵌入表示和候选响应嵌入表示依次进行纵向自筛特征编码操作和横向交互特征编码操作，从而得到历史对话纵向自筛特征表示n、候选响应纵向自筛特征表示n和深层横向交互特征表示；特征压缩模块用于对深层横向交互特征表示进行全连接映射处理、relu映射处理，并将映射结果与历史对话纵向自筛特征表示n和候选响应纵向自筛特征表示n进行联接处理，从而得到双向特征表示；标签预测模块用于基于双向特征表示预测当前响应为正确响应的概率；所述自动问答模型训练单元包括损失函数构建模块和优化函数构建模块；
其中，损失函数构建模块用于使用交叉熵损失函数计算预测结果与真实标签的误差；优化函数构建模块用于训练并调整模型中的待训练参数，减小预测误差。8.根据权利要求7所述的基于深层双向注意力的自动对话系统，其特征在于，所述深层双向注意力编码模块实现方式具体如下：第一层编码结构encoder1分别对历史对话嵌入表示和候选响应嵌入表示进行编码操作，以得到历史对话编码表示1和候选响应编码表示1，记为和公式如下：公式如下：其中，表示历史对话嵌入表示，表示候选响应嵌入表示；encoder1表示第一层编码结构；对历史对话编码表示1和历史对话嵌入表示进行交叉注意力cross-attention计算，从而得到历史对话纵向自筛特征表示1，记为对候选响应编码表示1和候选响应嵌入表示进行交叉注意力cross-attention计算，从而得到候选响应纵向自筛特征表示1，记为同时，对历史对话编码表示1和候选响应编码表示1进行联接操作，再使用自注意力self-attention机制完成两者的交互处理，从而得到横向交互特征表示1，记为公式如下：公式如下：公式如下：其中，表示历史对话编码表示1；表示历史对话嵌入表示；表示候选响应编码表示1；表示候选响应嵌入表示；第二层编码结构encoder2分别对历史对话纵向自筛特征表示1和候选响应纵向自筛特征表示1进行编码操作，以得到历史对话编码表示2和候选响应编码表示2，记为和公式如下：式如下：其中，表示历史对话纵向自筛特征表示1；表示候选响应纵向自筛特征表示1；encoder2表示第二层编码结构；对历史对话编码表示2和历史对话纵向自筛特征表示1进行交叉注意力cross-attention计算，从而得到历史对话纵向自筛特征表示2，记为对候选响应编码表示2和候选响应纵向自筛特征表示1进行交叉注意力cross-attention计算，从而得到候选响应纵
向自筛特征表示2，记为同时，对历史对话编码表示2和候选响应编码表示2进行联接操作，然后使用self-attention机制完成两者的交互处理，从而得到横向交互特征表示2，记为公式如下：公式如下：公式如下：其中，表示历史对话编码表示2；表示历史对话纵向自筛特征表示1；表示候选响应编码表示2；表示候选响应纵向自筛特征表示1；第三层编码结构encoder3分别对历史对话纵向自筛特征表示2和候选响应纵向自筛特征表示2进行编码操作；以此类推，进行多次反复编码；根据自动对话模型预设的层次深度，直到生成最终的历史对话纵向自筛特征表示n、候选响应纵向自筛特征表示n和横向交互特征表示n；对于第n层编码结构encoder
n
，其分别对历史对话纵向自筛特征表示n-1和候选响应纵向自筛特征表示n-1进行编码操作，以得到历史对话编码表示n和候选响应编码表示n，记为和公式如下：公式如下：其中，表示历史对话纵向自筛特征表示n-1；表示候选响应纵向自筛特征表示n-1；encoder
n
表示第n层编码结构；对历史对话编码表示n和历史对话纵向自筛特征表示n-1进行交叉注意力cross-attention计算，从而得到历史对话纵向自筛特征表示n，记为对候选响应编码表示n和候选响应纵向自筛特征表示n-1进行交叉注意力cross-attention计算，从而得到候选响应纵向自筛特征表示n，记为同时，对历史对话编码表示n和候选响应编码表示n进行联接操作，再使用自注意力self-attention机制完成两者的交互处理，从而得到横向交互特征表示n，记为公式如下：公式如下：公式如下：其中，表示历史对话编码表示n；表示历史对话纵向自筛特征表示n-1；表示候选响应编码表示n；表示候选响应纵向自筛特征表示n-1；
联接横向交互特征表示1、横向交互特征表示2、
……
、横向交互特征表示n，从而获得深层横向交互特征表示，记为公式如下：其中，和分别表示横向交互特征表示1、横向交互特征表示2和横向交互特征表示n。9.一种电子设备，其特征在于，包括：存储器和至少一个处理器；其中，所述存储器上存储有计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如权利要求1至5任一项所述的基于深层双向注意力的自动对话方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如权利要求1至5中任一项所述的基于深层双向注意力的自动对话方法。

技术总结
本发明公开了基于深层双向注意力的自动对话方法及系统，属于自然语言处理及人工智能技术领域，本发明要解决的技术问题为如何缓解语义编码过程中的信息丢失问题以及如何增强历史对话与候选响应之间的语义交互作用，从而提高自动对话的预测准确性，采用的技术方案为：该方法获取自动对话数据集：从网络上下载已经公开的自动对话数据集或自行构建自动对话数据集；构建自动对话模型：基于深层双向注意力构建自动对话模型；训练自动对话模型：在自动对话数据集上对自动对话模型进行训练。自动对话数据集上对自动对话模型进行训练。自动对话数据集上对自动对话模型进行训练。

技术研发人员：李东峰董万龙
受保护的技术使用者：李东峰
技术研发日：2022.09.28
技术公布日：2022/12/30

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：植绒拉刀的植绒区域智能优化方法及拉刀参数化建模方法

基于深层双向注意力的自动对话方法及系统与流程

相关文献

最热文献