数据处理方法、装置、电子设备及存储介质与流程

2022-11-22 06:13:52 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术：

2.在对话系统领域内，对多轮对话中的用户请求进行精准理解是学术界和产业界都广泛关注的重要话题。真实用户往往会在多轮对话中省略某些之前已经提到的信息，或者使用指代词去替代之前请求中的实体，这些多轮对话中的省略以及指代现象给用户请求理解带来了很大的困难。
3.现有技术均使用序列到序列生成方式进行用户请求改写。通过将对话历史按顺序输入编码器，将待改写的用户请求放在最后输入模型，然后由解码器生成信息补全后的完整用户请求。而在生成完整用户请求的过程中，生成模型需要从超大词表中选择出正确的词语并组成通顺的句子，搜索空间极大，导致上述方法难以适应线上业务系统对于耗时和存储空间占用的要求；其次，在对话系统中由于用户请求具备很强的目的性，在改写过程中细微的错漏之处往往会造成意图识别错误，上述方案中由于生成方向不可控、搜索空间极大，可能会使得所生成的用户请求存在错漏，从而使得对话系统中的语义理解模块无法获取真实用户意图。

技术实现要素：

4.有鉴于上述存在的技术问题，本公开提出了一种数据处理方法、装置、电子设备及存储介质。
5.根据本公开实施例的一方面，提供一种数据处理方法，包括：
6.获取历史对话信息和当前请求信息；
7.对所述历史对话信息和所述当前请求信息进行分词处理，得到所述历史对话信息对应的至少一个第一分词和所述当前请求信息对应的至少一个第二分词；
8.基于所述至少一个第一分词对所述至少一个第二分词进行改写分析，得到目标改写信息，所述目标改写信息包括任一所述第二分词对应的删除指示信息、任一所述第二分词对应的起始插入指示信息和任一所述第二分词对应的结束插入指示信息，所述起始插入指示信息表征所述至少一个第一分词中插入任一所述第二分词之前的起始分词；所述结束插入指示信息表征所述至少一个第一分词中插入任一所述第二分词之前的结束分词；
9.基于所述删除指示信息、所述起始插入指示信息和所述结束插入指示信息，对所述当前请求信息进行改写处理，得到所述当前请求信息对应的目标请求信息。
10.根据本公开实施例的另一方面，提供一种数据处理装置，包括：
11.信息获取模块，用于获取历史对话信息和当前请求信息；
12.分词处理模块，用于对所述历史对话信息和所述当前请求信息进行分词处理，得到所述历史对话信息对应的至少一个第一分词和所述当前请求信息对应的至少一个第二
分词；
13.改写分析模块，用于基于所述至少一个第一分词对所述至少一个第二分词进行改写分析，得到目标改写信息，所述目标改写信息包括任一所述第二分词对应的删除指示信息、任一所述第二分词对应的起始插入指示信息和任一所述第二分词对应的结束插入指示信息，所述起始插入指示信息表征所述至少一个第一分词中插入任一所述第二分词之前的起始分词；所述结束插入指示信息表征所述至少一个第一分词中插入任一所述第二分词之前的结束分词；
14.改写模块，用于基于所述删除指示信息、所述起始插入指示信息和所述结束插入指示信息，对所述当前请求信息进行改写处理，得到所述当前请求信息对应的目标请求信息。
15.根据本公开实施例的另一方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述数据处理方法。
16.根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述数据处理方法。
17.根据本公开实施例的另一方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述数据处理方法。
18.本公开的实施例提供的技术方案至少带来以下有益效果：
19.通过对历史对话信息和当前请求信息进行分词处理，得到历史对话信息对应的至少一个第一分词和当前请求信息对应的至少一个第二分词，基于至少一个第一分词对至少一个第二分词进行改写分析，得到包括删除指示信息、起始插入指示信息和结束插入指示信息的目标改写信息，进而可以直接从历史对话信息中确定对当前请求信息进行改写的分词，可以避免从超大词表中检索最合适的词语的过程，极大地缩小搜索空间，提高当前请求信息的改写效率，且结合可以指示是否执行删除操作的删除指示信息、可以表征至少一个第一分词中插入任一第二分词之前的起始分词的起始插入指示信息和可以表征至少一个第一分词中插入任一第二分词之前的结束分词的结束插入指示信息对当前请求信息进行改写处理，可以在基于增删改等简单操作，大大提升改写的便利性和操作效率的基础上，可以保证改写过程忠实于对话历史，极大地降低出现错改漏改的可能性，进而提高目标请求信息所表示的用户意图的准确度。
20.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
22.图1是根据一示例性实施例示出的一种应用系统的示意图；
23.图2是根据一示例性实施例示出的一种数据处理方法的流程图；
24.图3是根据一示例性实施例示出的一种基于至少一个第一分词对至少一个第二分词进行改写分析，得到目标改写信息的方法流程图；
25.图4是根据一示例性实施例示出的一种将至少一个第一分词和至少一个第二分词输入至预设请求改写模型进行改写预测处理，得到删除指示信息、任一第二分词对应的目标起始统计信息和任一第二分词对应的目标结束统计信息的方法流程图；
26.图5是根据一示例性实施例示出的一种基于目标起始统计信息和目标结束统计信息，确定起始插入指示信息和结束插入指示信息的方法流程图；
27.图6是根据一示例性实施例示出的一种训练预设请求改写模型的方法流程图；
28.图7是根据一示例性实施例示出的一种基于删除指示信息、起始插入指示信息和结束插入指示信息，对当前请求信息进行改写处理，得到当前请求信息对应的目标请求信息的方法流程图；
29.图8是根据一示例性实施例示出的一种预设请求改写模型的输入及输出示意图；
30.图9是根据一示例性实施例示出的一种预设请求改写模型的示意图；
31.图10是根据一示例性实施例示出的一种数据处理装置的框图；
32.图11是根据一示例性实施例示出的一种用于改写当前请求信息的电子设备的框图；
33.图12是根据一示例性实施例示出的另一种用于改写当前请求信息的电子设备的框图。
具体实施方式
34.以下将参考附图详细说明本技术的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。
35.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
36.另外，为了更好的说明本技术，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本技术同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本技术的主旨。
37.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
38.近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本技术实施例提供的方案涉及机器学习/深度学习等技术，具体通过如下实施例进行说明：
39.请参阅图1，图1是根据一示例性实施例示出的一种应用系统的示意图。所述应用系统可以用于本技术的数据处理方法。如图1所示，该应用系统至少可以包括服务器01和终端02。
40.本技术实施例中，服务器01可以为对话平台的服务器。具体地，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
41.本技术实施例中，终端02可以为生成当前请求信息的用户终端。上述用户终端可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、车载终端、数字助理、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本技术实施例中上述用户终端上运行的操作系统可以包括但不限于安卓系统、ios系统、linux、windows等。
42.此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境，例如对话平台也可以在终端02上实现。
43.本说明书实施例中，上述终端02以及服务器01可以通过有线或无线通信方式进行直接或间接地连接，本技术对此不作限定。
44.需要说明的是，以下图中示出的是一种可能的步骤顺序，实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。
45.具体地，图2是根据一示例性实施例示出的一种数据处理方法的流程图。如图2所示，该数据处理方法用于终端或服务器等电子设备中，包括以下步骤：
46.在步骤s201中，获取历史对话信息和当前请求信息。
47.在一个具体的实施例中，历史对话信息可以用于为当前请求信息的改写提供参考。历史对话信息可以包括在当前请求信息对应的时刻之前，目标请求对象与对话平台之间的对话信息。具体地，目标请求对象可以是编辑并生成当前请求信息的用户账号。当前请求信息可以是指当前待改写的请求信息。
48.在一个具体的实施例中，可以从上述服务器中的预设存储器获取上述历史对话信息。具体地，可以将对话过程中当前时刻之前的对话信息作为历史对话信息存储在服务器中的预设存储器内。上述当前请求信息可以是由终端生成和发送的。
49.在步骤s203中，对历史对话信息和当前请求信息进行分词处理，得到历史对话信息对应的至少一个第一分词和当前请求信息对应的至少一个第二分词。
50.在一个具体的实施例中，通过对历史对话信息进行分词处理，可以得到至少一个第一分词；对当前请求信息进行分词处理，可以得到至少一个第二分词。具体地，可以通过预先训练好的分词器，对历史对话信息和当前请求信息分别进行分词处理，得到历史对话信息对应的至少一个第一分词和当前请求信息对应的至少一个第二分词。
51.在步骤s205中，基于至少一个第一分词对至少一个第二分词进行改写分析，得到目标改写信息。
52.在一个具体的实施例中，目标改写信息可以包括任一第二分词对应的删除指示信息、任一第二分词对应的起始插入指示信息和任一第二分词对应的结束插入指示信息。删除指示信息可以用于指示是否执行删除操作。起始插入指示信息可以表征至少一个第一分词中插入任一第二分词之前的起始分词。起始分词可以是指被插入至任一第二分词之前的分词序列中位于序列首端的分词。起始插入指示信息可以为起始分词的标识信息或非插入操作对应的标识信息。结束插入指示信息可以表征至少一个第一分词中插入任一第二分词之前的结束分词。结束分词可以是指被插入至任一第二分词之前的分词序列中位于序列末端的分词。结束插入指示信息可以为结束分词的标识信息或非插入操作对应的标识信息。
53.在一个具体的实施例中，如图3所示，上述步骤s205可以包括：
54.s301.将至少一个第一分词和至少一个第二分词输入至预设请求改写模型进行改
写预测处理，得到删除指示信息、任一第二分词对应的目标起始统计信息和任一第二分词对应的目标结束统计信息。
55.s303.基于目标起始统计信息和目标结束统计信息，确定起始插入指示信息和结束插入指示信息。
56.在一个具体的实施例中，目标起始统计信息可以表征任一第一分词作为任一第二分词对应的起始分词的概率。目标起始统计信息可以包括非插入操作对应的起始执行概率和至少一个第一分词对应的起始插入概率；起始执行概率可以为在任一第二分词前不插入任一第一分词的概率；起始插入概率可以为至少一个第一分词作为任一第二分词前插入的起始分词的概率。
57.在一个具体的实施例中，目标结束统计信息可以表征任一第一分词作为任一第二分词对应的结束分词的概率。目标结束统计信息可以包括非插入操作对应的结束执行概率和至少一个第一分词对应的结束插入概率；结束执行概率可以为在任一第二分词前不插入任一第一分词的概率；结束插入概率可以为至少一个第一分词作为任一第二分词前插入的结束分词的概率。
58.在一个具体的实施例中，预设请求改写模型可以包括特征提取子模型和感知机映射子模型。
59.在一个具体的实施例中，如图4所示，上述步骤s301可以包括：
60.s401.将至少一个第一分词和至少一个第二分词输入至特征提取子模型进行特征提取处理，得到至少一个第一分词对应的第一语义特征信息和至少一个第二分词对应的第二语义特征信息。
61.在一个具体的实施例中，每个第一分词对应的第一语义特征信息可以表征该第一分词的语义。每个第二分词对应的第二语义特征信息可以表征该第二分词的语义。可选的，第一语义特征信息和第二语义特征信息可以是语义特征向量。
62.在一个具体的实施例中，可以通过预先对文本表征模型进行特征提取训练，得到上述特征提取子模型。可选的，上述文本表征模型可以是bert(bidirectional encoder representation from transformers，语言表征模型)模型。
63.s403.将第一语义特征信息和第二语义特征信息输入至感知机映射子模型进行映射处理，得到删除指示信息、目标起始统计信息和目标结束统计信息。
64.在一个具体的实施例中，上述感知机映射子模型可以包括三个不共享参数的多层感知机，分别为第一多层感知机、第二多层感知机和第三多层感知机。具体地，可以将第一语义特征信息和第二语义特征信息分别输入至上述三个多层感知机；通过将第一语义特征信息和第二语义特征信息输入至第一多层感知机进行分词删除学习，可以得到删除指示信息；通过将第一语义特征信息和第二语义特征信息输入至第二多层感知机进行起始插入分词学习，可以得到目标起始统计信息；通过将第一语义特征信息和第二语义特征信息输入至第三多层感知机进行结束插入分词学习，可以得到目标结束统计信息。
65.在一个具体的实施例中，如图5所示，上述步骤s303可以包括：
66.s501.在起始执行概率为目标起始统计信息中的非最大概率且结束执行概率为目标结束统计信息中的非最大概率的情况下，将任一第二分词对应的目标起始统计信息中最大概率对应的第一分词作为任一第二分词对应的起始分词；
67.s503.基于任一第二分词对应的起始分词，生成起始插入指示信息；
68.s505.将任一第二分词对应的目标结束统计信息中最大概率对应的第一分词作为任一第二分词对应的结束分词；
69.s507.基于任一第二分词对应的结束分词，生成结束插入指示信息。
70.在一个具体的实施例中，在起始执行概率为目标起始统计信息中的最大概率或结束执行概率为目标结束统计信息中的最大概率的情况下，可以确定该第二分词前不执行插入操作，该第二分词对应的起始插入指示信息可以为非插入操作的标识信息，相应的，该第二分词对应的结束插入指示信息可以为非插入操作的标识信息。
71.在一个具体的实施例中，如图6所示，上述方法还可以包括：
72.s601.获取样本历史对话信息、样本当前请求信息和样本请求信息。
73.在一个具体的实施例中，样本历史对话信息、样本当前请求信息和样本请求信息可以用于训练预设机器学习模型。样本当前请求信息可以是指与样本历史对话信息对应的待改写的请求信息。样本请求信息可以是指与样本当前请求信息对应的改写后的请求信息。
74.在一个具体的实施例中，可以预先构建训练样本数据集；训练样本数据集可以包括多组训练数据，每组训练数据可以包括样本历史对话信息、样本当前请求信息和样本请求信息。具体地，通过从训练样本数据集中获取训练数据，可以得到样本历史对话信息、样本当前请求信息和样本请求信息。
75.s603.对样本历史对话信息和样本当前请求信息进行分词处理，得到样本历史对话信息对应的至少一个第三分词和样本当前请求信息对应的至少一个第四分词。
76.在一个具体的实施例中，上述分词处理过程可以参照上述步骤s203，在此不再赘述。
77.s605.将至少一个第三分词和至少一个第四分词输入至预设机器学习模型进行改写预测处理，得到样本删除指示信息、任一第四分词对应的样本起始统计信息和任一第四分词对应的样本结束统计信息。
78.在一个具体的实施例中，样本起始统计信息可以表征任一第三分词作为任一第四分词对应的起始分词的概率。样本起始统计信息可以包括非插入操作对应的执行概率和至少一个第三分词对应的插入概率。样本结束统计信息可以表征任一第三分词作为任一第四分词对应的结束分词的概率。样本结束统计信息可以包括非插入操作对应的执行概率和至少一个第三分词对应的插入概率。
79.在一个具体的实施例中，上述改写预测处理过程可以参照上述步骤s401-s403，在此不再赘述。
80.s607.基于样本起始统计信息和样本结束统计信息，确定样本起始插入指示信息和样本结束插入指示信息。
81.在一个具体的实施例中，样本起始插入指示信息可以表征至少一个第三分词中插入任一第四分词之前的样本起始分词；具体的，样本起始分词可以是指被插入至任一第四分词之前的分词序列中位于序列首端的分词。样本结束插入指示信息可以表征至少一个第三分词中插入任一第四分词之前的样本结束分词。
82.在一个具体的实施例中，上述确定样本起始插入指示信息和样本结束插入指示信
息的过程可以参照上述步骤s501-s507，在此不再赘述。
83.s609.基于样本请求信息和样本当前请求信息，确定改写信息标签。
84.在一个具体的实施例中，上述改写信息标签可以包括删除指示信息标签、起始插入指示信息标签和结束插入指示信息标签。
85.在一个具体的实施例中，可以对样本请求信息和样本当前请求信息进行比对处理，得到改写信息标签。
86.s611.根据样本删除指示信息、样本起始插入指示信息、样本结束插入指示信息和改写信息标签，得到目标损失信息。
87.在一个具体的实施例中，目标损失信息可以用于作为调整预设机器学习模型中模型参数的参考信息。
88.在一个具体的实施例中，可以预先设定预设机器学习模型对应的三个损失函数，分别为第一损失函数、第二损失函数和第三损失函数。基于样本删除指示信息、删除指示信息标签和第一损失函数，可以得到第一损失信息；基于起始插入指示信息标签、样本起始插入指示信息和第二损失函数，可以得到第二损失信息；基于结束插入指示信息标签、样本结束插入指示信息和第三损失函数，可以得到第三损失信息；再对第一损失信息、第二损失信息和第三损失信息进行叠加处理，可以得到上述目标损失信息。
89.s613.基于目标损失信息训练预设机器学习模型，得到预设请求改写模型。
90.在一个具体的实施例中，基于目标损失信息，对预设机器学习模型进行更新，可以得到更新后的预设机器学习模型；基于更新后的预设机器学习模型，重复上述获取样本历史对话信息、样本当前请求信息和样本请求信息至基于目标损失信息，对预设机器学习模型进行更新，得到更新后的预设机器学习模型的模型更新步骤，直至满足预设收敛条件，可以将满足预设收敛条件的预设机器学习模型作为预设请求改写模型。可选的，上述预设收敛条件可以是目标损失信息小于预设损失阈值信息，或者还可以是，循环更新次数大于预设更新次数，在此不作限定。
91.在步骤s207中，基于删除指示信息、起始插入指示信息和结束插入指示信息，对当前请求信息进行改写处理，得到当前请求信息对应的目标请求信息。
92.在一个具体的实施例中，目标请求信息可以是指对当前请求信息进行改写后的请求信息。
93.在一个具体的实施例中，如图7所示，上述步骤s207可以包括：
94.s701.基于起始插入指示信息和结束插入指示信息，在当前请求信息中每个第二分词之前插入每个第二分词对应的目标分词，得到初始请求信息。
95.在一个具体的实施例中，目标分词可以为至少一个第一分词中每个第二分词对应的起始分词和每个第二分词对应的结束分词之间的分词。在实际应用中，在起始分词和结束分词为不同的第一分词的情况下，目标分词可以包括起始分词、结束分词和介于起始分词和结束分词之间的第一分词。在起始分词和结束分词为同一个第一分词的情况下，目标分词可以为起始分词，也可以是结束分词。
96.在一个具体的实施例中，基于起始插入指示信息和结束插入指示信息，可以确定每个第二分词对应的目标分词，相应的，可以在当前请求信息中每个第二分词之前插入该第二分词对应的目标分词，得到初始请求信息。具体地，在起始插入指示信息和结束插入指
示信息均不是非插入操作对应的标识信息的情况下，可以将每个第二分词对应的起始插入指示信息指示的起始分词和该第二分词对应的结束插入指示信息指示的结束分词之间的分词，作为目标分词，相应的，可以将目标分词插入至该第二分词之前的位置。在存在第二分词对应的起始插入指示信息和/或结束插入指示信息为非插入操作对应的标识信息的情况下，该第二分词对应的目标分词可以为空；可以理解的是，在目标分词为空的情况下，该第二分词之前不执行插入操作。
97.s703.基于删除指示信息，对初始请求信息中的至少一个第二分词进行删除处理，得到目标请求信息。
98.在一个具体的实施例中，上述步骤s703可以包括：
99.将至少一个第二分词中指示执行删除操作的删除指示信息对应的第二分词删除，得到目标请求信息。
100.在一个具体的实施例中，每个第二分词对应的删除指示信息可以为第一指示信息和第二指示信息。第一指示信息可以表征执行删除操作的指示；第二指示信息可以表征不执行删除操作的指示。在任一第二分词的指示信息为第一指示信息的情况下，可以通过对该第二分词执行删除操作，将该第二分词删除；在任一第二分词的指示信息为第二指示信息的情况下，可以将该第二分词保留。
101.在一个具体的实施例中，上述方法还可以包括：
102.基于目标请求信息进行领域识别处理，得到当前请求信息对应的目标领域信息；
103.基于目标请求信息进行意图识别处理，得到当前请求信息对应的目标意图信息。
104.在一个具体的实施例中，当前请求信息对应的目标领域信息可以表征当前请求信息所属的知识领域。
105.在一个具体的实施例中，可以通过将目标请求信息输入至预设领域识别模块进行领域识别处理，得到目标领域信息。
106.在一个具体的实施例中，当前请求信息对应的目标意图信息可以表征目标请求对象请求的意图。
107.在一个具体的实施例中，可以通过将目标请求信息输入至预设意图识别模块进行意图识别处理，得到目标意图信息。
108.在上述实施例中，通过对历史对话信息和当前请求信息进行分词处理，得到历史对话信息对应的至少一个第一分词和当前请求信息对应的至少一个第二分词，基于至少一个第一分词对至少一个第二分词进行改写分析，得到包括删除指示信息、起始插入指示信息和结束插入指示信息的目标改写信息，进而可以直接从历史对话信息中确定对当前请求信息进行改写的分词，可以避免从超大词表中检索最合适的词语的过程，极大地缩小搜索空间，提高当前请求信息的改写效率，且结合可以指示是否执行删除操作的删除指示信息、可以表征至少一个第一分词中插入任一第二分词之前的起始分词的起始插入指示信息和可以表征至少一个第一分词中插入任一第二分词之前的结束分词的结束插入指示信息对当前请求信息进行改写处理，可以在基于增删改等简单操作，大大提升改写的便利性和操作效率的基础上，可以保证改写过程忠实于对话历史，极大地降低出现错改漏改的可能性，进而提高目标请求信息所表示的用户意图准确度。
109.图8是根据一示例性实施例示出的预设请求改写模型的输入及输出示意图，图9是
根据一示例性实施例示出的预设请求改写模型的示意图。结合图8-图9所示，当前请求信息的改写过程如下：
110.结合图8所示，在对话历史包括“坐火车到s城要多久？”以及“坐什么车次呢？”的情况下，用户发出请求“坐a车次”，相应的，可以将“坐火车到s城要多久？坐什么车次呢？”作为历史对话信息，将“坐a车次”作为当前请求信息。通过对历史对话信息和当前请求信息进行分词处理，可以得到历史对话信息对应的多个第一分词和当前请求信息对应的多个第二分词。将上述多个第一分词和上述多个第二分词输入至如图9所示的预设请求改写模型，可以得到每个第二分词对应的删除指示信息、每个第二分词对应的目标起始统计信息和每个第二分词对应的目标结束统计信息。基于任一第二分词对应的目标起始统计信息和该第二分词对应的目标结束统计信息，可以得到该第二分词对应的起始插入指示信息和该第二分词对应的结束插入指示信息。
111.示例性地，如图8所示，第二分词“坐”对应的删除指示信息的标识信息为“0”(即第二指示信息)，起始插入指示信息为
“‑
1”(即非插入操作对应的标识信息)，结束插入指示信息为
“‑
1”(即非插入操作对应的标识信息)；第二分词“a车次”对应的删除指示信息的标识信息为“0”(即第二指示信息)，起始插入指示信息为
“‑
1”(即非插入操作对应的标识信息)，结束插入指示信息为
“‑
1”(即非插入操作对应的标识信息)；第二分词“。”对应的删除指示信息的标识信息为“1”(即第一指示信息)，起始插入指示信息为“3”(即第一分词“到”对应的标识信息)，结束插入指示信息为“6”(即第一分词“？”对应的标识信息)。
112.在确定每个第二分词对应的删除指示信息、起始插入指示信息和结束插入指示信息后，可以基于起始插入指示信息和结束插入指示信息，在当前请求信息中每个第二分词之前插入该第二分词对应的目标分词，得到初始请求信息；基于删除指示信息，将初始请求信息中为第一指示信息的删除指示信息对应的第二分词删除，可以得到目标请求信息。
113.图10是根据一示例性实施例示出的一种数据处理装置的框图。如图10所示，该装置可以包括：
114.信息获取模块1010，可以用于获取历史对话信息和当前请求信息；
115.分词处理模块1020，可以用于对历史对话信息和当前请求信息进行分词处理，得到历史对话信息对应的至少一个第一分词和当前请求信息对应的至少一个第二分词；
116.改写分析模块1030，可以用于基于至少一个第一分词对至少一个第二分词进行改写分析，得到目标改写信息，目标改写信息包括任一第二分词对应的删除指示信息、任一第二分词对应的起始插入指示信息和任一第二分词对应的结束插入指示信息，起始插入指示信息表征至少一个第一分词中插入任一第二分词之前的起始分词；结束插入指示信息表征至少一个第一分词中插入任一第二分词之前的结束分词；
117.改写模块1040，可以用于基于删除指示信息、起始插入指示信息和结束插入指示信息，对当前请求信息进行改写处理，得到当前请求信息对应的目标请求信息。
118.在一个具体的实施例中，上述改写模块1040可以包括：
119.插入处理模块，可以用于基于起始插入指示信息和结束插入指示信息，在当前请求信息中每个第二分词之前插入每个第二分词对应的目标分词，得到初始请求信息，目标分词为至少一个第一分词中每个第二分词对应的起始分词和每个第二分词对应的结束分词之间的分词；
120.删除处理模块，可以用于基于删除指示信息，对初始请求信息中的至少一个第二分词进行删除处理，得到目标请求信息。
121.在一个具体的实施例中，上述删除处理模块可以包括：
122.删除操作模块，可以用于将至少一个第二分词中指示执行删除操作的删除指示信息对应的第二分词删除，得到目标请求信息。
123.在一个具体的实施例中，上述改写分析模块1030可以包括：
124.第一改写预测处理模块，可以用于将至少一个第一分词和至少一个第二分词输入至预设请求改写模型进行改写预测处理，得到删除指示信息、任一第二分词对应的目标起始统计信息和任一第二分词对应的目标结束统计信息，目标起始统计信息表征任一第一分词作为任一第二分词对应的起始分词的概率，目标结束统计信息表征任一第一分词作为任一第二分词对应的结束分词的概率；
125.插入指示信息确定模块，可以用于基于目标起始统计信息和目标结束统计信息，确定起始插入指示信息和结束插入指示信息。
126.在一个具体的实施例中，上述插入指示信息确定模块可以包括：
127.起始分词确定模块，可以用于在起始执行概率为目标起始统计信息中的非最大概率且结束执行概率为目标结束统计信息中的非最大概率的情况下，将任一第二分词对应的目标起始统计信息中最大概率对应的第一分词作为任一第二分词对应的起始分词；
128.起始插入指示信息生成模块，可以用于基于任一第二分词对应的起始分词，生成起始插入指示信息；
129.结束分词确定模块，可以用于将任一第二分词对应的目标结束统计信息中最大概率对应的第一分词作为任一第二分词对应的结束分词；
130.结束插入指示信息生成模块，可以用于基于任一第二分词对应的结束分词，生成结束插入指示信息。
131.在一个具体的实施例中，上述改写预测处理模块可以包括：
132.特征提取处理模块，可以用于将至少一个第一分词和至少一个第二分词输入至特征提取子模型进行特征提取处理，得到至少一个第一分词对应的第一语义特征信息和至少一个第二分词对应的第二语义特征信息；
133.映射处理模块，可以用于将第一语义特征信息和第二语义特征信息输入至感知机映射子模型进行映射处理，得到删除指示信息、目标起始统计信息和目标结束统计信息。
134.在一个具体的实施例中，上述数据处理装置还可以包括：
135.样本信息获取模块，可以用于获取样本历史对话信息、样本当前请求信息和样本请求信息；
136.样本信息分词模块，可以用于对样本历史对话信息和样本当前请求信息进行分词处理，得到样本历史对话信息对应的至少一个第三分词和样本当前请求信息对应的至少一个第四分词；
137.第二改写预测处理模块，可以用于将至少一个第三分词和至少一个第四分词输入至预设机器学习模型进行改写预测处理，得到样本删除指示信息、任一第四分词对应的样本起始统计信息和任一第四分词对应的样本结束统计信息；样本起始统计信息表征任一第三分词作为任一第四分词对应的起始分词的概率，样本结束统计信息表征任一第三分词作
为任一第四分词对应的结束分词的概率；
138.样本插入指示信息确定模块，可以用于基于样本起始统计信息和样本结束统计信息，确定样本起始插入指示信息和样本结束插入指示信息；
139.改写信息标签确定模块，可以用于基于样本请求信息和样本当前请求信息，确定改写信息标签；
140.目标损失信息获取模块，可以用于根据样本删除指示信息、样本起始插入指示信息、样本结束插入指示信息和改写信息标签，得到目标损失信息；
141.预设请求改写模型获取模块，可以用于基于目标损失信息训练预设机器学习模型，得到预设请求改写模型。
142.在一个具体的实施例中，上述数据处理装置还可以包括：
143.领域识别模块，可以用于基于目标请求信息进行领域识别处理，得到目标请求信息对应的目标领域信息；
144.意图识别模块，可以用于基于目标请求信息进行意图识别处理，得到目标请求信息对应的目标意图信息。
145.关于上述实施例中的装置，其中各个模块和单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
146.图11是根据一示例性实施例示出的一种用于改写当前请求信息的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
147.图12是根据一示例性实施例示出的另一种用于改写当前请求信息的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
148.本领域技术人员可以理解，图11或图12中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
149.在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的数据
处理方法。
150.在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的数据处理方法。
151.在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的数据处理方法。
152.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
153.可以理解的是，在本技术的具体实施方式中，涉及到用户信息等相关的数据，当本技术以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
154.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
155.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

数据处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献