基于贡献度的对话标注推荐方法、设备及存储介质与流程

2023-03-19 12:03:58 来源：中国专利 TAG：

1.本发明涉及自然语音理解、对话系统、机器学习、智能语音、对话标注处理技术领域，尤其涉及一种基于贡献度的对话标注推荐方法、设备及存储介质。

背景技术：

2.日活上万的人机对话设备，每日对话产生的数量会达到几十万。对每日数据进行意图的标注提出了许多方法，目前比较常用的是基于主动学习的方式，根据已有数据训练模型，对新来的数据进行预标注，然后人工进行审核。另一种是基于聚类的方法，对数据进行聚类，让标注人员对聚类的结果进行标注。
3.当前所使用的方法在冰箱智能对话标注推荐方面，普遍存在特征计算不全面的问题，从而导致标注推荐不够准确，影响冰箱语音交互效果和推荐信息的准确率。为此，如何多维度的考虑对话标注的特征计算是提升冰箱智能交互与感知的关键问题。

技术实现要素：

4.本发明的目的在于提供一种基于贡献度的对话标注推荐方法、设备及存储介质。
5.为了实现上述发明目的，本发明提供一种基于贡献度的对话标注推荐方法，所述方法包括：获取对话文本数据；对所述对话文本数据进行预处理，得到待处理文本数据；对所述待处理文本数据进行多维度特征计算，产生多个特征计算结果；利用回归算法模型对所述多个特征计算结果进行处理，产生与所述多个特征计算结果对应的特征权重；基于所述多个特征计算结果和对应的特征权重计算多个标注类别的贡献度；对所述多个贡献度进行排序，获得最大贡献度对应的标注类别；基于所述标注类别标注待处理文本数据。
6.作为本发明的进一步改进，所述方法还包括：所述待处理文本数据包括无标注文本数据和已标注文本数据；其中，所述已标注文本数据是指需要重新标注的文本数据。
7.作为本发明的进一步改进，所述方法还包括：所述数据预处理包括文本去重、去停用词和机器学习模型训练。
8.作为本发明的进一步改进，所述机器学习模型训练，具体包括：获取多个已标注对话文本；利用预训练模型对所述已标注对话文本进行有监督的模型训练获得意图识别模型；基于所述意图识别模型对所述对话文本数据进行训练，产生除文本去重和去停用词之外的待处理文本数据
9.作为本发明的进一步改进，所述方法还包括：所述多维度特征计算包括模型置信度特征计算、多轮表现特征计算、领域相关性特征计算和用户满意度特征计算。
10.作为本发明的进一步改进，所述方法还包括：所述模型置信度特征计算，具体包括：将所述待处理文本数据输入到预先训练好的意图识别模型中，得到该文本数据在多个标注类别下的概率。
11.作为本发明的进一步改进，所述多轮表现特征计算，具体包括：获取多轮对话文本数据；计算待处理文本数据在所述多轮对话当中出现的频率。
12.作为本发明的进一步改进，所述领域相关性特征计算，具体包括：对所述待处理文本数据进行拼音转换得到拼音文本数据；对已标注类别的对话文本数据进行拼音转换得到已标注拼音对话文本数据；将所述拼音文本数据与已标注拼音对话文本数据进行拼音相似度计算，得到多个标注类别下的相似度。
13.本发明还提供一种制冷设备，所述制冷设备包括：存储器和至少一个处理器，所述存储器中存储指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行时实现如上任意一项所述的待标注对话文本进行标注。
14.本发明还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项所述的方法。
15.与现有技术相比，本发明具有以下有益效果：本发明在对话文本数据预处理阶段，采用了除传统文本去重和去停用词之外的机器学习模型训练方法，使得产生的待处理文本数据更加能符合标注要求，为后续的特征计算提供了更加准确有效的文本数据；在特征计算阶段，使用四种对话标注推荐特征的计算方法对待处理文本数据的贡献度进行综合评价，多维度的特征计算使得推荐的标注更加完善精准；最后引入了回归模型，对所述四种推荐特征计算方法的权重不断迭代，拟合出一个较好的权重特征分配结果，从而不断修正对话文本数据标注推荐的结果，使得推荐的标注更精准，减少标注人员的标注量，提高标注效率。
附图说明
16.图1是本发明实施例中基于贡献度的对话标注推荐方法所涉及模型的结构框图。
17.图2是本发明实施例中基于贡献度的对话标注推荐方法的流程示意图。
18.图3是本发明实施例中获取对话文本数据步骤示意图。
19.图4是发明实施例中四种对话标注推荐特征计算方法示意图。
具体实施方式
20.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术具体实施方式及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施方式仅是本技术一部分实施方式，而不是全部的实施方式。基于本技术中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本技术保护的范围。
21.下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
22.如图1所示，为本发明所提供的一种基于贡献度的对话标注推荐方法所涉及模型的结构框图，如图2所示，为对话标注推荐方法步骤示意图，所述方法包括以下若干步骤，下面对所述方法及每个步骤分别进行说明：
23.步骤101，获取对话文本数据。
24.步骤102，对所述对话文本数据进行预处理，得到待处理文本数据。
25.步骤103，对所述待处理文本数据进行多维度特征计算，产生多个特征计算结果。
26.步骤104，利用回归算法模型对所述多个特征计算结果进行处理，产生与所述多个
特征计算结果对应的特征权重。
27.步骤105，基于所述多个特征计算结果和对应的特征权重计算多个标注类别的贡献度。
28.步骤106，对所述多个贡献度进行排序，获得最大贡献度对应的标注类别，基于所述标注类别标注待处理文本数据。
29.本发明提供的方法可供智能电子设备基于用户的手动输入或语音输入，来实现与用户之间的实时交互或标注推荐等功能。具体地，在本实施方式中，以智能冰箱为例，并结合事先训练好的预训练语言模型和回归算法模型对本方法进行说明。基于用户的手动输入对话文本或实时语言输入，将实时语音输入的对话数据转写为语音文本数据，对该语音文本数据或手动输入文本数据进行预处理，产生待处理文本数据，智能冰箱对所述待处理文本数据进行基于多维度特征的贡献度计算，得到贡献度最大的标注类别，并将其推荐给用户或标注人员，使得该待处理文本数据得以标注分类。
30.如图3所示，在步骤101和步骤102中，其具体包括：
31.步骤1011：获取终端和/或语音采集设备所采集的语音数据，和/或获取用户在终端手动输入的对话文本数据。
32.步骤1012：若获取到的是语音数据，则转写所述语音数据为语音文本数据。
33.步骤1013：基于所述语音文本数据和/或手动输入的对话文本数据进行标注分类，获得无标注对话文本数据和已标注对话文本数据。
34.所述的语音数据是指当用户对着智能电子设备或者是与智能电子设备有通信连接的终端发出对话语句等，比如，用户可能对冰箱说“今天冰箱里有哪些蔬菜”，“冰箱里有牛肉吗”，“打开菜谱推荐”等问题。智能冰箱使用采集设备，比如麦克风或冰箱内置的拾音器，采集到这些语音信息之后对其进行语音采集并识别后，给出对应的交互信息。其中，对语音的采集方式是不限制的，可以是用户直接对终端发送语音，或者也可以通过与智能冰箱连接的终端或客户端获取传输而来的用户语音，用户直接对着客户端或终端发出语音，终端或终端app采集语音后通过蓝牙或无线网等无线通信方式传输至智能冰箱。语音采集方式的不限制可以便于用户在与智能设备交互过程中选择对自己而言最便捷的方式，可以改善用户的体验感。在本发明的其他实施方式中，可以采用上述语音获取方式的一种或任意多种，或者也可以基于现有技术通过其他方式获取所述对话语音，本发明对此不作具体限制。
35.进一步的，在本发明的一些实施方式中，在步骤1011之后还包括将采集到的语音数据进行处理，提取其语音特征，再利用卷积神经网络进行处理得到语音文本数据。同样的，用户可以直接在智能电子设备上输入或者与智能电子设备有通信连接的终端手动输入对话文本数据。对所述的语音文本数据或手动输入的对话文本数据进行标注分类，产生无标注的对话文本数据和已标注的对话文本数据，本发明提供的方法针对无标注的对话数据进行标注，对有标注的对话数据进行校验并纠正错误的标注，提高标注的准确性。
36.如步骤102所述，在本实施方式中，将分类产生的无标注对话文本数据和已标注对话文本数据，进行预处理，得到待处理文本数据。在对对话文本数据进行预处理时，传统的方法包括先对数据文本去重、去停用词以及对文本进行分词处理，比如利用脚本文件或分词工具对拆分后的句子进行分词、过滤停用词、重复的字词，去掉对话中影响较小的词。另
外，还可以使用预先训练好的预训练语言模型，比如bert、e l ectra和gpt等，对已标注的对话文本数据进行有监督的模型训练得到意图识别模型，该意图识别模型可以实现传统数据处理之外的预处理方法，产生除了文本去重和去停用词等传统数据预处理之外的待处理文本数据，该方法使得产生的待处理文本数据尽可能多的包含有用的对话文本，更加贴合用户意图待标注的内容，为后续的特征计算提供更加准确的数据源。
37.在步骤102中，对所述实时语音文本数据或手动输入的文本数据进行预处理采用传统算法可参考当前本领域现有技术，具体在此不再赘述。
38.如图4所示，在步骤103中，其具体包括步骤：
39.步骤1031：对待处理的文本数据进行模型置信度特征计算，获得该文本在不同标注类别下的置信度概率。
40.步骤1032：对待处理的文本数据进行多轮表现特征计算，得到该文本在多轮对话数据中出现的概率。
41.步骤1033：对待处理的文本数据进行领域相关性特征计算，得到该文本的拼音相似度值。
42.步骤1034：对待处理的文本数据进行用户满意度特征计算，得到该文本在给定不同标注类别时的满意度。
43.在步骤1031中，将预处理后的待处理数据文本输入到预先训练好的意图识别模型中，通过该模型的计算可得到待处理文本数据在不同标注类别下的概率，比如，类别1，类别2，类别3
…
，通过模型的置信度特征计算可以衡量出该待处理文本数据的标注类别。判断该待处理文本数据的类别可以通过比较该置信度的特征值与不同标注类别的大小关系，或者是判断所述置信度的特征值与不同标注类别的区间范围的关系，比如类别有猪肉0.2-0.5，牛肉0.6-0.9，若待处理文本数据计算的置信度特征值落入牛肉类别区间范围内，那通过模型置信度特征计算，待处理文本数据很有可能被推荐标注为牛肉类别。
44.在步骤1032中，还采用多轮表现特征计算方法对待处理数据文本进行另一个维度的特征计算，具体的是通过计算所述待处理数据文本在一个用户多轮对话当中出现的频率，即为多轮表现特征计算方法得到的特征结果信息。当一个用户在多轮对话中反复提到某个对话文本时，说明对话系统在该对话文本的识别和反应上可能存在问题。
45.在步骤1033中，还采用领域相关性特征计算方法对待处理数据文本进行另一个维度的特征计算，该方法是通过拼音翻译工具，比如j ieba工具中的文本拼音转换，将待处理的文本数据进行拼音转化得到拼音表示的文本数据，再与已标注意图的对话文本数据进行拼音相似度计算得到对应的每个标注类别的相似度，选取相似度最大的标注类别对待处理文本数据进行标注。因为语音文本数据识别存在同音异意字的文本，将文本转换成拼音计算相似度可以降低错别字对特征计算结果的影响。
46.在步骤1034中，用户根据步骤1031到步骤1033这三种特征计算的结果进行评价，具体地，根据特征计算结果信息对该待处理的文本数据推荐标注进行一个满意度的评分，该评分范围在0-1之间，如果不是在这范围之间，可进行归一化处理。
47.进一步的，在本发明一些实施方式中，在步骤104-步骤106中，根据上述步骤1031-步骤1034获得的四个维度的特征信息和预先设置的初始权重信息，比如，初始权重信息为(0.25,0.25,0.25,0.25)，根据该初始权重信息和置信度特征计算结果信息、多轮表现特征
计算结果信息、领域相关性特征计算结果信息和用户满意度特征结果信息进行特征的加权计算，得到待处理文本数据在不同标注类别下的贡献度。根据贡献度的大小对不同标注类别进行排序，将贡献度最大的类别推荐给标注人员或用户，以标注待处理文本数据。同样的，也可以根据排序结果推荐排在预设阈值范围内的多个标注类别给标注人员或用户，以标注待处理文本数据。比如，根据不同标注类别的贡献度，推荐排在前50％的类别给标注人员。
48.多维度的特征计算，可以从多个方面来衡量待处理文本数据的特性，综合考虑多维度特征，便于更精准的定位标注类别，提高标注效率和准确率。
49.在本发明实施例中，基于初始权重信息和多维度的特征信息，使用回归算法模型对所述多维度特征结果信息进行特征权重的自动化估计，将上述四个多维度特征结果信息和初始的权重信息输入到回归算法模型中作为特征值，比如逻辑回归模型(logi st ic regress ion,lr)，该模型在建模过程中对数据进行训练和测试，以提高准确性。逻辑回归模型使用类似梯度下降之类的算法进行求解并进行数据归一化处理，使得数据缩放在[0,1]范围内。再通过逐步回归的方式，通过计算并获得每日的对话文本数据，逐步回归拟合出一个较好的权重特征分配结果，从而修正对话标注推荐的结果。除了回归算法模型产生的特征向量，其他方法如果也能达到一样的效果，都在本发明的保护范围内。
[0050]
于一具体实施例，经预处理后的待处理文本数据是“我喜欢吃苹果”，标注类别有类别1：水果类，类别2：蔬菜类，类别3：肉类。分别根据多维度计算该待处理文本数据的特征结果信息，假设模型置信度特征计算设置为维度a、多轮表现特征计算设置为维度b、领域性特征计算设置为维度c和用户满意度特征计算设置为维度d，通过计算可得类别1、类别2和类别3的置信度特征计算结果分别为pa(类别1)、pa(类别2)和pa(类别3)。同样的，类别1、类别2和类别3的多轮表现特征计算结果分别为pb(类别1)、pb(类别2)和pb(类别3)，领域性特征计算结果分别为pc(类别1)、pc(类别2)和pc(类别3)以及满意度特征计算结果分别为pd(类别1)、pd(类别2)和pd(类别3)。
[0051]
将上述特征计算结果输入到回归算法模型，通过模型训练计算得到特征权重向量(wa,wb,wc,wd)，则不同类别的贡献度计算如公式(1)所示：
[0052][0053]
按照贡献度的大小对标注类别进行排序，依据排序结果可以推荐排在前50％的标注类别推荐给标注人员进行标注，提高了标注的准确性，减少了标注人员的标注量。
[0054]
本发明实施例还提供一种制冷设备，所述制冷设备包括存储器和处理器，所述存储器中存储指令，所述处理器调用所述存储器中所述指令，以使得所述制冷设备执行时实现如上任意一项所述的方法。
[0055]
本发明实施例还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项所述的基于贡献度的对话标注推荐方法。
[0056]
综上，本发明提供的基于贡献度的对话标注推荐方法、装置及存储介质，基于多维度特征计算方式来计算多个标注类别的贡献度，根据贡献度的大小进行排序推荐合适的标
注类别，减少了人力物力在对话标注方面的投入；使用回归算法模型对特征权重的自动化计算，拟合出了一个较好的权重分配结果，提高了推荐标注类别的准确性，减少了标注人员的标注量，提高了标注效率和准确率。
[0057]
应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。
[0058]
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：使用多个机器学习程序检测图像中的异常的方法和系统与流程

基于贡献度的对话标注推荐方法、设备及存储介质与流程

相关文献

最热文献