一种文本标签设计方法及相关装置与流程

2023-02-04 15:27:14 来源：中国专利 TAG：

1.本技术涉及计算机技术，应用于自然语言处理领域，尤其涉及一种文本标签设计方法及相关装置。

背景技术：

2.在房地产领域中，业务人员经常通过处理和分析大量的行业会话文本来获取其中蕴含的重要行业信息，比如客户喜好，热门话题等。行业会话文本处理离不开文本标签设计，利用文本标签可以将大量文本进行分类以便后续应用。
3.然而，目前行业会话文本标签通常由该行业专家人工设计，依赖于专家对业务的理解程度，当存在大量的行业会话文本时，该方法十分耗时。因此，针对大量的行业会话文本，如何提高文本标签的设计效率是本领域技术人员正在研究的技术问题。

技术实现要素：

4.本技术实施例公开了一种文本标签设计方法及相关装置，能够提高会话文本标签的设计效率，以便后续分析会话文本所隐含的沟通需求和/或沟通话术。
5.第一方面，本技术实施例提供了一种文本标签设计方法，该方法包括：
6.对会话文本进行分句，得到多个单句；
7.通过聚类算法对所述多个单句进行聚类，将所述多个单句分成至少两类分类结果；
8.根据用户对所述至少两类结果中每类分类结果分别识别出的句子意图，对所述至少两类分类结果中的多个单句设置第一标签，其中，第一单句的第一标签包括所述第一单句所属的分类结果对应的句子意图，所述第一单句为所述多个单句中的任意一个单句；
9.根据句式识别模型识别出的所述多个单句中每个单句的问答类型，对所述多个单句设置第二标签，其中，所述第一单句的第二标签包括所述第一单句的问答类型，所述第一单句的问答类型用于表征所述第一单句为问句或者答句；
10.其中，所述会话文本的标签信息用于分析所述会话文本所隐含的沟通需求和/或沟通话术，所述会话文本的标签信息包括所述第一标签和所述第二标签。
11.上述方法中，用户不需要一一确定该会话文本中每个单句的句子意图，而是根据聚类算法得到的至少两类单句分类结果分别确定每类单句分类结果的句子意图，将每类单句分类结果的句子意图作为该类结果中每个单句的第一标签。并且，用户也不需要一一确定该会话文本中每个单句的问答类型，而是利用句式识别模型分别识别每个单句的问答类型，从而得到每个单句的第二标签。因此，上述方法利用机器学习算法辅助用户设置第一标签和第二标签，减少了用户的工作量，提高了该会话文本标签的设计效率。
12.进一步的，经大量实践发现，结合第一标签和第二标签可以表明该会话文本中每个单句的主要内容，因此上述方法将第一标签和第二标签用于分析所述会话文本所隐含的沟通需求和/或沟通话术。
13.结合第一方面，在一种可能的实现方式中，所述方法还包括：
14.根据所述会话文本的多个单句中名词的第三标签对所述多个单句设置第四标签，其中，所述第三标签包括所述多个单句中名词的主题信息，所述会话文本的标签信息还包括所述第四标签。
15.考虑到会话文本的主题信息大多蕴含在该会话文本中名词的主题信息中，因此，上述方法将会话文本中名词的主题信息作为该会话文本的主题信息，设置用于表示主题信息的第四标签，并且会话文本的主题信息也有利于帮助分析该会话文本所隐含的沟通需求及沟通话术。
16.结合第一方面，或者第一方面的上述任一种可能的实现方式，在另一种可能的实现方式中，所述根据所述会话文本的多个单句中名词的第三标签对所述多个单句设置第四标签，包括：
17.通过词法分析模型对所述会话文本的主题词和关键词进行词法分析，得到名词集，其中，所述名词集包括所述主题词和所述关键词中的所有名词；
18.通过聚类算法对所述名词集中多个名词进行聚类，将所述多个名词分成至少两类分类结果；
19.根据用户对所述至少两类结果中每类分类结果分别识别出的词语主题，对所述至少两类分类结果中的多个名词设置第三标签，其中，第一名词的第三标签包括所述第一名词所属的分类结果对应的词语主题，所述第一名词为所述多个名词中的任意一个名词；
20.对所述会话文本的多个单句设置第四标签，其中，第一单句的第四标签包括所述第一单句中所有属于所述名词集的名词的第三标签。
21.上述方法利用词法分析模型筛选出对该会话文本的主题信息贡献较大的名词集，用户不需要一一确定该会话文本中每个名词的词语主题，而是根据聚类算法得到的至少两类名词分类结果分别确定每类名词分类结果的主题信息，将每类名词分类结果的主题信息作为该类结果中每个名词的第三标签，进而确定该会话文本中多个单句的第四标签。因此，上述方法利用机器学习算法辅助用户设置第三标签和第四标签，减少了用户的工作量，提高了该会话文本标签的设计效率。
22.结合第一方面，或者第一方面的上述任一种可能的实现方式，在又一种可能的实现方式中，所述通过词法分析模型对所述会话文本的主题词和关键词进行词法分析之前，还包括：
23.通过隐含狄利克雷分布lda模型对所述会话文本进行处理，得到所述会话文本的主题词和关键词。
24.结合第一方面，或者第一方面的上述任一种可能的实现方式，在又一种可能的实现方式中，所述聚类算法包括层次聚类算法、k均值(k-means )算法、谱聚类算法或密度聚类算法。
25.结合第一方面，或者第一方面的上述任一种可能的实现方式，在又一种可能的实现方式中，所述方法还包括：
26.根据所述第一标签、所述第二标签和所述第四标签设置所述会话文本中多个单句的第五标签，其中，第一单句的第五标签用于表示所述第一单句的中心思想，所述会话文本的标签信息还包括所述第五标签。
27.上述方法分别以会话文本中每个单句的句子意图、问答类型和主题信息为分类标准将该文本中的多个单句进行分类，设置每个单句的第一标签、第二标签和第四标签，然后将三种标签结合起来生成每个单句的第五标签，因此，上述方法中第五标签包含的句子信息更丰富，可以更全面地表示句子的中心思想，更有利于分析该会话文本所隐含的沟通需求和/或沟通话术。
28.具体的，所述根据所述第一标签、所述第二标签和所述第四标签设置所述会话文本中多个单句的第五标签，包括：
29.去除所述第一标签和所述第四标签中重复的标签信息；
30.按照所述第二标签、所述第四标签、所述第一标签的排列顺序，设置所述会话文本中多个单句的第五标签。
31.结合第一方面，或者第一方面的上述任一种可能的实现方式，在又一种可能的实现方式中，所述方法还包括：
32.生成新增单句的所述第一标签、所述第二标签、所述第四标签和所述第五标签，所述新增单句为针对所述会话文本的补充文本的单句；
33.所述新增单句的标签信息用于分析所述新增单句所隐含的沟通需求和/或沟通话术，所述新增单句的标签信息包括所述第一标签、所述第二标签、所述第四标签和所述第五标签。
34.上述方法可以按照会话文本的分类方式和标签信息对该会话文本的补充文本中新增单句分类并设置相同的标签信息，提高了该新增单句的标签的设计效率。
35.第二方面，本技术实施例提供了一种文本标签设计装置，所述装置包括：
36.划分单元，用于对会话文本进行分句，得到多个单句；
37.聚类单元，用于通过聚类算法对所述多个单句进行聚类，将所述多个单句分成至少两类分类结果；
38.第一标记单元，用于根据用户对所述至少两类结果中每类分类结果分别识别出的句子意图，对所述至少两类分类结果中的多个单句设置第一标签，其中，第一单句的第一标签包括所述第一单句所属的分类结果对应的句子意图，所述第一单句为所述多个单句中的任意一个单句；
39.第二标记单元，用于根据句式识别模型识别出的所述多个单句中每个单句的问答类型，对所述多个单句设置第二标签，其中，所述第一单句的第二标签包括所述第一单句的问答类型，所述第一单句的问答类型用于表征所述第一单句为问句或者答句；
40.其中，所述会话文本的标签信息用于分析所述会话文本所隐含的沟通需求和/或沟通话术，所述会话文本的标签信息包括所述第一标签和所述第二标签。
41.结合第二方面，在一种可能的实现方式中，所述装置还包括设置单元，用于根据所述会话文本的多个单句中名词的第三标签对所述多个单句设置第四标签，其中，所述第三标签包括所述多个单句中名词的主题信息，所述会话文本的标签信息还包括所述第四标签。
42.结合第二方面，或者第二方面的上述任一种可能的实现方式，在另一种可能的实现方式中，所述设置单元包括：
43.分析子单元，用于通过词法分析模型对所述会话文本的主题词和关键词进行词法
分析，得到名词集，其中，所述名词集包括所述主题词和所述关键词中的所有名词；
44.聚类子单元，用于通过聚类算法对所述名词集中多个名词进行聚类，将所述多个名词分成至少两类分类结果；
45.第一标记子单元，用于根据用户对所述至少两类结果中每类分类结果分别识别出的词语主题，对所述至少两类分类结果中的多个名词设置第三标签，其中，第一名词的第三标签包括所述第一名词所属的分类结果对应的词语主题，所述第一名词为所述多个名词中的任意一个名词；
46.第二标记子单元，用于对所述会话文本的多个单句设置第四标签，其中，第一单句的第四标签包括所述第一单句中所有属于所述名词集的名词的第三标签。
47.结合第二方面，或者第二方面的上述任一种可能的实现方式，在又一种可能的实现方式中，在所述通过词法分析模型对所述会话文本的主题词和关键词进行词法分析之前，所述分析子单元还用于：
48.通过隐含狄利克雷分布lda模型对所述会话文本进行处理，得到所述会话文本的主题词和关键词。
49.结合第二方面，或者第二方面的上述任一种可能的实现方式，在又一种可能的实现方式中，所述聚类算法包括层次聚类算法、k均值(k-means )算法、谱聚类算法或密度聚类算法。
50.结合第二方面，或者第二方面的上述任一种可能的实现方式，在又一种可能的实现方式中，所述装置还包括：
51.第三标记单元，用于根据所述第一标签、所述第二标签和所述第四标签设置所述会话文本中多个单句的第五标签，其中，第一单句的第五标签用于表示所述第一单句的中心思想，所述会话文本的标签信息还包括所述第五标签。
52.具体的，在所述根据所述第一标签、所述第二标签和所述第四标签设置所述会话文本中多个单句的第五标签方面，所述第三标记单元具体用于：
53.去除所述第一标签和所述第四标签中重复的标签信息；
54.按照所述第二标签、所述第四标签、所述第一标签的排列顺序，设置所述会话文本中多个单句的第五标签。
55.结合第二方面，或者第二方面的上述任一种可能的实现方式，在又一种可能的实现方式中，所述装置还包括：
56.第四标记单元，用于生成新增单句的所述第一标签、所述第二标签、所述第四标签和所述第五标签，所述新增单句为针对所述会话文本的补充文本的单句；
57.其中，所述新增单句的标签信息用于分析所述新增单句所隐含的沟通需求和/或沟通话术，所述新增单句的标签信息包括所述第一标签、所述第二标签、所述第四标签和所述第五标签。
58.第三方面，本技术实施例提供了一种文本标签设计设备，该文本标签设计设备包括处理器、存储器、通信接口，其中，所述通信接口用于在所述处理器的控制下执行接收和/或发送操作，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，用于实现第一方面或第一方面任一种可能的实施方式所描述的方法。
59.第四方面，本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介
质中存储有计算机程序，当其在处理器上运行时，用于实现第一方面或第一方面任一种可能的实施方式所描述的方法。
60.本技术第二至第四方面所提供的技术方法，其有益效果可以参考第一方面技术方案的有益效果，此处不再赘述。
附图说明
61.下面将对本技术实施例描述中所需要使用的附图作简单的介绍。
62.图1是本技术实施例提供的一种文本标签设计系统的架构示意图；
63.图2是本技术实施例提供的一种文本标签设计方法的流程示意图
64.图3是本技术实施例提供的又一种文本标签设计方法的流程示意图；
65.图4是是本技术实施例提供的一种聚类算法的流程示意图；
66.图5是本技术实施例提供的一种操作界面的场景示意图；
67.图6是本技术实施例提供的一种文本标签设计装置60的结构示意图；
68.图7是本技术实施例提供的一种文本标签设计设备70的结构示意图。
具体实施方式
69.下面结合附图对本技术实施例进行详细介绍。
70.需要说明的是，本技术对会话文本所属的领域不做严格限定。便于理解，本技术实施例以房地产领域的会话文本为例进行说明。
71.请参见图1，图1是本技术实施例提供的一种文本标签设计系统的架构示意图，该系统包括终端设备101和文本标签设计设备102。其中，本技术对终端设备101的数量不做严格限定，图1所示的数量仅为示例。
72.终端设备101是兼具数据处理和数据收发能力的电子设备，用于通过会话文本的标签信息分析该会话文本所隐含的沟通需求和/或沟通话术。该终端设备101可以将会话文本发送给文本标签设计设备102，便于该文本标签设计设备102辅助用户对该会话文本设置标签。需要说明的是，该会话文本为包含问句和答句的文本，可以由该终端设备根据语音或文字形式的聊天信息生成。可选的，该终端设备101可以是手持终端、台式终端、可穿戴设备等独立设备，也可以是包含在独立设备中的部件(例如芯片或集成电路)，当终端设备101为手持终端时，可以是手机、平板电脑、电脑(如笔记本电脑、掌上电脑等)等。
73.文本标签设计设备102是具有计算能力和存储空间的装置，该存储空间中存储了聚类算法以及多个用于处理自然语言的模型。该文本标签设计设备102可以获取终端设备101发送的会话文本，利用聚类算法以及多个模型辅助用户对会话文本进行标签设置，并向该终端设备101发送带有标签信息的会话文本。
74.便于理解，请参见图2，图2是本技术实施例提供的一种文本标签设计方法的流程示意图。
75.针对终端设备101发送的会话文本，文本标签设计设备102将该会话文本分成多个单句，然后通过聚类算法将多个单句进行聚类，辅助用户对多个单句分别设置第一标签，用于表示单句的句子意图；接着通过句式识别模型对多个单句分别设置第二标签，用于表示单句的问答类型；然后通过隐含狄利克雷分布(latent dirichlet allocation，lda)模型
得到该会话文本中的主题词和关键词，并利用词法分析模型抽取所有主题词和关键词中的名词，经聚类算法对多个名词进行聚类，辅助用户对多个名词分别设置第三标签，用于表示名词的主题信息，从而进一步对多个单句分别设置第四标签，用于表示单句的主题信息；最后，结合第一标签、第二标签和第四标签，对多个单句分别设置第五标签，用于表示单句的中心思想。该文本标签设计设备102将该会话文本中多个单句的标签信息发送至该终端设备101，便于后续用户分析该会话文本所隐含的沟通需求和/或沟通话术。
76.需要说明的是，上述第一标签和第二标签很大程度上能够反映该会话文本中多个单句的主要内容，因此，实际应用中也可以根据第一标签和第二标签分析该会话文本中所隐含的沟通需求和/或沟通话术。容易理解的是，结合第一标签、第二标签和第四标签得到的第五标签能更全面地反映会话文本中多个单句的中心思想，因此，使用第五标签更有利于分析该会话文本中所隐含的沟通需求和/或沟通话术。
77.可选的，该文本标签设计设备102可以是云端，比如云端的单个服务或者多个服务器组成的服务器集群，也可以为本地设备，比如本地的单个服务或者多个服务器组成的服务器集群。
78.另一可选的，该文本标签设计设备102与该终端设备101可以通过有线通信方式直接连接，比如金属导线、光纤等有形媒质，也可以通过无线通信方式间接连接，比如无线局域网，蓝牙等无形媒介。
79.需要说明的是，该终端设备101若有与该文本标签设计设备102相同的计算能力与储存空间，用户仅使用该终端设备101即可对会话文本设置标签，即由该终端设备101执行前面提及的由该文本标签设计设备102所执行的相关计算操作。
80.图1所示的系统架构中，用户可以借助聚类算法以及多个用于处理自然语言的模型对会话文本设置标签，提高了该会话文本标签的设计效率，以便后续分析该会话文本所隐含的沟通需求和/或沟通话术。
81.请参见图3，图3是本技术实施例提供的又一种文本标签设计方法的流程示意图，该方法可以基于图1所示的系统架构来实现，该方法包括但不限于如下步骤：
82.步骤s301：文本标签设计设备对会话文本进行分句，得到多个单句。
83.文本标签设计设备可以为图1所示的文本标签设计设备102，也可以是其他具有计算能力的装置。会话文本可以是其他设备(如图1所示的终端设备101)根据语音或文字形式的聊天信息生成。该会话文本中包括多个单句，每个单句对应一个对话人。例如，该会话文本中一个单句对应的对话人的身份可以是中介、顾客、业务员(顾问)、业主或物业。
84.该文本标签设计设备接收该其他设备发送的会话文本后，根据该会话文本的标点符号对该会话文本进行分句，得到多个单句。例如，若会话文本包含“您好，请问您的首付预算是多少呢？首付预算40-50万吧。”，该文本标签设计设备可以将其分为三个单句“您好，”、“请问您的首付预算是多少呢？”以及“首付预算40-50万吧。”。
85.步骤s302：文本标签设计设备通过聚类算法对多个单句进行聚类，将多个单句分成至少两类分类结果。
86.可选的，该聚类算法可以是层次聚类算法、k均值(k-means )算法、谱聚类算法或密度聚类算法。
87.便于理解，下文以层次聚类算法为例进行说明：
88.该文本标签设计设备首先分别将多个单句中每个单句作为一个单句簇，然后计算多个单句簇中每两个单句簇间的距离；不断将所述距离最小的两个单句簇合并到一个新的单句簇中，最终得到针对单句的多种分类方式。具体的，每种单句分类方式包括多个单句簇，每个单句簇代表一类单句分类结果。
89.便于理解，请参见图4，图4是本技术实施例提供的一种聚类算法的流程示意图。该文本标签设计设备单句a、单句b、单句c、单句d、单句e和单句f分别作为聚类中初始的簇，比如分别为单句簇a、单句簇b、单句簇c、单句簇d、单句簇e和单句簇f，此时的每个单句簇都仅包含一个单句。由于单句簇a和单句簇b间距离等于单句簇c和单句簇d间的距离，且为每两个单句簇间的最小距离，该文本标签设计设备则将单句簇a和单句簇b合并生成单句簇g，将单句簇c和单句簇d合并生成单句簇h；由于单句簇g、单句簇h，单句簇e和单句簇f中，单句簇h和单句簇e间距离最小，该文本标签设计设备则将单句簇h和单句簇e合并生成单句簇i；由于单句簇g、单句簇i和单句簇f中，单句簇g和单句簇i间距离最小，该文本标签设计设备则将单句簇g和单句簇i合并生成单句簇j，单句簇j和单句簇f合并生成单句簇k。
90.因此，该文本标签设计设备得到的树状层次聚类结果包括单句的多种分类方式。例如，该多种分类方式包括第一单句分类方式、第二单句分类方式和第三单句分类方式。其中，第一单句分类方式包括单句簇g、单句簇h，单句簇e和单句簇f，用于表示四类单句分类结果，即单句a和单句b为一类，单句c和单句d为一类，单句e为一类，单句f为一类；第二单句分类方式包括单句簇g、单句簇i和单句簇f，用于表示三类单句分类结果，即单句a和单句b为一类，单句c、单句d和单句e为一类，单句f为一类；第三单句分类方式包括单句簇j和单句簇f，用于表示两类单句分类结果，即单句a、单句b、单句c、单句d和单句e为一类，单句f为一类。
91.接下来，该文本标签设计设备根据第一指标对多种单句分类方式进行排序，得到第一排序结果，该第一指标用于表示每种单句分类中多个单句簇的分布情况，例如，该第一指标可以是交叉熵指标，用于表示每种单句分类方式中多个单句簇间距离分布的均匀程度，该第一指标值越小，表示多个单句簇间距离分布越均匀，对应的单句分类方式分类的越合理；该第一排序结果可以由按照该交叉熵指标从小到大的顺序将多种单句分类方式进行排序得到，排列名次越靠前的单句分类方式分类的越合理。
92.该文本标签设计设备按照顺序从该第一排序结果中选择一种单句分类方式，从该单句分类方式的每个单句簇中抽取n个单句，便于用户识别该抽取的单句的句子意图，n为正整数。
93.需要说明的是，每个单句簇中抽取单句的数量n根据每个单句簇中单句的实际数量而定，可以保持一致。
94.可选的，该用户可以是该文本标签设计设备侧的用户，也可以是其它设备侧的用户。也即是说，该文本标签设计设备可以将该抽取的单句显示在该文本标签设计设备的操作界面中，经该文本标签设计设备侧的用户识别该抽取的单句的句子意图，从而获取相关的句子意图信息；该文本标签设计设备也可以将该抽取的单句发送至其它设备，并且接收该其他设备发送的关于该其它设备侧的用户针对该抽取的单句识别出的句子意图信息。
95.然后，该文本标签设计设备针对该抽取的单句的句子意图信息，判断该单句分类方式的每个单句簇中n个单句的句子意图是否属于同一类型。若不属于同一类型，该文本标
签设计设备则返回执行上述从该第一排序结果中选择一种单句分类方式的步骤；若属于同一类型，该文本标签设计设备则将最新选择的一种单句分类方式作为最终单句分类方式，得到多个单句的至少两类分类结果。经多次执行上述步骤，会选择一种符合实际需求的单句分类方式作为最终单句分类方式，该符合实际需求的单句分类方式的每个单句簇中n个单句的句子意图属于同一类型。
96.也即是说，用户不需要一一确定该会话文本中每个单句的句子意图，仅需对聚类算法得到的多种单句分类方式进行复核，从中选出符合实际需求的单句分类方式，减轻了用户的工作量。
97.需要说明的是，在对多个单句进行聚类之前，该文本标签设计设备预先通过语言编码模型将会话文本的多个单句映射为计算机可以识别的多个单句向量，也即是说，会话文本的每个单句是以向量的形式进行聚类。因此，每两个单句簇间的距离可以是每两个单句簇的中心单句向量间的距离，该中心单句向量可以是单句簇中所有单句向量的质心、垂心、内心或外心。
98.可选的，该距离可以是欧式距离、余弦距离或马氏距离。
99.可选的，该语言编码模型可以是词嵌入语言(embeddings from language models，elmo)模型、词向量(word vecor，word2vec)模型、全局向量(global vectors for word representation，glove)模型、快速文本(fasttext)模型、双向编码(bidirectional encoder representation from transformers，bert)模型或改进双向编码(a lite bidirectional encoder representation from transformers，albert)模型。
100.步骤s303：文本标签设计设备根据用户对至少两类结果中每类分类结果分别识别出的句子意图，对至少两类分类结果中的多个单句设置第一标签。
101.具体的，第一单句的第一标签包括第一单句所属的分类结果对应的句子意图，第一单句为多个单句中的任意一个单句。
102.例如，该至少两类单句分类结果中包含单句簇k和单句簇m，每个单句簇代表一类单句分类结果，该文本标签设计设备将用户识别的单句簇k中n个单句的句子意图p作为单句簇k的句子意图，将用户识别的单句簇m中n个单句的句子意图作为单句簇m的句子意图q；然后将该句子意图p作为该单句簇k中所有单句的第一标签，将该句子意图q作为该单句簇m中所有单句的第一标签。
103.也即是说，若单句簇k的句子意图为“预算”，则单句簇k中的单句“请问您的首付预算是多少呢？”和单句“我的购房预算是100万。”的第一标签都为“预算”；若单句簇m的句子意图为“价格”，则单句簇m中的单句“124平价格是多少？”和单句“停车位大概多少钱？”的第一标签都为“价格”。
104.步骤s304：文本标签设计设备根据句式识别模型识别出的多个单句中每个单句的问答类型，对多个单句设置第二标签。
105.具体的，第一单句的第二标签包括第一单句的问答类型，第一单句的问答类型用于表征第一单句为问句或者答句。
106.该文本标签设计设备将带有标签信息的多个单句发送至其他设备，便于用户根据每个单句的标签信息分析会话文本所隐含的沟通需求和/或沟通话术，该标签信息包括第一标签和第二标签。
107.例如，用户可以通过其他设备筛选会话文本中标签信息为“问户型”的单句，分析顾客针对户型有哪些沟通需求，比如朝向、分区或面积使用率等，有利于后续业务的推进；用户可以通过其他设备筛选会话文本中标签信息为“答配套设施”的单句，分析业务员在介绍房屋的配套资源时的沟通话术，有利于对业务员的培训和考核。
108.进一步的，考虑到会话文本中单句的主题信息也有利于帮助分析该会话文本所隐含的沟通需求及沟通话术，该文本标签设计设备根据会话文本的多个单句中名词的第三标签对所述多个单句设置第四标签，其中，第三标签包括多个单句中名词的主题信息。
109.具体的，该文本标签设计设备通过lda模型对会话文本进行处理。lda模型是一种文本主题生成模型，也称为三层贝叶斯概率模型，包含词、主题和文本三层结构，可以理解为文本中的每个词都是通过以一定概率选择了一个主题，并从该主题中以一定概率选择该词语而得到。也即是说，该文本标签设计设备通过lda模型可以得到该会话文本的主题概率分布结果和每个主题的词语概率分布结果。接下来，该文本标签设计设备选择该主题概率分布结果中的所有主题词和该词语概率分布结果中词语概率大于设定概率值的词语作为关键词，用于去除文本中出现次数少且对会话文本主题贡献小的词语，该设定概率值可以是该文本标签设计设备默认设置的阈值。
110.考虑到会话文本中单句的主题信息大多蕴含在单句中名词的主题信息中，该文本标签设计设备通过词法分析模型对该会话文本的主题词和关键词进行词法分析，得到名词集，该名词集包括所述主题词和所述关键词中的所有名词。
111.然后，该文本标签设计设备通过聚类算法对该名词集中多个名词进行聚类，将所述多个名词分成至少两类分类结果；
112.可选的，该聚类算法可以是层次聚类算法、k-means 算法、谱聚类算法或密度聚类算法。
113.便于理解，下文以k-means 算法为例进行说明：
114.该文本标签设计设备首先针对该名词集中多个名词预设m种分类方式，分别对应k1、k2、
…
、k
m-1
、km类名词分类结果；然后选取一种分类方式，执行目标操作：在多个名词中选取ki(i等于1、2、
…
、m-1或m)个名词分别作为ki个名词簇的中心名词，将每个名词分别归类到ki个中心名词中与该词语距离最近的中心名词所在的名词簇，重新计算ki个名词簇的中心名词，得到重新计算后的ki个中心名词；若重新计算后的ki个中心名词与重新计算前的ki中心名词不同，则返回执行上述将每个词语归类到ki个中心名词中与该词语距离最近的中心名词所在的名词簇的步骤；若重新计算后的ki个中心名词与重新计算前的ki个中心名词相同，则将最新的ki个中心名词所在的ki个名词簇作为所述名词集的一种名词分类方式，m和ki为正整数。
115.需要说明的是，针对m种名词分类方式，该文本标签设计设备采用网格搜索的方式对m种名词分类方式分别执行上述目标操作，得到所述名词集的m种名词分类方式，并根据第二指标对m种名词分类方式进行排序，得到第二排序结果，该第二指标用于表示每种名词分类中多个名词簇的分布情况，例如，该第二指标可以是兰德系数指标，用于表示每种名词分类方式中每个名词簇中名词间的相似度，该第二指标值越小，则表示每个名词簇中名词间的相似度越高，对应的名词分类方式分类的越合理；该第二排序结果可以由按照该兰德系数指标从小到大的顺序将多种名词分类方式进行排序得到，排列名次越靠前的名词分类
方式分类的越合理。该第二排序结果用于表示该m种名词分类方式的合理性。
116.具体的，一种名词分类方式包括多个名词簇，每个名词簇代表一类名词分类结果。
117.接下来，该文本标签设计设备按照顺序从该第二排序结果中选择一种名词分类方式，从该名词分类方式的每个单句簇中抽取n个名词，便于用户识别该抽取的名词的主题信息，n为正整数。
118.需要说明的是，每个名词簇中抽取名词的数量n根据每个名词簇中名词的实际数量而定，可以保持一致。
119.可选的，该用户可以是该文本标签设计设备侧的用户，也可以是其它设备侧的用户。也即是说，该文本标签设计设备可以将该抽取的名词显示在该文本标签设计设备的操作界面中，经该文本标签设计设备侧的用户识别该抽取的名词的主题信息，从而获取相关的名词主题信息；该文本标签设计设备也可以将该抽取的名词发送至其它设备，并且接收该其他设备发送的关于该其它设备侧的用户针对该抽取的名词识别出的主题信息。
120.然后，该文本标签设计设备针对该抽取的名词的主题信息，判断该名词分类方式的每个名词簇中n个名词的主题信息是否属于同一类型。若不属于同一类型，该文本标签设计设备则返回重新执行上述从该第二排序结果中选择一种名词分类方式的步骤；若属于同一类型，该文本标签设计设备则将最新选择的一种名词分类方式作为最终名词分类方式，得到多个名词的至少两类分类结果。经多次执行上述步骤，会选择一种符合实际需求的名词分类方式作为最终名词分类方式，该符合实际需求的名词分类方式的每个名词簇中n个名词的主题信息属于同一类型。
121.也即是说，用户不需要一一确定该名词集中每个名词的主题，仅需对聚类算法得到的多种名词分类方式进行复核，从中选出更符合实际需求的名词分类方式，减轻了用户的工作量。
122.需要说明的是，在对多个名词进行聚类之前，该文本标签设计设备预先通过语言编码模型将会话文本的多个名词映射为计算机可以识别的多个名词向量，也即是说，会话文本的每个名词是以向量的形式进行聚类。因此，每个名词簇的中心名词为中心名词向量，该中心名词向量可以为该名词簇中所有名词向量的质心、垂心、内心或外心。
123.可选的，该语言编码模型可以是elmo模型、word2vec模型、glove模型、fasttext模型、bert模型或albert模型。该文本标签设计设备将最终名词分类方式中用户识别的每个名词簇中n个名词的主题信息作为每个名词簇的主题信息，即每类名词分类结果对应有一个主题信息；然后将每类名词分类结果的主题信息设置为该分类结果中每个名词的第三标签，进而对会话文本的多个单句设置第四标签，具体的，第一单句的第四标签包括第一单句中所有属于该名词集的名词的第三标签，用于表示第一单句的主题信息。
124.例如，该至少两类名词分类结果中包含名词簇r和名词簇s，每个名词簇代表一类名词分类结果，该文本标签设计设备将用户识别的名词簇r中n个名词的主题信息t作为名词簇r的主题信息t，将用户识别的名词簇s中n个名词的主题信息u作为名词簇s的主题信息u；然后将该主题信息t作为该名词簇r中所有名词的第三标签，将该主题信息u作为该名词簇s中所有名词的第三标签；最后对于含有名词簇r中一个名词的单句v，将主题信息t作为单句v的第四标签，对于含有名词簇s中一个名词的单句w，将主题信息u作为单句w的第四标签。
125.也即是说，若名词簇r的主题信息为“预算”，则名词簇r中的名词“医院”和名词“诊所”的第三标签都为“医疗”，则单句“小区里有诊所吗？”和“最近的医院离小区仅400米。”的第四标签都为“医疗”；若名词簇s的主题信息为“预算”，则名词簇s中的名词“地铁”和“公交站”的第三标签都为“交通”，则单句“去地铁站要走多久？”和单句“做公交方便吗？”的第四标签都为“交通”。
126.为更全面地分析该会话文本所隐含的沟通需求及沟通话术，该文本标签设计设备去除该会话文本中每个单句的第一标签和第四标签中重复的标签信息，并按照该会话文本中每个单句的第二标签、第四标签、第一标签的排列顺序设置每个单句的第五标签，其中，第一单句的第五标签用于表示第一单句的中心思想。
127.例如，单句“最近的医院离小区仅400米”的第二标签为“答”，第四标签为“配套设施”，第四标签为“医疗”，则第五标签为“答医疗配套设施”；单句“125平的总价是多少？”的第二标签为“问”，第一标签为“户型”，第四标签为“价格”，则第五标签为“问户型价格”。
128.该文本标签设计设备将会话文本中带有标签信息的多个单句发送至其他设备，便于用户根据每个单句的标签信息分析会话文本所隐含的沟通需求和/或沟通话术，该标签信息包括第一标签、第二标签、第四标签和第五标签。
129.请参见图5，图5是本技术实施例提供的一种操作界面的场景示意图。其他设备接收会话文本中带有标签信息的多个单句后，将多个单句的标签信息显示在操作界面在的标签栏501中。该标签信息包括第五标签，如“问户型面积”、“答户型价格”、“问医疗配套措施”等，该标签信息还包括第一标签和第二标签的结合内容，如“问价格”、“答面积”、“答预算”等。该标签栏501将第一标签和第二标签的结合内容作为第五标签的索引(后续以索引“问面积”502为例进行说明)，用户可以通过选择该标签栏501中的上浏览图标503、下浏览图标504或自由浏览图标505浏览索引内容，并且可以选择索引“问面积”502前的缩略图标506，查询含有与该索引“问面积”502具有相同的信息的第五标签(后续以第五标签“问户型面积”507为例进行说明)。需要说明的是，处于查询状态时该缩略图标506变为展开图标508。进一步的，用户勾选第五标签“问户型面积”507后，该其他设备可以在文本栏509显示出该会话文本中所有带有第五标签“问户型面积”507的单句(后续以单句“七栋有多大的？”510为例进行说明)，便于用户对会话文本作进一步分析。也即是说，用户可以通过查询该索引“问面积”507，找到带有第五标签“问户型面积”507的单句“七栋有多大的？”510。可选的，单句“七栋有多大的？”510可以提前被设置有角色标签“客户”511，用于区分对话人的身份。
130.例如，用户可以通过其他设备筛选会话文本中第五标签信息为“问户型价格”的单句，分析顾客的沟通需求，推测顾客对不同户型的喜好程度，有利于后续业务的推进；用户也可以通过其他设备筛选会话文本中第五标签信息为“答医疗配套设施”的单句，分析业务员在介绍房屋周边的医疗资源时的沟通话术，判断业务员的信息是否准确以及沟通语气是否恰当，有利于对业务员的培训和考核。
131.可选的，该文本标签设计设备可以按照该会话文本的分类方式和标签信息对该会话文本的补充文本中的新增单句设置相同的标签信息，提高了该补充文本标签的设计效率，该补充文本与该会话文本为同一领域。
132.具体的，该文本标签设计设备分别计算该新增单句与该会话文本中多个单句的最终分类方式中多个单句簇间的距离，将与该新增单句距离最近的单句簇的句子意图设置为
该新增单句的第一标签；根据句式识别模型识别出该新增单句的问答类型，设置该新增单句的第二标签；利用lda模型和词法分析模型抽取该补充文本的名词，作为新增名词，分别计算新增名词与该会话文本中多个名词的最终分类方式中多个名词簇间的距离，将与该新增名词距离最近的名词簇的主题信息设置为该新增名词的第三标签，从而对含有新增名词的新增单句设置第四标签，用于表示该新增单句的主题信息；去除该新增单句的第一标签和第四标签中重复的标签信息，并按照该新增单句的第二标签、第四标签、第一标签的排列顺序设置第五标签，用于表示该新增单句的中心思想。
133.通过本技术实施例，该文本标签设计设备能接收其他设备发送的会话文本，结合聚类算法和多个用于处理自然语言的模型，辅助用户对会话文本中的多个单句设置多种标签信息，提高该会话文本标签的设计效率，便于用户后续分析该会话文本所隐含的沟通需求和/或沟通话术。
134.上述详细阐述了本技术实施例的方法，为了便于更好地实施本技术实施例的上述方案，相应地，下面提供了本技术实施例的装置。
135.可以理解的是，本技术实施例提供的装置，例如一种文本标签设计装置，为了实现上述方法实施例中的功能，其包含了执行各个功能相应的硬件结构、软件模块、或硬件结构和软件结构的组合等。
136.本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及步骤，本技术实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以在不同的使用场景中，使用不同的装置实现方式来实现前述的方法实施例，对于装置的不同实现方式不应认为超出本技术实施例的范围。
137.本技术实施例可以对装置进行功能模块的划分。例如，可对应各个功能划分各个功能模块，也可将两个或两个以上的功能集成在一个功能模块中。上述集成的模块既可以通过硬件的形式实现，也可以通过软件功能模块的形式实现。需要说明的是，本技术实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，以通过集成的方式划分装置各个功能模块的情况为例，本技术例举几种可能的处理装置。
138.请参见图6，图6是本技术实施例提供的一种文本标签设计装置的结构示意图，该文本标签设计装置60可以为图1所示的文本标签设计设备102，或者该文本标签设计设备102中的器件；该文本标签设计装置60可以包括划分单元601、聚类单元602、第一标记单元603和第二标记单元604，其中，各个单元的详细描述如下：
139.划分单元601用于对会话文本进行分句，得到多个单句；
140.聚类单元602用于通过聚类算法对所述多个单句进行聚类，将所述多个单句分成至少两类分类结果；
141.第一标记单元603用于根据用户对所述至少两类结果中每类分类结果分别识别出的句子意图，对所述至少两类分类结果中的多个单句设置第一标签，其中，第一单句的第一标签包括所述第一单句所属的分类结果对应的句子意图，所述第一单句为所述多个单句中的任意一个单句；
142.第二标记单元604用于根据句式识别模型识别出的所述多个单句中每个单句的问
答类型，对所述多个单句设置第二标签，其中，所述第一单句的第二标签包括所述第一单句的问答类型，所述第一单句的问答类型用于表征所述第一单句为问句或者答句；
143.其中，所述会话文本的标签信息用于分析所述会话文本所隐含的沟通需求和/或沟通话术，所述会话文本的标签信息包括所述第一标签和所述第二标签；
144.在一种可能的实现方式中，所述装置60还包括设置单元，用于根据所述会话文本的多个单句中名词的第三标签对所述多个单句设置第四标签，其中，所述第三标签包括所述多个单句中名词的主题信息，所述会话文本的标签信息还包括所述第四标签。
145.在另一种可能的实现方式中，所述设置单元包括：
146.分析子单元用于通过词法分析模型对所述会话文本的主题词和关键词进行词法分析，得到名词集，其中，所述名词集包括所述主题词和所述关键词中的所有名词；
147.聚类子单元用于通过聚类算法对所述名词集中多个名词进行聚类，将所述多个名词分成至少两类分类结果；
148.第一标记子单元用于根据用户对所述至少两类结果中每类分类结果分别识别出的词语主题，对所述至少两类分类结果中的多个名词设置第三标签，其中，第一名词的第三标签包括所述第一名词所属的分类结果对应的词语主题，所述第一名词为所述多个名词中的任意一个名词；
149.第二标记子单元用于对所述会话文本的多个单句设置第四标签，其中，第一单句的第四标签包括所述第一单句中所有属于所述名词集的名词的第三标签。
150.在又一种可能的实现方式中，在所述通过词法分析模型对所述会话文本的主题词和关键词进行词法分析之前，所述分析子单元还用于：
151.通过隐含狄利克雷分布lda模型对所述会话文本进行处理，得到所述会话文本的主题词和关键词。
152.在又一种可能的实现方式中，所述装置60还包括：
153.第三标记单元，用于根据所述第一标签、所述第二标签和所述第四标签设置所述会话文本中多个单句的第五标签，其中，第一单句的第五标签用于表示所述第一单句的中心思想，所述会话文本的标签信息还包括所述第五标签。
154.具体的，在所述根据所述第一标签、所述第二标签和所述第四标签设置所述会话文本中多个单句的第五标签方面，所述第三标记单元具体用于：
155.去除所述第一标签和所述第四标签中重复的标签信息；
156.按照所述第二标签、所述第四标签、所述第一标签的排列顺序，设置所述会话文本中多个单句的第五标签。
157.在又一种可能的实现方式中，所述装置60还包括：
158.第四标记单元用于生成新增单句的所述第一标签、所述第二标签、所述第四标签和所述第五标签，所述新增单句为针对所述会话文本的补充文本的单句；
159.其中，所述新增单句的标签信息用于分析所述新增单句所隐含的沟通需求和/或沟通话术，所述新增单句的标签信息包括所述第一标签、所述第二标签、所述第四标签和所述第五标签。
160.需要说明的是，在本技术实施例中，各个单元的具体实现及技术效果还可以对应参照图1-图5所示的实施例的相应描述。
161.请参见图7，图7是本技术实施例提供的一种文本标签设计设备70，该文本标签设计设备70包括处理器701、存储器702和通信接口703，所述处理器701、存储器702和通信接口703通过总线相互连接。
162.处理器701可以是一个或多个中央处理器(central processing unit，cpu)，在处理器701是一个cpu的情况下，该cpu可以是单核cpu，也可以是多核cpu。
163.存储器702包括但不限于是随机存储记忆体(random access memory，ram)、只读存储器(read-only memory，rom)、可擦除可编程只读存储器(erasable programmable read only memory，eprom)、或便携式只读存储器(compact disc read-only memory，cd-rom)，该存储器702用于相关计算机程序及数据。
164.通信接口703用于接收和发送数据。可选的，所述通信接口703接收终端设备发送的会话文本，并将所述会话文本发送至所述处理器701；可选的，所述通信接口703接收所述处理器701发送的所述会话文本的标签信息，并将所述标签信息发送至所述终端设备。
165.处理器701用于读取所述存储器702中存储的计算机程序代码，执行以下操作：
166.对会话文本进行分句，得到多个单句；
167.通过聚类算法对所述多个单句进行聚类，将所述多个单句分成至少两类分类结果；
168.根据用户对所述至少两类结果中每类分类结果分别识别出的句子意图，对所述至少两类分类结果中的多个单句设置第一标签，其中，第一单句的第一标签包括所述第一单句所属的分类结果对应的句子意图，所述第一单句为所述多个单句中的任意一个单句；
169.根据句式识别模型识别出的所述多个单句中每个单句的问答类型，对所述多个单句设置第二标签，其中，所述第一单句的第二标签包括所述第一单句的问答类型，所述第一单句的问答类型用于表征所述第一单句为问句或者答句；
170.其中，所述会话文本的标签信息用于分析所述会话文本所隐含的沟通需求和/或沟通话术，所述会话文本的标签信息包括所述第一标签和所述第二标签。
171.在一种可能的实现方式中，所述处理器701还用于根据所述会话文本的多个单句中名词的第三标签对所述多个单句设置第四标签，其中，所述第三标签包括所述多个单句中名词的主题信息，所述会话文本的标签信息还包括所述第四标签。
172.在另一种可能的实现方式中，在所述根据所述会话文本的多个单句中名词的第三标签对所述多个单句设置第四标签方面，所述处理器701具体用于：
173.通过词法分析模型对所述会话文本的主题词和关键词进行词法分析，得到名词集，其中，所述名词集包括所述主题词和所述关键词中的所有名词；
174.通过聚类算法对所述名词集中多个名词进行聚类，将所述多个名词分成至少两类分类结果；
175.根据用户对所述至少两类结果中每类分类结果分别识别出的词语主题，对所述至少两类分类结果中的多个名词设置第三标签，其中，第一名词的第三标签包括所述第一名词所属的分类结果对应的词语主题，所述第一名词为所述多个名词中的任意一个名词；
176.对所述会话文本的多个单句设置第四标签，其中，第一单句的第四标签包括所述第一单句中所有属于所述名词集的名词的第三标签。
177.在又一种可能的实现方式中，在所述通过词法分析模型对所述会话文本的主题词
和关键词进行词法分析之前，所述处理器701还用于：
178.通过隐含狄利克雷分布lda模型对所述会话文本进行处理，得到所述会话文本的主题词和关键词。
179.在又一种可能的实现方式中，所述处理器701还用于：
180.根据所述第一标签、所述第二标签和所述第四标签设置所述会话文本中多个单句的第五标签，其中，第一单句的第五标签用于表示所述第一单句的中心思想，所述会话文本的标签信息还包括所述第五标签。
181.具体的，在所述根据所述第一标签、所述第二标签和所述第四标签设置所述会话文本中多个单句的第五标签方面，所述处理器701具体用于：
182.去除所述第一标签和所述第四标签中重复的标签信息；
183.按照所述第二标签、所述第四标签、所述第一标签的排列顺序，设置所述会话文本中多个单句的第五标签。
184.在又一种可能的实现方式中，所述处理器701还用于：
185.生成新增单句的所述第一标签、所述第二标签、所述第四标签和所述第五标签，所述新增单句为针对所述会话文本的补充文本的单句；
186.其中，所述新增单句的标签信息用于分析所述新增单句所隐含的沟通需求和/或沟通话术，所述新增单句的标签信息包括所述第一标签、所述第二标签、所述第四标签和所述第五标签。
187.需要说明的是，各个操作的实现还可以对应参照图3所示的实施例的相应描述。
188.本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在网络设备上运行时，图2或图3所示的方法流程得以实现。
189.本技术中实施例提到的“多个”是指两个或两个以上，字符“/”一般表示前后关联对象是一种“或”的关系。以及，除非有相反的说明，本技术实施例中提到的第一标签、第一单句、第一名词、第一指标、第一排序结果中的“第一”只是用来做名字标识，不用于限定多个对象的顺序、时序、优先级或者重要程度。该规则同样适用于“第二”、“第三”和“第四”等。
190.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：任务队列设计方法、系统、终端及存储介质与流程

一种文本标签设计方法及相关装置与流程

相关文献

最热文献