对评论语句打标的方法、装置、设备和存储介质与流程

2022-02-20 04:34:07 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，具体而言，涉及一种对评论语句打标的方法、装置、设备和存储介质。

背景技术：

2.电商时代，用户对于产品的评论对于产品的改进有重要作用。现有技术中，商家获取海量的评论的数据后，都是人工来对评论进行打标签，主观性比较强，误差比较大，效率低，数据集多为上万条评论，耗费大量的人力成本。

技术实现要素：

3.本技术的主要目的在于提供一种对评论语句打标的方法、装置、设备和存储介质，以提高打标的效率。
4.为了实现上述目的，根据本技术的一个方面，提供了一种对评论语句打标的方法，包括：
5.获取产品的待分析评论语句集合；
6.接收所述产品的标准标签和所述标准标签的解释语句；
7.基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性；
8.如果所述相关性大于预定阈值，则确定所述标准标签为所述待分析评论语句的标签，为所述待分析评论语句打上所述标准标签。
9.在一种实施方式中，基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性，包括：
10.将标准标签和待分析评论语句输入基于文本向量的转换模型计算得到第一向量；
11.将标准标签和标准标签的解释语句输入基于文本向量的转换模型计算得到第二向量；
12.计算所述第一向量和所述第二向量的相关性。
13.在一种实施方式中，还包括：所述标准标签从预先存储的标签数据库中获取；所述标签数据库中存储了上下级标签的对应关系。
14.在一种实施方式中，为所述待分析评论语句打打上所述标准标签之后，还包括：
15.统计所述标准标签对应的评论语句数量；
16.统计所述待分析评论语句集合中评论语句的总数量；
17.根据所述总数量和所述标准标签对应的评论语句数量计算所述标准标签的召回率。
18.在一种实施方式中，确定所述标准标签为所述待分析评论语句的标签之后，所述方法还包括：
19.根据标签数据库中存储的上下级标签的对应关系，确定所述标准标签的子标签；
20.对于任意的一个标准标签的子标签，接收所述子标签和所述子标签的解释语句；
21.基于文本向量转换模型计算待分析的语句和所述子标签的解释语句的相关性；
22.如果所述相关性大于预定阈值，则确定所述子标签为所述待分析评论语句的标签。
23.在一种实施方式中，获取所述标准标签的解释语句，包括：
24.分别向多个不同的百科数据库中，输入所述标准标签；
25.接收每个百科数据库返回的所述标准标签的解释语句。
26.第二方面，本技术提供了一种对评论语句打标的装置，包括：获取模块，用于获取产品的待分析评论语句集合；
27.接收模块，用于接收所述产品的标准标签和所述标准标签的解释语句；
28.计算模块，用于基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性；
29.标签处理模块，用于如果所述相关性大于预定阈值，则确定所述标准标签为所述待分析评论语句的标签，为所述待分析评论语句打上所述标准标签。
30.在一种实施方式中，计算模块还用于：
31.将标准标签和待分析评论语句输入基于文本向量的转换模型计算得到第一向量；
32.将标准标签和标准标签的解释语句输入基于文本向量的转换模型计算得到第二向量；
33.计算所述第一向量和所述第二向量的相关性。
34.第三方面，本技术还提出了一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行上述任意一项所述的方法。
35.第四方面，本技术还提出了一种计算机可读存储介质，计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行上述任意一项所述的方法。
36.在本技术上述的实施例中，获取产品的待分析评论语句集合；基于文本向量转换模型计算所述待分析评论语句和标准标签的解释语句的相关性；根据相关性来确定待分析评论语句的标签，提高了对于待分析评论语句进行打标签的效率和准确性。
附图说明
37.构成本技术的一部分的附图用来提供对本技术的进一步理解，使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
38.图1是根据本技术实施例的一种洗发水的标签树的结构示意图；
39.图2是根据本技术实施例的一种对评论语句打标的方法的流程图；
40.图3是根据本技术实施例的计算模型结构示意图；
41.图4是根据本技术实施例的一种对评论语句打标的装置的结构示意图；
42.图5是根据本技术实施例的一种电子设备的结构示意图。
具体实施方式
43.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
44.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
45.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
46.电商时代，商家都开通了用户对于产品的评论的功能，同样的一件产品，从网上可以获取对该产品的大量评论，数量成千上万。对于评论，每个评论打上标签，可以有利于对于评论进行分门别类，有利于厘清对于产品的认识。参见附图1所示的一种洗发水的标签树的结构示意图；其中，该标签树中，包括一级标签和二级标签。一级标签包括：品牌、产品成分质地、产品功效、种草原因；其中，品牌下属的二级标签包括：清扬、多芬。产品成分质地下属的二级标签包括：海盐、磨砂、泡沫、香味、硅油、精粹；产品功效下属的二级标签包括：控油、去屑、祛痘、柔顺；种草原因下属的二级标签包括：价格、包装、容量、促销、活动、明星。上述标签是从海量的评论数据中经过抽象聚类得到的。每种标签都有大量的对应的评论。
47.现有技术中，商家获取海量的评论的数据后，都是人工来对一些评论进行评判，主观性比较强，误差比较大。效率低，如果数据集为几万条评论，则人工需要挨个核对每个评论，判断每个评论对应的标签，耗费大量的人力物力，成本太高。
48.本技术提出了一种对评论语句打标的方法，参见附图2所示的一种对评论语句打标的方法的流程图；该方法包括：
49.步骤s202，获取产品的待分析评论语句集合。
50.具体的，可以从各大网站中获取产品的评论语句。
51.步骤s204，接收所述产品的标准标签和所述标准标签的解释语句。
52.具体的，从预先存储的标签数据库中获取标注标签；所述标签数据库中存储了上下级标签的对应关系。
53.优选地，标签数据库可以采用标签树的形式来存储标签，标签树中，标签之间的关系关系更加清晰。
54.参见附图3所示的一种计算模型结构示意图；其中，产品功效为标签。
55.示例性的，以产品功效为例，对于产品功效，解释语句可以为自定义，或者从百科数据库中查找。当然，选取的百科数据库不同，对于产品功效的解释语句也不同。
56.步骤s206，基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性。
57.其中，文本向量转换模型为专门用来对文字进行向量化处理的一种模型。优选的，可以为bert模型。经过文本向量转换模型向量化处理后，可以计算出任意两个语句之间的相关性。
58.具体的，步骤s206，基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性，包括：
59.将标准标签和待分析评论语句输入基于文本向量的转换模型计算得到第一向量；
60.将标准标签和标准标签的解释语句输入基于文本向量的转换模型计算得到第二向量；
61.计算所述第一向量和所述第二向量的相关性。
62.示例性的，需要将标签1 标签1的解释语句a输入基于文本向量的转换模型计算得到向量a，其中，标签1的解释语句a可理解为标准答案；
63.将标签1 待分析评论语句b输入基于文本向量的转换模型计算得到向量b；
64.计算向量a和向量b的相关性，如果向量a和向量b满足阈值条件，则确定代分析评论语句b应该打上标签1。
65.示例性的，附图3中，“产品功效”为标签，自定义解释或者词典解释为：“xxxxxxx”。
66.计算“xxxxxxx”与用户对产品的评论“产品效果非常好”的相关性。
67.具体的，将“产品功效 xxxxxxx”输入模型得到向量cls1；
68.将“产品功效产品效果非常好”输入模型得到向量cls2；
69.计算向量cls1和cls2的相关性，来判断“产品效果非常好”这句评论的标签是否为“产品功效”。
70.步骤s208，如果所述相关性大于预定阈值，则确定所述标准标签为所述待分析评论语句的标签。
71.其中，预定阈值可以灵活进行设定，本技术不进行限定。
72.步骤s210，为所述待分析评论语句打上所述标准标签。
73.本发明的上述的方法，通过计算与标签标签的解释语句的相关性来确定待评论语句的标签，提高了对于待评论语句进行标签分析的准确性。
74.在一种实施方式中，为所述待分析评论语句打上所述标准标签之后，计算所述标准标签的召回率，采取以下的步骤：
75.统计所述标准标签对应的评论语句数量；
76.统计所述待分析评论语句集合中评论语句的总数量；
77.根据所述总数量和所述标准标签对应的评论语句数量计算所述标准标签的召回率。
78.示例性的，总的待分析的评论语句数量为4万，标签“产品功效”对应的的评论数量为2万，则该标签“产品功效”的召回率为0.5。
79.为了实现确定更加细粒度的标签，在一种实施方式中，确定所述标准标签为所述待分析评论语句的标签之后，根据标签数据库中存储的上下级标签的对应关系，确定所述标准标签的子标签；
80.对于任意的一个标准标签的子标签，接收所述子标签和所述子标签的解释语句；
81.基于文本向量转换模型计算待分析的语句和所述子标签的解释语句的相关性；
82.如果所述相关性大于预定阈值，则确定所述子标签为所述待分析评论语句的标签。
83.其中，预定阈值可以灵活进行设定。
84.示例性的，附图2中，确定出“产品功效”标签之后，还可以在标签数据确定出“产品功效”下属的多个二级标签，对任意的一个二级标签，将二级标签作为标准标签，从样本数据库中进行召回，选择适当的相关性阈值，召回得到每个二级标签对应的评论语句集合。
85.比如，二级标签，控油，经过上述的步骤计算之后，从4万数量的评论样本集合中召回的评论的数量为700个，者700个评论的标签为控油；
86.二级标签，去屑，选取适当的相关度阈值，从4万数量的评论样本集合中召回的评论数量为800个，这800个评论的标签为去屑。
87.进一步的，还可以计算召回率，示例性的，上述二级标签去屑中，召回率为800/40000＝0.005。
88.如果客户对于召回率指标提出要求，在一种实施方式中，如果召回率小于客户提出的召回率指标，则调整所述相关性阈值，直到召回率大于或等于客户退出的召回率指标为止。
89.具体的，召回率是客户提出来的要求，对于一个包括有上万条评论集合的样本集，如果召回率很低，只召回了几百条评论，则客户不满意，客户一般都想要得到一个召回率比较高的标签。
90.具体的，如果相关性阈值越高，则召回的评论条数就越少，如果相关性阈值越低，则召回的评论条数就越多。
91.示例性的，如果相关性阈值为0.9，则从一万条评论中可以召回50条评论，该50条评论的标签都为产品功效。
92.如果相关性阈值为0.7，则从一万条评论中可以召回200条，200条评论的标签为产品功效。
93.示例性的，标签为“控油”，相关性阈值设定为0.9，召回率只有0.3，但是客户期望的召回率达到0.5，则调低相关性阈值，由0.9调低为0.7，看召回率有没有提高，当然这里伴随的风险就是准确率会下降，如果调整相关性阈值后，召回率依旧没有提升，那么说明设置标签有问题，标签需要更换。所以需要进行更换标签为描述更加清晰，没有歧义的标签，比如“洗护用品控油效果”94.进一步的，如果调整相关性阈值后，召回率还是达不到客户给出的召回率的指标，则将标签更新。
95.具体的，将标签删除。替换为召回率符合指标的新的标签。
96.示例性的，上述的例子中，上述二级标签去屑，召回率为800/40000＝0.005。召回率太小，如果调整相关性阈值之后，召回率还是达不到预定的阈值，比如召回率阈值为0.6，具体可以灵活设定，则可以考虑修改标签树，将二级标签去屑删除。如此，及时更新标签树，精简标签树，可以根据评论的实时动态来动态调整标签树。
97.在一种实施方式中，可以设置一组标签为备选标签，当标签树中的标签不合格时，则从备选标签中，试验备选标签是否达到召回率的要求。
98.在一种实施方式中，标签树可以设置多级，比如，4级或者5级；当依次对一级标签，
二级标签，三级标签，四级标签，五级标签进行召回时，发现随着标签的粒度越来越细，召回率会越来越低，当召回率小于客户要求的召回率指标时，则考虑进行标签合并。把同义词相近的两个标签用一个表示。如果合并之后，发现召回率还是打不到客户要求的召回率指标，则考虑把整个5个标签删除。
99.用上述的方法也可以对4级标签，3级标签，进行调整。经过调整之后，标签树中的标签结构，更加优化。
100.值得强调的是，标签树只是一种形式，除了标签树之外，也可以采用其他的形式来表明标签的存储关系，比如，用excel表格中，记载标签之间的关系。
101.在一种实施方式中，获取所述标准标签的解释语句时，分别向多个不同的百科数据库中，输入所述标准标签；
102.接收所述百科数据库返回的所述标准标签的解释语句。
103.示例性的，分别向百度百科，360百科，维基百科数据库中输入标签“柔顺”，会得到不同的解释。
104.360百科的解释为：温柔和顺。
105.百度百科的解释为：温顺，犹柔软，不坚硬。
106.维基百科中的解释为：柔软剂，品牌情感定位，理性诉求广告。
107.对于上述的多种不同的解释，一种是人为在召回结果中挑选与公司营销场景或客户场景接近的描述；第二种就是在人也不确定的情况下，可以选取多个百科检索结果中描述意思重叠接近的语句作为大众的标准描述。
108.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
109.第二方面，本技术还提出了一种对评论语句打标的装置，参见附图4所示的一种对评论语句打标的装置的结构示意图；该装置包括：
110.获取模块41，用于获取产品的待分析评论语句集合；
111.接收模块42，用于接收所述产品的标准标签和所述标准标签的解释语句；
112.计算模块43，用于基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性；
113.标签处理模块44，用于如果所述相关性大于预定阈值，则确定所述标准标签为所述待分析评论语句的标签，为所述待分析评论语句打上所述标准标签。
114.在一种实施方式中，计算模块43还用于：
115.将标准标签和待分析评论语句输入基于文本向量的转换模型计算得到第一向量；
116.将标准标签和标准标签的解释语句输入基于文本向量的转换模型计算得到第二向量；
117.计算所述第一向量和所述第二向量的相关性。
118.在一种实施方式中，所述获取模块41还用于，从预先存储的标签数据库中获取所述标准标签；所述标签数据库中存储了上下级标签的对应关系。
119.在一种实施方式中，计算模块43还用于，统计所述标准标签对应的评论语句数量；
120.统计所述待分析评论语句集合中评论语句的总数量；
121.根据所述总数量和所述标准标签对应的评论语句数量计算所述标准标签的召回率。
122.标签处理模块44还用于，确定所述标准标签为所述待分析评论语句的标签之后，根据标签数据库中存储的上下级标签的对应关系，确定所述标准标签的子标签；
123.对于任意的一个标准标签的子标签，接收所述子标签和所述子标签的解释语句；
124.基于文本向量转换模型计算待分析的语句和所述子标签的解释语句的相关性；
125.如果所述相关性大于预定阈值，则确定所述子标签为所述待分析评论语句的标签。
126.在一种实施方式中，获取模块41还用于，分别向多个不同的百科数据库中输入所述标准标签；
127.接收每个百科数据库返回的所述标准标签的解释语句。
128.第三方面，本技术还提出了一种电子设备，参见附图5所示的一种电子设备的结构示意图；该设备包括：至少一个处理器51和至少一个存储器52；所述存储器52用于存储一个或多个程序指令；所述处理器51，用于运行一个或多个程序指令，用以执行以下的步骤：
129.获取产品的待分析评论语句集合；
130.接收所述产品的标准标签和所述标准标签的解释语句；
131.基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性；
132.如果所述相关性大于预定阈值，则确定所述标准标签为所述待分析评论语句的标签，为所述待分析评论语句打上所述标准标签。
133.所述处理器51还用于，将标准标签和待分析评论语句输入基于文本向量的转换模型计算得到第一向量；
134.将标准标签和标准标签的解释语句输入基于文本向量的转换模型计算得到第二向量；
135.计算所述第一向量和所述第二向量的相关性。
136.所述处理器51还用于，所述标准标签从预先存储的标签数据库中获取；所述标签数据库中存储了上下级标签的对应关系。
137.所述处理器51还用于，为所述待分析评论语句打上所述标准标签之后，
138.统计所述标准标签对应的评论语句数量；
139.统计所述待分析评论语句集合中评论语句的总数量；
140.根据所述总数量和所述标准标签对应的评论语句数量计算所述标准标签的召回率。
141.所述处理器51还用于，确定所述标准标签为所述待分析评论语句的标签之后，根据标签数据库中存储的上下级标签的对应关系，确定所述标准标签的子标签；
142.对于任意的一个标准标签的子标签，接收所述子标签和所述子标签的解释语句；
143.基于文本向量转换模型计算待分析的语句和所述子标签的解释语句的相关性；
144.如果所述相关性大于预定阈值，则确定所述子标签为所述待分析评论语句的标签。
145.所述处理器51还用于，分别向多个不同的百科数据库中输入所述标准标签；
146.接收每个百科数据库返回的所述标准标签的解释语句。
147.第四方面，本技术还提出了一种计算机可读存储介质，计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行以下的步骤：
148.获取产品的待分析评论语句集合；
149.接收所述产品的标准标签和所述标准标签的解释语句；
150.基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性；
151.如果所述相关性大于预定阈值，则确定所述标准标签为所述待分析评论语句的标签，为所述待分析评论语句打上所述标准标签。
152.在一种实施方式中，基于文本向量转换模型计算所述待分析评论语句和所述标准标签的解释语句的相关性，包括：
153.将标准标签和待分析评论语句输入基于文本向量的转换模型计算得到第一向量；
154.将标准标签和标准标签的解释语句输入基于文本向量的转换模型计算得到第二向量；
155.计算所述第一向量和所述第二向量的相关性。
156.在一种实施方式中，还包括：所述标准标签从预先存储的标签数据库中获取；
157.所述标签数据库中存储了上下级标签的对应关系。
158.在一种实施方式中，为所述待分析评论语句打上所述标准标签之后，
159.统计所述标准标签对应的评论语句数量；
160.统计所述待分析评论语句集合中评论语句的总数量；
161.根据所述总数量和所述标准标签对应的评论语句数量计算所述标准标签的召回率。
162.在一种实施方式中，确定所述标准标签为所述待分析评论语句的标签之后，所述方法还包括：
163.根据标签数据库中存储的上下级标签的对应关系，确定所述标准标签的子标签；
164.对于任意的一个标准标签的子标签，接收所述子标签和所述子标签的解释语句；
165.基于文本向量转换模型计算待分析的语句和所述子标签的解释语句的相关性；
166.如果所述相关性大于预定阈值，则确定所述子标签为所述待分析评论语句的标签。
167.在一种实施方式中，获取所述标准标签的解释语句，包括：
168.分别向多个不同的百科数据库中，输入所述标准标签；
169.接收每个百科数据库返回的所述标准标签的解释语句。
170.可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。
171.存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括
易失性和非易失性存储器两者。
172.其中，非易失性存储器可以是只读存储器(read-only memory，简称rom)、可编程只读存储器(programmable rom，简称prom)、可擦除可编程只读存储器(erasable prom，简称eprom)、电可擦除可编程只读存储器(electrically eprom，简称eeprom)或闪存。
173.易失性存储器可以是随机存取存储器(random access memory，简称ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，简称sram)、动态随机存取存储器(dynamic ram，简称dram)、同步动态随机存取存储器(synchronous dram，简称sdram)、双倍数据速率同步动态随机存取存储器(double data ratesdram，简称ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，简称esdram)、同步连接动态随机存取存储器(synchlink dram，简称sldram)和直接内存总线随机存取存储器(directrambus ram，简称drram)。
174.本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
175.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
176.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：产品评论数据处理方法、装置、设备和存储介质与流程

对评论语句打标的方法、装置、设备和存储介质与流程

相关文献

最热文献