一种生成标签层级结构的方法和装置与流程

2021-12-07 21:43:00 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种生成标签层级结构的方法和装置。

背景技术：

2.在互联网的内容领域，很多网站赋予了用户向感兴趣的对象(如文章、视频、图片等)自由打标的功能，用户标注的标签称为社会化标签，其汇总成为一个体系，叫做大众分类法(folksonomy)。
3.虽然标签数量丰富，但是同一标签覆盖内容较少，标签是零散平铺的，应用价值密度较低。为了克服这种社会化标签缺乏组织的问题，需要从标签中发现内在的关系并构建标签层级结构，使得标签在搜索推荐、广告投放等业务场景下应用。
4.在实现本发明过程中，发明人发现现有技术中至少存在如下问题：
5.每个标签在生成的标签层级结构中的位置是唯一的，这个不能完全符合实际需求；如果标签可以在同一层级结构的不同位置出现，无法度量其相应的权重占比。

技术实现要素：

6.有鉴于此，本发明实施例提供一种生成标签层级结构的方法和装置，以解决标签在标签层级结构中的位置唯一的技术问题。
7.为实现上述目的，根据本发明实施例的一个方面，提供了一种生成标签层级结构的方法，包括：
8.根据各个标签在各个文件对象中的出现次数，筛选出存在关联关系的标签对；
9.根据各个所述标签对生成标签关系图；其中，所述关系图中的节点为标签，边的权重为两个标签在同一文件对象中的共现次数；
10.对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构。
11.可选地，所述对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构，包括：
12.计算所述标签关系图中各个节点的平均中心度；
13.根据各个所述节点的平均中心度和各个所述节点之间的关联关系，筛选出至少一个次根节点；
14.分别计算每个所述次根节点与各个邻接节点的隶属度，从而确定各个所述次根节点对应的候选节点集合，所述候选节点集合中的各个节点与所述次根节点具有隶属关系；
15.重复执行上述步骤，从而生成标签层级结构。
16.可选地，所述计算所述标签关系图中各个节点的平均中心度，包括：
17.对于每个节点，分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值；
18.分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值
进行归一化处理；
19.对归一化处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均，从而得到所述节点的平均中心度。
20.可选地，所述根据各个所述节点的平均中心度和各个所述节点之间的关联关系，筛选出至少一个次根节点，包括：
21.对各个所述节点的平均中心度进行降序排列，筛选出平均中心度靠前的n个节点；其中，n为大于零的整数；
22.对于所述n个节点，将具有关联关系的节点划分为一组，从而得到至少一个节点组；
23.对于每个节点组，将所述节点组中平均中心度最大的节点作为根节点。
24.可选地，采用如下方法计算所述次根节点与任意一个邻接节点的隶属度：
25.所述邻接节点与所述次根节点之间的边的权重占所述邻接节点所有边的权重和的占比。
26.可选地，所述确定各个所述次根节点对应的候选节点集合，包括：
27.将隶属度大于等于隶属度阈值的邻接节点加入到所述次根节点对应的候选节点集合，以使每个所述邻接节点至少隶属于一个次根节点。
28.可选地，所述根据各个标签在各个文件对象中的出现次数，筛选出存在关联关系的标签对，包括：
29.根据各个标签在各个文件对象中的出现次数，分别计算任意两个标签在同一文件对象中的共现次数；
30.对于任意两个标签，根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量，判定所述两个标签之间是否存在关联关系，从而筛选出存在关联关系的标签对。
31.可选地，所述根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量，判定所述两个标签之间是否存在关联关系，包括：
32.将所述两个标签在同一文件对象中的共现次数与文件对象的总数量相除，得到支持度；
33.将所述两个标签在同一文件对象中的共现次数与出现了其中一个标签的文件对象的数量相除，得到置信度；
34.若所述支持度大于等于支持度阈值，且所述置信度大于等于置信度阈值，则判定所述两个标签之间存在关联关系。
35.可选地，在所述生成标签层级结构之后，还包括：
36.根据所述标签层级结构，对各个文件对象匹配对应的标签。
37.另外，根据本发明实施例的另一个方面，提供了一种生成标签层级结构的装置，包括：
38.筛选模块，用于根据各个标签在各个文件对象中的出现次数，筛选出存在关联关系的标签对；
39.关联模块，用于根据各个所述标签对生成标签关系图；其中，所述关系图中的节点
为标签，边的权重为两个标签在同一文件对象中的共现次数；
40.生成模块，用于对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构。
41.可选地，所述生成模块还用于：
42.计算所述标签关系图中各个节点的平均中心度；
43.根据各个所述节点的平均中心度和各个所述节点之间的关联关系，筛选出至少一个次根节点；
44.分别计算每个所述次根节点与各个邻接节点的隶属度，从而确定各个所述次根节点对应的候选节点集合，所述候选节点集合中的各个节点与所述次根节点具有隶属关系；
45.重复执行上述步骤，从而生成标签层级结构。
46.可选地，所述生成模块还用于：
47.对于每个节点，分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值；
48.分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值进行归一化处理；
49.对归一化处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均，从而得到所述节点的平均中心度。
50.可选地，所述生成模块还用于：
51.对各个所述节点的平均中心度进行降序排列，筛选出平均中心度靠前的n个节点；其中，n为大于零的整数；
52.对于所述n个节点，将具有关联关系的节点划分为一组，从而得到至少一个节点组；
53.对于每个节点组，将所述节点组中平均中心度最大的节点作为根节点。
54.可选地，所述生成模块还用于：采用如下方法计算所述次根节点与任意一个邻接节点的隶属度：
55.所述邻接节点与所述次根节点之间的边的权重占所述邻接节点所有边的权重和的占比。
56.可选地，所述生成模块还用于：
57.将隶属度大于等于隶属度阈值的邻接节点加入到所述次根节点对应的候选节点集合，以使每个所述邻接节点至少隶属于一个次根节点。
58.可选地，所述筛选模块还用于：
59.根据各个标签在各个文件对象中的出现次数，分别计算任意两个标签在同一文件对象中的共现次数；
60.对于任意两个标签，根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量，判定所述两个标签之间是否存在关联关系，从而筛选出存在关联关系的标签对。
61.可选地，所述筛选模块还用于：
62.将所述两个标签在同一文件对象中的共现次数与文件对象的总数量相除，得到支持度；
63.将所述两个标签在同一文件对象中的共现次数与出现了其中一个标签的文件对象的数量相除，得到置信度；
64.若所述支持度大于等于支持度阈值，且所述置信度大于等于置信度阈值，则判定所述两个标签之间存在关联关系。
65.可选地，还包括匹模块，用于：
66.在所述生成标签层级结构之后，根据所述标签层级结构，对各个文件对象匹配对应的标签。
67.根据本发明实施例的另一个方面，还提供了一种电子设备，包括：
68.一个或多个处理器；
69.存储装置，用于存储一个或多个程序，
70.当所述一个或多个程序被所述一个或多个处理器执行时，所述一个或多个处理器实现上述任一实施例所述的方法。
71.根据本发明实施例的另一个方面，还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的方法。
72.上述发明中的一个实施例具有如下优点或有益效果：因为采用根据各个存在关联关系的标签对生成标签关系图，对标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构的技术手段，所以克服了现有技术中标签在标签层级结构中的位置唯一的技术问题。本发明实施例通过模糊聚类的方法解决标签具有多义性的问题，使得标签可以出现在不同位置，并计算每个标签在不同位置出现的概率值(即隶属度)；而且通过隶属度灵活控制递归聚类，能够自动化构建标签层级结构，从而可以节省人力成本。
73.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
74.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
75.图1是现有技术中的标签层级结构的示意图；
76.图2是根据本发明实施例的生成标签层级结构的方法的主要流程的示意图；
77.图3是根据本发明一个可参考实施例的生成标签层级结构的方法的主要流程的示意图；
78.图4是根据本发明实施例的生成标签层级结构的原理图；
79.图5是根据本发明实施例的生成标签层级结构的装置的主要模块的示意图；
80.图6是本发明实施例可以应用于其中的示例性系统架构图；
81.图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
82.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同
样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
83.典型的标签层级结构样例如图1所示，目前构建标签层级结构主要有三种方式，分别是人工、半人工、自动构建。其中人工构建质量最高，但是需要大量人工精力且受到主观因素影响，构造的成本也最高。半人工方式使用学习系统辅助人工构建，仍然需要人工参与大量工作，无法进行大规模扩展。自动构建标签体系为当前主流研究趋势，构建的过程一般分为两个步骤，一是基于标签语义发现标签间的关系，二是利用标签间的关系构建层级体系。从图中可以看出，每个标签在生成的标签层级结构中的位置是唯一的，而且即使标签可以在同一层级结构的不同位置出现，也无法度量其相应的权重占比。
84.为了解决现有技术中存在的上述技术问题，本发明实施例提供了一种生成标签层级结构的方法，该方法不但使得标签可以出现在不同位置，还能计算出每个标签在不同位置出现的隶属度(即权重占比)。
85.图1是根据本发明实施例的生成标签层级结构的方法的主要流程的示意图。作为本发明的一个实施例，如图1所示，所述生成标签层级结构的方法可以包括：
86.步骤101，根据各个标签在各个文件对象中的出现次数，筛选出存在关联关系的标签对。
87.在本发明的实施例中，文件对象可以是文本、图片、视频等，作者和用户可以对各个文件对象添加标签，因此待结构化的标签可能为社会化标签，也可能是作者设计的标签，但尚未建立明确的关系。
88.在步骤101之前，需要将文件对象与标签建立关联(即添加标签)。例如一篇描述美妆的文本可以打上“口红”、“tom ford”、“女王”这样的标签。为了提高标签的置信度，需要确保标签在文本中出现的次数，对于部分出现次数极少的标签，可以通过同义词方式归并到现有标签。
89.可选地，步骤101可以包括：根据各个标签在各个文件对象中的出现次数，分别计算任意两个标签在同一文件对象中的共现次数；对于任意两个标签，根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量，判定所述两个标签之间是否存在关联关系，从而筛选出存在关联关系的标签对。在本发明的实施例中，通过任意两个标签在同一文件对象中的共现次数、文件对象的总数量以及出现了其中一个标签的文件对象的数量来判断这两个标签之间是否存在关联关系，如果存在，则将这两个标签组成标签对，从而挖缺出标签之间的关联关系，过滤掉冗余关系。需要指出的是，一个标签可以与多个其他标签分别组成各自对应的标签对。
90.假设l＝{l1,l2,
…
,ln}为标签的集合，文本库a＝{a1,a2,
…
,an}，每个文本有一个唯一的id，这些文本都被打上了若干标签，可以计算两两标签在所有文本中共同出现的次数，做为判别标签之间联系强弱的基础。可选地，可以采用apriori算法挖掘频繁项集和生成关联规则。挖掘频繁项集就是指统计最小支持度(support)大于指定阈值的标签，生成关联规则是指在符合最小支持度基础上，满足最小置信度(confiden ce)，即已知标签l1出现的条件下标签l2出现的概率大于指定阈值，则达到关联规则l1
→
l2。
91.可选地，根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量，判定所述两个标签之间是否存在关联关系，包括：将所述两个标签在同一文件对象中的共现次数与文件对象的总数量相除，得到支持度；将
所述两个标签在同一文件对象中的共现次数与出现了其中一个标签的文件对象的数量相除，得到置信度；若所述支持度大于等于支持度阈值，且所述置信度大于等于置信度阈值，则判定所述两个标签之间存在关联关系。
92.举例如下：
93.idiphone苹果华为安卓111102110031000410105011161100
94.上表是文本和标签关系，包含6个文本。项集i＝{iphone,苹果,华为,安卓}。考虑关联规则：iphone与苹果，文本1,2,3,4,6包含iphone，文本1,2,6同时包含iphone和苹果，x∩y＝3,a＝6，支持度(x∩y)/a＝0.5；x＝5,置信度(x∩y)/x＝0.6。若给定最小支持度α＝0.5，最小置信度β＝0.6，则认为iphone标签和苹果标签之间存在较强的关联关系，两者组成标签对。
95.步骤102，根据各个所述标签对生成标签关系图；其中，所述关系图中的节点为标签，边的权重为两个标签在同一文件对象中的共现次数。
96.根据步骤101中筛选出的各个标签对，生成标签关系图(无向图)g＝(v,e)，v为图中节点(标签)的集合，e为边的集合。其中，边的权重即为两个节点标签的共现次数。比如，iphone标签和苹果标签共现了3次，则连接这两个节点的边的权重为3。
97.步骤103，对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构。
98.本发明实施例借鉴模糊聚类的隶属度函数的思想，结合图的特点，计算每个标签相对于聚类中心的关联关系，然后通过中心度算法选取代表这个聚类的中心点。可选地，步骤103可以包括：
99.采用如下方法生成一级标签层级：
100.计算所述标签关系图中各个节点的平均中心度；
101.根据各个所述节点的平均中心度和各个所述节点之间的关联关系，筛选出至少一个次根节点；
102.分别计算每个所述次根节点与各个邻接节点的隶属度，从而确定各个所述次根节点对应的候选节点集合，所述候选节点集合中的各个节点与所述次根节点具有隶属关系；
103.重复执行生成一级标签层级的步骤，从而生成标签层级结构。
104.在本发明的实施例中，根节点可以由用户决定，根节点可以不是标签关系图中的标签，也可以是标签关系图中的某一个标签(可以是平均中心度最高的节点)，本发明实施例对此不作限制。
105.可选地，计算所述标签关系图中各个节点的平均中心度，包括：对于每个节点，分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值；分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值进行归一化处理；对归一化
处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均，从而得到所述节点的平均中心度。
106.度中心性(degree centrality)是在网络分析中刻画节点中心性(centrality)的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高，该节点在网络中就越重要。
107.中介中心性/中间中心性(between centrality)，以经过某个节点的最短路径数目来刻画节点重要性的指标。
108.接近中心性(closeness centrality)，反映在网络中某一节点与其他节点之间的接近程度，将一个节点到所有其他节点的最短路径距离的累加起来的倒数表示接近性中心性。即对于一个节点，它距离其他节点越近，那么它的接近性中心性越大。
109.网页排名(pagerank)，又称网页级别、google左侧排名或佩奇排名，是一种由根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，用来体现网页的相关性和重要性。
110.本发明实施例根据步骤102生成的标签关系图，分别计算图中各个节点的计算度中心性、中介中心性、接近中心性和网页排序值(即pagerank值)，然后将各中心性归一化后求算术平均，得到该节点的平均中心度。经实验，单类中心度算法在不同数据场景下适用。本发明实施例结合度中心性统计出入度总数，中介中心性做为桥梁连接的作用，接近中心性与其他节点的最短路径以及pagerank值考虑各个节点之间的交互作用，去量钢后计算最终的平均中心度，最后通过平均中心度从一堆标签中挑选出最有代表性的标签(即次根节点)作为这群标签(即标签关系图中的节点集合)的代表。
111.可选地，根据各个所述节点的平均中心度和各个所述节点之间的关联关系，筛选出至少一个次根节点，包括：对各个所述节点的平均中心度进行降序排列，筛选出平均中心度靠前的n个节点；其中，n为大于零的整数；对于所述n个节点，将具有关联关系的节点划分为一组，从而得到至少一个节点组；对于每个节点组，将所述节点组中平均中心度最大的节点作为根节点。标签关系图中的各个节点可以认为是次根节点的候选节点集合，从中筛选出平均中心度靠前的n个节点后，判断这n个节点中有没有具有关联关系的节点，如果有，则将这几个节点划分为一组。由于步骤101中已经计算出了各个标签之间是否具有关联关系，那么如果n个节点中，有直接连接的两个节点，则认为这两个节点具有关联关系，划分在一个节点组中。
112.例如，根节点“手机”的标签关系图中，筛选出平均中心度最高的9个节点标签，分别是电池，屏幕，全面屏，拍照，摄像头，性能，像素，处理器，机身。基于这个9个节点之间的关联关系，划分为五个节点组：(拍照，摄像头，像素)为一组，(处理器，性能)为一组，(屏幕，全面屏)为一组，电池为一组，机身为一组。最后从这五个节点组中各筛选出一个平均中心度最高的节点作为次根节点：例如拍照、处理器、屏幕、电池、机身是手机下的五个分类的次根节点。
113.可选地，采用如下方法计算所述次根节点与任意一个邻接节点的隶属度：所述邻接节点与所述次根节点之间的边的权重占所述邻接节点所有边的权重和的占比。
114.例如：麒麟-处理器的边为30，麒麟-拍照的边为5，麒麟-电池的边为5，则麒麟0.75隶属于处理器，0.125隶属于拍照，0.125隶属于电池。处理器-苹果的边为15，拍照-苹果的
边为25，屏幕-苹果的边为30，电池-苹果的边为20，机身与苹果的边为10，则苹果标签对应于处理器，拍照，屏幕，电池，机身等标签的隶属度依次为：0.15，0.25，0.3，0.2，0.1。
115.可选地，确定各个所述次根节点对应的候选节点集合，包括：将隶属度大于等于隶属度阈值的邻接节点加入到所述次根节点对应的候选节点集合，以使每个所述邻接节点至少隶属于一个次根节点。通过设置隶属度阈值，剪枝去掉隶属度低于隶属度阈值的节点，并保证每个节点至少隶属于一个次根节点。在本发明的实施例中，一个节点可以隶属于多个次根节点，并且至少隶属于一个次根节点。
116.例如，设置保留节点隶属度大于等于0.2的有效隶属关系，麒麟隶属于处理器，隶属度为0.75；苹果隶属于拍照、屏幕、电池，隶属度为0.25,0.3,0.2。
117.然后，将各个次根节点的隶属节点作为候选节点集合，重复上述步骤，生成下一级标签层级和隶属度，直到全部层级关系建立。或者设置停止条件：邻接节点的数量小于指定阈值。需要指出的是，第一层级和最后一个层级的节点不需要计算隶属度。
118.例如，取处理器相关的候选节点集合，中心度最高的节点为高通，性能，
…
，这些节点作为次次根节点，然后分别得到他们与处理器的隶属度，再计算他们的下层标签及隶属度。
119.例如，用手机相关文本计算出次根节点为：拍照、处理器、屏幕、电池、机身。计算次根节点和邻接节点的隶属度为
120.次根节点邻接节点隶属度标签id处理器2.4g0.5760000电池2.4g0.2186674电池3600.3134534处理器3600.3270130机身3d0.4565263
121.本发明实施例构建得到的带权重占比(即隶属度)的标签层级结构，可用于搜索推荐内容和用户的精准匹配，也可用于发现用户之间的相似兴趣。
122.可选地，生成标签层级结构之后，则可以根据所述标签层级结构，对各个文件对象匹配对应的标签。由于本发明实施例构建的标签层级结构充分地发现了标签之间内在关系，因此对各个文件对象匹配的标签能够更好地表征各个文件对象的特点，使得在搜索推荐、广告投放等业务场景下应用时实现精准推荐和投放。
123.根据上面所述的各种实施例，可以看出本发明实施例通过根据各个存在关联关系的标签对生成标签关系图，对标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构的技术手段，解决了现有技术中标签在标签层级结构中的位置唯一的技术问题。本发明实施例通过模糊聚类的方法解决标签具有多义性的问题，使得标签可以出现在不同位置，并计算每个标签在不同位置出现的概率值(即隶属度)；而且通过隶属度灵活控制递归聚类，能够自动化构建标签层级结构，从而可以节省人力成本。
124.图3是根据本发明一个可参考实施例的生成标签层级结构的方法的主要流程的示意图。作为本发明的又一个实施例，如图3所示，所述生成标签层级结构的方法可以包括：
125.步骤301，准备基础数据。
126.如图4所示，所述基础数据包括各个文件对象及其对应的标签。文件对象可以是文
本、图片、视频等，作者和用户可以对各个文件对象添加标签，因此待结构化的标签可能为社会化标签，也可能是作者设计的标签，但尚未建立明确的关系。
127.步骤302，根据各个标签在各个文件对象中的出现次数，分别计算任意两个标签在同一文件对象中的共现次数。
128.步骤303，对于任意两个标签，根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量，判定所述两个标签之间是否存在关联关系，从而筛选出存在关联关系的标签对。
129.如图4所示，可以采用apriori算法挖掘频繁项集和生成关联规则。具体地，将所述两个标签在同一文件对象中的共现次数与文件对象的总数量相除，得到支持度；将所述两个标签在同一文件对象中的共现次数与出现了其中一个标签的文件对象的数量相除，得到置信度；若所述支持度大于等于支持度阈值，且所述置信度大于等于置信度阈值，则判定所述两个标签之间存在关联关系。
130.步骤304，根据各个所述标签对生成标签关系图。
131.其中，所述关系图中的节点为标签，边的权重为两个标签在同一文件对象中的共现次数。
132.步骤305，计算所述标签关系图中各个节点的平均中心度。
133.对于每个节点，分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值；分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值进行归一化处理；对归一化处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均，从而得到所述节点的平均中心度。
134.步骤306，根据各个所述节点的平均中心度和各个所述节点之间的关联关系，筛选出至少一个次根节点。
135.对各个所述节点的平均中心度进行降序排列，筛选出平均中心度靠前的n个节点；其中，n为大于零的整数；对于所述n个节点，将具有关联关系的节点划分为一组，从而得到至少一个节点组；对于每个节点组，将所述节点组中平均中心度最大的节点作为根节点。标签关系图中的各个节点可以认为是次根节点的候选节点集合，从中筛选出平均中心度靠前的n个节点后，判断这n个节点中有没有具有关联关系的节点，如果有，则将这几个节点划分为一组。
136.步骤307，分别计算每个所述次根节点与各个邻接节点的隶属度，从而确定各个所述次根节点对应的候选节点集合。
137.可选地，采用如下方法计算所述次根节点与任意一个邻接节点的隶属度：所述邻接节点与所述次根节点之间的边的权重占所述邻接节点所有边的权重和的占比。然后，将隶属度大于等于隶属度阈值的邻接节点加入到所述次根节点对应的候选节点集合，以使每个所述邻接节点至少隶属于一个次根节点。通过设置隶属度阈值，剪枝去掉隶属度低于隶属度阈值的节点，并保证每个节点至少隶属于一个次根节点。在本发明的实施例中，一个节点可以隶属于多个次根节点，并且至少隶属于一个次根节点。
138.步骤308，是否满足停止条件；若是，则执行步骤309；若否，则执行步骤305。
139.停止条件可以是完成全部层级关系的建立或者邻接节点的数量小于指定阈值。
140.步骤309，停止生成层级结构，得到标签层级结构。
141.另外，在本发明一个可参考实施例中生成标签层级结构的方法的具体实施内容，在上面所述生成标签层级结构的方法中已经详细说明了，故在此重复内容不再说明。
142.图5是根据本发明实施例的生成标签层级结构的装置的主要模块的示意图，如图5所示，所述生成标签层级结构的装置500包括筛选模块501、关联模块502和生成模块503；其中，筛选模块501用于根据各个标签在各个文件对象中的出现次数，筛选出存在关联关系的标签对；关联模块502用于根据各个所述标签对生成标签关系图；其中，所述关系图中的节点为标签，边的权重为两个标签在同一文件对象中的共现次数；生成模块503用于对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构。
143.可选地，所述生成模块503还用于：
144.计算所述标签关系图中各个节点的平均中心度；
145.根据各个所述节点的平均中心度和各个所述节点之间的关联关系，筛选出至少一个次根节点；
146.分别计算每个所述次根节点与各个邻接节点的隶属度，从而确定各个所述次根节点对应的候选节点集合，所述候选节点集合中的各个节点与所述次根节点具有隶属关系；
147.重复执行上述步骤，从而生成标签层级结构。
148.可选地，所述生成模块503还用于：
149.对于每个节点，分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值；
150.分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值进行归一化处理；
151.对归一化处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均，从而得到所述节点的平均中心度。
152.可选地，所述生成模块503还用于：
153.对各个所述节点的平均中心度进行降序排列，筛选出平均中心度靠前的n个节点；其中，n为大于零的整数；
154.对于所述n个节点，将具有关联关系的节点划分为一组，从而得到至少一个节点组；
155.对于每个节点组，将所述节点组中平均中心度最大的节点作为根节点。
156.可选地，所述生成模块503还用于：采用如下方法计算所述次根节点与任意一个邻接节点的隶属度：
157.所述邻接节点与所述次根节点之间的边的权重占所述邻接节点所有边的权重和的占比。
158.可选地，所述生成模块503还用于：
159.将隶属度大于等于隶属度阈值的邻接节点加入到所述次根节点对应的候选节点集合，以使每个所述邻接节点至少隶属于一个次根节点。
160.可选地，所述筛选模块501还用于：
161.根据各个标签在各个文件对象中的出现次数，分别计算任意两个标签在同一文件对象中的共现次数；
162.对于任意两个标签，根据所述两个标签在同一文件对象中的共现次数、文件对象
的总数量和出现了其中一个标签的文件对象的数量，判定所述两个标签之间是否存在关联关系，从而筛选出存在关联关系的标签对。
163.可选地，所述筛选模块501还用于：
164.将所述两个标签在同一文件对象中的共现次数与文件对象的总数量相除，得到支持度；
165.将所述两个标签在同一文件对象中的共现次数与出现了其中一个标签的文件对象的数量相除，得到置信度；
166.若所述支持度大于等于支持度阈值，且所述置信度大于等于置信度阈值，则判定所述两个标签之间存在关联关系。
167.可选地，还包括匹模块，用于：
168.在所述生成标签层级结构之后，根据所述标签层级结构，对各个文件对象匹配对应的标签。
169.根据上面所述的各种实施例，可以看出本发明实施例通过根据各个存在关联关系的标签对生成标签关系图，对标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构的技术手段，解决了现有技术中标签在标签层级结构中的位置唯一的技术问题。本发明实施例通过模糊聚类的方法解决标签具有多义性的问题，使得标签可以出现在不同位置，并计算每个标签在不同位置出现的概率值(即隶属度)；而且通过隶属度灵活控制递归聚类，能够自动化构建标签层级结构，从而可以节省人力成本。
170.需要说明的是，在本发明所述生成标签层级结构的装置的具体实施内容，在上面所述生成标签层级结构的方法中已经详细说明了，故在此重复内容不再说明。
171.图6示出了可以应用本发明实施例的生成标签层级结构的方法或生成标签层级结构的装置的示例性系统架构600。
172.如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
173.用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
174.终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
175.服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的物品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、物品信息——仅为示例)反馈给终端设备。
176.需要说明的是，本发明实施例所提供的生成标签层级结构的方法一般由服务器605执行，相应地，所述生成标签层级结构的装置一般设置在服务器605中。本发明实施例所提供的生成标签层级结构的方法也可以由终端设备601、602、603执行，相应地，所述生成标签层级结构的装置可以设置在终端设备601、602、603中。
177.应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需
要，可以具有任意数目的终端设备、网络和服务器。
178.下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
179.如图7所示，计算机系统700包括中央处理单元(cpu)701，其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。在ram 703中，还存储有系统700操作所需的各种程序和数据。cpu 701、rom 702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
180.以下部件连接至i/o接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。
181.特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(cpu)701执行时，执行本发明的系统中限定的上述功能。
182.需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
183.附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于
实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
184.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括筛选模块、关联模块和生成模块，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。
185.作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，该设备实现如下方法：根据各个标签在各个文件对象中的出现次数，筛选出存在关联关系的标签对；根据各个所述标签对生成标签关系图；其中，所述关系图中的节点为标签，边的权重为两个标签在同一文件对象中的共现次数；对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构。
186.根据本发明实施例的技术方案，因为采用根据各个存在关联关系的标签对生成标签关系图，对标签关系图中的各个节点进行聚类并计算邻接节点的隶属度，从而生成标签层级结构的技术手段，所以克服了现有技术中标签在标签层级结构中的位置唯一的技术问题。本发明实施例通过模糊聚类的方法解决标签具有多义性的问题，使得标签可以出现在不同位置，并计算每个标签在不同位置出现的概率值(即隶属度)；而且通过隶属度灵活控制递归聚类，能够自动化构建标签层级结构，从而可以节省人力成本。
187.上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多应用之间组件复用的方法和装置与流程

一种生成标签层级结构的方法和装置与流程

相关文献

最热文献