一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多标签物料的相似度度量方法、系统、存储介质以及计算机设备与流程

2022-04-24 17:55:28 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种多标签物料的相似度度量方法、系统、存储介质以及计算机设备。


背景技术:

2.在推荐系统或用户画像等相关领域,需要通过标签刻画物料(比如软件市场中的软件)的特性或计算物料间的相似程度。用标签刻画相关特征具有天然的优势,如果用长文本刻画特征,不能很好的突出特征且包含无效信息,且可视化效果不友好,标签是一些特征的抽象,能够较直接明了的表达特性。
3.但是目前很多场景中,物料包含多个标签,且多个标签没有重要程度的区分,这样会导致物料标签较多且特性不突出的问题。特别是基于标签计算物料相关程度的场景中,不同标签给与相同的权重,会严重影响效果。
4.综上所述,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。


技术实现要素:

5.针对上述的缺陷,本发明的目的在于提供一种多标签物料的相似度度量方法、系统、存储介质以及计算机设备,提高物料之间的相似度计算效果。
6.为了实现上述目的,本发明提供了一种多标签物料的相似度度量方法,包括:
7.分别获取各个所述物料的多个标签;
8.分别获取各个所述物料的中文描述;
9.计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;
10.将所述物料的所述标签形成所述物料的标签集;
11.根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。
12.根据所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
13.对所述标签进行第一数据清洗。
14.根据所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
15.对所述中文描述进行第二数据清洗。
16.根据所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
17.获取所述物料的名称,将所述名称作为所述物料的标签。
18.根据所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述
物料的中文描述的注意力,获得各个所述标签相对应的注意力结果的步骤包括:
19.获取所述标签的向量;
20.获取所述中文描述的向量;
21.计算所述标签的向量与所述中文描述的向量的余弦距离,获得所述标签相对应的注意力结果。
22.根据所述的多标签物料的相似度度量方法,所述获取所述中文描述的向量的步骤包括:
23.将所述中文描述进行分词;
24.将多个所述分词的向量相加取平均获得所述中文描述的向量。
25.根据所述的多标签物料的相似度度量方法,所述根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度的步骤包括:
26.根据各个所述标签集中的所述标签相对应的注意力结果通过杰卡德相似系数计算各个所述物料的标签集之间的相似度。
27.为了实现上述目的,本发明还提供了一种多标签物料的相似度度量系统,包括:
28.标签获取模块,用于分别获取各个所述物料的多个标签;
29.中文描述获取模块,用于分别获取各个所述物料的中文描述;
30.注意力计算模块,用于计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;
31.标签集获取模块,用于将所述物料的所述标签形成所述物料的标签集;
32.相似度计算模块,用于根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。
33.为了实现上述目的,本发明还提供了一种存储介质,用于存储一种用于执行上述任意一种多标签物料的相似度度量方法的计算机程序。
34.为了实现上述目的,本发明还提供了一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的多标签物料的相似度度量方法。
35.本发明通过分别获取各个所述物料的多个标签;分别获取各个所述物料的中文描述;计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;通过计算所述标签相对应的注意力结果来判断所述标签与所述物料的相关程度,实现对不同的标签赋予不同的权重。将所述物料的所述标签形成所述物料的标签集;根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。借此,本发明实现了物料之间的相似度计算效果。
附图说明
36.图1是本发明优选实施例的多标签物料的相似度度量系统的示意图;
37.图2是本发明优选实施例的多标签物料的相似度度量系统的示意图;
38.图3是本发明优选实施例的多标签物料的相似度度量方法的流程图;
39.图4是本发明提供的计算机设备的结构示意图。
具体实施方式
40.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
41.需要说明的,本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
42.此外,在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件,所属领域中具有通常知识者应可理解,制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。以外,“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
43.参见图1~图2,在本发明的第一实施例中提供了一种多标签物料的相似度度量系统100,包括:
44.标签获取模块10,用于分别获取各个所述物料的多个标签;
45.中文描述获取模块20,用于分别获取各个所述物料的中文描述;
46.注意力计算模块30,用于计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;
47.标签集获取模块40,用于将所述物料的所述标签形成所述物料的标签集;
48.相似度计算模块50,用于根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。
49.在该实施例中,针对使用多标签计算物料之间的相似度的场景,提供了一种考虑各个标签与所述物料的相关程度来计算物料之间的相似度的系统100。所述物料可以是软件。以物料名为acfun举例,标签获取模块10获取其标签为三个,分别是“娱乐”、“游戏”、“cf”,中文描述获取模块20获取其中文描述为“acfun是中国大陆的一家主要关于acg的弹幕式视频分享网站。acfun取意于anime comic fun。开设于2007年6月,最初为动画连载的网站,2008年3月模仿日本视频分享站niconico动画做出了类似的带字幕的弹幕式播放器。目前acfun在alexa的统计中世界排名为4192,中国排名为421(20120.1.30)。”注意力计算模块30分别计算所述标签“娱乐”、“游戏”、“cf”与所述中文描述的注意力,分别获得各个所述标签“娱乐”、“游戏”以及“cf”相对应的注意力结果,通过计算所述标签相对应的注意力结果来判断所述标签与所述物料的相关程度,实现对不同的标签赋予不同的权重。标签集获取模块40将所述物料的所述标签形成所述物料的标签集,例如所述acfun的标签集可以是“娱乐、游戏、cf”。将需要与所述acfun计算相似度的物料按照上述相同的步骤计算其标签集中的所述标签相对应的注意力结果。最后,通过获取相似度计算模块50根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度,根据
标签集之间的相似度判断出各个所述物料之间的相似度。由于通过计算注意力结果使得不同的标签具有不同的权重,从而提高了计算所述物料之间的相似度的效果。
50.在本发明的第二实施例中,所述系统100还包括:
51.第一数据清洗模块60,用于对所述标签进行第一数据清洗。
52.在该实施例中,对于标签部分的数据清洗主要包含非法字符过滤、和软件中文名编辑距离对比过滤、较长标签、全部为拼音的标签过滤等等。上述举例的三个标签“娱乐”、“游戏”、“cf”没有需要过滤的字符。
53.在本发明的第三实施例中,所述系统100还包括:
54.第二数据清洗模块70,用于对所述中文描述进行第二数据清洗。
55.在该实施例中,对于中文描述的数据清洗包含去停用词,非法字符过滤等。例如上述举例的中文描述中过滤了标点符号以及括号中的内容,例如(20120.1.30)。
56.在本发明的第四实施例中,所述系统100还包括:
57.名称获取模块80,用于获取所述物料的名称,将所述名称作为所述物料的标签。
58.在该实施例中,由于物料的名称中会包含一些描述物料特征的关键字,由此将所述名称作为所述物料的标签,也可以通过对所述物料的名称进行分词,获取描述物料特征的关键字作为标签。例如,可以将上述举例中的物料名称“acfun”作为标签。
59.在本发明的第五实施例中,所述注意力计算模块30包括:
60.标签向量获取子模块31,用于获取所述标签的向量;
61.中文描述向量获取子模块32,用于获取所述中文描述的向量;
62.注意力结果计算子模块33,用于计算所述标签的向量与所述中文描述的向量的余弦距离,获得所述标签相对应的注意力结果。
63.在该实施例中,标签向量获取子模块31获取所述标签的向量,标签向量获取子模块31可以通过现有技术获取所述标签的向量。例如上述举例中,所述标签“娱乐”的向量t1i为(0.1,0.23,0.56);中文描述向量获取子模块32获取所述中文描述的向量,例如上述举例的中文描述“acfun是中国大陆的一家主要关于acg的弹幕式视频分享网站。acfun取意于anime comic fun。开设于2007年6月,最初为动画连载的网站,2008年3月模仿日本视频分享站niconico动画做出了类似的带字幕的弹幕式播放器。目前acfun在alexa的统计中世界排名为4192,中国排名为421(20120.1.30)”的向量di为(-0.03,0.14,-0.25),注意力结果计算子模块33计算所述标签“娱乐”的向量t1i与所述中文描述的向量di的余弦距离,获得所述标签“娱乐”相对应的注意力结果at1i为cosine(t1i,di)=0.186607。各个所述标签相对应的注意力结果按照上述的步骤进行计算。
64.在本发明的第六实施例中,所述中文描述向量获取子模块32包括:
65.分词单元321,用于将所述中文描述进行分词;
66.向量获取单元322,用于将多个所述分词的向量相加取平均获得所述中文描述的向量。
67.在本发明的第七实施例中,所述相似度计算模块50根据各个所述标签集中的所述标签相对应的注意力结果通过杰卡德相似系数计算各个所述物料的标签集之间的相似度。
68.在该实施例中,假设物料i与物料j的标签集都具有标签n以及标签m,物料i的标签n相对应的注意力结果为atni,物料i的标签m相对应的注意力结果为atmi,物料j的标签n相
对应的注意力结果为atnj,物料j的标签m相对应的注意力结果为atmj,物料i的标签集与物料j的标签集的相似度的计算公式为:sim=(atni*atnj atmi*atmj)/(物料i的标签集和物料j的标签集并集的数量)。各个所述物料的标签集之间的相似度即为所述物料之间的相似度。
69.在本发明的第八实施例中,所述标签集获取模块40根据各个所述标签相对应的注意力结果从所述物料的多个所述标签中截取topn标签,所述topn标签形成所述标签集。
70.在该实施例中,一般情况下,物料的标签不会太多(因为物料的主要特性一般不会很多),但是在所述物料的标签较多的情况下,可以从所述物料的多个所述标签中截取topn标签。即对所述物料的标签根据各个所述标签相对应的注意力结果进行排序,截取靠前的与所述软件相关程度高的n个标签。
71.图3是本发明实施例的多标签物料的相似度度量方法的流程图,所述方法可以通过上述任一项所述的系统100实现,所述多标签物料的相似度度量方法包括:
72.步骤s301,分别获取各个所述物料的多个标签;通过标签获取模块10实现;
73.步骤s302,分别获取各个所述物料的中文描述;通过中文描述获取模块20实现;
74.步骤s303,计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;通过注意力计算模块30实现;
75.步骤s304,将所述物料的所述标签形成所述物料的标签集;通过标签集获取模块40实现;
76.步骤s305,根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度;通过相似度计算模块50实现。
77.在该实施例中,所述方法可以通过上述任一项所述的系统100实现,具体实施过程参见上述描述,在此不再赘述。
78.在本发明的一个实施例中,所述步骤s303之前还包括:
79.对所述标签进行第一数据清洗;通过第一数据清洗模块60实现。
80.在本发明的一个实施例中,所述步骤s303之前还包括:
81.对所述中文描述进行第二数据清洗;通过第二数据清洗模块70实现。
82.在本发明的一个实施例中,所述步骤s303之前还包括:
83.获取所述物料的名称,将所述名称作为所述物料的标签;通过名称获取模块80实现。
84.在本发明的一个实施例中,所述步骤s303包括:
85.获取所述标签的向量;通过标签向量获取子模块31实现;
86.获取所述中文描述的向量;通过中文描述向量获取子模块32实现;
87.计算所述标签的向量与所述中文描述的向量的余弦距离,获得所述标签相对应的注意力结果;通过注意力结果计算子模块33实现。
88.在本发明的一个实施例中,所述获取所述中文描述的向量的步骤包括:
89.将所述中文描述进行分词;通过分词单元321实现;
90.将多个所述分词的向量相加取平均获得所述中文描述的向量;通过向量获取单元322实现。
91.在本发明的一个实施例中,所述步骤s305包括:
92.根据各个所述标签集中的所述标签相对应的注意力结果通过杰卡德相似系数计算各个所述物料的标签集之间的相似度;通过相似度计算模块50实现。
93.在本发明的一个实施例中,所述步骤s304包括:
94.根据各个所述标签相对应的注意力结果从所述物料的多个所述标签中截取topn标签,所述topn标签形成所述标签集;通过标签集获取模块40实现。
95.本发明还提供一种存储介质,用于存储一种用于执行上述任意一种任务调度方法的计算机程序。例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令,可能被存储在固定的或可移动的存储介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的计算机设备的存储介质中。在此,根据本技术的一个实施例中,包括一个如图4所示的计算机设备400,所述计算机设备400优选包括用于存储计算机程序的存储介质200和用于执行计算机程序的处理器300,其中,当该计算机程序被该处理器300执行时,触发该计算机设备400执行基于前述多个实施例中的方法和/或技术方案。
96.需要注意的是,本技术可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本技术的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本技术的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
97.根据本发明的方法可以作为计算机实现方法在计算机上实现、或者在专用硬件中实现、或以两者的组合的方式实现。用于根据本发明的方法的可执行代码或其部分可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地,计算机程序产品包括存储在计算机可读介质上以便当所述程序产品在计算机上执行时执行根据本发明的方法的非临时程序代码部件。
98.在优选实施例中,计算机程序包括适合于当计算机程序在计算机上运行时执行根据本发明的方法的所有步骤的计算机程序代码部件。优选地,在计算机可读介质上体现计算机程序。
99.综上所述,本发明通过分别获取各个所述物料的多个标签;分别获取各个所述物料的中文描述;计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;通过计算所述标签相对应的注意力结果来判断所述标签与所述物料的相关程度,实现对不同的标签赋予不同的权重。将所述物料的所述标签形成所述物料的标签集;根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。借此,本发明实现了物料之间的相似度计算效果。
100.当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
101.本发明还公开了:a1、一种多标签物料的相似度度量方法,包括:
102.分别获取各个所述物料的多个标签;
103.分别获取各个所述物料的中文描述;
104.计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;
105.将所述物料的所述标签形成所述物料的标签集;
106.根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。
107.a2、根据a1所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
108.对所述标签进行第一数据清洗。
109.a3、根据a1所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
110.对所述中文描述进行第二数据清洗。
111.a4、根据a1所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力的步骤之前还包括:
112.获取所述物料的名称,将所述名称作为所述物料的标签。
113.a5、根据a1所述的多标签物料的相似度度量方法,所述计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果的步骤包括:
114.获取所述标签的向量;
115.获取所述中文描述的向量;
116.计算所述标签的向量与所述中文描述的向量的余弦距离,获得所述标签相对应的注意力结果。
117.a6、根据a5所述的多标签物料的相似度度量方法,所述获取所述中文描述的向量的步骤包括:
118.将所述中文描述进行分词;
119.将多个所述分词的向量相加取平均获得所述中文描述的向量。
120.a7、根据a1所述的多标签物料的相似度度量方法,所述根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度的步骤包括:
121.根据各个所述标签集中的所述标签相对应的注意力结果通过杰卡德相似系数计算各个所述物料的标签集之间的相似度。
122.a8、根据a1所述的多标签物料的相似度度量方法,所述将所述物料的所述标签形成所述物料的标签集的步骤包括:
123.根据各个所述标签相对应的注意力结果从所述物料的多个所述标签中截取topn标签,所述topn标签形成所述标签集。
124.b9、一种多标签物料的相似度度量系统,包括:
125.标签获取模块,用于分别获取各个所述物料的多个标签;
126.中文描述获取模块,用于分别获取各个所述物料的中文描述;
127.注意力计算模块,用于计算所述物料的所述标签与所述物料的中文描述的注意力,获得各个所述标签相对应的注意力结果;
128.标签集获取模块,用于将所述物料的所述标签形成所述物料的标签集;
129.相似度计算模块,用于根据各个所述标签集中的所述标签相对应的注意力结果计算各个所述物料的标签集之间的相似度。
130.b10、根据b9所述的多标签物料的相似度度量系统,所述系统还包括:
131.第一数据清洗模块,用于对所述标签进行第一数据清洗。
132.b11、根据b9所述的多标签物料的相似度度量系统,所述系统还包括:
133.第二数据清洗模块,用于对所述中文描述进行第二数据清洗。
134.b12、根据b9所述的多标签物料的相似度度量系统,所述系统还包括:
135.名称获取模块,用于获取所述物料的名称,将所述名称作为所述物料的标签。
136.b13、根据b9所述的多标签物料的相似度度量系统,所述注意力计算模块包括:
137.标签向量获取子模块,用于获取所述标签的向量;
138.中文描述向量获取子模块,用于获取所述中文描述的向量;
139.注意力结果计算子模块,用于计算所述标签的向量与所述中文描述的向量的余弦距离,获得所述标签相对应的注意力结果。
140.b14、根据b13所述的多标签物料的相似度度量系统,所述中文描述向量获取子模块包括:
141.分词单元,用于将所述中文描述进行分词;
142.向量获取单元,用于将多个所述分词的向量相加取平均获得所述中文描述的向量。
143.b15、根据b9所述的多标签物料的相似度度量系统,所述相似度计算模块根据各个所述标签集中的所述标签相对应的注意力结果通过杰卡德相似系数计算各个所述物料的标签集之间的相似度。
144.b16、根据b9所述的多标签物料的相似度度量系统,所述标签集获取模块根据各个所述标签相对应的注意力结果从所述物料的多个所述标签中截取topn标签,所述topn标签形成所述标签集。
145.c17、一种存储介质,用于存储一种用于执行a1~a8中任意一种多标签物料的相似度度量方法的计算机程序。
146.d18、一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现a1~a8任一项所述的多标签物料的相似度度量方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献