一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种主题模型的更新方法、系统及存储介质和服务器与流程

2022-06-25 07:40:04 来源:中国专利 TAG:


1.本发明涉及基于人工智能的信息处理技术领域,特别涉及一种主题模型的更新方法、系统及存储介质和服务器。


背景技术:

2.在个性化推荐的场景中,信息流文章主题标签是对信息流文章的内容理解的重要刻画维度。一般情况下,在文章内容理解侧,每篇文章都对应有相应的主题标签,而在用户侧,每个用户也会被打上在主题标签上的兴趣,这样通过主题标签召回、粗排、精排最终推荐出用户感兴趣的文章。
3.通常采用一定的方法构建主题模型,若在主题模型构建完成后不进行更新迭代,带来的后果是随着时间的演进,信息流文章发生了变化,出现了很多新的文章、新的热点词,这部分信息通常在固定的主题模型中的识别效果很差。进而使得线上的主题模型的识别效果随着时间推移不断降低,影响最终的推荐准确率和用户体验。
4.现有技术中,可以通过人工审核的方式对主题模型进行更新,通常仅适合在主题维度比较小的主题模型上适用,如200维主题、500维主题,对于如1万维、5万维、10万维的细粒度主题人工评估的方法费时费力,人工的对全部主题都进行评估的话成本和代价极高。而在信息流场景中通常都是细粒度的多维主题模型,所以每次主题模型更新中,很难人工的进行全部维度的主题模型更新评估。


技术实现要素:

5.本发明实施例提供一种主题模型的更新方法、系统及存储介质和服务器,实现自动地对主题模型进行更新。
6.本发明实施例一方面提供一种主题模型的更新方法,包括:
7.获取第一主题模型中多个旧主题标签分别对应的第一标签语义特征;所述第一标签语义特征用于描述相应旧主题标签所表示主题的语义信息;
8.获取第二主题模型中多个新主题标签分别对应的第二标签语义特征;所述第二标签语义特征用于描述相应新主题标签所表示主题的语义信息;
9.根据所述第一标签语义特征和第二标签语义特征,在所述多个旧主题标签与多个新主题标签之间建立的映射关系;
10.根据所述映射关系更新第一主题模型中的旧主题标签。
11.本发明实施例另一方面提供一种主题模型系统,包括:
12.第一特征获取单元,用于获取第一主题模型中多个旧主题标签分别对应的第一标签语义特征;所述第一标签语义特征用于描述相应旧主题标签所表示主题的语义信息;
13.第二特征获取单元,用于获取第二主题模型中多个新主题标签分别对应的第二标签语义特征;所述第二标签语义特征用于描述相应新主题标签所表示主题的语义信息;
14.映射单元,用于根据所述第一标签语义特征和第二标签语义特征,在所述多个旧
主题标签与多个新主题标签之间建立映射关系;
15.更新单元,用于根据所述映射关系更新第一主题模型中的旧主题标签。
16.本发明实施例另一方面还提供一种计算机可读存储介质,所述计算机可读存储介质储存多个计算机程序,所述计算机程序适于由处理器加载并执行如本发明实施例一方面所述的主题模型的更新方法。
17.本发明实施例另一方面还提供一种服务器,包括处理器和存储器;
18.所述存储器用于储存多个计算机程序,所述计算机程序用于由处理器加载并执行如本发明实施例一方面所述的主题模型的更新方法;所述处理器,用于实现所述多个计算机程序中的各个计算机程序。
19.可见,在本实施例的方法中,主题模型系统会获取第一主题模型中多个旧主题标签与第二主题模型中多个新主题模型分别对应的第一标签语义特征和第二标签语义特征,并基于第一标签语义特征和第二标签语义标签,在旧主题标签与新主题标签之间建立映射关系,进而基于该映射关系更新第一主题模型中的旧主题标签。实现了自动地对系统中已有的第一主题模型的更新,提高了主题模型的效率,还可以应用于对较大维数的主题模型进行更新;且由于在建立映射关系的过程中主要采用描述语义的标签语义特征,而一个主题的语义不会随着主题模型获取方式的变化而改变,因此,建立的映射关系也比较准确,使得对第一主题模型的更新不会受到主题模型获取方式的限制。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明实施例提供的一种主题模型的更新方法的示意图;
22.图2是本发明一个实施例提供的一种主题模型的更新方法的流程图;
23.图3是本发明一个实施例中建立映射关系的示意图;
24.图4是本发明一个应用实施例提供的一种主题模型的更新方法的流程图;
25.图5是本发明另一应用实施例中主题模型的更新方法所应用于的分布式系统的示意图;
26.图6是本发明另一应用实施例中区块结构的示意图;
27.图7是本发明实施例提供的一种主题模型系统的逻辑结构示意图;
28.图8是本发明实施例提供的一种服务器的逻辑结构示意图。
具体实施方式
29.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第
四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.本发明实施例提供的一种主题模型的更新方法,可以对旧版本的主题模型进行更新,以避免随着新的信息流出现导致旧版本的主题模型的不准确的问题,及避免基于旧版本的主题模型进行信息推荐等应用时效果差的问题。具体地,如图1所示,本发明实施例中由主题模型系统按照如下步骤实现对旧版本的主题模型进行更新:
32.获取第一主题模型中多个旧主题标签分别对应的第一标签语义特征,所述第一标签语义特征用于描述相应旧主题标签所表示主题的语义信息;获取第二主题模型中多个新主题标签分别对应的第二标签语义特征;所述第二标签语义特征用于描述相应新主题标签所表示主题的语义信息;根据所述第一标签语义特征和第二标签语义特征,在所述多个旧主题标签与多个新主题标签之间建立映射关系;根据所述映射关系,更新所述第一主题模型中的旧主题标签。
33.在具体的实现中,主题模型系统可以应用于任意应用系统(比如视频、音频、多媒体、旅游、加油、充电等应用)的服务器,或者是独立于服务器的第三方系统等,也可以应用于但不限于如下的用户终端中:手机、电脑、智能语音交互设备、智能家电、车载终端等,在此不对主题模型系统的具体应用进行限制。
34.这样,实现了自动地对系统中已有的第一主题模型的更新,提高了主题模型的效率,还可以应用于对较大维数的主题模型进行更新;且由于在建立映射关系的过程中主要采用描述语义的标签语义特征,而一个主题的语义不会随着主题模型获取方式的变化而改变,因此,建立的映射关系也比较准确,使得对第一主题模型的更新不会受到主题模型获取方式的限制。
35.本发明实施例提供一种主题模型的更新方法,主要是主题模型系统所执行的方法,流程图如图2所示,包括:
36.步骤101,获取第一主题模型中多个旧主题标签分别对应的第一标签语义特征。其中,第一标签语义特征用于描述相应旧主题标签所表示主题的语义信息。
37.可以理解,在主题模型系统中可以针对一定的信息流获取到相应的主题模型,并将获取到的主题模型事先储存到主题模型系统中,当主题模型系统中已储存的主题模型的储存时间大于预置时间,或者有新的信息流储存到主题模型系统时,主题模型系统可以将已储存的主题模型作为第一主题模型,发起本实施例中的主题模型的更新方法。或者,主题模型系统可以按照一定的周期,将系统中已储存的主题模型作为第一主题模型,发起本实施例的方法。
38.其中,信息流可以包括任意格式的信息,比如文本、视频、音频或图片等信息,且可以应用于任意应用场景中。而主题模型可以包括:多个主题标签及各个主题标签与信息流的对应关系等信息,比如,某一主题标签可以对应多个文章等对应关系,而每个主题标签可以唯一标识对应的信息流所属的主题,该主题主要是基于语义方面的主题,不同的主题标
签之间也可以对应相同的信息流。
39.当主题模型系统发起本实施例的流程时,在获取第一标签语义特征时,具体可以先确定第一主题模型中每个旧主题标签对应的至少一个第一信息流,获取至少一个第一信息流的语义信息,再根据至少一个第一信息流的语义信息获取第一标签语义特征。
40.其中,至少一个第一信息流可以是旧主题标签下预测概率最高的信息流,这里预测概率是指在预测第一信息流对应的主题标签为相应的旧主题标签时的概率,这里的预测概率是在将第一信息流事先储存到旧主题模型的过程中得到的,而在这个过程中,对第一信息流进行预测时可以使用基于人工智能的机器学习模型(比如预测模型等),该机器学习模型可以提取第一信息流的特征,并基于提取的特征直接输出第一信息流对应某一主题标签的概率,输出的概率即为预测概率,若该概率大于一定值,则该第一信息流属于该主题标签所描述的主题,若该概率小于一定值,则该第一信息流不属于该主题标签所妙手的主题;或者在确定第一信息流时也可以随机选择旧主题标签下的一个或多个信息流作为第一信息流;或者可以选择旧主题标签下用户操作数(比如用户评论、点赞或转发数等)最多的一个或多个信息流作为第一信息流。若有多个第一信息流,则可以直接将多个第一信息流中各个第一信息流的语义信息进行融合得到第一标签语义特征,比如将各个第一信息流的语义向量的加权均值作为第一标签语义特征,在这个计算过程中涉及的各个第一信息流对应的权重值可以根据第一信息流的预测概率来确定,具体地,可以将所有第一信息流的预测概率划分为多个区间,为每个区间的预测概率对应的第一信息流设置相应的一个权重值,而其中的预测概率所在区间的数值较高的第一信息流,其权重值比较大。
41.其中,在获取第一信息流的语义信息时,若第一信息流为文本格式的信息流,可以先对文本进行分词,进而将文本中各个分词的特征进行融合即可得到第一信息流的语义信息;或者,统计文本中各个分词出现的频率,将频率最高的多个分词的特征作为第一信息流的语义信息。若第一信息流为非文本格式(比如音频或视频或图片等)的信息流,可以先将第一信息流转化为文本格式的信息流,得到转换后的信息流,对转换后的信息流进行分词,将转化后的信息流中各个分词的特征进行融合得到第一信息流的语义信息。其中,在转换费文本格式的信息流时,针对图片格式的信息流,转换后的信息流中可以包括图片内所包含的文字等信息;针对音频格式的信息流,转换后的信息流中包括音频所对应的文字;针对视频格式的信息流,转换后的信息流中可以包括视频所包含的音频对应的文字。
42.进一步地,为了使得获取的第一标签语义特征更能准确地描述旧主题标签,主题模型系统在获取第一标签语义特征时,除了考虑各个第一信息流的语义信息之外,还可以结合第一信息流的其它维度的信息,比如还可以获取基于第一信息流的第一非语义信息,然后根据第一信息流的语义信息和第一非语义信息获取第一标签语义特征。
43.具体地,主题模型系统通过预训练的特征提取模型,将第一信息流的语义信息和第一非语义信息结合后即可得到第一标签语义特征;或者,可以将第一信息流的语义信息和第一非语义信息的加权值作为第一标签语义特征等。
44.其中,第一非语义信息是与第一信息流相关的,主要是描述与第一信息流相关的非语义方面的信息,具体可以包括但不限于如下至少一个信息:第一信息流的分类信息、标签(tag)信息、质量分数及发布第一信息流的用户信息等。
45.步骤102,获取第二主题模型中多个新主题标签分别对应的第二标签语义特征。其
中,第二标签语义特征用于描述相应新主题标签所表示主题的语义信息。
46.这里第二主题模型主要是针对新出现的信息流得到的,或者,将新出现的信息流和系统中已储存的信息流结合起来获取到的。该第二主题模型的获取方式可以与上述第一主题模型的获取方式不同,比如第一主题模型采用文档主题生成模型(latent dirichlet allocation,lda)等方式获取到,而第二主题模型采用预训练的语言表征模型(bidirectional encoder representation from transformers,bert)等方式获取到。
47.在获取第二标签语义特征时,具体可以先确定第二主题模型中每个新主题标签对应的至少一个第二信息流,获取至少一个第二信息流的语义信息,再根据至少一个第二信息流的语义信息获取第二标签语义特征。
48.其中,至少一个第二信息流可以是新主题标签下预测概率最高的信息流,若有多个第二信息流,则可以将多个第二信息流中各个第二信息流的语义信息进行融合得到第二标签语义特征,比如将各个第二信息流的语义向量的加权均值作为第二标签语义特征。
49.进一步地,主题模型系统还可以获取第二信息流的第二非语义信息,然后根据第二信息流的语义信息和第二非语义信息获取第二标签语义特征。这里第二标签语义特征的具体方法与上述获取第一标签语义特征的方法类似,在此不进行赘述。
50.步骤103,根据第一标签语义特征和第二标签语义特征,在多个旧主题标签与多个新主题标签之间建立映射关系。
51.具体地,将旧主题标签的第一标签语义特征分别与每个新主题标签的第二标签语义特征进行匹配,若某一旧主题标签的第一标签语义特征与某一新主题标签的第二标签语义特征相匹配,则建立该旧主题标签与新主题标签之间的映射关系。
52.其中,在将第一标签语义特征与第二标签语义特征进行匹配时,可以通过多种方式来实现,比如,可以计算第一标签语义特征与第二标签语义特征之间的距离(比如欧式距离或余弦距离等),若计算的距离在预置范围内,则旧主题标签与新主题标签相匹配,否则,旧主题标签与新主题标签不相匹配。
53.又比如,主题模型系统可以根据第一标签语义特征、第二标签语义特征及预置的匹配分类模型,确定任一新主题标签与另一旧主题标签是否相匹配。其中预置的匹配分类模型是基于人工智能的机器学习模型,用于根据两个标签语义特征获取到各个标签语义特征分别对应的主题标签之间是否相匹配的结果,该匹配分类模型可以按照一定的训练方法训练得到,并将其运行逻辑事先储存在系统中。
54.其中,在训练匹配分类模型时采用的训练样本可以包括多组样本特征,每组样本特征中包括两个样本标签分别对应的语义特征,及每组样本特征中两个样本标签之间是否相匹配的标注信息,这样通过训练样本可以有监督地训练匹配分类模型。在多组样本特征可以包括一定比例的正样本和负样本,正样本中两个样本标签之间相匹配,而负样本中两个样本标签之间不相匹配。
55.其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
56.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
57.而机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
58.例如图3所示,第一主题模型a包括的旧主题标签a为a1、a2、a3和an,第二主题模型b包括的新主题标签b1、b2、b3和bn,经过将各个旧主题标签的第一标签语义特征与各个新主题标签的第二标签语义特征进行匹配,分别建立旧主题标签a1与新主题标签b3、旧主题标签a2与新主题标签b1、旧主题标签a3与新主题标签bn,及旧主题标签an与新主题标签b2之间的映射关系。
59.步骤104,根据映射关系,更新第一主题模型中的旧主题标签。
60.具体地,若某些新主题标签在映射关系中有对应的旧主题标签,则可以用新主题标签替换具有映射关系的旧主题标签,若另一些新主题标签在映射关系中没有与之对应的旧主题标签,可以直接将新主题标签添加到第一主题模型中;还有些旧主题标签在映射关系中没有与之对应的新主题标签,则不会对这些旧主题标签进行更新。
61.需要说明的是,在更新第一主题模型后,可以将更新后的第一主题模型应用到多个场景中,比如采用更新后的第一主题模型为用户端推荐各个用户感兴趣的主题标签下的信息流,或者可以根据用户的搜索信息向用户提供相应主题标签下的信息流。
62.可见,在本实施例的方法中,主题模型系统会获取第一主题模型中多个旧主题标签与第二主题模型中多个新主题模型分别对应的第一标签语义特征和第二标签语义特征,并基于第一标签语义特征和第二标签语义标签,在旧主题标签与新主题标签之间建立映射关系,进而基于该映射关系更新第一主题模型中的旧主题标签。实现了自动地对系统中已有的第一主题模型的更新,提高了主题模型的效率,还可以应用于对较大维数的主题模型进行更新;且由于在建立映射关系的过程中主要采用描述语义的标签语义特征,而一个主题的语义不会随着主题模型获取方式的变化而改变,因此,建立的映射关系也比较准确,使得对第一主题模型的更新不会受到主题模型获取方式的限制。
63.以下以一个具体的应用实例来说明本发明的主题模型的更新方法,如图4所示,本实施例的方法可以包括如下步骤:
64.步骤201,主题模型系统按照一定的周期发起对已储存的第一主题模型进行更新,先确定第一主题模型中各个题标签下的至少一个第一信息流。
65.具体地,可以为每个旧主题标签确定n个第一信息流,比如n篇相应旧主题标签所表征的文章等,该第一信息流可以是从系统储存的旧主题模型中随机查找n个相应旧主题标签所表示的信息流,或者,可以从系统储存的旧主题模型中选择相应旧主题标签下预测概率最高的信息流,通常第一信息流与该旧主题标签的语义信息高度相关。例如,确定的表
征文章可以如下表1所示:
[0066][0067][0068]
表1
[0069]
步骤202,主题模型系统确定各个旧主题标签下的第一信息流的语义信息。
[0070]
具体地,主题模型系统可以采用预训练的模型比如bert模型分别提取各个第一信息流的语义表示向量。
[0071]
步骤203,主题模型系统根据第一信息流的语义信息,获取各个旧主题标签的第一标签语义特征。
[0072]
具体地,可以将每个旧主题标签下的所有第一信息流的语义信息(比如语义表示向量)的加权平均值作为相应旧主题标签的第一标签语义特征。进一步地,在获取第一标签语义特征时,可以融合第一信息流的语义信息和非语义信息(比如质量分数、用户信息等)得到。
[0073]
步骤204,主题模型系统获取第二主题模型下各个新主题标签的第二标签语义特征。
[0074]
具体地,第二主题模型可以根据新的信息流和系统中已储存的旧信息流得到的一个主题模型,其中对于第二标签语义特征的获取方法可以与上述步骤201到203中所示,在此不进行赘述。且步骤204,与上述步骤201到203之间并没有绝对的顺序关系,可以同时进行,也可以顺序执行,图中所示的只是其中一种具体的应用实例。
[0075]
步骤205,主题模型系统将各个旧主题标签分别对应的第一标签语义特征与其它每个新主题标签分别对应的第二标签语义特征进行匹配,在第一标签语义特征对应的旧主题标签与第二标签语义特征对应的新主题标签之间建立映射关系。
[0076]
具体地,在建立映射关系时可以通过多种方式来实现,比如计算第一标签语义特征与第二标签语义特征之间的欧式距离或余弦距离,计算的距离最新的旧主题标签与新主题标签之间可以建立映射关系。
[0077]
或者,可以调用预训练的匹配分类模型,将第一标签语义特征和第二标签语义特征输入到匹配分类模型后,即可输出对应的旧主题标签与新主题标签之间匹配的概率值,若概率值大于预置值,则旧主题标签与新主题标签之间相匹配。
[0078]
步骤206,主题模型系统根据上述步骤205中建立的映射关系,更新第一主题模型中的旧主题标签。
[0079]
具体地,若某些新主题标签在映射关系中有对应的旧主题标签,则可以用新主题
标签替换具有映射关系的旧主题标签,若另一些新主题标签在映射关系中没有与之对应的旧主题标签,可以直接将新主题标签添加到第一主题模型中。
[0080]
需要说明的是,上述对第一主题模型的更新是一个迭代的过程,主要是离线地对第一主题模型进行更新后,更新后的第一主题模型可以是对信息流进行内容理解与加工的重要组成部分,也是召回、粗排、精排等模块的重要特征,对用户侧发起的请求可以做到无感知。例如,
[0081]
例如,当用户通过应用终端发起对某一信息流的主题分析请求,则主题模型系统可以根据该主题分析请求及更新后的主题模型,向应用终端返回该信息流在主题维度上的主题分布信息,通过可以取分布概率最高的多个主题标签作为该信息流的主题分布信息。
[0082]
可以得知,本实施例中通过基于标签语义特征的表示及匹配,可以自动地实现对主题模型的更新,并不限制两个主题模型的模型结构是否相同,还可以显著的降低全部维度主题标签都需要人工评估的成本,使得线上主题模型效果可以持续满足业务需要。
[0083]
以下以另一具体的应用实例来说明本发明中主题模型的更新方法,本发明实施例中的主题模型系统主要为分布式系统100,该分布式系统可以包括客户端300及多个节点200(接入网络中的任意形式的计算设备,如服务器、用户终端),客户端300与节点200之间通过网络通信的形式连接。
[0084]
以分布式系统为区块链系统为例,参见图5是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图,由多个节点200(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端300形成,节点之间形成组成的点对点(p2p,peer to peer)网络,p2p协议是一个运行在传输控制协议(tcp,transmission control protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
[0085]
参见图5示出的区块链系统中各节点的功能,涉及的功能包括:
[0086]
1)路由,节点具有的基本功能,用于支持节点之间的通信。
[0087]
节点除具有路由功能外,还可以具有以下功能:
[0088]
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其它节点,供其它节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
[0089]
例如,应用实现的业务包括实现主题模型的更新功能的代码,该主题模型的更新功能主要包括:
[0090]
获取第一主题模型中多个旧主题标签分别对应的第一标签语义特征;所述第一标签语义特征用于描述相应旧主题标签所表示主题的语义信息;获取第二主题模型中多个新主题标签分别对应的第二标签语义特征;所述第二标签语义特征用于描述相应新主题标签所表示主题的语义信息;根据所述第一标签语义特征和第二标签语义特征,在所述多个旧主题标签与多个新主题标签之间建立映射关系;根据所述映射关系,更新所述第一主题模型中的旧主题标签。
[0091]
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
[0092]
参见图6为本发明实施例提供的区块结构(block structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
[0093]
本发明实施例还提供一种主题模型系统,其结构示意图如图7所示,具体可以包括:
[0094]
第一特征获取单元10,用于获取第一主题模型中多个旧主题标签分别对应的第一标签语义特征,所述第一标签语义特征用于描述相应旧主题标签所表示主题的语义信息;。
[0095]
该第一特征获取单元10,具体用于确定所述旧主题标签对应的至少一个第一信息流,获取所述至少一个第一信息流的语义信息,根据所述至少一个第一信息流的语义信息获取所述第一标签语义特征。
[0096]
其中,第一特征获取单元10在获取所述至少一个第一信息流的语义信息时,具体用于若所述第一信息流为文本格式的信息流,对第一信息流进行分词,将所述第一信息流中各个分词的特征进行融合得到所述第一信息流的语义信息;若所述第一信息流为非文本格式的信息流,将所述第一信息流转化为文本格式的信息流,得到转换后的信息流,对所述转换后的信息流进行分词,将所述转化后的信息流中各个分词的特征进行融合得到所述第一信息流的语义信息。
[0097]
进一步地,第一特征获取单元10,还用于获取所述第一信息流的第一非语义信息;则在根据所述至少一个第一信息流的语义信息获取所述第一标签语义特征时,具体用于根据所述至少一个第一信息流的语义信息及第一非语义信息获取所述第一标签语义特征。
[0098]
第二特征获取单元11,用于获取第二主题模型中多个新主题标签分别对应的第二标签语义特征;所述第二标签语义特征用于描述相应新主题标签所表示主题的语义信息。
[0099]
该第二特征获取单元11,具体用于确定所述新主题标签对应的至少一个第二信息流,获取所述至少一个第二信息流的语义信息,根据所述至少一个第二信息流的语义信息获取所述第二标签语义特征。
[0100]
进一步地,第二特征获取单元11,还用于获取所述第二信息流的第二非语义信息,则在根据所述至少一个第二信息流的语义信息获取所述第二标签语义特征时,具体用于根据所述至少一个第二信息流的语义信息及第二非语义信息获取所述第二标签语义特征。
[0101]
映射单元12,用于根据所述第一特征获取单元10获取的第一标签语义特征和第二特征获取单元11获取的第二标签语义特征,在所述多个旧主题标签与多个新主题标签之间建立映射关系。
[0102]
该映射单元12,具体用于若某一旧主题标签的第一标签语义特征与某一新主题标签的第二标签语义特征相匹配,建立某一旧主题标签与某一新主题标签之间的映射关系。
[0103]
更新单元13,用于根据所述映射单元12建立的映射关系更新所述第一主题模型中的旧主题标签。
[0104]
该更新单元13,具体用于若所述新主题标签在所述映射关系中具有对应的旧主题标签,用所述新主题标签替换对应的旧主题标签;若所述新主题标签在所述映射关系中没
有对应的旧主题标签,将所述新主题标签添加到所述第一主题模型中。
[0105]
在本实施例的系统中,第一特征获取单元10和第二特征获取单元11会分别获取第一主题模型中多个旧主题标签与第二主题模型中多个新主题模型分别对应的第一标签语义特征和第二标签语义特征,并由映射单元12基于第一标签语义特征和第二标签语义标签,在旧主题标签与新主题标签之间建立映射关系,进而给更新单元13基于该映射关系更新第一主题模型中的旧主题标签。实现了自动地对系统中已有的第一主题模型的更新,提高了主题模型的效率,还可以应用于对较大维数的主题模型进行更新;且由于在建立映射关系的过程中主要采用描述语义的标签语义特征,而一个主题的语义不会随着主题模型获取方式的变化而改变,因此,建立的映射关系也比较准确,使得对第一主题模型的更新不会受到主题模型获取方式的限制。
[0106]
本发明实施例还提供一种服务器,其结构示意图如图8所示,该终端设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中的一系列指令操作。
[0107]
具体地,在存储介质22中储存的应用程序221包括主题模型的更新的应用程序,且该程序可以包括上述主题模型系统中的第一特征获取单元10,第二特征获取单元11,映射单元12和更新单元13,在此不进行赘述。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中储存的主题模型的更新的应用程序对应的一系列操作。
[0108]
服务器还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,一个或一个以上输入输出接口25,和/或,一个或一个以上操作系统223,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0109]
上述方法实施例中所述的由主题模型系统所执行的步骤可以基于该图8所示的服务器的结构。
[0110]
进一步地,本发明实施例另一方面还提供一种计算机可读存储介质,所述计算机可读存储介质储存多个计算机程序,所述计算机程序适于由处理器加载并执行如上述主题模型系统所执行的主题模型的更新方法。
[0111]
本发明实施例另一方面还提供一种服务器,包括处理器和存储器;
[0112]
所述存储器用于储存多个计算机程序,所述计算机程序用于由处理器加载并执行如上述主题模型系统所执行的主题模型的更新方法;所述处理器,用于实现所述多个计算机程序中的各个计算机程序。
[0113]
另外,根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的主题模型的更新方法。
[0114]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom)、随机存取存储器(ram)、磁盘或光盘等。
[0115]
以上对本发明实施例所提供的一种主题模型的更新方法、系统及存储介质和服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献