一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语义识别模型的训练方法、装置、电子设备及存储介质与流程

2022-09-03 13:54:12 来源:中国专利 TAG:


1.本技术涉及互联网技术领域,特别涉及一种语义识别模型的训练方法、装置、电子设备及存储介质。


背景技术:

2.随着互联网技术的发展,搜索业务得到了广泛应用。在搜索业务中,语义相关性可以用来衡量用户的搜索词与电子设备返回的业务信息在语义层面的相关程度,因此,语义相关性的确定过程可以转换成搜索词与业务信息之间进行语义匹配的过程。目前,主要是通过语义识别模型来确定搜索词与业务信息之间的匹配程度。
3.相关技术中在训练语义识别模型时,主要是获取样本搜索词和样本业务信息,然后随机对样本业务信息中的部分词进行掩盖,得到掩盖后的样本业务信息,然后根据样本搜索词,预测掩盖后的样本业务信息中被掩盖的词,根据预测的准确性进行模型训练,得到语义识别模型。
4.但样本业务信息一般可以被划分成多个具有明确语义信息的字段,而按照相关技术中随机掩盖的方法可能会出现有的字段中的词被完全掩盖,而有的字段中的词未被掩盖的情况,这样就会导致模型无法充分学习样本业务信息中每个字段的语义信息,导致语义识别模型的推理能力较差。


技术实现要素:

5.本技术实施例提供了一种语义识别模型的训练方法、装置、电子设备及存储介质,可以提高语义识别模型的推理能力。该技术方案如下:
6.一方面,提供了一种语义识别模型的训练方法,该方法包括:
7.获取样本搜索词和第一样本业务信息;
8.基于所述第一样本业务信息的多个字段分别对应的字段类型,确定所述第一样本业务信息的多个字段分别对应的掩盖方式,所述多个字段是基于语义信息对所述第一样本业务信息进行划分得到的,一个字段对应一种掩盖方式;
9.基于所述第一样本业务信息的多个字段分别对应的掩盖方式,对所述第一样本业务信息的多个字段中的词分别进行掩盖,得到第二样本业务信息;
10.基于所述样本搜索词和所述第二样本业务信息,进行模型训练,得到语义识别模型。
11.一方面,提供了一种语义识别模型的训练装置,该装置包括:
12.获取模块,用于获取样本搜索词和第一样本业务信息;
13.第一确定模块,用于基于所述第一样本业务信息的多个字段分别对应的字段类型,确定所述第一样本业务信息的多个字段分别对应的掩盖方式,所述多个字段是基于语义信息对所述第一样本业务信息进行划分得到的,一个字段对应一种掩盖方式;
14.掩盖模块,用于基于所述第一样本业务信息的多个字段分别对应的掩盖方式,对
所述第一样本业务信息的多个字段中的词分别进行掩盖,得到第二样本业务信息;
15.训练模块,用于基于所述样本搜索词和所述第二样本业务信息,进行模型训练,得到语义识别模型。
16.一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如上述任一种可能实现方式的语义识别模型的训练方法。
17.一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如上述任一种可能实现方式的语义识别模型的训练方法。
18.一方面,提供了一种计算机程序产品,所述计算机程序产品中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如上述任一种可能实现方式的语义识别模型的训练方法。
19.本技术实施例提供的技术方案带来的有益效果至少包括:
20.本技术实施例提供了一种语义识别模型的训练方法,该方法在训练语义识别模型时,先将第一样本业务信息划分成多个字段,然后按照多个字段分别对应的字段类型,对多个字段中的词分别进行掩盖,由于多个字段中的词都进行了掩盖,因此,这样可以使模型充分学习多个字段的语义信息,从而提高语义识别模型的推理能力。
附图说明
21.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本技术实施例提供的一种语义识别模型的训练方法的实施环境的示意图;
23.图2是本技术实施例提供的一种语义识别模型的训练方法的流程图;
24.图3是本技术实施例提供的一种语义识别模型的训练方法的流程图;
25.图4是本技术实施例提供的一种训练语义识别模型的示意图;
26.图5是相关技术提供的语义识别模型与本技术提供的语义识别模型分别对应的相关性分数的示意图;
27.图6是本技术实施例提供的一种语义识别模型的训练装置的结构示意图;
28.图7是本技术实施例提供的一种终端的结构框图;
29.图8是本技术实施例提供的一种服务器的结构框图。
具体实施方式
30.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
31.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、
系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
32.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的搜索词和业务信息等都是在充分授权的情况下获取的。
33.图1是本技术实施例提供的一种语义识别模型的训练方法的实施环境的示意图。参见图1,该实施环境包括:电子设备,该电子设备可以提供为终端101,可以提供为服务器102,也可以提供为终端101和服务器102,若电子设备提供为终端101和服务器102,终端101和服务器102之间通过无线或有线网络连接。在本技术实施例中,对电子设备不作具体限定。
34.若电子设备提供为终端101,则由终端101进行模型训练,得到语义识别模型。该语义识别模型可以被部署在该终端101中,这样该终端101就可以通过该语义识别模型识别搜索词,基于该搜索词搜索相应的业务信息。
35.若电子设备提供为服务器102,则由服务器102进行模型训练,得到语义识别模型。该语义识别模型可以被部署到终端101中,相应的,该实施环境还包括:终端101,该终端101与该服务器102之间可以通过无线或有线网络连接,该终端101可以通过该语义识别模型识别搜索词,基于该搜索词搜索相应的业务信息。
36.若电子设备提供为终端101和服务器102,则由该服务器102进行模型训练,得到语义识别模型,然后该语义识别模型被部署到该终端101中,这样该终端101就可以通过该语义识别模型识别搜索词,基于该搜索词搜索相应的业务信息。
37.终端101为手机、平板电脑和pc(personal computer)设备等设备中的至少一种。服务器102可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种。
38.需要说明的一点是,本技术实施例提供的语义识别模型为预训练的语义识别模型,该预训练的语义识别模型被部署到终端101中之前,需要基于带有标签的样本搜索词和样本业务信息进行进一步训练,得到目标语义识别模型,该目标语义识别模型可以被部署到终端101中,从而终端101通过该目标语义识别模型识别搜索词,基于该搜索词搜索相应的业务信息。
39.在本技术实施例中,若搜索词用于搜索美食,则终端通过该目标语义识别模型可以搜索该美食对应的商家。若搜索词用于搜索文档,则终端通过该目标语义识别模型可以搜索包括该搜索词的文档。若搜索词用于搜索服装,则终端通过该目标语义识别模型可以搜索与该搜索词匹配的服装。终端还可以通过该目标语义识别模型进行其他场景的搜索,这里不再一一列举。
40.图2是本技术实施例提供的一种语义识别模型的训练方法的流程图,参见图2,该方法包括:
41.步骤201:获取样本搜索词和第一样本业务信息。
42.步骤202:基于第一样本业务信息的多个字段分别对应的字段类型,确定第一样本
业务信息的多个字段分别对应的掩盖方式,多个字段是基于语义信息对第一样本业务信息进行划分得到的,一个字段对应一种掩盖方式。
43.步骤203:基于第一样本业务信息的多个字段分别对应的掩盖方式,对第一样本业务信息的多个字段中的词分别进行掩盖,得到第二样本业务信息。
44.步骤204:基于样本搜索词和第二样本业务信息,进行模型训练,得到语义识别模型。
45.本技术实施例提供了一种语义识别模型的训练方法,该方法在训练语义识别模型时,先将第一样本业务信息划分成多个字段,然后按照多个字段分别对应的字段类型,对多个字段中的词分别进行掩盖,由于多个字段中的词都进行了掩盖,因此,这样可以使模型充分学习多个字段的语义信息,从而提高语义识别模型的推理能力。
46.图3是本技术实施例提供的一种语义识别模型的训练方法的流程图,由电子设备执行,参见图3,该方法包括:
47.步骤301:电子设备获取样本搜索词和第一样本业务信息。
48.该样本搜索词可以为搜索场景下的任一搜索词,该第一样本业务信息为基于该样本搜索词搜索到的业务信息。
49.例如,该样本搜索词为用于搜索美食的搜索词,则该第一样本业务信息可以为基于该搜索词搜索到的该美食对应的商家名称、该商家的地址、该美食所属的品牌、类目等业务信息。再如,该样本搜索词为用于搜索文档的搜索词,则该第一样本业务信息可以为基于该搜索词搜索到的包含该搜索词的文档、该文档的标题、该文档所属的类目等业务信息。
50.其中,样本搜索词的数量和第一样本业务信息的数量可以根据需要进行设置并更改,在本技术实施例中,对此不作具体限定。
51.在本技术实施例中,电子设备获取第一样本业务信息后,可以基于语义信息对第一样本业务信息进行划分,得到多个字段,基于该多个字段执行步骤302。其中,该多个字段可以包括标题字段、品牌字段、类目字段、地址字段、关键词字段等,还可以包括其他类型的字段,这里不再一一列举。
52.需要说明的一点是,电子设备获取样本搜索词和第一样本业务信息后,可以直接执行步骤302,也可以丢弃第一样本业务信息中除标题字段之外的部分其他字段,然后将剩余的其他字段和样本搜索词组成第三样本业务信息,将第三样本业务信息作为第一样本业务信息,然后执行步骤302。
53.电子设备丢弃部分其他字段的过程可以为:电子设备从第一样本业务信息的除标题字段之外的多个其他字段中随机选取第五预设比例的其他字段,丢弃第五预设比例的其他字段,将标题字段和剩余的其他字段拼接到一起,组成第三样本业务信息。
54.其中,电子设备可以按照一定的顺序将标题字段和剩余的其他字段拼接到一起,也可以随意将标题字段和剩余的其他字段拼接到一起,这里不作具体限定。另外,第五预设比例可以根据需要进行设置并更改,例如,第五预设比例为10%、15%或者20%,这里仅以第五预设比例为15%为例进行说明。
55.在本技术实施例中,标题字段是第一样本业务信息中最重要的字段,在缺失其他字段时,可以采用标题字段直接与样本搜索词进行匹配,因此,在进行掩盖前,可以先随机丢掉除标题字段之外的一部分字段,从而保证标题字段的学习更充分。
56.步骤302:电子设备基于第一样本业务信息的多个字段分别对应的字段类型,确定第一样本业务信息的多个字段分别对应的掩盖方式。
57.一个字段对应一种掩盖方式,该掩盖方式可以为字级别掩盖方式,也可以为交替掩盖方式,交替掩盖方式用于表示交替采用字级别掩盖方式和词级别掩盖方式对字段中的词进行掩盖。本技术实施例中的掩盖是指采用掩盖标记对选中的词进行掩盖(mask)。
58.其中,字级别掩盖方式是指对字段中的一个字进行掩盖,词级别掩盖方式是指对字段中一个字所在的词组进行掩盖。例如,该字段为“火锅”,则字级别掩盖方式是对“火”这个字进行掩盖或者对“锅”这个字进行掩盖,词级别掩盖方式是对“火锅”这个词组进行掩盖。
59.第一样本业务信息的多个字段可以包括标题字段、品牌字段、品类字段、关键词字段、地址字段以及其他类型的字段,这里不作具体限定。电子设备确定标题字段对应的字段类型为标题字段类型、品牌字段对应的字段类型为品牌字段类型、品类字段对应的字段类型为品类字段类型、关键词字段对应的字段类型为关键词字段类型以及地址字段对应的字段为地址字段类型。
60.电子设备基于字段类型和掩盖方式的对应关系,分别确定标题字段类型对应的掩盖方式、关键词字段类型对应的掩盖方式、品类字段类型对应的掩盖方式、品牌字段类型对应的掩盖方式以及地址字段类型对应的掩盖方式。其中,标题字段类型对应的掩盖方式、关键词字段类型对应的掩盖方式和品类字段类型对应的掩盖方式均为字级别掩盖方式,品牌字段类型对应的掩盖方式和地址字段类型对应的掩盖方式均为交替掩盖方式。可见,一个字段类型对应一种掩盖方式,但同一种掩盖方式可以适用于多个字段类型。
61.若第一样本业务信息中还包括除标题字段、品牌字段、品类字段、关键词字段和地址字段之外的其他类型的字段,电子设备确定该其他类型的字段的掩盖方式为交替掩盖方式。
62.需要说明的一点是,若电子设备先丢弃第一样本业务信息中除标题字段之外的部分其他字段,然后再执行步骤302,则步骤302中的第一样本业务信息为标题字段和剩余的其他字段组成的业务信息。
63.步骤303:电子设备基于第一样本业务信息的多个字段分别对应的掩盖方式,对第一样本业务信息的多个字段中的词分别进行掩盖,得到第二样本业务信息。
64.掩盖方式包括字级别掩盖方式和交替掩盖方式,交替掩盖方式用于表示交替采用字级别掩盖方式和词级别掩盖方式对字段中的词进行掩盖。
65.在一种可能的实现方式中,对于第一样本业务信息中的任一字段,若该字段对应的掩盖方式为交替掩盖方式,电子设备通过以下步骤(a-1)至(a-2)对该字段中的词进行掩盖:
66.(a-1)若该字段对应的掩盖方式为交替掩盖方式,且基于第一概率确定当前对该字段中的词采用词级别掩盖方式,电子设备从该字段中选取第一目标词,对该第一目标词进行词级别掩盖。
67.由于交替掩盖方式是交替采用词级别掩盖方式和字级别掩盖方式,因此,在掩盖前,电子设备需要确定当前采用词级别掩盖方式还是字级别掩盖方式。不同的掩盖方式对应不同的概率,因此,电子设备可以基于第一概率和第二概率,确定当前采用词级别掩盖方
式还是字级别掩盖方式。其中,第一概率用于表示对该字段中的词进行词级别掩盖的概率,第二概率用于表示对该字段中的词进行字级别掩盖的概率。
68.电子设备基于第一概率和第二概率,确定采用词级别掩盖方式还是字级别掩盖方式的过程可以为:电子设备先分别确定第一概率对应的概率区间和第二概率对应的概率区间,然后基于该字段随机生成一个数值,若第一概率对应的概率区间小于第二概率对应的概率区间,且该数值在第一概率对应的概率区间内,则电子设备确定当前采用词级别掩盖方式,若第一概率对应的概率区间小于第二概率对应的概率区间,且该数值在第二概率对应的概率区间内,则电子设备确定当前采用字级别掩盖方式。相应的,第一概率对应的概率区间也可以大于第二概率对应的概率区间,这种情况下,电子设备同样根据该字段随机生成的数值落在哪个概率区间内,确定当前采用哪种掩盖方式。
69.其中,第一概率和第二概率的大小可以根据需要进行设置并更改,对此不作具体限定,例如,第一概率和第二概率相同,均为0.5,第一概率对应的概率区间为0-0.5,第二概率对应的概率区间为0.5-1,电子设备基于该字段随机生成的数值为0.4,则对该字段采用词级别掩盖方式。
70.本步骤中,若基于第一概率确定当前对该字段中的词采用词级别掩盖方式,电子设备从该字段中选取第一目标词,对第一目标词进行词级别掩盖。
71.其中,电子设备从该字段中选取第一目标词的过程可以为:电子设备确定该字段包括的词组的第一数量,从该第一数量的词组中选取第一预设比例的词组,若第一预设比例的词组的数量不超过第一预设阈值,则电子设备将第一预设比例的词组作为第一目标词进行词级别掩盖。若第一预设比例的词组的数量超过第一预设阈值,则电子设备从第一预设比例的词组中选取第一预设阈值的词组作为第一目标词进行词级别掩盖。
72.其中,电子设备可以随机从第一预设比例的词组中选取第一预设阈值的词组,电子设备也可以采用其他方式从第一预设比例的词组中选取第一预设阈值的词组,对此不作具体限定。另外,第一预设比例可以根据需要进行设置并更改,对此不作具体限定。例如,第一预设比例为10%、15%或者20%,这里仅以第一预设比例为15%为例进行说明。第一预设阈值也可以根据需要进行设置并更改,对此不作具体限定。
73.(a-2)若该字段对应的掩盖方式为交替掩盖方式,且基于第二概率确定当前对该字段中的词采用字级别掩盖方式,电子设备从该字段中选取第二目标词,对该第二目标词进行字级别掩盖。
74.本步骤中,电子设备从该字段中选取第二目标词时,确定该字段包括的字的第五数量,从该第五数量的字中选取第六预设比例的字,若第六预设比例的字的数量不超过第二预设阈值,则电子设备直接将第六预设比例的字作为第二目标词进行字级别掩盖。若第六预设比例的字的数量超过第二预设阈值,则电子设备从第六预设比例的字中选取第二预设阈值的字作为第二目标词进行字级别掩盖。
75.其中,电子设备可以随机从第六预设比例的字中选取第二预设阈值的字,电子设备也可以采用其他方式从第六预设比例的字中选取第二预设阈值的字,对此不作具体限定。另外,第六预设比例可以根据需要进行设置并更改,对此不作具体限定。例如,第六预设比例与第一预设比例相同,均为15%。第二预设阈值也可以根据需要进行设置并更改,对此不作具体限定。
76.在本技术实施例中,对于品牌字段、地址字段以及其他类型的字段,电子设备可以采用交替掩盖方式对字段中的词进行掩盖。
77.在另一种可能的实现方式中,对于第一样本业务信息中的任一字段,若该字段对应的掩盖方式为字级别掩盖方式,且该字段的字段类型为品类字段类型,电子设备通过以下步骤(b-1)至(b-3)对该字段中的词进行字级别掩盖:
78.(b-1)若该字段对应的掩盖方式为字级别掩盖方式,该字段的字段类型为品类字段类型,且基于第三概率确定对该字段中的词进行掩盖的预设比例为第二预设比例,电子设备从该字段中选取第二预设比例的词,对该第二预设比例的词进行字级别掩盖。
79.品类字段可以穷举,预测难度低,基于此,电子设备可以采用不同的预设比例对该字段中的词进行掩盖,因此,在对该字段中的词进行掩盖前,需要确定采用哪种预设比例对该字段中的词进行掩盖。
80.不同的预设比例对应不同的概率,因此,电子设备可以基于第三概率、第四概率和第五概率,确定对该字段中的词进行掩盖的预设比例。第三概率用于表示对该字段中第二预设比例的词进行掩盖的概率,第四概率用于表示对该字段中第三预设比例的词进行掩盖的概率,第五概率用于表示对该字段中第四预设比例的词进行掩盖的概率。
81.若基于第三概率确定对该字段中的词进行掩盖的预设比例为第二预设比例,电子设备从该字段中选取第二预设比例的词,对该第二预设比例的词进行字级别掩盖。
82.该实现方式中,电子设备可以随机从该字段中选取第二预设比例的词,然后确定第二预设比例的词的数量是否超过第三预设阈值,若第二预设比例的词的数量不超过第三预设阈值,则电子设备直接对该第二预设比例的词进行字级别掩盖。若第二预设比例的词的数量超过第三预设阈值,则电子设备从第二预设比例的词中随机选择第三预设阈值的词,对该第三预设阈值的词进行字级别掩盖。
83.(b-2)若该字段对应的掩盖方式为字级别掩盖方式,该字段的字段类型为品类字段类型,且基于第四概率确定该预设比例为第三预设比例,电子设备从该字段中选取第三预设比例的词,对该第三预设比例的词进行字级别掩盖。
84.该实现方式中,电子设备也可以随机从该字段中选取第三预设比例的词,然后确定第三预设比例的词的数量是否超过第四预设阈值,若第三预设比例的词的数量不超过第四预设阈值,则电子设备直接对该第三预设比例的词进行字级别掩盖。若第三预设比例的词的数量超过第四预设阈值,则电子设备从第三预设比例的词中随机选择第四预设阈值的词,对该第四预设阈值的词进行字级别掩盖。
85.(b-3)若该字段对应的掩盖方式为字级别掩盖方式,该字段的字段类型为品类字段类型,且基于第五概率确定该预设比例为第四预设比例,电子设备从该字段中选取第四预设比例的词,对该第四预设比例的词进行字级别掩盖。
86.该实现方式中,电子设备也可以随机从该字段中选取第四预设比例的词,然后确定第四预设比例的词的数量是否超过第五预设阈值,若第四预设比例的词的数量不超过第五预设阈值,则电子设备直接对该第四预设比例的词进行字级别掩盖。若第四预设比例的词的数量超过第五预设阈值,则电子设备从第四预设比例的词中随机选择第五预设阈值的词,对该第五预设阈值的词进行字级别掩盖。
87.其中,第三概率大于第四概率,第四概率大于第五概率,在此基础上,第三概率、第
四概率和第五概率可以根据需要进行设置并更改,对此不作具体限定。例如,第三概率为0.5,第四概率为0.4,第五概率为0.1。另外,第四预设比例大于第三预设比例,第三预设比例大于第二预设比例,在此基础上,第二预设比例、第三预设比例和第四预设比例也可以根据需要进行设置并更改,对此不作具体限定。例如,第二预设比例为15%,第三预设比例为50%,第四预设比例为100%。
88.在另一种可能的实现方式中,对于第一样本业务信息中的任一字段,若该字段对应的掩盖方式为字级别掩盖方式,且该字段的字段类型为标题字段类型,电子设备通过以下步骤(c-1)至(c-2)对该字段中的词进行字级别掩盖:
89.(c-1)若该字段对应的掩盖方式为字级别掩盖方式,该字段的字段类型为标题字段类型,且基于第六概率确定按照词权重的大小从该字段中选取第三目标词,电子设备基于该字段包括的多个词分别对应的第一权重,从该字段中选取第三目标词,对该第三目标词进行字级别掩盖,一个词对应一个第一权重。
90.标题字段一般是完整的句子且长度相对较长,基于此,电子设备可以基于该字段中包括的多个词分别对应的第一权重优先掩盖对匹配任务更重要的词。
91.在本技术实施例中,对于标题字段,电子设备可以基于词权重从该字段中选取第三目标词,也可以随机从该字段中选取第三目标词。不同的选取方式对应不同的概率,因此,电子设备可以基于第六概率和第七概率,确定是基于词权重从该字段中选取第三目标词还是随机从该字段中选取第三目标词。第六概率用于表示按照词权重的大小选取第三目标词的概率,第七概率用于表示随机选取第三目标词的概率。
92.若基于第六概率确定按照词权重的大小从该字段中选取第三目标词,电子设备基于该字段包括的多个词分别对应的第一权重,从该字段中选取第一权重最大的第七预设比例的词,确定该第七预设比例的词的数量是否超过第六预设阈值,若第七预设比例的词的数量不超过第六预设阈值,则电子设备直接将该第七预设比例的词作为第三目标词进行字级别掩盖。若第七预设比例的词的数量超过第六预设阈值,则电子设备从第七预设比例的词中随机选择第六预设阈值的词,将该第六预设阈值的词作为第三目标词进行字级别掩盖。
93.需要说明的一点是,在执行步骤(c-1)之前,电子设备先确定好第一样本业务信息的多个词分别对应的第一权重,该过程可以通过以下步骤(d-1)至(d-4)实现,包括:
94.(d-1)电子设备基于第一样本业务信息分别对应的点击次数,确定第一样本业务信息分别对应的点击概率。
95.点击次数用于表示通过一个样本搜索词搜索第一样本业务信息,且第一样本业务信息被点击的次数。本步骤中,样本搜索词和第一样本业务信息的数量均为多个。
96.对于任一第一样本业务信息,电子设备可以先获取点击日志,从点击日志中统计该第一样本业务信息在多个样本搜索词下分别对应的点击次数,确定该第一样本业务信息在多个样本搜索词下分别对应的点击次数的和值,得到该第一样本业务信息对应的总点击次数。对于任一样本搜索词,电子设备确定该第一样本业务信息在该样本搜索词下对应的点击次数与该总点击次数的比值,得到该第一样本业务信息在该样本搜索词下被点击的点击概率。
97.电子设备根据该方法可以确定出该第一样本业务信息分别对应的点击概率。电子
设备可以通过以下公式表示第一样本业务信息分别对应的点击概率:
[0098][0099]
其中,p
ij
用于表示通过第i个样本搜索词搜索第j个第一样本业务信息时,第j个第一样本业务信息对应的点击概率,也即第j个第一样本业务信息在第i个样本搜索词下对应的点击概率,j和i均为大于0的整数,click
ij
用于表示第j个第一样本业务信息在第i个样本搜索词下对应的点击次数,∑jclick
ij
用于表示第j个第一样本业务信息对应的总点击次数。
[0100]
(d-2)电子设备基于第一样本业务信息分别对应的点击概率,确定第一样本业务信息对应的搜索词集合。
[0101]
该搜索词集合中包括第三数量个样本搜索词,该第三数量个样本搜索词对应的第一样本业务信息的点击概率最高。
[0102]
对于任一第一样本业务信息,电子设备确定使得该第一样本业务信息分别对应的点击概率大于预设概率值的样本搜索词,对于使得第一样本业务信息分别对应的点击概率大于预设概率值的样本搜索词,按照点击概率从大到小或者从小到大的顺序,选择点击概率最高的第三数量个样本搜索词,将第三数量个样本搜索词组成搜索词集合。
[0103]
该搜索词集合可以表示为dj表示第j个第一样本业务信息。
[0104]
(d-3)电子设备对第一样本业务信息和多个样本搜索词分别进行分词,得到第一集合和多个第二集合。
[0105]
一个样本搜索词对应一个第二集合。
[0106]
对于任一第一样本业务信息,电子设备可以采用分词器对第一样本业务信息进行分词,得到第一集合,该第一集合可以表示为:其中,表示第一集合,表示第j个第一样本业务信息中的第k个词,tokenizer(dj)表示对dj进行分词,dj表示第j个第一样本业务信息。
[0107]
相应的,对于任一样本搜索词,电子设备也可以采用分词器对该样本搜索词进行分词,得到第二集合,该第二集合可以表示为:其中,表示第二集合,表示第i个样本搜索词中的第k

个词,tokenizer(qi)表示对qi进行分词,qi表示第i个样本搜索词。其中,k和k

均为大于0的整数。
[0108]
(d-4)电子设备基于搜索词集合、第一集合和多个第二集合,确定该字段包括的多个词分别对应的第一权重。
[0109]
对于任一第一样本业务信息,电子设备基于搜索词集合,遍历搜索词集合中的样本搜索词,确定第一集合的多个词分别为第三数量个样本搜索词对应的第二集合中的词的概率,基于第一集合的多个词分别为第三数量个样本搜索词对应的第二集合中的词的概率,确定第一集合的多个词分别对应的第二权重,对第一集合的多个词分别对应的第二权重进行归一化处理,得到多个词分别对应的第一权重。
[0110]
该实现方式中,对于该第一样本业务信息对应的第一集合中的任一词,电子设备可以遍历该第一样本业务信息对应的搜索词集合中的样本搜索词,确定搜索词集合中的样本搜索词对应的第二集合中的词是否与第一集合中的该词相同,确定第二集合中的词与第一集合中的该词相同的目标样本搜索词,确定该第一样本业务信息在每个目标样本搜索词下的点击概率的和值,得到该第一样本业务信息的该词对应的第二权重。
[0111]
对于该第一样本业务信息对应的第一集合中的任一词,电子设备可以通过以下公式表示该词对应的第二权重:
[0112][0113]
其中,用于表示第j个第一样本业务信息中第k个词的第二权重,1(
·
)表示指示函数,当括号里输入的布尔值为真时,1(
·
)为1,当括号里输入的布尔值为假时,1(
·
)为0。
[0114]
为了便于区分,将从搜索词集合中选取的目标搜索词称为第一目标搜索词。根据该公式可以看出:对于dj中的第k个词,遍历dj对应的搜索词集合中的样本搜索词,对于第i个样本搜索词,当第i个样本搜索词中的第k

个词与dj中的第k个词相同时,1(
·
)为1,电子设备确定该搜索词集合的样本搜索词包括的多个词中与dj中第k个词相同的第二目标搜索词,确定dj在每个第二目标搜索词下的点击概率的和值,得到dj中第k个词对应的第二权重。
[0115]
例如,中只有qi这个样本搜索词中的第k

个词与dj中的第k个词相同,则dj中第k个词对应的第二权重即为dj在样本搜索词qi下对应的点击概率p
ij

[0116]
电子设备确定出第一集合中的多个词分别对应的第二权重后,可以通过以下公式对第一集合中的多个词分别对应的第二权重进行归一化处理,该公式可以表示为:
[0117][0118]
其中,表示第j个第一样本业务信息中的第k个词的第一权重。
[0119]
电子设备确定第一样本业务信息的多个词分别对应的第一权重后,确定标题字段包括的多个词,获取标题字段包括的多个词的第一权重。
[0120]
(c-2)若该字段对应的掩盖方式为字级别掩盖方式,该字段的字段类型为标题字段类型,且基于第七概率确定随机从字段中选取第三目标词,电子设备从该字段中随机选取第三目标词,对该第三目标词进行字级别掩盖。
[0121]
若基于第七概率确定随机从该字段中选取第三目标词,则电子设备可以随机从该字段中选取第七预设比例的词,确定该第七预设比例的词的数量是否超过第六预设阈值,若第七预设比例的词的数量不超过第六预设阈值,则电子设备将该第七预设比例的词作为第三目标词进行字级别掩盖。若第七预设比例的词的数量超过第六预设阈值,则电子设备
从第七预设比例的词中随机选择第六预设阈值的词,将该第六预设阈值的词作为第三目标词进行字级别掩盖。
[0122]
在另一种可能的实现方式中,对于第一样本业务信息中的任一字段,若该字段对应的掩盖方式为字级别掩盖方式,且该字段的字段类型为关键词字段类型,电子设备可以从该字段中随机选取第四目标词,对第四目标词进行字级别掩盖。
[0123]
该实现方式中,电子设备可以从该字段中随机选取第八预设比例的词,确定该第八预设比例的词的数量是否超过第七预设阈值,若第八预设比例的词的数量不超过第七预设阈值,则电子设备将该第八预设比例的词作为第四目标词进行字级别掩盖。若第八预设比例的词的数量超过第七预设阈值,则电子设备从第八预设比例的词中随机选择第七预设阈值的词,将该第七预设阈值的词作为第四目标词进行字级别掩盖。
[0124]
其中,第八预设比例可以根据需要进行设置并更改,对此不作具体限定。这里仅以第八预设比例为15%为例进行说明。
[0125]
若该字段的字段类型为关键词字段类型,说明该字段为关键词字段。电子设备可以在将第一样本业务信息划分为多个字段时,通过以下步骤(e-1)至(e-4)确定关键词字段,包括:
[0126]
(e-1)电子设备基于第一样本业务信息中多个词分别对应的第一权重,将第一样本业务信息中的多个词进行排序,得到候选关键词序列。
[0127]
电子设备可以将第一样本业务信息中的多个词按照第一权重由大到小的顺序进行排序,得到候选关键词序列,电子设备也可以将第一样本业务信息中的多个词按照第一权重由小到大的顺序进行排序,得到候选关键词序列,对此不作具体限定。
[0128]
其中,第一样本业务信息中多个词分别对应的第一权重可以通过上述步骤(d-1)至(d-4)实现,这里不再赘述。
[0129]
(e-2)电子设备从第一样本业务信息对应的搜索词集合中选取目标搜索词,确定候选关键词序列中目标搜索词对应的词以及其余搜索词对应的词。
[0130]
其余搜索词为搜索词集合中除目标搜索词之外的搜索词。
[0131]
电子设备可以从第一样本业务信息对应的搜索词集合中随机选取一个样本搜索词作为目标搜索词,确定候选关键词序列中该目标搜索词对应的词以及其余搜索词对应的词。
[0132]
(e-3)电子设备将目标搜索词对应的词的位置调整到候选关键词序列的最前面,将其余搜索词对应的词的位置调整到目标搜索词对应的词的位置的后面,得到重新排列的候选关键词序列。
[0133]
电子设备将目标搜索词对应的词的位置放到候选关键词序列的最前面,将其余搜索词对应的词的位置放到目标搜索词对应的词的位置的后面,从而得到重新排列的候选关键词序列。
[0134]
(e-4)电子设备从重新排列的候选关键词序列中选取第四数量个词,得到关键词字段。
[0135]
电子设备从重新排列的候选关键词序列中选择位置靠前的第四数量个词,将这第四数量个词组成关键词字段。
[0136]
由此可以看出:关键词字段是由多个词组成的,难以通过上下文推测完整的词,因
此,电子设备对关键词字段进行掩盖时,只进行字级别掩盖。
[0137]
字段越长,模型识别的时间越长,识别的难度越大,因此,在本技术实施例中,针对超过模型输入序列最大长度的超长字段,电子设备基于词权重来确定关键词字段,这样可以压缩超长字段,避免字段超过模型输入序列最大长度,从而缩短模型识别时间,降低模型识别难度。
[0138]
综上所述,电子设备对地址字段、品牌字段以及其他类型的字段采用交替掩盖方式,对品类字段、标题字段和关键词字段采用字级别掩盖方式,且品类字段、标题字段和关键词字段虽然都是采用字级别掩盖方式,但不同的字段,选取目标词的方式不同。由此可见,本技术实施例在进行掩盖时,针对不同字段采用了不同的掩盖策略,这样可以使模型充分学习多个字段的语义信息,从而提高模型的推理能力。
[0139]
步骤304:电子设备将第二样本业务信息对应的目标搜索词拼接到第二样本业务信息的前面,得到第四样本业务信息。
[0140]
该目标搜索词为第二样本业务信息对应的搜索词集合中的搜索词,搜索词集合是基于多个样本搜索词确定的。
[0141]
第二样本业务信息是基于第一样本业务信息得到的,因此,该第二样本业务信息对应的搜索词集合即为第一样本业务信息对应的搜索词集合,该目标搜索词即为确定关键词字段时,从搜索词集合中选取的搜索词。
[0142]
由于第一样本业务信息是由多个字段拼接组成的,因此,掩盖后得到的第二样本业务信息也是由多个字段拼接组成的,则电子设备将该目标搜索词拼接到第二样本业务信息的前面,得到第四样本业务信息,该第四样本业务信息也是由目标搜索词和多个字段拼接组成的。
[0143]
在本技术实施例中,由于搜索场景下搜索词偏口语化,业务信息偏书面化,为缩小搜索词和业务信息之间的这种词汇差异,电子设备从样本业务信息对应的搜索词集合中随机选取一个样本搜索词拼接到样本业务信息的前面,然后同时训练样本搜索词和样本业务信息,从而提高模型的推理能力。
[0144]
需要说明的一点是,电子设备也可以先将目标搜索词拼接到第一样本业务信息的前面,然后通过执行步骤302至304对第一样本业务信息的多个字段中的词进行掩盖,得到第四样本业务信息,对此不作具体限定。
[0145]
步骤305:电子设备分别确定第五目标词被掩盖的实际概率和预测概率。
[0146]
第五目标词为目标字段中的任一词,目标字段为第四样本业务信息中的任一字段。
[0147]
电子设备确定第五目标词被掩盖的实际概率的过程可以为:对于第四样本业务信息的任一字段中的任一词,电子设备确定在字级别上该词被掩盖的字的数量以及在字级别上该字段的多个词被掩盖的字的总数量,电子设备确定该词被掩盖的字的数量与该总数量的比值,得到第五目标词被掩盖的实际概率。或者,电子设备也可以确定在词级别上该字段的多个词被掩盖的词的总数量,电子设备确定该总数量的倒数,得到第五目标词被掩盖的实际概率。若该词没有被掩盖,则其对应的实际概率为0。
[0148]
电子设备确定第五目标词被掩盖的预测概率的过程可以为:电子设备将第四样本业务信息输入模型中,通过该模型预测第五目标词被掩盖的概率,得到第五目标词对应的
预测概率。
[0149]
该实现方式中,电子设备可以先确定第四样本业务信息中目标搜索词中多个词分别对应的位置标识和除目标搜索词之外的多个其他词分别对应的位置标识,第四样本业务信息包括的多个字段分别对应的类型标识和词标识以及目标搜索词对应的类型标识和词标识,将第四样本业务信息对应的位置标识、类型标识和词标识输入模型中,通过该模型预测第五目标词被掩盖的概率。
[0150]
需要说明的一点是,由于用户在浏览返回的业务信息时,一般都是从左到右浏览,以此来判断业务信息是否与搜索词相关。因此,电子设备可以从一个预设数值开始计数,按位置顺序确定目标搜索词中的多个词分别对应的位置标识。相应的,对于第四样本业务信息中目标搜索词之后的多个其他词,电子设备也可以从该预设数值开始计数,按位置顺序确定多个其他词分别对应的位置标识。
[0151]
由于目标搜索词中的词是从该预设数值开始计数,多个其他词中的词也是从该预设数值开始计数,因此,目标搜索词和多个其他词中相同位置的词对应的位置标识相同,则后续相同的位置标识也将编码得到相同的位置向量。其中,该预设数值可以根据需要进行设置并更改,对此不作具体限定。例如,该预设数值为0或1。
[0152]
另外,不同的字段对应不同的类型标识,这样便于区分各个不同的字段。
[0153]
参见图4,从图4中可以看出:目标搜索词在第二样本业务信息的前面,目标搜索词中多个词分别对应的位置标识是从0开始计数,多个其他词分别对应的位置标识也是从0开始计数。目标搜索词和多个字段也分别对应不同的类型标识和词标识。电子设备将第四样本业务信息对应的词标识、位置标识和类型标识输入模型中,通过该模型预测第四样本业务信息中第五目标词被掩盖的概率。
[0154]
步骤306:电子设备基于第五目标词对应的实际概率和预测概率,进行模型训练,得到语义识别模型。
[0155]
电子设备确定第五目标词对应的预测概率与实际概率的乘积,基于该乘积梯度的变化值来调整模型参数,以减少梯度变化值,基于调整后的模型参数重新确定第五目标词的预测概率与实际概率的乘积的梯度变化值,然后继续调整模型参数,直至梯度变化值在预设变化范围内,或者迭代次数达到最大迭代次数,模型训练完成,得到语义识别模型。
[0156]
在本技术实施例中,电子设备可以将第四样本业务信息表示为:其中,n用于表示第四样本业务信息中除目标搜索词外的字段的个数,表示di′
中的第n个字段,表示第n个字段中的第j

个词,|fn|表示第n个字段中词的数量,n、n、j

和i

均为大于0的整数。
[0157]
电子设备基于第四样本业务信息的表示,可以定义以下目标函数,通过目标函数梯度的变化值来调整模型参数,当目标函数的梯度变化值在预设变化范围内,或者迭代次数达到最大迭代次数时,电子设备确定模型收敛,得到语义识别模型。该目标函数可以表示为:
[0158]
[0159]
其中,表示对中的字掩盖的数量,表示对第n个字段中的字掩盖的总数量,表示的实际概率,表示的预测概率,θ表示模型参数。
[0160]
在本技术实施例中,初始模型可以采用adam优化器,使用随机梯度下降更新模型参数。初始模型的层数、隐层维度、注意力头数(attention head)、全连接维度以及每批样本业务信息的数量(batchsize)均可以根据需要进行设置并更改,例如,模型的层数为24层,隐层维度为1024,注意力头数为16,全连接维度为4096,一批样本业务信息的数量为20。
[0161]
本技术实施例提供了一种语义识别模型的训练方法,该方法在训练语义识别模型时,先将第一样本业务信息划分成多个字段,然后按照多个字段分别对应的字段类型,对多个字段中的词分别进行掩盖,由于多个字段中的词都进行了掩盖,因此,这样可以使模型充分学习多个字段的语义信息,从而提高语义识别模型的推理能力。
[0162]
在本技术实施例中,通过上述方法训练得到的语义识别模型为预训练的语义识别模型,通过带有标签的样本搜索词和样本业务信息进行进一步训练该预训练的语义识别模型,才能得到最终的目标语义识别模型。通过本技术实施例提供的方法得到的预训练的语义识别模型在离线人工标注的带有标签的样本搜索词和样本业务信息的测试集上,相关性分数(q-auc)提升了1.7个百分点。
[0163]
并且,在本技术实施例中,通过丢弃除标题字段外的其他字段,分析了不同字段对相关性任务的重要程度,发现各字段对相关性任务均有正向作用。具体而言,对比了相关技术中只包括样本搜索词和标题字段、本技术包括样本搜索词和多个字段以及丢弃除标题字段外的其他字段后,模型在相关性任务上的表现,实验结果可以参见图5。
[0164]
从图5中可以看出:相关技术中的相关性分数只有86.52%,而本技术中包括样本搜索词和多个字段时,相关性分数为88.51%,且本技术中丢弃关键词字段,仍保留其他字段时,相关性分数为87.95%,丢弃地址字段,仍保留其他字段时,相关性分数为88.38%,丢弃品类字段,仍保留其他字段时,相关性分数为88.41%,丢弃品牌字段,仍保留其他字段时,相关性分数为88.42%。可见,根据本技术提供的方法,确定的相关性分数均高于相关技术中的方法确定的相关性分数,说明本技术提供的语义识别模型的推理能力确实得到了提高。
[0165]
图6是本技术实施例提供的一种语义识别模型的训练装置的结构示意图,参见图6,该装置包括:
[0166]
获取模块601,用于获取样本搜索词和第一样本业务信息;
[0167]
第一确定模块602,用于基于第一样本业务信息的多个字段分别对应的字段类型,确定第一样本业务信息的多个字段分别对应的掩盖方式,多个字段是基于语义信息对第一样本业务信息进行划分得到的,一个字段对应一种掩盖方式;
[0168]
掩盖模块603,用于基于第一样本业务信息的多个字段分别对应的掩盖方式,对第一样本业务信息的多个字段中的词分别进行掩盖,得到第二样本业务信息;
[0169]
训练模块604,用于基于样本搜索词和第二样本业务信息,进行模型训练,得到语
义识别模型。
[0170]
在一种可能的实现方式中,掩盖模块603,用于若字段的掩盖方式为交替掩盖方式,且基于第一概率确定当前对字段中的词采用词级别掩盖方式,从字段中选取第一目标词,对第一目标词进行词级别掩盖,第一概率用于表示对字段中的词进行词级别掩盖的概率,交替掩盖方式用于表示交替采用字级别掩盖方式和词级别掩盖方式对字段中的词进行掩盖;若字段的掩盖方式为交替掩盖方式,且基于第二概率确定当前对字段中的词采用字级别掩盖方式,从字段中选取第二目标词,对第二目标词进行字级别掩盖,第二概率用于表示对字段中的词进行字级别掩盖的概率。
[0171]
在另一种可能的实现方式中,掩盖模块603,用于确定字段包括的词组的第一数量;从第一数量的词组中选取第一预设比例的词组作为第一目标词,对第一目标词进行掩盖。
[0172]
在另一种可能的实现方式中,掩盖模块603,用于若第一预设比例的词组的数量不超过第一预设阈值,将第一预设比例的词组作为第一目标词;若第一预设比例的词组的数量超过第一预设阈值,从第一预设比例的词组中选取第一预设阈值的词组作为第一目标词。
[0173]
在另一种可能的实现方式中,掩盖模块603,用于若字段的掩盖方式为字级别掩盖方式,字段的字段类型为品类字段类型,且基于第三概率确定对字段中的词进行掩盖的预设比例为第二预设比例,从字段中选取第二预设比例的词,对第二预设比例的词进行字级别掩盖,第三概率用于表示对字段中第二预设比例的词进行掩盖的概率;若字段的掩盖方式为字级别掩盖方式,字段的字段类型为品类字段类型,且基于第四概率确定预设比例为第三预设比例,从字段中选取第三预设比例的词,对第三预设比例的词进行字级别掩盖,第四概率用于表示对字段中第三预设比例的词进行掩盖的概率;若字段的掩盖方式为字级别掩盖方式,字段的字段类型为品类字段类型,且基于第五概率确定预设比例为第四预设比例,从字段中选取第四预设比例的词,对第四预设比例的词进行字级别掩盖,第五概率用于表示对字段中第四预设比例的词进行掩盖的概率,第三概率大于第四概率,第四概率大于第五概率,第四预设比例大于第三预设比例,第三预设比例大于第二预设比例。
[0174]
在另一种可能的实现方式中,掩盖模块603,用于若字段的掩盖方式为字级别掩盖方式,字段的字段类型为标题字段类型,且基于第六概率确定按照词权重的大小从字段中选取第三目标词,基于字段包括的多个词分别对应的第一权重,从字段中选取第三目标词,对第三目标词进行字级别掩盖,一个词对应一个第一权重,第六概率用于表示按照词权重的大小选取第三目标词的概率;若字段的掩盖方式为字级别掩盖方式,字段的字段类型为标题字段类型,且基于第七概率确定随机从字段中选取第三目标词,从字段中随机选取第三目标词,对第三目标词进行字级别掩盖,第七概率用于表示随机选取第三目标词的概率。
[0175]
在另一种可能的实现方式中,样本搜索词的数量为多个;
[0176]
装置还包括:
[0177]
第二确定模块,用于基于第一样本业务信息分别对应的点击次数,确定第一样本业务信息分别对应的点击概率,点击次数用于表示通过一个样本搜索词搜索第一样本业务信息,且第一样本业务信息被点击的次数;
[0178]
第三确定模块,用于基于第一样本业务信息分别对应的点击概率,确定第一样本
业务信息对应的搜索词集合,搜索词集合中包括第三数量个样本搜索词,第三数量个样本搜索词对应的第一样本业务信息的点击概率最高;
[0179]
分词模块,用于对第一样本业务信息和多个样本搜索词分别进行分词,得到第一集合和多个第二集合,一个样本搜索词对应一个第二集合;
[0180]
第四确定模块,用于基于搜索词集合、第一集合和多个第二集合,确定字段包括的多个词分别对应的第一权重。
[0181]
在另一种可能的实现方式中,第四确定模块,用于基于搜索词集合,遍历搜索词集合中的样本搜索词,确定第一集合的多个词分别为第三数量个样本搜索词对应的第二集合中的词的概率;基于第一集合的多个词分别为第三数量个样本搜索词对应的第二集合中的词的概率,确定第一集合的多个词分别对应的第二权重;对第一集合的多个词分别对应的第二权重进行归一化处理,得到多个词分别对应的第一权重。
[0182]
在另一种可能的实现方式中,掩盖模块603,用于若字段的掩盖方式为字级别掩盖方式,且字段的字段类型为关键词字段类型,从字段中随机选取第四目标词,对第四目标词进行字级别掩盖。
[0183]
在另一种可能的实现方式中,装置还包括:
[0184]
排序模块,用于基于第一样本业务信息中多个词分别对应的第一权重,将第一样本业务信息中的多个词进行排序,得到候选关键词序列;
[0185]
第五确定模块,用于从第一样本业务信息对应的搜索词集合中选取目标搜索词,确定候选关键词序列中目标搜索词对应的词以及其余搜索词对应的词,其余搜索词为搜索词集合中除目标搜索词之外的搜索词;
[0186]
调整模块,用于将目标搜索词对应的词的位置调整到候选关键词序列的最前面,将其余搜索词对应的词的位置调整到目标搜索词对应的词的位置的后面,得到重新排列的候选关键词序列;
[0187]
选取模块,用于从重新排列的候选关键词序列中选取第四数量个词,得到关键词字段。
[0188]
在另一种可能的实现方式中,装置还包括:
[0189]
丢弃模块,用于对于第一样本业务信息包括的除标题字段之外的多个其他字段,丢弃多个其他字段中的部分其他字段,得到第三样本业务信息;
[0190]
掩盖模块603,还用于将第三样本业务信息作为第一样本业务信息,基于第一样本业务信息的多个字段分别对应的字段类型,确定第一样本业务信息的多个字段分别对应的掩盖方式。
[0191]
在另一种可能的实现方式中,样本搜索词的数量为多个;
[0192]
训练模块604,用于将第二样本业务信息对应的目标搜索词拼接到第二样本业务信息的前面,得到第四样本业务信息,目标搜索词为第二样本业务信息对应的搜索词集合中的搜索词,搜索词集合是基于多个样本搜索词确定的;分别确定第五目标词被掩盖的实际概率和预测概率,第五目标词为目标字段中的任一词,目标字段为第四样本业务信息中的任一字段;基于第五目标词对应的实际概率和预测概率,进行模型训练,得到语义识别模型。
[0193]
本技术实施例提供了一种语义识别模型的训练装置,该装置在训练语义识别模型
时,先将第一样本业务信息划分成多个字段,然后按照多个字段分别对应的字段类型,对多个字段中的词分别进行掩盖,由于多个字段中的词都进行了掩盖,因此,这样可以使模型充分学习多个字段的语义信息,从而提高语义识别模型的推理能力。
[0194]
需要说明的是:上述实施例提供的语义识别模型的训练装置在训练语义识别模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语义识别模型的训练装置与语义识别模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0195]
若电子设备提供为终端,请参考图7,图7示出了本技术一个示例性实施例提供的终端700的结构框图。该终端700可以是:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0196]
通常,终端700包括有:处理器701和存储器702。
[0197]
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0198]
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一条程序代码指令,该至少一条程序代码用于被处理器701所执行以实现本技术中方法实施例提供的语义识别模型的训练方法。
[0199]
在一些实施例中,终端700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。
[0200]
外围设备接口703可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0201]
射频电路704用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0202]
显示屏705用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置终端700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在终端700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0203]
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0204]
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
[0205]
定位组件708用于定位终端700的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件708可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
[0206]
电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0207]
在一些实施例中,终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、光学传感器714以及接近传感器714。
[0208]
加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
[0209]
陀螺仪传感器712可以检测终端700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3d动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0210]
压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时,可以检测用户对终端700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,由处理器701根据用户对触摸显示屏705的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0211]
光学传感器714用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器714采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器714采集的环境光强度,动态调整摄像头组件706的拍摄参数。
[0212]
接近传感器715,也称距离传感器,通常设置在终端700的前面板。接近传感器715用于采集用户与终端700的正面之间的距离。在一个实施例中,当接近传感器715检测到用户与终端700的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器715检测到用户与终端700的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。
[0213]
本领域技术人员可以理解,图7中示出的结构并不构成对终端700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0214]
若电子设备提供为服务器,参见图8,图8是本技术实施例提供的一种服务器的结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括处理器(central processing units,cpu)801和存储器802,其中,该存储器802中存储有至少一条程序代码,该至少一条程序代码由该处理器801加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器800还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0215]
若电子设备提供为终端和服务器,则终端和服务器的结构框图可以分别参见图7和图8。
[0216]
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读介质存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例中的语义识别模型的训练方法。
[0217]
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例中的语义识别模型的训练方法。
[0218]
在一些实施例中,本技术实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0219]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0220]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献