模型生成、物品属性值归一化方法、装置、设备及介质与流程

2022-11-14 00:02:02 来源：中国专利 TAG：

1.本发明实施例涉及计算机应用领域，尤其涉及一种模型生成、物品属性值归一化方法、装置、设备及介质。

背景技术：

2.在电商场景中，对于不同品类的物品来说，物品属性值是将不同物品进行对齐的重要依据。但是，针对于同一物品，该物品的不同物品所有者为该物品设置的物品属性值有可能存在差异，因此，为了实现物品的对齐功能，有必要进行物品属性值的归一化，目前是通过先抽取后归一化的方式实现的。
3.具体的，基于预先开发的大量的正则表达式从某物品的物品文本中抽取出该物品的物品属性值，然后通过对该物品属性值进行命名实体识别来得到归一化属性值，该命名实体识别的前提是大量的字符级别标签的标注。
4.在实现本发明的过程中，发明人发现现有技术中存在以下技术问题：为了实现物品属性值归一化而需要耗费较高的人工成本。

技术实现要素：

5.本发明实施例提供了一种模型生成、物品属性值归一化方法、装置、设备及介质，以基于较低的人工成本实现物品属性值归一化。
6.根据本发明的一方面，提供了一种模型生成方法，可以包括：
7.获取物品属性值集合，并分别确定物品属性值集合中的每个物品属性值在物品属性值集合中的出现数据；
8.确定目标属性值集合，其中目标属性值集合中的目标属性值是根据各物品属性值的出现数据从各物品属性值中确定的；
9.获取与物品属性值集合关联的关联物品的关联文本，并获取关联文本的标注属性值，其中标注属性值是根据目标属性值集合确定的；
10.将关联文本和标注属性值作为一组训练样本，并基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型。
11.根据本发明的另一方面，提供了一种物品属性值归一化方法，可以包括：
12.获取目标物品的目标文本、以及按照本发明任意实施例所提供的模型生成方法生成的物品属性值归一化模型；
13.将目标文本输入到物品属性值归一化模型中，根据物品属性值归一化模型的输出结果，得到归一化属性值。
14.根据本发明的另一方面，提供了一种模型生成装置，可以包括：
15.出现数据确定模块，用于获取物品属性值集合，并分别确定物品属性值集合中的每个物品属性值在物品属性值集合中的出现数据；
16.目标属性值集合确定模块，用于确定目标属性值集合，其中目标属性值集合中的
目标属性值是根据各物品属性值的出现数据从各物品属性值中确定的；
17.标注属性值获取模块，用于获取与物品属性值集合关联的关联物品的关联文本，并获取关联文本的标注属性值，其中标注属性值是根据目标属性值集合确定的；
18.物品属性值归一化模型得到模块，用于将关联文本和标注属性值作为一组训练样本，并基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型。
19.根据本发明的另一方面，提供了一种物品属性值归一化装置，可以包括：
20.物品属性值归一化模型获取模块，用于获取目标物品的目标文本、及按照本发明任意实施例所提供的模型生成方法生成的物品属性值归一化模型；
21.归一化属性值得到模块，用于将目标文本输入到物品属性值归一化模型中，根据物品属性值归一化模型的输出结果，得到归一化属性值。
22.根据本发明的另一方面，提供了一种电子设备，可以包括：
23.至少一个处理器；以及
24.与至少一个处理器通信连接的存储器；其中，
25.存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器执行时实现本发明任意实施例所提供的模型生成方法或是物品属性值归一化方法。
26.根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令用于使处理器执行时实现本发明任意实施例所提供的模型生成方法或是物品属性值归一化方法。
27.本发明实施例的技术方案，通过获取物品属性值集合，然后分别确定物品属性值集合中的每个物品属性值在物品属性值集合中的出现数据，由此来确定哪些物品属性值更为常用；确定目标属性值集合，其中，目标属性值集合中的目标属性值是根据各物品属性值的出现数据从各物品属性值中确定的，即得到更为常用的物品属性值(即目标属性值)构成的集合；获取与物品属性值集合关联的关联物品的关联文本，并获取关联文本的标注属性值，其中，标注属性值是根据目标属性值集合确定的，即通过目标属性值实现关联文本的标注；由此，可以将关联文本以及标注属性值作为一组训练样本，并基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型。上述技术方案，无需涉及到正则表达式的开发和字符级别的标注，在得到目标属性值集合的基础上，只需基于句子级别的标注，即可训练得到物品属性值归一化模型，而后续可以直接应用该物品属性值归一化模型来实现物品属性值归一化，由此达到了基于较低的人工成本实现物品属性值归一化的效果。
28.应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或是重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
29.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
30.图1是根据本发明实施例提供的一种模型生成方法的流程图；
31.图2是根据本发明实施例提供的另一种模型生成方法的流程图；
32.图3是根据本发明实施例提供的另一种模型生成方法中可选示例的示意图；
33.图4是根据本发明实施例提供的另一种模型生成方法中的原始分类模型的架构示意图；
34.图5是根据本发明实施例提供的一种物品属性值归一化方法的流程图；
35.图6是根据本发明实施例提供的一种物品属性值归一化方法中的物品属性值归一化模型的训练过程和应用过程相结合的示意图；
36.图7是根据本发明实施例提供的一种模型生成装置的结构框图；
37.图8是根据本发明实施例提供的一种物品属性值归一化装置的结构框图；
38.图9是实现本发明实施例的模型生成方法或物品属性值归一化方法的电子设备的结构示意图。
具体实施方式
39.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
40.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似，在此不再赘述。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
41.图1是本发明实施例中提供的一种模型生成方法的流程图。本实施例可适用于以较低的人工成本生成可用于实现物品属性值归一化的物品属性值归一化模型的情况。该方法可以由本发明实施例提供的模型生成装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在电子设备上，该电子设备可以是各种用户终端或服务器。
42.参见图1，本发明实施例的方法具体包括如下步骤：
43.s110、获取物品属性值集合，分别确定物品属性值集合中的每个物品属性值在物品属性值集合中的出现数据。
44.其中，物品属性值集合中包含有多个物品属性值，某物品属性值可以是某物品的物品所有者为该物品的某项物品属性设定的值，以物品属性是颜色为例，该物品属性值可以是红色、红、绿色或绿等。结合到本发明实施例可能涉及到的应用场景，该物品属性值集合可以从物品数据库中获取，或是说可以从物品数据库中获取物品属性值，并将获取到的这些物品属性值构成的集合作为物品属性值集合。进一步，由于物品属性值集合中存储的有些物品属性值是相同的，这些相同的物品属性值可能是同一物品的不同物品所有者为该物品的某项物品属性设定的值、不同物品的物品所有者为各自的物品的同一物品属性设定
的值等；有些物品属性值并非是相同的，这些不同的物品属性值可能是同一物品的不同物品所有者为该物品的某项物品属性设定的值(如红和红色)、不同物品的物品所有者为各自的物品的同一物品属性设定的值(如红色和深色)等。因此，可以统计每个物品属性值在物品属性值集合中的出现数据，以便确定哪些物品属性值才是更为常用的属性值。在实际应用中，可选的，该出现数据可以通过出现频次和/或出现频率进行表示，当然，也可以通过其余的能够表示出现情况的数据进行表示，在此未做具体限定。
45.s120、确定目标属性值集合，其中目标属性值集合中的目标属性值是根据各物品属性值的出现数据从各物品属性值中确定的。
46.其中，目标属性值集合中包含有多个目标属性值，该目标属性值可以包括根据各物品属性值的出现数据从各物品属性值中确定的属性值，如将出现数据较高的物品属性值作为目标属性值，由此得到的目标属性值可以反映出各物品所有者较为常用的属性值。示例性的，假设红色、红、绿色和绿在物品属性值集合中的出现数据(这里通过出现频次进行表示)分别是100次、10次、80和6次，则可以将红色和绿色作为目标属性值。
47.s130、获取与物品属性值集合关联的关联物品的关联文本，获取关联文本的标注属性值，其中标注属性值是根据目标属性值集合确定的。
48.其中，物品属性值集合中包含多个物品的物品属性值，因此这些物品可以认为是与物品属性值集合关联的关联物品。关联文本可以是能够表示关联物品的物品属性值的文本，如物品标题、物品简介、对物品图片进行分析后得到的文本等，在此未做具体限定。考虑到本发明实施例有可能涉及到的应用场景，由于物品标题可以是关联物品的信息相对完整的原始的文本，因此可以通过将物品标题作为关联文本进行应用，以从根源上理解关联物品。
49.由于关联文本是可表示关联物品的物品属性值的文本，因此可以获取关联文本的标注属性值，该标注属性值可以是根据目标属性值集合确定的目标属性值。示例性的，假设某关联文本是柔软的红的玩具熊，并且目标属性值集合中存储的目标属性值包括柔软、舒服、红色、红、玩具熊和玩具布偶，那么相应的标注属性值可以是柔软、红色和玩具熊。在实际应用中，可选的，标注属性值可以是标注人员根据目标属性值集合为关联文本进行标注后得到的属性值，需要强调的是，这是对关联文本这个整体进行标注，而并非是对关联文本中的每个字符进行标注，因此是句子级别的标注过程，人工成本较低。
50.s140、将关联文本以及标注属性值作为一组训练样本，基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型。
51.其中，原始分类模型可以是待训练的可实现分类功能的机器学习模型，在将关联文本和标注属性值作为一组训练样本后，可以基于多组训练样本对原始分类模型进行训练，得到物品属性值分类模型。在此基础上，结合到本发明实施例可能涉及到的应用场景，上述物品属性值分类模型可以理解为用于将关联文本归类到某目标属性值的模型，即将关联文本中的某文本属性值归一化为某目标属性值的模型，如将红归一化为红色，因此上述物品属性值分类模型也可称为物品属性值归一化模型。需要说明的是，该物品属性值归一化模型的生成过程无需设置归一化规则，由此解决了因为难以穷尽各种归一化规则而导致的泛化性能较差的问题，具有较强的泛化性。
52.本发明实施例的技术方案，通过获取物品属性值集合，然后分别确定物品属性值
集合中的每个物品属性值在物品属性值集合中的出现数据，由此来确定哪些物品属性值更为常用；确定目标属性值集合，其中，目标属性值集合中的目标属性值是根据各物品属性值的出现数据从各物品属性值中确定的，即得到更为常用的物品属性值(即目标属性值)构成的集合；获取与物品属性值集合关联的关联物品的关联文本，并获取关联文本的标注属性值，其中，标注属性值是根据目标属性值集合确定的，即通过目标属性值实现关联文本的标注；由此，可以将关联文本以及标注属性值作为一组训练样本，并基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型。上述技术方案，无需涉及到正则表达式的开发和字符级别的标注，在得到目标属性值集合的基础上，只需基于句子级别的标注，即可训练得到物品属性值归一化模型，而后续可以直接应用该物品属性值归一化模型来实现物品属性值归一化，由此达到了基于较低的人工成本实现物品属性值归一化的效果。
53.在此基础上，一种可选的技术方案，目标属性值通过如下步骤确定：展示各物品属性值的出现数据；接收属性值选中操作，并根据属性值选中操作从各物品属性值中确定目标属性值，其中属性值选中操作是用户根据展示结果触发的操作。其中，在得到各物品属性值的出现数据后，可以将这些出现数据进行展示，以便用户根据展示结果确定哪些物品属性值更为常用，然后进一步确定将哪些物品属性值选中为目标属性值。属性值选中操作可以是用户根据展示结果触发的用于从各物品属性值中挑选出目标属性值的操作，因此可以根据接收到的该属性值选中操作来从各物品属性值中确定目标属性值，由此达到了目标属性值的准确确定的效果。
54.另一种可选的技术方案，目标属性值通过如下步骤确定：获取预先设置的属性值合并规则；确定各物品属性值中的符合属性值合并规则的候选属性值，根据各候选属性值的出现数据从各候选属性值中确定目标属性值。其中，属性值合并规则可以是预先设置的用于表示哪些物品属性值可以被合并为同一物品属性值的规则，具体来说可以是用于表示哪些物品属性值因语义相同而可以被合并为同一物品属性值的规则，如红和红色可以是满足属性值合并规则的物品属性值。在获取到属性值合并规则后，可以从各物品属性值中确定符合该属性值合并规则的候选属性值，即这些候选属性值可以是被合并为同一物品属性值的物品属性值。然后，根据各候选属性值的出现数据从它们中确定目标属性值，即将各候选属性值均合并为目标属性值，需要说明的是，这里的合并并非是将这些候选属性值更改为目标属性值，而只是表示它们可以被映射为目标属性值。上述技术方案，达到了目标属性值的准确且自动确定的效果。
55.图2是本发明实施例中提供的另一种模型生成方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，上述模型生成方法，还可以包括：获取与物品属性值集合相关的相关物品的相关文本；将关联文本以及标注属性值作为一组训练样本，并基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型，可包括：将关联文本以及标注属性值作为一组第一样本，基于多组第一样本对原始分类模型进行训练，得到中间属性值归一化模型；将相关文本输入到中间属性值归一化模型中，得到伪标注属性值；将相关文本和伪标注属性值作为一组第二样本；基于多组第一样本和多组第二样本对原始分类模型进行训练，得到物品属性值归一化模型。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。
56.参见图2，本实施例的方法具体可以包括如下步骤：
57.s210、获取物品属性值集合，分别确定物品属性值集合中的每个物品属性值在物品属性值集合中的出现数据。
58.s220、确定目标属性值集合，其中目标属性值集合中的目标属性值是根据各物品属性值的出现数据从各物品属性值中确定的。
59.s230、获取与物品属性值集合关联的关联物品的关联文本，获取关联文本的标注属性值，其中标注属性值是根据目标属性值集合确定的。
60.s240、将关联文本以及标注属性值作为一组第一样本，基于多组第一样本对原始分类模型进行训练，得到中间属性值归一化模型。
61.s250、获取与物品属性值集合相关的相关物品的相关文本，并将相关文本输入到中间属性值归一化模型中，得到伪标注属性值，并将相关文本和伪标注属性值作为一组第二样本。
62.其中，正如上文所述，物品属性值集合中可包含多个物品的物品属性值，因此这些物品可以认为是与物品属性值集合相关的相关物品。相关文本可以是能够表示相关物品的物品属性值的文本，如物品标题、物品简介、对物品图片进行分析后得到的文本等，在此未做具体限定。需要说明的是，相关文本并未存在与其对应的标注属性值，因此这里的相关物品和上文中的关联物品的本质均是物品属性值集合中的物品属性值所属的物品，这里只是为了区分它们各自的物品文本(即相关文本或是关联文本)是否存在相应的标注属性值而进行的不同命名。由于相关文本并未对应有标注属性值，那么为了能够利用上这些无标注的相关文本，可以将其输入到上个步骤训练得到的中间属性值归一化模型中，得到伪标注属性值，然后将相关文本和伪标注属性值作为一组第二样本。
63.s260、基于多组第一样本和多组第二样本对原始分类模型进行训练，得到物品属性值归一化模型。
64.为了更加形象化地理解上述技术方案，下面结合具体示例，对其进行示例性说明。示例性的，如图3所示，为了充分利用大量未标注的相关文本，可以基于已标注的关联文本训练出中间属性值归一化模型，然后基于该中间属性值归一化模型预测相关文本的标注属性值(这里称为伪标注属性值)。进而，由于此时相关文本和关联文本均是已标注的物品文本，因此可以基于二者共同训练得到物品属性值归一化模型。这样一来，针对于那些十分相似的物品文本，如xxv20和xxv20 ，为了让原始分类模型学习到它们之间细微但重要的差异，无需为它们设置大量的正负样本，而可以通过无标注的相关文本的应用来达到同样的效果，是一种自学习的模型训练方案。
65.本发明实施例的技术方案，为了充分利用无标注的相关文本来进一步提升训练得到的物品属性值归一化模型的性能，可以基于已标注的关联文本训练出中间属性值归一化模型，然后基于该中间属性值归一化模型预测无标注的相关文本的伪标注属性值，再然后基于已标注的关联文本和相关文本训练得到物品属性值归一化模型，由此保证了物品属性值归一化模型的归一化性能。
66.在上述任一技术方案的基础上，可选的，原始分类模型包括依次连接的来自transformer的双向编码器表示层、双向长短期记忆网络层以及多层感知机，基于多组训练样本对原始分类模型进行训练，可以包括：针对每组训练样本，将训练样本中的关联文本输入到来自transformer的双向编码器表示层中，得到关联文本中每个字的字向量编码；将各
字向量编码输入到双向长短期记忆网络层中，得到关联文本的句向量编码；将句向量编码输入到多层感知机中，得到预测属性值；根据预测属性值以及训练样本中的标注属性值，对原始分类模型中的网络参数进行调整。
67.其中，来自transformer的双向编码器表示层可以简称为bert(bidirectional encoder representations from transformers)层，其可以为对输入至其中的关联文本中的每个字进行向量编码，输出各自的字向量编码。双向长短期记忆网络层可以简称为双向lstm(long short-term memory)网络层，其可以为对输入至其中的各字向量编码进行出来，得到关联文本的句向量编码。需要强调的是，双向lstm网络层的设置可以充分考虑到关联文本中的各字的前后顺序对分类结果的影响，更好的学习位置信息。多层感知机(multilayer perceptron，mlp)可以对输入至其中的句向量编码进行特征提取，预测属于目标属性值集合中的各目标属性值的概率，并输出多标签分类结果，即在目标属性值集合中涉及的各物品属性下的分类结果。经试验验证，具有上述结构的原始分类模型可较好的保证由此训练得到物品属性值归一化模型的性能。
68.在此基础上，为了更好地理解具有上述结构的原始分类模型的训练过程，下面可结合具体示例对其进行示例性的说明。示例性的，参见图4，原始分类模型包括依次连接的bert层、双向lstm网络层和mlp，将关联文本输入到bert层中，得到关联文本中的每个字的字向量编码；然后，将各字向量编码输入到双向lstm网络层中，得到关联文本的句向量编码；再然后，将句向量编码输入到mlp中，得到预测属性值(即多标签分类结果)；由此，可以根据预测属性值以及标注属性值，对原始分类模型中的网络参数进行调整，以得到物品属性值归一化模型。
69.图5是本发明实施例中提供的一种物品属性值归一化方法的流程图。本实施例可适用于实现物品属性值归一化的情况。该方法可以由本发明实施例提供的物品属性值归一化装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在电子设备上，该电子设备可以是各种用户终端或服务器。
70.参见图5，本发明实施例的方法具体包括如下步骤：
71.s310、获取目标物品的目标文本、及按照本发明任意实施例所提供的模型生成方法生成的物品属性值归一化模型。
72.其中，目标物品可以是物品属性值集合未涉及到的物品，即其是与上文中的相关物品和关联物品均不同的物品；目标文本可以是该目标物品的物品文本，在实际应用中，可选的，目标文本、关联文本和相关文本的文本类型相同，如它们都是物品标题、物品简介或对物品图片进行分析后得到的文本。物品属性值归一化模型可以是按照上述任一技术方案生成的模型。
73.s320、将目标文本输入到物品属性值归一化模型中，根据物品属性值归一化模型的输出结果，得到归一化属性值。
74.其中，将目标文本输入到物品属性值归一化模型中，由此根据物品属性值归一化模型的输出结果，可以得到归一化属性值，该归一化属性值可以理解为将目标文本中的文本属性值归一化到某目标属性值后的结果。
75.本发明实施例的技术方案，相对于通过先抽取后归一化的方式来实现物品属性值的归一化，可以通过物品属性值归一化模型直接进行目标文本的分类，由此预测出该目标
文本的归一化属性值，从而降低了计算量，而且可避免出现因为抽取结果不准确而影响到归一化结果的准确性这种错误传播的情况，保证了归一化结果的准确性。
76.为了从整体上更加形象化的理解上述各技术方案，下面结合具体示例对其进行示例性的说明。示例性的，如图6所示，根据物品数据库中存储的各物品属性值得到物品属性值集合，然后基于该物品属性值集合得到目标属性值集合，再然后基于该目标属性值集合训练得到物品属性值归一化模型。这样一来，当出现物品数据库中未存在的目标物品后，可以将该目标物品的目标文本输入到物品属性值归一化模型中，由此预测出该目标物品的归一化属性值，然后可以基于该归一化属性值将该目标物品和物品数据库中的已有物品进行对齐操作。
77.图7为本发明实施例中提供的模型生成装置的结构框图，该装置用于执行上述任意实施例所提供的模型生成方法。该装置与上述各实施例的模型生成方法属于同一个发明构思，在模型生成装置的实施例中未详尽描述的细节内容，可以参考上述模型生成方法的实施例。参见图7，该装置具体可以包括：出现数据确定模块410、目标属性值集合确定模块420、标注属性值获取模块430和物品属性值归一化模型得到模块440。
78.其中，出现数据确定模块410，用于获取物品属性值集合，分别确定物品属性值集合中的每个物品属性值在物品属性值集合中的出现数据；
79.目标属性值集合确定模块420，用于确定目标属性值集合，其中目标属性值集合中的目标属性值是根据各物品属性值的出现数据从各物品属性值中确定；
80.标注属性值获取模块430，用于获取与物品属性值集合关联的关联物品的关联文本，并获取关联文本的标注属性值，其中标注属性值是根据目标属性值集合确定的；
81.物品属性值归一化模型得到模块440，用于将关联文本和标注属性值作为一组训练样本，并基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型。
82.可选的，目标属性值通过如下模块确定：
83.出现数据展示模块，用于展示各物品属性值的出现数据；
84.目标属性值第一确定模块，用于接收属性值选中操作，并根据属性值选中操作从各物品属性值中确定目标属性值，其中属性值选中操作是用户根据展示结果触发的操作。
85.可选的，目标属性值通过如下模块确定：
86.属性值合并规则获取模块，用于获取预先设置的属性值合并规则；
87.目标属性值第二确定模块，用于确定各物品属性值中符合属性值合并规则的候选属性值，并根据各候选属性值的出现数据从各候选属性值中确定出目标属性值。
88.可选的，上述模型生成装置，还可以包括：
89.相关文本获取模块，用于获取物品属性值集合相关的相关物品的相关文本；
90.物品属性值归一化模型得到模块440，可以包括：
91.中间属性值归一化模型得到单元，用于将关联文本以及标注属性值作为一组第一样本，并基于多组第一样本对原始分类模型进行训练，得到中间属性值归一化模型；
92.伪标注属性值得到单元，用于将相关文本输入到中间属性值归一化模型中，得到伪标注属性值；
93.第二样本得到单元，用于将相关文本和伪标注属性值作为一组第二样本；
94.物品属性值归一化模型得到单元，用于基于多组第一样本和多组第二样本对原始
分类模型进行训练，得到物品属性值归一化模型。
95.可选的，原始分类模型包括依次连接的来自transformer的双向编码器表示层、双向长短期记忆网络层以及多层感知机；
96.物品属性值归一化模型得到模块440，可以包括：
97.字向量编码得到单元，用于针对每组训练样本，将训练样本中的关联文本输入到来自transformer的双向编码器表示层，得到关联文本中每个字的字向量编码；
98.句向量编码得到单元，用于将各字向量编码输入到双向长短期记忆网络层中，得到关联文本的句向量编码；
99.预测属性值得到单元，用于将句向量编码输入到多层感知机中，得到预测属性值；
100.网络参数调整单元，用于根据预测属性值以及训练样本中的标注属性值，对原始分类模型中的网络参数进行调整。
101.可选的，关联文本可以包括物品标题。
102.本发明实施例提供的模型生成装置，通过出现数据确定模块获取物品属性值集合，然后分别确定物品属性值集合中的每个物品属性值在物品属性值集合中的出现数据，由此确定哪些物品属性值更为常用；通过目标属性值集合确定模块确定目标属性值集合，其中目标属性值集合中的目标属性值是根据各物品属性值的出现数据从各物品属性值中确定的，即得到更为常用的物品属性值(即目标属性值)构成的集合；通过标注属性值获取模块获取与物品属性值集合关联的关联物品的关联文本，并获取关联文本的标注属性值，其中标注属性值是根据目标属性值集合确定的，即通过目标属性值实现关联文本的标注；由此，通过物品属性值归一化模型得到模块可以将关联文本以及标注属性值作为一组训练样本，并基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型。上述装置，无需涉及正则表达式的开发和字符级别的标注，在得到目标属性值集合的基础上，只需基于句子级别的标注，即可训练得到物品属性值归一化模型，而后续可以直接应用该物品属性值归一化模型来实现物品属性值归一化，由此达到了基于较低的人工成本实现物品属性值归一化的效果。
103.本发明实施例所提供的模型生成装置可执行本发明任意实施例所提供的模型生成方法，具备执行方法相应的功能模块和有益效果。
104.值得注意的是，上述模型生成装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
105.图8为本发明实施例中提供的物品属性值归一化装置的结构框图，该装置用于执行上述任意实施例所提供的物品属性值归一化方法。该装置与上述各实施例的物品属性值归一化方法属于同一个发明构思，在物品属性值归一化装置的实施例中未详尽描述的细节内容，可以参考上述物品属性值归一化生成方法的实施例。参见图8，该装置具体可包括：物品属性值归一化模型获取模块510和归一化属性值得到模块520。其中，
106.物品属性值归一化模型获取模块510，用于获取目标物品的目标文本、及按照本发明任意实施例所提供的模型生成方法生成的物品属性值归一化模型；
107.归一化属性值得到模块520，用于将目标文本输入到该物品属性值归一化模型中，并根据物品属性值归一化模型的输出结果，得到归一化属性值。
108.本发明实施例提供的物品属性值归一化装置，相对于通过先抽取后归一化的方式实现物品属性值的归一化，该装置通过物品属性值归一化模型获取模块和归一化属性值得到模块相互配合，可以基于物品属性值归一化模型直接进行目标文本的分类，由此预测出该目标文本的归一化属性值，从而降低了计算量，而且可以避免出现因为抽取结果不准确而影响到归一化结果的准确性这种错误传播的情况，保证了归一化结果的准确性。
109.本发明实施例所提供的物品属性值归一化装置可执行本发明任意实施例所提供的物品属性值归一化方法，具备执行方法相应的功能模块和有益效果。
110.值得注意的是，上述物品属性值归一化装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
111.图9为本发明实施例中提供的一种电子设备的结构示意图，如图9所示，该设备包括存储器610、处理器620、输入装置630和输出装置640。设备中的处理器620的数量可以是一个或多个，图9中以一个处理器620为例；设备中的存储器610、处理器620、输入装置630和输出装置640可以通过总线或其它方式连接，图9中以通过总线650连接为例。
112.存储器610作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的模型生成方法对应的程序指令/模块(例如，模型生成装置中的出现数据确定模块410、目标属性值集合确定模块420、标注属性值获取模块430和物品属性值归一化模型得到模块440)，或是，如本发明实施例中的物品属性值归一化方法对应的程序指令/模块(例如，物品属性值归一化装置中的物品属性值归一化模型获取模块510以及归一化属性值得到模块520)。处理器620通过运行存储在存储器610中的软件程序、指令及模块，从而执行设备的各种功能应用及数据处理，即实现上述的模型生成方法或是物品属性值归一化方法。
113.存储器610可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器610可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器610可进一步包括相对于处理器620远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
114.输入装置630可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
115.本发明实施例中提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种模型生成方法，该方法包括：
116.获取物品属性值集合，并分别确定物品属性值集合中的每个物品属性值在物品属性值集合中的出现数据；
117.确定目标属性值集合，其中目标属性值集合中的目标属性值是根据各物品属性值的出现数据从各物品属性值中确定的；
118.获取与物品属性值集合关联的关联物品的关联文本，并获取关联文本的标注属性值，其中标注属性值是根据目标属性值集合确定的；
119.将关联文本和标注属性值作为一组训练样本，并基于多组训练样本对原始分类模型进行训练，得到物品属性值归一化模型。
120.当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的模型生成方法中的相关操作。
121.本发明实施例中提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种物品属性值归一化方法，该方法包括：
122.获取目标物品的目标文本、以及按照本发明任意实施例所提供的模型生成方法生成的物品属性值归一化模型；
123.将目标文本输入到物品属性值归一化模型中，根据物品属性值归一化模型的输出结果，得到归一化属性值。
124.通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。依据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
125.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。
126.上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种针对企业高峰时段用电效果的评价方法与流程

模型生成、物品属性值归一化方法、装置、设备及介质与流程

相关文献

最热文献