基于文本的行业识别模型的确定方法及装置与流程

2021-11-25 01:43:00 来源：中国专利 TAG：

1.本发明涉及文本处理技术领域，尤其涉及一种基于文本的行业识别模型的确定方法及装置。

背景技术：

2.互联网广告作为不同行业的商家、企业宣传、营销产品的重要渠道，常包含对应宣传产品的品牌、名称以及相关的介绍、成分、标语，有效对其进行行业分类，有助于对不同行业的广告形式和广告中蕴含的品牌和品类进行探索。
3.随着近年来国际品牌企业对中国市场的重视，广告中涌现的英文类品牌和商品也越来越多。因其传播的对象、发布平台与表现手段的不同，对应的广告文本数据具有中英文数据糅合、长度不一、口语化、模板化(如相同的句式嵌入不同的品牌或者单品名)和掺杂网络流行语等特点，使得难以确定或者无法准确确定与广告文本数据匹配的行业类别。

技术实现要素：

4.本发明所要解决的技术问题在于，提供一种基于文本的行业识别模型的确定方法及装置，能够准确确定与广告文本数据匹配的行业类别。
5.为了解决上述技术问题，本发明第一方面公开了一种基于文本的行业识别模型的确定方法，所述方法包括：
6.基于确定出的样本文本的词集合中每个词的特征向量，确定所述样本文本的词集合中每个所述词的目标向量，每个所述词的目标向量中包含与该词相邻词的语义信息，所述样本文本的词集合包括所述样本文本的中文文本的词集合或所述样本文本的英文文本的词集合；
7.将所述样本文本的词集合中每个所述词的目标向量执行连接操作，得到目标样本文本，并基于所述目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，所述行业识别模型用于分析待识别行业的文本，得到与待识别行业的所述文本匹配的行业类别；
8.当所述样本文本的词集合为所述样本文本的中文文本的词集合时，训练后的所述行业识别模型为中文文本行业识别模型；
9.当所述样本文本的词集合为所述样本文本的英文文本的词集合时，训练后的所述行业识别模型为英文文本行业识别模型。
10.作为一种可选的实施方式，在本发明第一方面中，所述基于确定出的样本文本的词集合中每个词的特征向量，确定所述样本文本的词集合中每个所述词的目标向量，包括：
11.基于确定出的瓶颈层对样本文本的词集合中每个词的特征向量执行行业分类学习操作，得到所述样本文本的词集合每个所述词的瓶颈向量；
12.将所述样本文本的词集合中每个所述词的瓶颈向量输入确定出的双向编码器堆栈进行分析，得到所述样本文本的词集合中每个所述词的目标向量。
13.作为一种可选的实施方式，在本发明第一方面中，所述将所述样本文本的词集合中每个所述词的瓶颈向量输入确定出的双向编码器堆栈进行分析，得到所述样本文本的词集合中每个所述词的目标向量，包括：
14.将所述样本文本的词集合中每个所述词的瓶颈向量输入确定出的双向编码器的多个卷积层及非线性层，得到所述样本文本的词集合中每个所述词的门控向量，每个所述词的门控向量包括该词的输入门控向量、遗忘门控向量及输出门控向量；
15.根据每个所述词的遗忘门控向量、所述双向编码器中上一时刻的神经元状态及每个所述词的输入门控向量，确定当前时刻所述双向编码器的神经元状态；
16.对每个所述词的输出门控向量与当前时刻所述双向编码器的神经元状态执行卷积操作，得到每个所述词的输出向量，并对每个所述词的输出向量执行池化操作，得到每个所述词的池化向量；
17.对每个所述词的池化向量执行反方向池化操作，得到所述样本文本的词集合中每个所述词的反池化向量，并对每个所述词的反池化向量重新执行卷积和池化操作，得到每个所述词的目标向量。
18.作为一种可选的实施方式，在本发明第一方面中，所述基于所述目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，包括：
19.将所述目标样本文本输入确定出的基础行业识别模型的全连接层执行分类操作，得到分类后的所述目标样本文本；
20.基于确定出的交叉熵函数与分类后的所述目标样本文本对所述基础行业识别模型执行训练操作，得到训练后的行业识别模型。
21.作为一种可选的实施方式，在本发明第一方面中，所述基于所述目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，包括：
22.基于确定出的交叉熵函数与分类后的所述目标样本文本对所述基础行业识别模型执行训练操作，得到分类后的所述目标样本文本匹配的行业与该行业的预测概率；
23.基于确定出的校验文本，对分类后的所述目标样本文本匹配的行业与该行业的预测概率执行验证操作，得到训练后的基础行业识别模型的精度；
24.判断训练后的基础行业识别模型的精度是否大于等于确定出的精度阈值，当判断结果为是时，确定训练后的所述基础行业识别模型，为训练后的行业识别模型；
25.当判断结果为否时，将另一样本文本的词集合中每个词的特征向量更新为所述样本文本的词集合中每个词的特征向量，重新执行所述的基于确定出的样本文本的词集合中每个词的特征向量，确定所述样本文本的词集合中每个所述词的目标向量的操作。
26.作为一种可选的实施方式，在本发明第一方面中，所述方法还包括：
27.按照确定出的标记方式对样本文本执行标记操作，得到标记后的样本文本；
28.获取标记后的所述样本文本的词集合中每个词的哈希值，并对标记后的所述样本文本的词集合中每个词的哈希值执行映射操作，得到标记后的所述样本文本的词集合中每个词的特征向量，并触发执行所述的基于确定出的样本文本的词集合中每个词的特征向量，确定所述样本文本的词集合中每个所述词的目标向量的操作。
29.作为一种可选的实施方式，在本发明第一方面中，所述方法还包括：
30.当得到所述中文文本行业识别模型和所述英文文本行业识别模型后，基于验证文
本调整所述中文文本行业识别模型对应的权重和所述英文文本行业识别模型对应的权重，得到权重调整后的所述中文文本行业识别模型和所述英文文本行业识别模型；
31.将权重调整后的所述中文文本行业识别模型和所述英文文本行业识别模型更新为所述目标行业识别模型。
32.本发明第二方面公开了一种基于文本的行业识别模型的确定装置，所述装置包括：
33.确定模块，用于基于确定出的样本文本的词集合中每个词的特征向量，确定所述样本文本的词集合中每个所述词的目标向量，每个所述词的目标向量中包含与该词相邻词的语义信息，所述样本文本的词集合包括所述样本文本的中文文本的词集合或所述样本文本的英文文本的词集合；
34.向量连接模块，用于将所述样本文本的词集合中每个所述词的目标向量执行连接操作，得到目标样本文本；
35.训练模块，用于基于所述目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，所述行业识别模型用于分析待识别行业的文本，得到与待识别行业的所述文本匹配的行业类别；
36.当所述样本文本的词集合为所述样本文本的中文文本的词集合时，训练后的所述行业识别模型为中文文本行业识别模型；
37.当所述样本文本的词集合为所述样本文本的英文文本的词集合时，训练后的所述行业识别模型为英文文本行业识别模型。
38.作为一种可选的实施方式，在本发明第二方面中，所述确定模块基于确定出的样本文本的词集合中每个词的特征向量，确定所述样本文本的词集合中每个所述词的目标向量的方式具体方式为：
39.基于确定出的瓶颈层对样本文本的词集合中每个词的特征向量执行行业分类学习操作，得到所述样本文本的词集合每个所述词的瓶颈向量；
40.将所述样本文本的词集合中每个所述词的瓶颈向量输入确定出的双向编码器堆栈进行分析，得到所述样本文本的词集合中每个所述词的目标向量。
41.作为一种可选的实施方式，在本发明第二方面中，所述确定模块将所述样本文本的词集合中每个所述词的瓶颈向量输入确定出的双向编码器堆栈进行分析，得到所述样本文本的词集合中每个所述词的目标向量的具体方式为：
42.将所述样本文本的词集合中每个所述词的瓶颈向量输入确定出的双向编码器的多个卷积层及非线性层，得到所述样本文本的词集合中每个所述词的门控向量，每个所述词的门控向量包括该词的输入门控向量、遗忘门控向量及输出门控向量；
43.根据每个所述词的遗忘门控向量、所述双向编码器中上一时刻的神经元状态及每个所述词的输入门控向量，确定当前时刻所述双向编码器的神经元状态；
44.对每个所述词的输出门控向量与当前时刻所述双向编码器的神经元状态执行卷积操作，得到每个所述词的输出向量，并对每个所述词的输出向量执行池化操作，得到每个所述词的池化向量；
45.对每个所述词的池化向量执行反方向池化操作，得到所述样本文本的词集合中每个所述词的反池化向量，并对每个所述词的反池化向量重新执行卷积和池化操作，得到每
个所述词的目标向量。
46.作为一种可选的实施方式，在本发明第二方面中，所述训练模块基于所述目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型的方式具体方式为：
47.将所述目标样本文本输入确定出的基础行业识别模型的全连接层执行分类操作，得到分类后的所述目标样本文本；
48.基于确定出的交叉熵函数与分类后的所述目标样本文本对所述基础行业识别模型执行训练操作，得到训练后的行业识别模型。
49.作为一种可选的实施方式，在本发明第二方面中，所述训练模块基于所述目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型的方式具体方式为：
50.基于确定出的交叉熵函数与分类后的所述目标样本文本对所述基础行业识别模型执行训练操作，得到分类后的所述目标样本文本匹配的行业与该行业的预测概率；
51.基于确定出的校验文本，对分类后的所述目标样本文本匹配的行业与该行业的预测概率执行验证操作，得到训练后的基础行业识别模型的精度；
52.判断训练后的基础行业识别模型的精度是否大于等于确定出的精度阈值，当判断结果为是时，确定训练后的所述基础行业识别模型，为训练后的行业识别模型；
53.当判断结果为否时，将另一样本文本的词集合中每个词的特征向量更新为所述样本文本的词集合中每个词的特征向量，重新执行所述的基于确定出的样本文本的词集合中每个词的特征向量，确定所述样本文本的词集合中每个所述词的目标向量的操作。
54.作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：
55.标记模块，用于按照确定出的标记方式对样本文本执行标记操作，得到标记后的样本文本；
56.获取模块，用于获取标记后的所述样本文本的词集合中每个词的哈希值；
57.映射模块，用于对标记后的所述样本文本的词集合中每个词的哈希值执行映射操作，得到标记后的所述样本文本的词集合中每个词的特征向量，并触发所述确定模块执行所述的基于确定出的样本文本的词集合中每个词的特征向量，确定所述样本文本的词集合中每个所述词的目标向量的操作。
58.作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：
59.调整模块，用于当得到所述中文文本行业识别模型和所述英文文本行业识别模型后，基于验证文本调整所述中文文本行业识别模型对应的权重和所述英文文本行业识别模型对应的权重，得到权重调整后的所述中文文本行业识别模型和所述英文文本行业识别模型；
60.更新模块，用于将权重调整后的所述中文文本行业识别模型和所述英文文本行业识别模型更新为所述目标行业识别模型。
61.本发明第三方面公开了另一种基于文本的行业识别模型的确定装置，所述装置包括：
62.存储有可执行程序代码的存储器；
63.与所述存储器耦合的处理器；
64.所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的基于文本的行业识别模型的确定方法中的部分或全部步骤。
65.本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的基于文本的行业识别模型的确定方法中的部分或全部步骤。
66.与现有技术相比，本发明实施例具有以下有益效果：
67.本发明实施例中，基于确定出的样本文本的词集合中每个词的特征向量，确定样本文本的词集合中每个词的目标向量，每个词的目标向量中包含与该词相邻词的语义信息，样本文本的词集合包括样本文本的中文文本的词集合或样本文本的英文文本的词集合；将样本文本的词集合中每个词的目标向量执行连接操作，得到目标样本文本，并基于目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，行业识别模型用于分析待识别行业的文本，得到与待识别行业的文本匹配的行业类别；当样本文本的词集合为样本文本的中文文本的词集合时，训练后的行业识别模型为中文文本行业识别模型；当样本文本的词集合为样本文本的英文文本的词集合时，训练后的行业识别模型为英文文本行业识别模型。可见，实施本发明通过分开使用来源于同一原始文本的中文文本训练中文文本行业识别模型和使用英文文本训练英文文本行业识别模型，得到中文文本行业识别模型和英文文本行业识别模型，减少了使用中英文文本共同训练行业识别模型时由于可能存在引入中英文之间的关联而导致训练出的低准确性甚至无法训练出行业识别模型的发生情况，能够提高行业识别模型的训练准确性以及可靠性，确定出了具有适用性强的行业识别模型，以及通过将文本中每个词且与该词相邻词的语义信息加载到该词的特征向量上，有利于进一步提高行业识别模型的训练精准性、可靠性以及适用性，有利于提高识别出与文本匹配的行业类别的准确性及效率。
附图说明
68.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
69.图1是本发明实施例公开的一种基于文本的行业识别模型的确定方法的流程示意图；
70.图2是本发明实施例公开的另一种基于文本的行业识别模型的确定方法的流程示意图；
71.图3是本发明实施例公开的一种基于文本的行业识别模型的确定装置的结构示意图；
72.图4是本发明实施例公开的另一种基于文本的行业识别模型的确定装置的结构示意图；
73.图5是本发明实施例公开的又一种基于文本的行业识别模型的确定装置的结构示意图。
具体实施方式
74.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的
附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
75.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
76.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
77.本发明公开了一种基于文本的行业识别模型的确定方法及装置，能够通过分开使用来源于同一原始文本的中文文本训练中文文本行业识别模型和使用英文文本训练英文文本行业识别模型，得到中文文本行业识别模型和英文文本行业识别模型，减少了使用中英文文本共同训练行业识别模型时由于可能存在引入中英文之间的关联而导致训练出的低准确性甚至无法训练出行业识别模型的发生情况，能够提高行业识别模型的训练准确性以及可靠性，确定出了具有适用性强的行业识别模型，以及通过将文本中每个词且与该词相邻词的语义信息加载到该词的特征向量上，有利于进一步提高行业识别模型的训练精准性、可靠性以及适用性，有利于提高识别出与文本匹配的行业类别的准确性及效率。以下分别进行详细说明。
78.实施例一
79.请参阅图1，图1是本发明实施例公开的一种基于文本的行业识别模型的确定方法的流程示意图。其中，图1所描述的方法可以应用于基于文本的行业识别模型的确定装置中，如文本处理服务器、文本处理系统、文本处理平台、文本处理设备等，本发明实施例不做限定。如图1所示，该基于文本的行业识别模型的确定方法可以包括以下操作：
80.101、基于确定出的样本文本的词集合中每个词的特征向量，确定样本文本的词集合中每个词的目标向量，每个词的目标向量中包含与该词相邻词的语义信息，样本文本的词集合包括样本文本的中文文本的词集合或样本文本的英文文本的词集合。
81.本发明实施例中，可选的，样本文本包括任何需要识别其行业的广告文本或者非广告文本。进一步的，样本文本包括识别商品或非商品的包装得到的文本、从存储单元中获取到的待识别行业的文本以及用户输入的待识别行业的文本中的一种或者多种。进一步的，样本文本还包括标题、产品说明(如：使用说明)及店铺信息(如：店铺名称)中的一种或者多种。又进一步的，样本文本包括但不限于游戏行业的样本文本、金融行业的样本文本、文化娱乐行业的样本文本、综合电商行业的样本文本、教育培训行业的样本文本、医疗健康行业的样本文本、餐饮食品行业的样本文本、房地产行业的样本文本、生活服务行业的样本文本、结婚服务行业的样本文本、社交婚恋行业的样本文本、汽车行业的样本文本、数码家电行业的样本文本、美妆个护行业的样本文本、服饰鞋包行业的样本文本、母婴儿童行业的样本文本、食品饮料行业的样本文本、智能家居行业的样本文本以及建材行业的样本文本。
进一步的，每个行业还可以包括多个子行业，例如：游戏行业包括角色扮演行业、动作冒险行业、策略游戏行业、模拟经营行业、棋牌游戏行业、体育竞速行业、飞行射击行业、休闲益智行业、其他游戏行业中的一种或多种。这样通过使用多种行业的样本文本，有利于提高行业识别模型的训练准确性及训练出具有广适用性的行业识别模型。
82.102、将样本文本的词集合中每个词的目标向量执行连接操作，得到目标样本文本。
83.103、基于目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，行业识别模型用于分析待识别行业的文本，得到与待识别行业的文本匹配的行业类别。
84.本发明实施例中，当样本文本的词集合为样本文本的中文文本的词集合时，训练后的行业识别模型为中文文本行业识别模型；当样本文本的词集合为样本文本的英文文本的词集合时，训练后的行业识别模型为英文文本行业识别模型。
85.可见，实施图1所描述的方法能够通过分开使用来源于同一原始文本的中文文本训练中文文本行业识别模型和使用英文文本训练英文文本行业识别模型，得到中文文本行业识别模型和英文文本行业识别模型，减少了使用中英文文本共同训练行业识别模型时由于可能存在引入中英文之间的关联而导致训练出的低准确性甚至无法训练出行业识别模型的发生情况，能够提高行业识别模型的训练准确性以及可靠性，确定出了具有适用性强的行业识别模型，以及通过将文本中每个词且与该词相邻词的语义信息加载到该词的特征向量上，有利于进一步提高行业识别模型的训练精准性、可靠性以及适用性，有利于提高识别出与文本匹配的行业类别的准确性及效率。
86.在一个可选的实施例中，基于确定出的样本文本的词集合中每个词的特征向量，确定样本文本的词集合中每个词的目标向量，包括：
87.基于确定出的瓶颈层对样本文本的词集合中每个词的特征向量执行行业分类学习操作，得到样本文本的词集合中每个词的瓶颈向量；
88.将样本文本的词集合中每个词的瓶颈向量输入确定出的双向编码器堆栈进行分析，得到样本文本的词集合中每个词的目标向量。
89.该可选的实施例中，每个词的目标向量的维度小于每个词的瓶颈向量，如：每个词的特征向量的维度为512维，每个词的目标向量的维度为64维。
90.该可选的实施例中，双向编码器包括但不限于基于双向qrnn编码器、双向lstm编码器、双向gru编码器、双向pqrnn编码器、transformer编码器中的一种或多种确定出的编码器。需要说明的是，优先选择双向qrnn编码器，通过双向qrnn编码器能够对提高样本文本中多个词并行处理的能力，提高了行业识别模型的训练效率，有利于提高行业识别模型的更新迭代速度。
91.可见，该可选的实施例通过瓶颈层对样本文本中每个词的特征向量执行行业分类操作，能够在保留关键特征的情况下，降低词的特征向量的维度，有利于提高样本文本中每个词对应的上下文语义信息的提取准确性以及效率，从而有利于提高包含相邻词的语义信息的词的向量的确定精准性及效率。
92.在另一个可选的实施例中，将样本文本的词集合中每个词的瓶颈向量输入确定出的双向编码器堆栈进行分析，得到样本文本的词集合中每个词的目标向量，包括：
93.将样本文本的词集合中每个词的瓶颈向量输入确定出的双向编码器的多个卷积层及非线性层，得到样本文本的词集合中每个词的门控向量，每个词的门控向量包括该词的输入门控向量、遗忘门控向量及输出门控向量；
94.根据每个词的遗忘门控向量、双向编码器中上一时刻的神经元状态及每个词的输入门控向量，确定当前时刻双向编码器的神经元状态；
95.对每个词的输出门控向量与当前时刻双向编码器的神经元状态执行卷积操作，得到每个词的输出向量，并对每个词的输出向量执行池化操作，得到每个词的池化向量；
96.对每个词的池化向量执行反方向池化操作，得到样本文本的词集合中每个词的反池化向量，并对每个词的反池化向量重新执行卷积和池化操作，得到每个词的目标向量。
97.该可选的实施例中，每个卷积层均存在对应的卷积核，每个卷积层的卷积核的尺寸可以相同、也可以不同，且每个卷积层均存在对应数量的卷积核。
98.可见，该可选的实施例通过双向编码器的卷积层和非线性层对样本文本的词集合中每个词的瓶颈向量执行卷积操作，考虑了相邻词的语义信息，并对卷积后的词的向量执行池化操作，再执行反池化操作，并重复执行卷积和池化操作，能够提高获取到样本文本的每个词中包含该词相邻词的语义信息的向量准确性及可靠性。
99.在又一个可选的实施例中，基于目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，包括：
100.将目标样本文本输入确定出的基础行业识别模型的全连接层执行分类操作，得到分类后的目标样本文本；
101.基于确定出的交叉熵函数与分类后的目标样本文本对基础行业识别模型执行训练操作，得到训练后的行业识别模型。
102.可见，该可选的实施例通过基于具有固定长度的样本文本输入到模型的全连接层中进行分类，并结合交叉熵函数对模型进行训练，能够快速训练出高准确性且适用性广的行业识别模型。
103.在又一个可选的实施例中，基于目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，包括：
104.基于确定出的交叉熵函数与分类后的目标样本文本对基础行业识别模型执行训练操作，得到分类后的目标样本文本匹配的行业与该行业的预测概率；
105.基于确定出的校验文本，对分类后的目标样本文本匹配的行业与该行业的预测概率执行验证操作，得到训练后的基础行业识别模型的精度；
106.判断训练后的基础行业识别模型的精度是否大于等于确定出的精度阈值，当判断结果为是时，确定训练后的基础行业识别模型，为训练后的行业识别模型；
107.当判断结果为否时，将另一样本文本的词集合中每个词的特征向量更新为样本文本的词集合中每个词的特征向量，重新执行上述的基于确定出的样本文本的词集合中每个词的特征向量，确定样本文本的词集合中每个词的目标向量的操作。
108.可见，该可选的实施例通过校验文本对训练模型得到的样本文本的行业及该行业的预测概率进行校验，并在训练出的模型精度较高时，方确定训练完成模型，若训练出的模型精度较低时，继续对模型进行训练，能够保证训练出高准确性、高可靠性且广适用性的行业识别模型。
109.在又一个可选的实施例中，该方法还可以包括以下操作：
110.当得到中文文本行业识别模型和英文文本行业识别模型后，基于验证文本调整中文文本行业识别模型对应的权重和英文文本行业识别模型对应的权重，得到权重调整后的中文文本行业识别模型和英文文本行业识别模型；
111.将权重调整后的中文文本行业识别模型和英文文本行业识别模型更新为目标行业识别模型。
112.可见，该可选的实施例在训练出中文文本行业识别模型和英文文本行业识别模型后，通过调整两者的权重，能够进一步提高行业识别模型的确定精准性及可靠性。
113.实施例二
114.请参阅图2，图2是本发明实施例公开的另一种基于文本的行业识别模型的确定方法的流程示意图。其中，图2所描述的方法可以应用于基于文本的行业识别模型的确定装置中，如文本处理服务器、文本处理系统、文本处理平台、文本处理设备等，本发明实施例不做限定。如图2所示，该基于文本的行业识别模型的确定方法可以包括以下操作：
115.201、按照确定出的标记方式对样本文本执行标记操作，得到标记后的样本文本。
116.本发明实施例中，在样本文本每个句子的开头和结尾添加对应的标记，得到标记后的样本文本。
117.202、获取标记后的样本文本的词集合中每个词的哈希值，并对标记后的样本文本的词集合中每个词的哈希值执行映射操作，得到标记后的样本文本的词集合中每个词的特征向量。
118.203、基于标记后的样本文本的词集合中每个词的特征向量，确定样本文本的词集合中每个词的目标向量，每个词的目标向量中包含与该词相邻词的语义信息，样本文本的词集合包括样本文本的中文文本的词集合或样本文本的英文文本的词集合。
119.204、将样本文本的词集合中每个词的目标向量执行连接操作，得到目标样本文本。
120.205、基于目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，行业识别模型用于分析待识别行业的文本，得到与待识别行业的文本匹配的行业类别。
121.本发明实施例中，当样本文本的词集合为样本文本的中文文本的词集合时，训练后的行业识别模型为中文文本行业识别模型；当样本文本的词集合为样本文本的英文文本的词集合时，训练后的行业识别模型为英文文本行业识别模型。
122.本发明实施例中，需要说明的是，针对步骤203
‑
步骤205的相关描述，请参阅实施例一中针对步骤101
‑
步骤103的详细描述，本发明实施例不再赘述。
123.可见，实施图2所描述的方法能够通过分开使用来源于同一原始文本的中文文本训练中文文本行业识别模型和使用英文文本训练英文文本行业识别模型，得到中文文本行业识别模型和英文文本行业识别模型，减少了使用中英文文本共同训练行业识别模型时由于可能存在引入中英文之间的关联而导致训练出的低准确性甚至无法训练出行业识别模型的发生情况，能够提高行业识别模型的训练准确性以及可靠性，确定出了具有适用性强的行业识别模型，以及通过将文本中每个词且与该词相邻词的语义信息加载到该词的特征向量上，有利于进一步提高行业识别模型的训练精准性、可靠性以及适用性，有利于提高识
别出与文本匹配的行业类别的准确性及效率。此外，通过先对样本文本执行标记操作，有利于提高后续执行样本文本的哈希值确定操作的准确性以及效率，再自动对样本文本的哈希值执行映射操作，且不依赖于固定的词表，能够在保证保留所需文本的词的情况下降低样本文本的词数据量，从而有利于提高快速确定出准确文本的特征向量，有利于提高后续执行行业识别模型训练操作的准确性及可靠性。
124.在一个可选的实施例中，获取标记后的样本文本的词集合中每个词的哈希值，并对标记后的样本文本的词集合中每个词的哈希值执行映射操作，得到标记后的样本文本的词集合中每个词的特征向量，包括：
125.将标记后的样本文本的词集合中每个词逐个输入确定出的哈希函数中进行分析，并获取哈希函数输出的分析结果，作为标记后的样本文本的词集合中每个词的哈希值；
126.将标记后的样本文本的词集合中每个词的哈希值映射到预先确定出的集合中，得到标记后的样本文本的词集合中每个词的特征向量。
127.该可选的实施例中，可选的，哈希函数包括任何能够分析出标记后的样本文本的词集合中每个词的哈希值的函数，如：murmurhash散列哈希函数。
128.该可选的实施例中，可选的，标记后的样本文本的词集合中每个词用预先确定出的维度向量表示，如：3维。
129.该可选的实施例中，对于中文文本，输入哈希函数的词可以理解为单字，如：红，对于英文文本，输入哈希函数的词可以理解为单个单词，如：red。
130.该可选的实施例中，预先确定出的集合可以为任何满足条件的集合，如：三维(三元)集合：{
‑
1,0,1}。
131.当样本文本为中文文本时，确定标记后的样本文本的词集合中每个词所包含的单字，并将每个词所包含的所有单字的特征向量之和，确定为该词的特征向量；
132.当样本文本为英文文本时，确定标记后的样本文本的词集合中所有词的特征向量。
133.可见，该可选的实施例通过将文本的每个词逐个输入哈希函数中进行分析，能够快速且准确对文本的词进行分析，提高了获取到文本的哈希值的准确性且效率；以及处理的对象是中文文本的单字、英文文本的单个单词，有利于提高文本的词的分析精准性，从而提高文本的词的哈希值的确定准确性；以及通过将文本的每个词的哈希值映射到相应集合中，有利于把具有相关性的词(如语义相同或相似的词)用同一特征向量表示，能够在保证保留到文本的关键词的情况下降低文本的词数据量，提高了识别出与文本匹配的行业类别准确性及可靠性。
134.实施例三
135.请参阅图3，图3是本发明实施例公开的一种基于文本的行业识别模型的确定装置的结构示意图。其中，该基于文本的行业识别模型的确定装置可以包括该文本处理服务器、文本处理系统、文本处理平台、文本处理设备中的任意一种。如图3所示，该基于文本的行业识别模型的确定装置可以包括：
136.确定模块301，用于基于确定出的样本文本的词集合中每个词的特征向量，确定样本文本的词集合中每个词的目标向量，每个词的目标向量中包含与该词相邻词的语义信息，样本文本的词集合包括样本文本的中文文本的词集合或样本文本的英文文本的词集
合。
137.向量连接模块302，用于将样本文本的词集合中每个词的目标向量执行连接操作，得到目标样本文本。
138.训练模块303，用于基于目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型，行业识别模型用于分析待识别行业的文本，得到与待识别行业的文本匹配的行业类别。
139.当样本文本的词集合为样本文本的中文文本的词集合时，训练后的行业识别模型为中文文本行业识别模型；当样本文本的词集合为样本文本的英文文本的词集合时，训练后的行业识别模型为英文文本行业识别模型。
140.可见，实施图3所描述的基于文本的行业识别模型的确定装置能够通过分开使用来源于同一原始文本的中文文本训练中文文本行业识别模型和使用英文文本训练英文文本行业识别模型，得到中文文本行业识别模型和英文文本行业识别模型，减少了使用中英文文本共同训练行业识别模型时由于可能存在引入中英文之间的关联而导致训练出的低准确性甚至无法训练出行业识别模型的发生情况，能够提高行业识别模型的训练准确性以及可靠性，确定出了具有适用性强的行业识别模型，以及通过将文本中每个词且与该词相邻词的语义信息加载到该词的特征向量上，有利于进一步提高行业识别模型的训练精准性、可靠性以及适用性，有利于提高识别出与文本匹配的行业类别的准确性及效率。
141.在一个可选的实施例中，如图3所示，确定模块301基于确定出的样本文本的词集合中每个词的特征向量，确定样本文本的词集合中每个词的目标向量的方式具体方式为：
142.基于确定出的瓶颈层对样本文本的词集合中每个词的特征向量执行行业分类学习操作，得到样本文本的词集合中每个词的瓶颈向量；
143.将样本文本的词集合中每个词的瓶颈向量输入确定出的双向编码器堆栈进行分析，得到样本文本的词集合中每个词的目标向量。
144.可见，实施图3所描述的基于文本的行业识别模型的确定装置还能够瓶颈层对样本文本中每个词的特征向量执行行业分类操作，能够在保留关键特征的情况下，降低词的特征向量的维度，有利于提高样本文本中每个词对应的上下文语义信息的提取准确性以及效率，从而有利于提高包含相邻词的语义信息的词的向量的确定精准性及效率。
145.在另一个可选的实施例中，如图3所示，确定模块301将样本文本的词集合中每个词的瓶颈向量输入确定出的双向编码器堆栈进行分析，得到样本文本的词集合中每个词的目标向量的具体方式为：
146.将样本文本的词集合中每个词的瓶颈向量输入确定出的双向编码器的多个卷积层及非线性层，得到样本文本的词集合中每个词的门控向量，每个词的门控向量包括该词的输入门控向量、遗忘门控向量及输出门控向量；
147.根据每个词的遗忘门控向量、双向编码器中上一时刻的神经元状态及每个词的输入门控向量，确定当前时刻双向编码器的神经元状态；
148.对每个词的输出门控向量与当前时刻双向编码器的神经元状态执行卷积操作，得到每个词的输出向量，并对每个词的输出向量执行池化操作，得到每个词的池化向量；
149.对每个词的池化向量执行反方向池化操作，得到样本文本的词集合中每个词的反池化向量，并对每个词的反池化向量重新执行卷积和池化操作，得到每个词的目标向量。
150.可见，实施图3所描述的基于文本的行业识别模型的确定装置还能够通过双向编码器的卷积层和非线性层对样本文本的词集合中每个词的瓶颈向量执行卷积操作，考虑了相邻词的语义信息，并对卷积后的词的向量执行池化操作，再执行反池化操作，并重复执行卷积和池化操作，能够提高获取到样本文本的每个词中包含该词相邻词的语义信息的向量准确性及可靠性。
151.在又一个可选的实施例中，如图3所示，训练模块303基于目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型的方式具体方式为：
152.将目标样本文本输入确定出的基础行业识别模型的全连接层执行分类操作，得到分类后的目标样本文本；
153.基于确定出的交叉熵函数与通过基于具有固定长度的样本文本输入到模型的全连接层中进行分类，并结合交叉熵函数对模型进行训练，能够快速训练出高准确性且适用性广的行业识别模型。分类后的目标样本文本对基础行业识别模型执行训练操作，得到训练后的行业识别模型。
154.可见，实施图3所描述的基于文本的行业识别模型的确定装置还能够通过基于具有固定长度的样本文本输入到模型的全连接层中进行分类，并结合交叉熵函数对模型进行训练，能够快速训练出高准确性且适用性广的行业识别模型。
155.在又一个可选的实施例中，如图3所示，训练模块303基于目标样本文本训练确定出的基础行业识别模型，得到训练后的行业识别模型的方式具体方式为：
156.基于确定出的交叉熵函数与分类后的目标样本文本对基础行业识别模型执行训练操作，得到分类后的目标样本文本匹配的行业与该行业的预测概率；
157.基于确定出的校验文本，对分类后的目标样本文本匹配的行业与该行业的预测概率执行验证操作，得到训练后的基础行业识别模型的精度；
158.判断训练后的基础行业识别模型的精度是否大于等于确定出的精度阈值，当判断结果为是时，确定训练后的基础行业识别模型，为训练后的行业识别模型；
159.当判断结果为否时，将另一样本文本的词集合中每个词的特征向量更新为样本文本的词集合中每个词的特征向量，重新执行上述的基于确定出的样本文本的词集合中每个词的特征向量，确定样本文本的词集合中每个词的目标向量的操作。
160.可见，实施图3所描述的基于文本的行业识别模型的确定装置还能够通过校验文本对训练模型得到的样本文本的行业及该行业的预测概率进行校验，并在训练出的模型精度较高时，方确定训练完成模型，若训练出的模型精度较低时，继续对模型进行训练，能够保证训练出高准确性、高可靠性且广适用性的行业识别模型。
161.在又一个可选的实施例中，如图4所示，该装置还可以包括：
162.标记模块304，用于按照确定出的标记方式对样本文本执行标记操作，得到标记后的样本文本。
163.获取模块305，用于获取标记后的样本文本的词集合中每个词的哈希值；
164.映射模块306，用于对标记后的样本文本的词集合中每个词的哈希值执行映射操作，得到标记后的样本文本的词集合中每个词的特征向量。
165.可见，实施图4所描述的基于文本的行业识别模型的确定装置能够通过先对样本文本执行标记操作，有利于提高样本文本的哈希值的确定准确性以及可靠性，再自动对样
本文本的哈希值执行映射操作，且不依赖于固定的词表，能够在保证保留所需文本的词的情况下降低样本文本的词数据量，从而有利于提高快速确定出准确文本的特征向量，有利于提高后续执行行业识别模型的训练操作的准确性及可靠性。
166.在又一个可选的实施例中，如图4所示，该装置还可以包括：
167.调整模块307，用于当得到中文文本行业识别模型和英文文本行业识别模型后，基于验证文本调整中文文本行业识别模型对应的权重和英文文本行业识别模型对应的权重，得到权重调整后的中文文本行业识别模型和英文文本行业识别模型。
168.更新模块308，用于将权重调整后的中文文本行业识别模型和英文文本行业识别模型更新为目标行业识别模型。
169.可见，实施图4所描述的基于文本的行业识别模型的确定装置还能够在训练出中文文本行业识别模型和英文文本行业识别模型后，通过调整两者的权重，能够进一步提高行业识别模型的确定精准性及可靠性。
170.实施例四
171.请参阅图5，图5是本发明实施例公开的又一种基于文本的行业识别模型的确定装置的结构示意图。其中，该基于文本的行业识别模型的确定装置可以包括该文本处理服务器、文本处理系统、文本处理平台、文本处理设备中的任意一种。如图5所示，该装置可以包括：
172.存储有可执行程序代码的存储器501；
173.与存储器501耦合的处理器502；
174.进一步的，还可以包括与处理器502耦合的输入接口503和输出接口504；
175.其中，处理器502调用存储器501中存储的可执行程序代码，执行本发明实施例一或实施例二所公开的基于文本的行业识别模型的确定方法中的步骤。
176.实施例五
177.本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一或实施例二所公开的基于文本的行业识别模型的确定方法中的步骤。
178.以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
179.通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read
‑
only memory，rom)、随机存储器(random access memory，ram)、可编程只读存储器(programmable read
‑
only memory，prom)、可擦除可编程只读存储器(erasable programmable read only memory，eprom)、一次可编程只读存储器(one
‑
time programmable read
‑
only memory，otprom)、电子抹除式可复写只读存储器
(electrically
‑
erasable programmable read
‑
only memory，eeprom)、只读光盘(compact disc read
‑
only memory，cd
‑
rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
180.最后应说明的是：本发明实施例公开的一种基于文本的行业识别模型的确定方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于操作系统内核级数据交换识别方法与流程

基于文本的行业识别模型的确定方法及装置与流程

相关文献

最热文献