模型训练方法、分析方法、装置、设备及介质与流程

2022-04-16 12:48:07 来源：中国专利 TAG：

1.本公开涉及人工智能领域，具体涉及一种基于用户评论的模型训练方法、分析方法、装置、设备、介质和程序产品。

背景技术：

2.随着科学技术的发展，网络成为了人们交流心得、表达看法的重要平台。当经济社会中出现大众关注的评论焦点时，往往包含着倾向性的言论观点，产生较强影响力的社会评论，对经济的发展也会带来一定的影响。
3.互联网数据信息呈指数式增长，错综杂乱的评论信息不能较好的让用户迅速抓住关键点，并较为准确地分析评论信息。
4.因此，如何在错综杂乱的评论信息里，较为快速准确地掌握用户评论的倾向性方向尤为重要。

技术实现要素：

5.鉴于上述问题，本公开提供了基于用户评论的模型训练方法、分析方法、装置、设备、介质和程序产品。
6.根据本公开的第一个方面，提供了一种基于用户评论的模型训练方法，包括：
7.按照不同的倾向性情绪类型对第一目标数量的用户评论文本进行分类处理，得到含有分类标签的训练文本集，其中，训练文本集中包括多条具有分类标签的用户评论文本；
8.将训练文本集中的用户评论文本输入至预训练的语言表征模型，以便输出每条用户评论文本的特征向量；
9.将每条用户评论文本的特征向量输入逻辑回归模型，以便输出每条用户评论文本的分类结果；以及
10.根据每条用户评论文本的分类结果和分类标签调整预训练的语言表征模型的模型参数。
11.根据本公开的实施例，语言表征模型包括预训练模型和微调模型，将训练文本集中的用户评论文本输入至预训练的语言表征模型，以便输出每条用户评论文本的特征向量包括：
12.根据预训练模型的模型参数，初始化微调模型的模型参数，得到已调参的初始微调模型；
13.将训练文本集中的用户评论文本输入至已调参的初始微调模型，通过数字化编码提取单词特征、单词属性特征、单词位置特征；
14.将单词特征、单词属性特征和单词位置特征进行融合，输出融合后的特征向量；
15.将融合后的特征向量输入语言表征模型的隐藏层，输出每条用户评论文本的特征向量。
16.根据本公开的实施例，在按照不同的倾向性情绪类型对第一目标数量的用户评论
文本进行分类处理，得到含有分类标签的训练文本集之前，还包括：
17.对获取的预设数量的用户评论文本，进行预处理，得到目标数量的用户评论文本；
18.从目标数量的用户评论文本中进行筛选，得到第一目标数量的用户评论文本。
19.根据本公开的实施例，对获取的预设数量的用户评论文本，进行预处理，得到目标数量的用户评论文本包括：
20.将预设数量的用户评论文本中的表情符号转换为文本，得到目标数量的用户评论文本；和/或
21.将预设数量的用户评论文本中的无效数据进行剔除，得到目标数量的用户评论文本。
22.根据本公开的实施例，基于用户评论的模型训练方法还包括：
23.基于用户评论文本的分类结果，对训练得到的预训练的语言表征模型进行评估。
24.根据本公开的实施例，基于用户评论文本的分类结果，对训练得到的预训练的语言表征模型进行评估包括：
25.从目标数量的用户评论文本中进行筛选，得到第二目标数量的用户评论文本；
26.将每条第二目标数量的用户评论文本输入至训练得到的预训练的语言表征模型，以便输出每条用户评论文本的测试分类结果；
27.通过计算测试分类结果的准确率，对训练得到的预训练的语言表征模型进行评估。
28.本公开的第二方面提供了一种基于用户评论的分析方法，包括：
29.获取与目标产品关联的用户评论文本集，其中，用户评论文本集中包括多条用户评论文本；
30.将用户评论文本集中的用户评论文本输入至预先训练好的模型；以及
31.输出每条用户评论文本的分类结果；
32.其中，预先训练好的模型是基于用户评论的模型训练方法训练得到。
33.本公开的第三方面提供了一种基于用户评论的分类模型训练装置，包括：
34.数据处理模块，用于按照不同的倾向性情绪类型对第一目标数量的用户评论文本进行分类处理，得到含有分类标签的训练文本集，其中，训练文本集中包括多条具有分类标签的用户评论文本；
35.特征提取模块，用于将训练文本集中的用户评论文本输入至预训练的语言表征模型，以便输出每条用户评论文本的特征向量；
36.分类模块，用于将每条用户评论文本的特征向量输入逻辑回归模型，以便输出每条用户评论文本的分类结果；以及
37.参数调整模块，用于根据每条用户评论文本的分类结果和分类标签调整预训练的语言表征模型的模型参数。
38.本公开的第四方面提供了一种基于用户评论的分析装置，包括：
39.获取模块，用于获取与目标产品关联的用户评论文本集，其中，用户评论文本集中包括多条用户评论文本；
40.输入模块，用于将用户评论文本集中的用户评论文本输入至预先训练好的模型；以及
41.输出模块，用于输出每条用户评论文本的分类结果；
42.其中，预先训练好的模型是基于用户评论的模型训练方法训练得到。
43.本公开的第五方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述基于用户评论的分类模型训练方法和上述基于用户评论的分析方法。
44.本公开的第六方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述基于用户评论的分类模型训练方法和上述基于用户评论的分析方法。
45.本公开的第七方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述基于用户评论的分类模型训练方法和上述基于用户评论的分析方法。
46.根据本公开的实施例，利用语言表征模型与逻辑回归模型结合对用户评论的倾向性情绪类型进行预测分析，将语言表征模型提取的特征向量输入逻辑回归模型进行分类，根据每条用户评论文本的分类结果和分类标签调整预训练的语言表征模型的模型参数，最终得到训练好的模型。这种改进模型的方式简单，训练速度快，计算量小，资源占用少，以及模型的可解释性好，从特征的权重可以看到不同的特征对最后结果的影响。利用这种改进的模型可以提高对用户评论的倾向性情绪类型进行分析的准确率。
附图说明
47.通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：
48.图1示意性示出了根据本公开实施例的基于用户评论的模型训练方法、分析方法、装置、设备、介质和程序产品的应用场景图；
49.图2示意性示出了根据本公开实施例的基于用户评论的模型训练方法的流程图；
50.图3示意性示出了根据本公开另一实施例的基于用户评论的模型训练方法的流程图；
51.图4示意性示出了根据本公开实施例的将训练文本集中的用户评论文本输入至预训练的语言表征模型，以便输出每条用户评论文本的特征向量的方法的流程图；
52.图5示意性示出了根据本公开实施例的基于用户评论文本的分类结果，对训练得到的预训练的语言表征模型进行评估的方法的流程图；
53.图6示意性示出了根据本公开实施例的基于用户评论的分析方法的流程图；
54.图7示意性示出了根据本公开一实施例的基于用户评论的模型训练方法和分析方法的流程图；
55.图8示意性示出了根据本公开实施例的基于用户评论的分类模型训练装置的结构框图
56.图9示意性示出了根据本公开实施例的基于用户评论的分析装置的结构框图；以及
57.图10示意性示出了根据本公开实施例的适于实现基于用户评论的分类模型训练
方法和基于用户评论的分析方法的电子设备的方框图。
具体实施方式
58.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
59.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
60.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
61.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
62.在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。
63.在本公开实施例的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。
64.tf-idf，一种用于信息检索与数据挖掘的常用加权技术。tf是词频(term frequency)，idf是逆文本频率指数(inverse document frequency)。存在计算量大、特征矩阵稀疏、用词频来衡量文章中的一个词的重要性不够全面，无法体现位置信息，无法体现词在上下文的重要性以及无法解决一词多义的问题。
65.word2vec，一种用于词向量计算的工具。可以解决词与词之间的位置关系，但是存在词和向量是一对一的关系，导致多义词的问题无法解决以及word2vec是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化。
66.机器学习分类算法也存在缺陷，例如：逻辑回归存在特征空间很大，性能降低；容易欠拟合，准确率不太高；处理非线性数据较麻烦；很难处理数据不平衡的问题。朴素贝叶斯存在需要计算先验概率；分类决策存在错误率；对输入数据的表达形式很敏感；由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好的问题。支持向量机存在对大规模训练样本难以实施；解决多分类问题存在困难的问题。
67.基于上述常规模型在用户评论潜在的倾向性情绪挖掘能力不足以及准确率不佳的问题的考虑，通过将语言表征模型与逻辑回归模型结合对用户评论的倾向性情绪类型进行分类分析，利用语言表征模型强大的语言表征能力和特征提取能力与逻辑回归模型结合，实现了简单改进模型，使模型训练速度快，计算量小，资源占用少，并且利用改进后的模型可以较为快速准确地掌握用户评论的倾向性方向。
68.有鉴于此，本公开的实施例提供了一种基于用户评论的模型训练方法，包括：按照不同的倾向性情绪类型对第一目标数量的用户评论文本进行分类处理，得到含有分类标签的训练文本集，其中，训练文本集中包括多条具有分类标签的用户评论文本；将训练文本集中的用户评论文本输入至预训练的语言表征模型，以便输出每条用户评论文本的特征向量；将每条用户评论文本的特征向量输入逻辑回归模型，以便输出每条用户评论文本的分类结果；以及根据每条用户评论文本的分类结果和分类标签调整预训练的语言表征模型的模型参数。
69.图1示意性示出了根据本公开实施例的基于用户评论的模型训练方法、分析方法、装置、设备、介质和程序产品的应用场景图。
70.如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
71.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如金融产品类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
72.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
73.服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
74.需要说明的是，本公开实施例所提供的基于用户评论的模型训练方法和分析方法一般可以由服务器105执行。相应地，本公开实施例所提供的基于用户评论的模型训练装置和分析装置一般可以设置于服务器105中。本公开实施例所提供的基于用户评论的模型训练方法和分析方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的基于用户评论的模型训练装置和分析装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
75.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
76.以下将基于图1描述的场景，通过图2～图5对公开实施例的基于用户评论的模型训练方法进行详细描述。
77.图2示意性示出了根据本公开实施例的基于用户评论的模型训练方法的流程图。
78.如图2所示，该实施例的基于用户评论的模型训练方法200包括操作s201～操作s204，该模型训练方法可以由例如服务器105等计算设备执行。
79.在操作s201，按照不同的倾向性情绪类型对第一目标数量的用户评论文本进行分类处理，得到含有分类标签的训练文本集，其中，训练文本集中包括多条具有分类标签的用户评论文本。
80.根据本公开实施例，在上述操作s201，倾向性情绪类型的分类可以根据实际需要预先设定。例如，可以将倾向性情绪类型按照正面、负面、中立三种类型进行划分，将第一目标数量的用户评论文本按照该分类方法进行分类处理，得到多条已经具有分类标签的用户评论文本。其中，第一目标数量的用户评论文本可以根据实际需要训练的用户评论文本而确定，例如可以是10000条用户评论文本，但不限于此。
81.根据本公开实施例，用户评论文本可以是针对金融产品的用户评论文本，也可以是针对实体产品的用户评论文本。
82.在操作s202，将训练文本集中的用户评论文本输入至预训练的语言表征模型，以便输出每条用户评论文本的特征向量。
83.根据本公开实施例，在上述操作s202，可以将训练文本集中的每条用户评论文本依次分别输入至预训练的语言表征模型。例如，可以将带有正面、负面或者中立三种分类标签的10000条用户评论文本依次分别输入至预训练的语言表征模型，经过特征提取后，输出每条用户评论文本对应的特征向量。
84.在操作s203，将每条用户评论文本的特征向量输入逻辑回归模型，以便输出每条用户评论文本的分类结果。
85.根据本公开实施例，在上述操作s203，可以将通过语言表征模型输出的每条用户评论文本的特征向量依次分别输入逻辑回归模型，通过逻辑回归模型进行分类处理后输出分类结果。例如可以是将通过语言表征模型输出的10000条用户评论文本对应的特征向量依次分别输入逻辑回归模型，通过逻辑回归模型进行分类处理后输出分类结果，例如输出分类结果可以是输出2000条负面用户评论文本、6000条正面用户评论文本以及2000条中立用户评论文本，但不限于此。
86.根据本公开实施例，逻辑回归模型涉及logistic函数(也称为sigmoid函数)，利用logistic函数特性，求导得到输出结果。例如，logistic函数，如公式(1)所示：
[0087][0088]
其中，g(z)是一个函数表达式符号，z是变量，e是一个常量，约为2.718281828459045。
[0089]
将通过语言表征模型输出的每条用户评论文本的特征向量embedding带入到logistic函数中得到逻辑回归表达式h
θ
(embedding)如公式(2)所示：
[0090][0091]
其中，h
θ
是函数表达式符号，θ
t
*embedding＝z，θ是一个参数变量，t是转置。
[0092]
最后对于输入embedding分类结果的概率y指的是计算的概率值，如公式(3)所示：
[0093]
p(y|embedding；θ)＝(h
θ
(embedding))y(1-h
θ
(embedding))
1-y
ꢀꢀ
公式(3)
[0094]
利用logistic函数特性，求导得到结果，如简化公式(4)所示。公式(4)是一个求导的公式，这种方式是更好的展示该函数求导后得到一个结果。
[0095]g′
(z)＝g(z)*(1-g(z))
ꢀꢀ
公式(4)
[0096]
在操作s204，根据每条用户评论文本的分类结果和分类标签调整预训练的语言表征模型的模型参数。
[0097]
根据本公开实施例，在上述操作s204，可以是根据输出的分类结果与对应带有分类标签的用户评论文本进行分析比较，判断预测结果。如果错误率高，预测结果不好，则需要调整预训练的语言表征模型的模型参数，继续训练模型。例如可以是根据输出的分类结果：2000条负面用户评论文本、6000条正面用户评论文本以及2000条中立用户评论文本，与对应带有分类标签的10000条用户评论文本进行分析比较，判断预测结果，如果错误率高，那么预测结果不好，需要调整预训练的语言表征模型的模型参数，训练模型。其中，调整预训练的语言表征模型的模型参数可以利用迭代公式进行梯度更新。例如，如公式(5)所示，通过不断试验，找到较佳的分类结果。
[0098][0099]
其中，θ是一个参数变量，根据分类结果不断通过公式(5)不断调整，直到找到较佳的分类结果后，得到最终确定的值；α也是一个参数变量，α这个参数是提前定义好的。
[0100]
根据本公开的实施例，利用语言表征模型与逻辑回归模型结合对用户评论的倾向性情绪类型进行预测分析，将语言表征模型提取的特征向量输入逻辑回归模型进行分类，根据每条用户评论文本的分类结果和分类标签调整预训练的语言表征模型的模型参数，最终得到训练好的模型。这种改进模型的方式简单，训练速度快，计算量小，资源占用少，以及模型的可解释性好，从特征的权重可以看到不同的特征对最后结果的影响。利用这种改进的模型可以提高对用户评论的倾向性情绪类型进行分析的准确率。
[0101]
根据本公开的另一实施例，在上述操作s202输出每条用户评论文本的特征向量后，可以是语言表征模型bert模型直接取最后输出的对应的特征向量值作为结果进行句子分类特征输入，最后添加一个权重后，softmax预测分类结果。如公式(6)所示：
[0102]
pi＝softmax(embed*w
t
)
ꢀꢀ
公式(6)
[0103]
pi是一个概率值，表示用户评论文本的概率值。w是初始化的一个矩阵(随机的)，后续经过训练后会发生变化，t是转置的意思，比如embed是一个1*768的行向量，转置后变成768*1的列向量。公式(6)可以理解为：如终极目标是三分类，那么embed是1*768的向量，w是一个3*768的矩阵转置后是768*3的矩阵，embed*w
t
计算的结果是1*3的向量，这时输入就是3，会计算出来3个概率值。softmax是一个函数，计算公式为：
[0104]
其中，n表示输入个数，j表示从1到n的取值，e是常数约为2.718281828459045，公式的分母表示e的z1到e的zn的结果累加求和。
[0105]
图3示意性示出了根据本公开另一实施例的基于用户评论的模型训练方法的流程图。
[0106]
如图3所示，该实施例的基于用户评论的模型训练方法300包括操作s301～操作s306。
[0107]
在操作s301，对获取的预设数量的用户评论文本，进行预处理，得到目标数量的用户评论文本。
[0108]
根据本公开实施例，在上述操作s301，可以是将预设数量的用户评论文本中的表情符号转换为文本，得到目标数量的用户评论文本；和/或将预设数量的用户评论文本中的
无效数据进行剔除，得到目标数量的用户评论文本。
[0109]
例如，预设数量的用户评论文本可以是通过网络爬虫爬取得到的用户评论文本，可以是对基金、期货、股票、外汇等金融产品中的一种进行网络爬虫爬取该产品用户的评论文本，也可以是获取其他产品的用户评论文本。例如预设数量的用户评论文本可以是11万条，获取后通过预处理，把含表情符号的评论文本转换为纯文本，把缺失的文本删除，或者把相同的评论文本删除等，得到10万条用户的评论文本，也即得到目标数量的用户评论文本为10万条。
[0110]
根据本公开实施例，通过对获取的用户评论文本进行预处理，可以解决由于获取的用户评论文本格式和存储的不同，而导致的不能使用问题。预处理中对相同的评论文本进行删除，可以防止混入相同的文本数据对模型训练帮助不大，还可能导致过拟合的问题。
[0111]
在操作s302，从目标数量的用户评论文本中进行筛选，得到第一目标数量的用户评论文本。
[0112]
根据本公开实施例，可以根据实际需要在上述操作s301得到的目标数量的用户评论文本中筛选出第一目标数量的用户评论文本。例如，在10万条的用户评论文本中选取1500条的用户评论文本作为第一目标数量的用户评论文本。
[0113]
在操作s303，按照不同的倾向性情绪类型对第一目标数量的用户评论文本进行分类处理，得到含有分类标签的训练文本集，其中，训练文本集中包括多条具有分类标签的用户评论文本。
[0114]
根据本公开实施例，可以将在上述操作s302得到的第一目标数量的用户评论文本按照倾向性情绪类型分类。例如，可以将得到的1500条的用户评论文本按照积极面、消极面、中性面三种类型进行分类，得到1500条已经带有分类标签的用户评论文本，其中属于积极面标签的600条、属于消极面标签的800条、属于中性面标签的100条。
[0115]
在操作s304，将训练文本集中的用户评论文本输入至预训练的语言表征模型，以便输出每条用户评论文本的特征向量。
[0116]
根据本公开实施例，可以将在上述操作s303得到的含有分类标签的训练文本集依次分别输入预训练的语言表征模型，输出每条用户评论文本对应的特征向量。例如，可以将得到1500条已经带有分类标签的用户评论文本输入至预训练的语言表征模型，经过特征提取后，输出得到的1500条用户评论文本对应的特征向量。
[0117]
在操作s305，将每条用户评论文本的特征向量输入逻辑回归模型，以便输出每条用户评论文本的分类结果。
[0118]
根据本公开实施例，可以将在上述操作s304得到的每条用户评论文本的特征向量依次分别输入逻辑回归模型，通过逻辑回归模型进行分类处理后输出每条用户评论文本的分类结果。例如，将得到的1500条用户评论文本对应的特征向量输入逻辑回归模型，通过逻辑回归模型进行分类处理后输出属于积极面标签的600条中有500条分类结果正确；属于消极面标签的800条中有660条分类结果正确；属于中性面标签的100条中有40条分类结果正确。
[0119]
在操作s306，根据每条用户评论文本的分类结果和分类标签调整预训练的语言表征模型的模型参数。
[0120]
根据本公开实施例，可以将在上述操作s305得到的每条用户评论文本的分类结果
network。
[0131]
首先进行multi-head attention计算。multi-head attention的计算可以由h个不同线性变换对q，k，v进行投影，这里的h＝12。最后将不同的attention结果拼接组合起来，如公式(7)和公式(8)所示：
[0132]
e＝multihead(q,k,v)＝concat(head1,head2,...,headh)w0ꢀꢀ
公式(7)
[0133]
headi＝attention(q,k,v)
ꢀꢀ
公式(8)
[0134]
其中，e是一个向量，公式(7)的multihead(q,k,v)可以看成一个公式，q,k,v是输入的向量，这里的q,k,v是在操作s403输出融合后的特征向量embedding进行线性变换所得，其实就是q＝embedding*w
qi
，k＝embedding*w
ki
,v＝embedding*w
vi
所得，其中，w
qi
,w
ki
,w
vi
都是初始化随机生成的矩阵，后续会随着模型训练这些矩阵发生变化。multihead(q,k,v)的做法其实是利用concat拼接的意思，将head1到headn拼接起来，这里的head1到headn可以看成e的组成部分，比如：n＝12，e是1*768，那么head1就是1*64，这样head1到head
12
拼接起来就是1*768。
[0135]
attention的计算公式采用了scaled dot-product，如公式(9)所示。在计算dot-product的时候，当dk很大时，qk的点积也会很大，方差会很大，会把大部分概率分配给较大的元素，这会让softmax函数的梯度变得异常的小，对点积结果除以根号dk可以抵消这个影响。
[0136][0137]
其中，计算公式n表示输入个数，j是从1到n的取值，e是常数约为2.718281828459045，公式的分母表示e的qk1到e的qkn的结果累加求和。dk是维度，例如：生成的head向量embedding是64维，这里的dk＝64。softmax得到的是一个值，用softmax的值乘以v，这样相当于给v的每个向量值乘以这个值，得到head向量。
[0138]
其次，进行add&norm计算。如公式(10)所示：
[0139]ea&n
＝layernorm(e (sublayer(e)))公式(10)
[0140]
其中，公式(10)表示将两个向量相加得到新的向量，然后对新的向量进行归一化，具体做法例如可以是新的向量是1*768维，则将这个向量每一个值除以所有值的和，得到一个向量e
a&n
。
[0141]
然后，进行feed forward network计算。如公式(11)所示：
[0142]effn
＝max(0,e
a&n
w1 b1)w2ꢀꢀ
公式(11)
[0143]
其中，随机初始化w1向量和e
a&n
维度是一样的，w2向量和e
a&n
维度是一样的，b1是一个数值。用上一步的向量e
a&n
去乘以w1，然后加上b1，这样我们得到一个值，用这个值和0取最大的结果，和w2相乘，相当于给w2的每一个值乘以这个最大结果，又得到一个新的向量e
ffn
。
[0144]
最后，进行add&norm计算并输出embedding。如公式(12)所示：
[0145]
embed＝layernorm(e
a&n
(sublayer(e
ffn
)))
ꢀꢀ
公式(12)
[0146]
其中，公式(12)与公式(10)的功能一样。表示将两个向量相加得到新的向量，然后对新的向量进行归一化。
[0147]
根据本公开实施例，通过根据预训练模型对微调模型调参，如果对模型训练结果不满意，只需对微调模型的参数稍微调整即可，无需重新进行预训练得出参数。并且模型是无法识别文字的，需要将文字进行数字化编码提取特征向量。
[0148]
根据本公开的再一实施例，基于用户评论的模型训练方法还包括：基于用户评论文本的分类结果，对训练得到的预训练的语言表征模型进行评估。
[0149]
根据本公开实施例，例如可以通过向训练得到的预训练的语言表征模型输入测试文本数据，根据输出的测试结果对训练得到的预训练的语言表征模型进行评估模型的好坏。
[0150]
图5示意性示出了根据本公开实施例的基于用户评论文本的分类结果，对训练得到的预训练的语言表征模型进行评估的方法的流程图。
[0151]
如图5所示，该实施例的基于用户评论文本的分类结果，对训练得到的预训练的语言表征模型进行评估的方法500包括操作s501～操作s503。
[0152]
在操作s501，从目标数量的用户评论文本中进行筛选，得到第二目标数量的用户评论文本。
[0153]
根据本公开实施例，可以是将在上述操作s301得到的目标数量的用户评论文本中根据实际需要筛选第二目标数量的用户评论文本。例如，在10万条的用户评论文本中选取1500条的用户评论文本作为第一目标数量的用户评论文本后剩余的98500条用户评论文本作为第二目标数量的用户评论文本。
[0154]
在操作s502，将每条第二目标数量的用户评论文本输入至训练得到的预训练的语言表征模型，以便输出每条用户评论文本的测试分类结果。
[0155]
根据本公开实施例，可以将根据实际需要得到的每条第二目标数量的用户评论文本，依次分别输入利用上述基于用户评论的模型训练方法训练得到的预训练的语言表征模型，然后输出每条用户评论文本的测试分类结果。例如，可以将上述操作s501得到的98500条用户评论文本依次分别输入已经利用上述基于用户评论的模型训练方法训练好的模型中，输出98500条用户评论文本的测试分类结果。
[0156]
在操作s503，通过计算测试分类结果的准确率，对训练得到的预训练的语言表征模型进行评估。
[0157]
根据本公开实施例，可以是从上述操作s502得到的用户评论文本的测试分类结果中选取部分评论文本的测试分类结果进行验证，判断准确率。如果准确率达标，则输出模型；如果准确率不达标，则重新训练模型。例如，可以是从98500条测试分类结果中选取1000条进行判断分类结果是否准确，统计对于该1000条评论文本而言其准确率，如果准确率高于90％，则训练好的模型的准确率较高，该准确率达标，输出此模型；如果准确率低于90％，则训练好的模型的准确率较低，该准确率不达标，此时可以利用该验证准确率的1000条评论文本和之前训练的训练文本一起输入模型，再次训练模型。
[0158]
根据本公开实施例，通过使用测试文本数据，对训练得到的预训练的语言表征模型进行评估模型的好坏，这样可以更好地提高对用户评论的倾向性情绪类型进行分析的准确率。
[0159]
利用根据上述实施例基于用户评论的模型训练方法训练得到预先训练好的模型。
[0160]
图6示意性示出了根据本公开实施例的基于用户评论的分析方法的流程图。
[0161]
如图6所示，该实施例的基于用户评论的分析方法600包括操作s601～操作s603。
[0162]
在操作s601，获取与目标产品关联的用户评论文本集，其中，用户评论文本集中包括多条用户评论文本。
[0163]
根据本公开实施例，如果在训练模型时使用了有关对基金产品的用户评论文本，那么就可以预测与基金产品有关的其他用户评论文本了。
[0164]
在操作s602，将用户评论文本集中的用户评论文本输入至预先训练好的模型。
[0165]
在操作s603，输出每条用户评论文本的分类结果。
[0166]
根据本公开实施例，通过预先训练好的模型可以快速分析用户在评论文本中的倾向性情绪，并且增强了分析的准确性。
[0167]
图7示意性示出了根据本公开再一实施例的基于用户评论的模型训练方法的流程图。
[0168]
如图7所示，该自动化平盘策略的模拟验证方法700包括操作s701～操作s708。
[0169]
在操作s701，获取用户对产品的评论数据。例如可以通过网络爬虫批量获取用户对金融类产品或者其他实体产品的评论文本，作为获取的评论数据。
[0170]
在操作s702，对获取的用户评论数据进行预处理。预处理可以通过对评论数据进行缺失值处理、冗余值处理以及异常值处理。其中缺失值处理可以是对获取的评论数据不完整的数据进行删除；冗余值处理可以是对获取的相同的评论数据进行删除；异常值处理例如可以是对获取的评论数据中包含的表情符号进行对应所表达的文本信息的转换。
[0171]
在操作s703，训练数据集。可以是从上述操作s702中筛选一部分数据，对数据按照倾向性情绪分类，例如分为正面、负面、中面三种，将带有分类标签的数据作为训练数据集。
[0172]
在操作s704，训练模型。可以是通过将训练数据集输入根据实际需要想要训练的模型当中，进行特征提取后输出训练分类结果，对训练分类结果进行不断评估，判断模型准确性。通过不断调整模型参数进行增强模型的训练准确性，直至模型分类结果准确性高，模型训练完成。
[0173]
在操作s705，测试数据集。可以是从上述操作s702中筛选另一部分数据，作为测试数据集。
[0174]
在操作s706，测试训练好的模型。可以是通过将测试数据集输入训练好的模型，然后输出测试分类结果。
[0175]
在操作s707，是否达标。可以通过从测试分类结果中抽取部分测试分类结果进行检验，计算准确率，判断准确率是否达标。例如，准确率大于90％，可以认为准确率达标。准确率小于90％，则认为准确率不达标，可以重新选取训练数据集进行训练模型。例如，可以将检验达标的部分测试分类结果中不正确的分类进行修改，将修改后的测试分类结果和已经分好类别的训练数据集重新作为新的训练数据集进行训练模型。
[0176]
在操作s708，输出模型。可以是通过测试训练好的模型的准确率达到90％以上时，记录模型参数，输出模型。
[0177]
基于上述基于用户评论的分类模型训练方法，本公开还提供了一种基于用户评论的分类模型训练装置。以下将结合图8对该装置进行详细描述。
[0178]
图8示意性示出了根据本公开实施例的基于用户评论的分类模型训练装置的结构框图。
[0179]
如图8所示，该实施例的基于用户评论的分类模型训练装置800包括数据处理模块810、特征提取模块820、分类模块830和参数调整模块840。
[0180]
数据处理模块810用于按照不同的倾向性情绪类型对第一目标数量的用户评论文本进行分类处理，得到含有分类标签的训练文本集，其中，训练文本集中包括多条具有分类标签的用户评论文本。在一实施例中，数据处理模块810可以用于执行前文描述的操作s201，在此不再赘述。
[0181]
特征提取模块820用于将训练文本集中的用户评论文本输入至预训练的语言表征模型，以便输出每条用户评论文本的特征向量。在一实施例中，特征提取模块820可以用于执行前文描述的操作s202，在此不再赘述。
[0182]
分类模块830用于将每条用户评论文本的特征向量输入逻辑回归模型，以便输出每条用户评论文本的分类结果。在一实施例中，分类模块830可以用于执行前文描述的操作s203，在此不再赘述。
[0183]
参数调整模块840用于根据每条用户评论文本的分类结果和分类标签调整预训练的语言表征模型的模型参数。在一实施例中，参数调整模块840可以用于执行前文描述的操作s204，在此不再赘述。
[0184]
根据本公开的实施例，特征提取模块820包括初始化单元、分别提取特征单元、融合单元以及计算单元。
[0185]
初始化单元用于根据预训练模型的模型参数，初始化微调模型的模型参数，得到已调参的初始微调模型。在一实施例中，初始化单元可以用于执行前文描述的操作s401，在此不再赘述。
[0186]
分别提取特征单元用于将训练文本集中的用户评论文本输入至已调参的初始微调模型，通过数字化编码提取单词特征、单词属性特征、单词位置特征。在一实施例中，分别提取特征单元可以用于执行前文描述的操作s402，在此不再赘述。
[0187]
融合单元用于将单词特征、单词属性特征和单词位置特征进行融合，输出融合后的特征向量。在一实施例中，融合单元可以用于执行前文描述的操作s403，在此不再赘述。
[0188]
计算单元用于将融合后的特征向量输入语言表征模型的隐藏层，输出每条用户评论文本的特征向量。在一实施例中，计算单元可以用于执行前文描述的操作s404，在此不再赘述。
[0189]
根据本公开的实施例，基于用户评论的分类模型训练装置800还包括预处理模块、筛选模块、评估模块。
[0190]
预处理模块用于对获取的预设数量的用户评论文本，进行预处理，得到目标数量的用户评论文本。
[0191]
筛选模块用于从目标数量的用户评论文本中进行筛选，得到第一目标数量的用户评论文本。
[0192]
评估模块用于基于用户评论文本的分类结果，对训练得到的预训练的语言表征模型进行评估。
[0193]
根据本公开的实施例，数据处理模块810、特征提取模块820、分类模块830、参数调整模块840中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块
的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，数据处理模块810、特征提取模块820、分类模块830、参数调整模块840中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，数据处理模块810、特征提取模块820、分类模块830、参数调整模块840中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0194]
基于上述基于用户评论的分析方法，本公开还提供了一种基于用户评论的分析装置。以下将结合图9对该装置进行详细描述。
[0195]
图9示意性示出了根据本公开实施例的基于用户评论的分析装置的结构框图。
[0196]
如图9所示，该实施例的基于用户评论的分析装置900包括获取模块910、输入模块920和输出模块930。
[0197]
获取模块910用于获取与目标产品关联的用户评论文本集，其中，用户评论文本集中包括多条用户评论文本。在一实施例中，获取模块910可以用于执行前文描述的操作s601，在此不再赘述。
[0198]
输入模块920用于将用户评论文本集中的用户评论文本输入至预先训练好的模型。在一实施例中，输入模块920可以用于执行前文描述的操作s602，在此不再赘述。
[0199]
输出模块930用于输出每条用户评论文本的分类结果。在一实施例中，输出模块930可以用于执行前文描述的操作s603，在此不再赘述。
[0200]
根据本公开的实施例，获取模块910、输入模块920和输出模块930中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块910、输入模块920和输出模块930中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块910、输入模块920和输出模块930中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0201]
图10示意性示出了根据本公开实施例的适于实现基于用户评论的模型训练方法以及基于用户评论的分析方法的电子设备的方框图。
[0202]
如图10所示，根据本公开实施例的电子设备1000包括处理器1001，其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1009加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0203]
在ram 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器1001、
rom 1002以及ram 1003通过总线1004彼此相连。处理器1001通过执行rom 1002和/或ram 1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom 1002和ram 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0204]
根据本公开的实施例，电子设备1000还可以包括输入/输出(i/o)接口1005，输入/输出(i/o)接口1005也连接至总线1004。电子设备1000还可以包括连接至i/o接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1008；包括硬盘等的存储部分1009；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1009。
[0205]
本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。
[0206]
根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom1002和/或ram 1003和/或rom 1002和ram 1003以外的一个或多个存储器。
[0207]
本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。
[0208]
在该计算机程序被处理器1001执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0209]
在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0210]
在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0211]
根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执
行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c ，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0212]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0213]
本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0214]
以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：信息推荐方法、装置、电子设备及存储介质与流程

模型训练方法、分析方法、装置、设备及介质与流程

相关文献

最热文献