一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于神经网络的广告文案特征信息识别方法及装置与流程

2022-02-20 13:41:32 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,尤其涉及一种基于神经网络的广告文案特征信息识别方法及装置。


背景技术:

2.随着互联网技术的发展,网络广告的形式也越来越复杂和多样化,为了提高广告内容生成的效率,现有技术开始引入神经网络算法,。但现有技术在进行广告内容生成时,没有意识到文案风格和文案中的特征信息的联系,而只是通过人工的方式识别文案的特征信息,从而存在效率低,精确度差的问题。可见,现有技术存在缺陷,亟待解决。


技术实现要素:

3.本发明所要解决的技术问题在于,提供一种基于神经网络的广告文案特征信息识别确定方法及装置,能够利用神经网络算法的优势提高文案的推广特征信息识别的准确率,进而可以建立起推广特征信息和文案风格的联系,为后续的文案自动生成处理提供数据基础。
4.为了解决上述技术问题,本发明第一方面公开了一种基于神经网络的广告文案特征信息识别方法,所述方法包括:
5.获取目标广告文案;
6.将所述目标广告文案输入至训练好的特征信息识别网络模型,确定所述目标广告文案对应的文案风格以及所述目标广告文案中的与所述文案风格相关的推广特征信息;所述特征信息识别网络模型通过包括有被标注出文案风格和推广特征信息的多个训练广告文案的训练数据集进行训练得到。
7.作为一种可选的实施方式,在本发明第一方面中,所述特征信息识别网络模型包括词向量转换层、上下文信息提取层、条件概率计算层和分类层;所述将所述目标广告文案输入至训练好的特征信息识别网络模型,确定所述目标广告文案对应的文案风格以及所述目标广告文案中的与所述文案风格相关的推广特征信息,包括:
8.将所述目标广告文案输入至所述词向量转换层,以得到目标文案词向量;
9.将所述目标文案词向量输入至所述上下文信息提取层,以得到与上下文信息融合后的融合文案词向量;
10.将所述融合文案词向量输入至所述条件概率计算层,以计算得到所述融合文案词向量中每一词向量属于所述推广特征信息的条件概率;
11.根据所述融合文案词向量中所有词向量属于所述推广特征信息的概率,确定出所述目标广告文案中的推广特征信息;
12.将所述融合文案词向量中每一词向量与对应的条件概率相乘得到融合概率文案词向量,将所述融合概率文案词向量输入至所述分类层,以得到对应的文案风格。
13.作为一种可选的实施方式,在本发明第一方面中,所述条件概率计算层包括有多
个条件概率计算模型;所述将所述融合文案词向量输入至所述条件概率计算层,以计算得到所述融合文案词向量中每一词向量属于所述推广特征信息的条件概率,包括:
14.将所述融合文案词向量并行输入至每一所述条件概率计算模型,以得到每一所述条件概率计算模型计算得到的所述融合文案词向量中每一词向量属于所述推广特征信息的条件概率;
15.对于所述融合文案词向量中任一词向量,根据所有所述条件概率计算模型计算得到的该词向量属于所述推广特征信息的条件概率,确定该词向量属于所述推广特征信息的条件概率。
16.作为一种可选的实施方式,在本发明第一方面中,所述将所述融合文案词向量中每一词向量与对应的条件概率相乘得到融合概率文案词向量,包括:
17.将所述融合文案词向量中每一词向量与每一所述条件概率计算模型计算得到的条件概率相乘,得到多个子融合概率文案词向量;
18.将多个子融合概率文案词向量进行拼接得到融合概率文案词向量。
19.作为一种可选的实施方式,在本发明第一方面中,所述特征信息识别网络模型还包括有推广目标标记层和位置权重计算层;所述将所述目标文案词向量输入至所述上下文信息提取层,以得到与上下文信息融合后的融合文案词向量之前,所述方法还包括:
20.将所述目标文案词向量输入至所述推广目标标记层,以对所述目标广告文案中的所有推广目标文本对应的推广目标词向量进行标记;
21.以及,所述将所述融合文案词向量输入至所述分类层,以得到对应的文案风格之前,所述方法还包括:
22.将所述融合文案词向量输入至所述位置权重计算层,以计算所述融合文案词向量中每一词向量对应的向量位置权重,并将所有所述词向量与对应的向量位置权重的乘积的组合确定为所述融合文案词向量;所述向量位置权重与所述词向量与所述推广目标词向量的距离成反比。
23.作为一种可选的实施方式,在本发明第一方面中,所述特征信息识别网络模型还包括有重要性权重计算层;
24.以及,所述将所述融合文案词向量输入至所述分类层,以得到对应的文案风格之前,所述方法还包括:
25.将所述融合文案词向量输入至所述重要性权重计算层,以计算所述融合文案词向量中每一词向量对应的向量重要性权重,并将所有所述词向量与对应的向量重要性权重的乘积的组合确定为所述融合文案词向量;所述向量重要性权重包括所述词向量对应的文本在所述目标广告文案中的词频-逆文件频率,和/或,所述词向量对应的文本的词性重要性权重。
26.作为一种可选的实施方式,在本发明第一方面中,所述特征信息识别网络模型基于以下步骤被训练得到:
27.确定被标注出文案风格和推广特征信息的多个训练广告文案;所述推广特征信息与所述文案风格相关;
28.确定特征信息识别训练模型;所述特征信息识别训练模型包括所述特征信息识别网络模型以及训练收敛层;所述训练收敛层用于在训练中调整所述特征信息识别网络模型
中条件概率计算层和分类层的模型参数,以最小化条件概率计算层和分类层对应的损失函数;
29.将所述多个训练广告文案输入至所述特征信息识别训练模型进行训练直至收敛,得到训练好的所述特征信息识别网络模型。
30.作为一种可选的实施方式,在本发明第一方面中,所述上下文信息提取层包括bilstm模型、bigru模型、pqrnn模型、albert模型、bert模型、distilbert模型,elmo模型,transformer模型中的至少一种;和/或,所述推广特征信息包括宣传对象品类信息、宣传对象成分信息、宣传对象功效信息、宣传对象品牌信息和宣传营销用语信息中的至少一种;和/或,所述条件概率计算层包括crf模型。
31.本发明第二方面公开了一种基于神经网络的广告文案特征信息识别装置,所述装置包括:
32.获取模块,用于获取目标广告文案;
33.识别模块,用于将所述目标广告文案输入至训练好的特征信息识别网络模型,确定所述目标广告文案对应的文案风格以及所述目标广告文案中的与所述文案风格相关的推广特征信息;所述特征信息识别网络模型通过包括有被标注出文案风格和推广特征信息的多个训练广告文案的训练数据集进行训练得到。
34.作为一种可选的实施方式,在本发明第二方面中,所述特征信息识别网络模型包括词向量转换层、上下文信息提取层、条件概率计算层和分类层;所述识别模块包括:
35.词向量转换单元,用于将所述目标广告文案输入至所述词向量转换层,以得到目标文案词向量;
36.上下文融合单元,用于将所述目标文案词向量输入至所述上下文信息提取层,以得到与上下文信息融合后的融合文案词向量;
37.条件概率计算单元,用于将所述融合文案词向量输入至所述条件概率计算层,以计算得到所述融合文案词向量中每一词向量属于所述推广特征信息的条件概率;
38.特征确定单元,用于根据所述融合文案词向量中所有词向量属于所述推广特征信息的概率,确定出所述目标广告文案中的推广特征信息;
39.分类单元,用于将所述融合文案词向量中每一词向量与对应的条件概率相乘得到融合概率文案词向量,将所述融合概率文案词向量输入至所述分类层,以得到对应的文案风格。
40.作为一种可选的实施方式,在本发明第二方面中,所述条件概率计算层包括有多个条件概率计算模型;所述条件概率计算单元将所述融合文案词向量输入至所述条件概率计算层,以计算得到所述融合文案词向量中每一词向量属于所述推广特征信息的条件概率的具体方式,包括:
41.将所述融合文案词向量并行输入至每一所述条件概率计算模型,以得到每一所述条件概率计算模型计算得到的所述融合文案词向量中每一词向量属于所述推广特征信息的条件概率;
42.对于所述融合文案词向量中任一词向量,根据所有所述条件概率计算模型计算得到的该词向量属于所述推广特征信息的条件概率,确定该词向量属于所述推广特征信息的条件概率。
43.作为一种可选的实施方式,在本发明第二方面中,所述分类单元将所述融合文案词向量中每一词向量与对应的条件概率相乘得到融合概率文案词向量的具体方式,包括:
44.将所述融合文案词向量中每一词向量与每一所述条件概率计算模型计算得到的条件概率相乘,得到多个子融合概率文案词向量;
45.将多个子融合概率文案词向量进行拼接得到融合概率文案词向量。
46.作为一种可选的实施方式,在本发明第二方面中,所述特征信息识别网络模型还包括有推广目标标记层和位置权重计算层;所述识别模块还包括:
47.标记单元,用于在所述上下文融合单元将所述目标文案词向量输入至所述上下文信息提取层,以得到与上下文信息融合后的融合文案词向量之前,将所述目标文案词向量输入至所述推广目标标记层,以对所述目标广告文案中的所有推广目标文本对应的推广目标词向量进行标记;
48.以及,所述识别模块还包括:
49.位置权重计算单元,用于在所述分类单元将所述融合文案词向量输入至所述分类层,以得到对应的文案风格之前,将所述融合文案词向量输入至所述位置权重计算层,以计算所述融合文案词向量中每一词向量对应的向量位置权重,并将所有所述词向量与对应的向量位置权重的乘积的组合确定为所述融合文案词向量;所述向量位置权重与所述词向量与所述推广目标词向量的距离成反比。
50.作为一种可选的实施方式,在本发明第二方面中,所述特征信息识别网络模型还包括有重要性权重计算层;
51.以及,所述识别模块还包括:
52.重要性权重计算单元,用于在所述分类单元将所述融合文案词向量输入至所述分类层,以得到对应的文案风格之前,将所述融合文案词向量输入至所述重要性权重计算层,以计算所述融合文案词向量中每一词向量对应的向量重要性权重,并将所有所述词向量与对应的向量重要性权重的乘积的组合确定为所述融合文案词向量;所述向量重要性权重包括所述词向量对应的文本在所述目标广告文案中的词频-逆文件频率,和/或,所述词向量对应的文本的词性重要性权重。
53.作为一种可选的实施方式,在本发明第二方面中,所述装置还包括训练模块,用于执行以下步骤以训练得到所述特征信息识别网络模型:
54.确定被标注出文案风格和推广特征信息的多个训练广告文案;所述推广特征信息与所述文案风格相关;
55.确定特征信息识别训练模型;所述特征信息识别训练模型包括所述特征信息识别网络模型以及训练收敛层;所述训练收敛层用于在训练中调整所述特征信息识别网络模型中条件概率计算层和分类层的模型参数,以最小化条件概率计算层和分类层对应的损失函数;
56.将所述多个训练广告文案输入至所述特征信息识别训练模型进行训练直至收敛,得到训练好的所述特征信息识别网络模型。
57.作为一种可选的实施方式,在本发明第二方面中,所述上下文信息提取层包括bilstm模型、bigru模型、pqrnn模型、albert模型、bert模型、distilbert模型,elmo模型,transformer模型中的至少一种;和/或,所述推广特征信息包括宣传对象品类信息、宣传对
象成分信息、宣传对象功效信息、宣传对象品牌信息和宣传营销用语信息中的至少一种;和/或,所述条件概率计算层包括crf模型。
58.本发明第三方面公开了另一种基于神经网络的广告文案特征信息识别装置,所述装置包括:
59.存储有可执行程序代码的存储器;
60.与所述存储器耦合的处理器;
61.所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的基于神经网络的广告文案特征信息识别方法中的部分或全部步骤。
62.本发明实施例第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明实施例第一方面公开的基于神经网络的广告文案特征信息识别方法中的部分或全部步骤。
63.与现有技术相比,本发明实施例具有以下有益效果:
64.本发明实施例中,获取目标广告文案;将所述目标广告文案输入至训练好的特征信息识别网络模型,确定所述目标广告文案对应的文案风格以及所述目标广告文案中的与所述文案风格相关的推广特征信息;所述特征信息识别网络模型通过包括有被标注出文案风格和推广特征信息的多个训练广告文案的训练数据集进行训练得到。可见,本发明能够利用训练得到的特征信息识别网络识别出广告文案的文案风格和推广特征信息,从而能够利用神经网络算法的优势提高文案的推广特征信息识别的准确率,进而可以建立起推广特征信息和文案风格的联系,为后续的文案自动生成处理提供数据基础。
附图说明
65.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
66.图1是本发明实施例公开的一种基于神经网络的广告文案特征信息识别方法的流程示意图;
67.图2是本发明实施例公开的一种基于神经网络的广告文案特征信息识别装置的结构示意图;
68.图3是本发明实施例公开的另一种基于神经网络的广告文案特征信息识别装置的结构示意图;
69.图4是本发明实施例公开的又一种基于神经网络的广告文案特征信息识别装置的结构示意图。
具体实施方式
70.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
71.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
72.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
73.本发明公开了一种基于神经网络的广告文案特征信息识别方法及装置,能够利用训练得到的特征信息识别网络识别出广告文案的文案风格和推广特征信息,从而能够利用神经网络算法的优势提高文案的推广特征信息识别的准确率,进而可以建立起推广特征信息和文案风格的联系,为后续的文案自动生成处理提供数据基础。以下分别进行详细说明。
74.实施例一
75.请参阅图1,图1是本发明实施例公开的一种基于神经网络的广告文案特征信息识别方法的流程示意图。其中,图1所描述的方法应用于文案文本处理装置中,该处理装置可以是相应的处理终端、处理设备或处理服务器,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图1所示,该基于神经网络的广告文案特征信息识别方法可以包括以下操作:
76.101、获取目标广告文案。
77.可选的,目标广告文案获取的方式,可以为通过对特定网络地址的文本进行爬虫抓取,可以为接收人工筛选后输入的广告文案,还可以为通过语音识别、图像识别的方式获取的广告文本,本发明不做限定。可选的,目标广告文案可以为不同品类的商品或服务的宣传文案,例如商品或服务的介绍页或商家活动中使用的宣传文案,也可以为用于为商品或服务进行引流的宣传文案,例如特定媒体如微信公众号为吸引用户而撰写的文章标题或故事引述文案,本发明不做限定。可选的,目标广告文案的语言种类并不限定为中文,也可以为英文、法文等其他语法明确的语言,本发明不做限定。
78.102、将目标广告文案输入至训练好的特征信息识别网络模型,确定目标广告文案对应的文案风格以及目标广告文案中的与文案风格相关的推广特征信息。
79.其中,特征信息识别网络模型通过包括有被标注出文案风格和推广特征信息的多个训练广告文案的训练数据集进行训练得到。可选的,文案风格用于指示广告文案在进行宣传时所采用的叙述语气风格或遣词造句风格,例如,特价促销风格所对应的广告文案的表述可以为:“大牌口红限时秒杀,隐藏优惠券等你来拿”,而功效表达风格所对应的广告文案的表述可以类似于“倩碧镭射瓶,淡化细纹、美白补水一瓶搞定”。
80.可选的,推广特征信息可以包括宣传对象品类信息、宣传对象成分信息、宣传对象功效信息、宣传对象品牌信息和宣传营销用语信息中的至少一种。例如,例如“手机屏幕膜”属于宣传对象品类信息,而“高性能”、“可折叠设计”、“防指纹”或“防刮蹭”均是属于宣传对象功效信息,“大额优惠券”和“限时秒杀”则属于宣传营销用语信息。
81.可见,实施本发明实施例所描述的方法能够利用训练得到的特征信息识别网络识
别出广告文案的文案风格和推广特征信息,从而能够利用神经网络算法的优势提高文案的推广特征信息识别的准确率,进而可以建立起推广特征信息和文案风格的联系,为后续的文案自动生成处理提供数据基础。
82.作为一种可选的实施方式,特征信息识别网络模型包括词向量转换层、上下文信息提取层、条件概率计算层和分类层,相应的,上述步骤102中的,将目标广告文案输入至训练好的特征信息识别网络模型,确定目标广告文案对应的文案风格以及目标广告文案中的与文案风格相关的推广特征信息,包括:
83.将目标广告文案输入至词向量转换层,以得到目标文案词向量;
84.将目标文案词向量输入至上下文信息提取层,以得到与上下文信息融合后的融合文案词向量;
85.将融合文案词向量输入至条件概率计算层,以计算得到融合文案词向量中每一词向量属于推广特征信息的条件概率;
86.根据融合文案词向量中所有词向量属于推广特征信息的概率,确定出目标广告文案中的推广特征信息;
87.将融合文案词向量中每一词向量与对应的条件概率相乘得到融合概率文案词向量,将融合概率文案词向量输入至分类层,以得到对应的文案风格。
88.可选的,词向量转换层可以采用词向量转换模型对目标广告文案进行转换,例如可以利用预训练的词向量模型进行文本至向量的转换,例如利用腾讯词向量模型或搜狗词向量模型,也可以用基于词向量的固定表征模型如fasttext、word2vec、glove等模型。在一个具体的方案中,词向量转换层使用腾讯词向量的200维对目标广告文案进行初始化,以得到目标文案词向量。
89.可选的,上下文信息提取层可以为特征提取神经网络,例如其可以包括bilstm模型、bigru模型、pqrnn模型、albert模型、bert模型、distilbert模型,elmo模型,transformer模型等特征提取神经网络中的至少一种。优选的,上下文信息提取层用于提取目标文案词向量中任一词向量的上下文信息并将其融入到该词向量中,以得到融合文案词向量。
90.可选的,分类层包括全连接层和softmax层,可以对输入的融合文案词向量进行映射,得到针对于不同文案风格的概率分布,即输出目标广告文案属于不同文案风格标签的概率,并选择最大概率的风格标签作为最后的结果。
91.可选的,可以将融合文案词向量中属于推广特征信息的概率高于预设的概率阈值和/或从高到低排行前预设数量位的所有词向量所对应的文本片段,确定为目标广告文案中的推广特征信息。
92.上述改进的目的在于,不同的广告文案风格所包含的推广特征信息不同,比如特价促销风格会对营销用语信息的关注较多,而功效表达风格会关注功效成分信息,而不同的推广目标如宣传不同商品品类的广告文案所包含的推广特征信息也不同,比如某些虚拟服务类的例如手游充值平台的广告文案,会比较关注营销用语信息,一些医疗用品的文案无论在什么文案风格下面都会比较注重成分信息和功效信息。因此,通过引入条件概率计算层,一方面可以识别出目标广告文案中的推广特征信息,另一方面可以利用融合了推广目标信息和条件概率之后的词向量识别对应的文案风格,从而能够建立起文案风格和推广
特征信息之间的联系,以及推广目标与推广特征信息之间的联系,以训练得到可以同时识别出推广目标、文案风格和推广特征信息的风格识别网络模型。
93.可见,实施该可选的实施方式能够利用词向量转换层、上下文信息提取层、条件概率计算层和分类层对目标广告文案进行风格分类和特征信息识别,从而可以提高风格分类和特征信息识别的准确性和效率,进而为后续的文案生成提供数据基础。
94.作为一种可选的实施方式,条件概率计算层包括有多个条件概率计算模型,上述步骤中的,将融合文案词向量输入至条件概率计算层,以计算得到融合文案词向量中每一词向量属于推广特征信息的条件概率,包括:
95.将融合文案词向量并行输入至每一条件概率计算模型,以得到每一条件概率计算模型计算得到的融合文案词向量中每一词向量属于推广特征信息的条件概率;
96.对于融合文案词向量中任一词向量,根据所有条件概率计算模型计算得到的该词向量属于推广特征信息的条件概率,确定该词向量属于推广特征信息的条件概率。
97.可选的,可以将所有条件概率计算模型计算得到的该词向量属于推广特征信息的条件概率的平均值或相加值,确定为该词向量属于推广特征信息的条件概率。
98.可见,通过实施该可选的实施方式通过多个条件概率计算模型并行计算词向量属于推广特征信息的条件概率,可以使得多个条件概率计算模型对融合文案词向量中的不同推广特征信息进行关注,并结合多个条件概率计算模型得到的条件概率来准确确定出推广特征信息。
99.作为一种可选的实施方式,上述步骤中的,将融合文案词向量中每一词向量与对应的条件概率相乘得到融合概率文案词向量,包括:
100.将融合文案词向量中每一词向量与每一条件概率计算模型计算得到的条件概率相乘,得到多个子融合概率文案词向量;
101.将多个子融合概率文案词向量进行拼接得到融合概率文案词向量。
102.优选的,条件概率计算模型为crf(conditional random fields,条件随机场)模型。
103.可见,通过实施该可选的实施方式通过将多个子融合概率文案词向量进行拼接得到融合概率文案词向量,后续再根据融合概率文案词向量进行风格预测时,可以使得风格分类时结合推广特征信息进行考虑,使得最终的风格分类结果,与推广特征信息建立关联。
104.作为一种可选的实施方式,特征信息识别网络模型还包括有推广目标标记层。相应的,上述步骤中的,将目标文案词向量输入至上下文信息提取层,以得到与上下文信息融合后的融合文案词向量之前,该方法还包括:
105.将目标文案词向量输入至推广目标标记层,以对目标广告文案中的所有推广目标文本对应的推广目标词向量进行标记。
106.可选的,推广目标标记层对推广目标词向量进行标记的方式,可以为对目标文案词向量中的所有词向量生成指示向量,其中,只有推广目标词向量的指示向量为预设的或随机的数值,而其他词向量的指示向量为0或其他空值,并将指示向量与词向量进行向量拼接,以形成新的被标记过的目标文案词向量。可选的,推广目标用于表征目标广告文案中的宣传对象,例如目标广告文案欲宣传的商品、服务或平台等对象。
107.可见,实施该可选的实施方式能够将目标文案词向量输入至推广目标标记层,以
对目标广告文案中的所有推广目标文本对应的推广目标词向量进行标记,从而能够准确定位出目标广告文案中的推广目标。
108.作为一种可选的实施方式,特征信息识别网络模型还包括有位置权重计算层。相应的,上述步骤中的,将融合文案词向量输入至分类层,以得到对应的文案风格之前,该方法还包括:
109.将融合文案词向量输入至位置权重计算层,以计算融合文案词向量中每一词向量对应的向量位置权重,并将所有词向量与对应的向量位置权重的乘积的组合确定为融合文案词向量。其中,向量位置权重与词向量和推广目标词向量之间的距离成反比。
110.可选的,向量位置权重可以根据分段函数进行计算,可选的,分段函数可用于限定当该词向量所对应的词文本在推广目标词向量所对应的推广目标文本之中时,该词向量对应的向量位置权重为预设的固定值,可选的,固定值可以为1,当该词向量所对应的词文本不在推广目标词向量所对应的推广目标文本之中时,该词向量对应的向量位置权重与词文本与推广目标文本的距离成反比,例如成指数反比关系。
111.可见,实施该可选的实施方式能够将融合文案词向量输入至位置权重计算层,以计算融合文案词向量中每一词向量对应的向量位置权重,从而能够确定出不同位置的词向量对推广目标的影响程度,以便于后续在识别广告文案的风格时,可以充分考虑词向量对推广目标的影响程度,以充分建立起推广目标和风格之间的关系。
112.作为一种可选的实施方式,特征信息识别网络模型还包括有重要性权重计算层,相应的,上述步骤中的,将融合文案词向量输入至分类层,以得到对应的文案风格之前,该方法还包括:
113.将融合文案词向量输入至重要性权重计算层,以计算融合文案词向量中每一词向量对应的向量重要性权重,并将所有词向量与对应的向量重要性权重的乘积的组合确定为融合文案词向量。其中,向量重要性权重包括词向量对应的文本的词频-逆文件频率,和/或,词向量对应的文本的词性重要性权重。其中,词频-逆文件频率即tf-idf(term frequency-inverse document frequency)参数。
114.可选的,向量重要性权重可以为词向量对应的文本的词频-逆文件频率和词性重要性权重的乘积。可选的,词向量对应的文本的词性重要性权重的计算步骤包括:
115.计算词向量对应的文本的词性组合;
116.计算词性组合的频率参数;
117.计算词性组合的逆频率参数;
118.根据词性组合的频率参数和逆频率参数,确定词向量对应的文本的词性重要性权重。
119.可选的,频率参数与词性组合在目标广告文案中的出现次数成正比,逆频率参数与所有广告文案中存在词性组合的文案数量成反比。优选的,频率参数可以为该词性组合在目标广告文案中出现的次数与目标广告文案中所有词性组合的数量的比值。优选的,逆频率参数为所有广告文案的总数量与存在有该词性组合的文案的数量的比值。其中,所有广告文案中包括有目标广告文案,该所有广告文案可以为历史训练中的或当前的数据库中的所有广告文案。可选的,可以将词向量对应的文本的词性重要性权重确定为词性组合的频率参数和逆频率参数的乘积。
120.可见,实施该可选的实施方式能够将融合文案词向量输入至重要性权重计算层,以计算融合文案词向量中每一词向量对应的向量重要性权重,从而能够根据词向量的频率信息和词性组合的频率信息来确定出不同词向量的重要性程度,以便于后续在识别广告文案的风格时,可以充分考虑词向量的重要性程度对风格的影响程度,以提高风格识别的准确度。
121.作为一种可选的实施方式,特征信息识别网络模型中,可以包括有推广目标标记层、位置权重计算层和重要性权重计算层中的至少两种,相应的,该方法中也可以相应包括有上面三种可选的实施方式中的至少两种的组合,其步骤顺序并不做限定。
122.作为一种可选的实施方式,特征信息识别网络模型基于以下步骤被训练得到:
123.确定被标注出文案风格和推广特征信息的多个训练广告文案;推广特征信息与文案风格相关;
124.确定特征信息识别训练模型;特征信息识别训练模型包括特征信息识别网络模型以及训练收敛层;
125.将多个训练广告文案输入至特征信息识别训练模型进行训练直至收敛,得到训练好的特征信息识别网络模型。
126.具体的,训练收敛层用于在训练中调整特征信息识别网络模型中条件概率计算层和分类层的模型参数,以最小化条件概率计算层和分类层对应的损失函数。可选的,特征信息识别网络模型中的网络层,可以为上述多个实施方式中任一个实施方式中阐述的网络层内容。可选的,分类层对应的损失函数可以为最小化负对数似然函数,用于对分类层对训练广告文案的风格分类结果和标注的风格的距离进行计算,而训练收敛层用于不断调整风格识别网络模型的不同网络层的模型参数,让最终的输出风格尽量逼近标注的风格。
127.可选的,训练广告文案的文案风格标注和推广特征信息标注,可以对每个训练文案标注有文案风格标签,并为训练广告文案中的每一文本创建推广特征信息标签,用于标注训练文案中每个上下文词是否属于广告文案的品类、品牌、功效、成分、营销用语片段等推广特征信息。这一步的目的是标记出广告文案的推广特征信息。同时,推广特征信息与文案风格相关,因此在标注的时候需要按照不同文案风格的侧重点,例如属于功效描述的文案风格的训练广告文案,需要把其中所有的功效词标注为推广特征信息,其他词标注为无关信息。如果是属于偏促销类的文案风格的训练广告文案,需要把其中所有的营销用语标注为推广特征信息,其他词标注为无关信息。这样的目的就是人工先定义好不同文案风格对应的侧重的推广特征信息,便于后面让模型进行学习。
128.可选的,在特征信息识别训练模型包括有由多个crf模型组成的条件概率计算层时,训练收敛层还用于最小化每一crf模型对应的损失函数,以使得特征信息识别训练模型收敛。可选的,条件概率计算层还包括一个编码层,其用于对输入的融合文案词向量进行映射,以得到融合文案词向量中的每一词向量属于推广特征信息的第一概率和不属于推广特征信息的第二概率,并将包括有第一概率和第二概率的融合文案词向量输入至多个crf模型中。可选的,每一crf模型会根据第一概率和第二概率,计算出融合文案词向量中每一词向量对应的发射分数,以及根据利用训练好的转移矩阵参数计算出融合文案词向量中任意两个相邻的词向量的转移分数,并根据所有发射分数和转移分数计算出正确路径中融合文案词向量中的每一词向量属于推广特征信息的条件概率。
129.可选的,在对特征信息识别训练模型进行训练时,每一crf模型会随机生成转移矩阵参数并在训练中不断优化,crf模型对应的损失函数为极大似然损失函数,其用于计算每一crf模型计算出的正确路径分数总和与所有路径分数总和之间的距离,其中,正确路径分数总和为该crf模型在计算出正确路径时的融合文案词向量对应的所有发射分数和转移分数的和,该正确路径为符合训练文案中的推广特征信息标注标签的路径表示。
130.可选的,每一crf模型可以计算推广特征信息标签的边缘分布,并将推广特征信息标签的边缘分布与融合文案词向量相乘,以得到上述得到子融合概率文案词向量,后续将所有crf模型输出的子融合概率文案词向量进行拼接得到融合概率文案词向量。
131.可见,本发明的特征信息识别网络模型中使用多个crf模型并行连接,可以实现按照获取特征子集的方法不同,分别对各自对应的特征子集建模,形成多个针对特征子集的crf模型,以后再将所有的crf模型的结果进行组合,等价于特征选择,以捕获广告关注目标对应的重要推广特征信息点。这一设置的目的在于,借用类似注意力机制的方法,来衡量在不同推广特征信息对于该推广物文案风格的重要性,在实验中证明,不同的crf模型关注的推广特征信息不一样,从而综合多个crf模型的输出可以得出文案的重要推广特征信息点在该推广目标下对广告文案风格的不同重要性。这部分也有提取推广特征信息的功能,训练好模型后也同时通过crf模型输出每个广告文本的重要推广特征信息。
132.可见,本发明所述的广告文案特征信息识别方法,可以实现提取出在各个推广目标下,不同文案风格的广告文案中的推广特征信息点,并识别出文案的文案风格,由此建立起推广特征信息点——广告文案风格和推广特征信息点——广告推广物这两个维度的关系。同时,本方法的广告文案特征信息识别,关注点不仅仅在于广告文本所要推荐对象,还对广告文案的编写方式和结构进行分类,可以用于偏向于深层次的广告编写风格挖掘,可以考虑到词和词之间的顺序关系以及不同词的组合排列方式,达到更好的挖掘效果。可选的,本方法还可以用于在输入用户的推广目标和文案风格后,自动输出推广特征信息的列表,这可以通过数据统计的方式实现,且有利于后续为文案自动生成提供数据基础。
133.实施例二
134.请参阅图2,图2是本发明实施例公开的一种基于神经网络的广告文案特征信息识别装置的结构示意图。其中,图2所描述的装置可以应用于相应的文案文本处理装置中,该处理装置可以是相应的处理终端、处理设备或处理服务器,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图2所示,该装置可以包括:
135.获取模块201,用于获取目标广告文案;
136.识别模块202,用于将目标广告文案输入至训练好的特征信息识别网络模型,确定目标广告文案对应的文案风格以及目标广告文案中的与文案风格相关的推广特征信息;特征信息识别网络模型通过包括有被标注出文案风格和推广特征信息的多个训练广告文案的训练数据集进行训练得到。
137.作为一种可选的实施方式,特征信息识别网络模型包括词向量转换层、上下文信息提取层、条件概率计算层和分类层;如图4所示,识别模块202包括:
138.词向量转换单元2021,用于将目标广告文案输入至词向量转换层,以得到目标文案词向量;
139.上下文融合单元2022,用于将目标文案词向量输入至上下文信息提取层,以得到
与上下文信息融合后的融合文案词向量;
140.条件概率计算单元2023,用于将融合文案词向量输入至条件概率计算层,以计算得到融合文案词向量中每一词向量属于推广特征信息的条件概率;
141.特征确定单元2024,用于根据融合文案词向量中所有词向量属于推广特征信息的概率,确定出目标广告文案中的推广特征信息;
142.分类单元2025,用于将融合文案词向量中每一词向量与对应的条件概率相乘得到融合概率文案词向量,将融合概率文案词向量输入至分类层,以得到对应的文案风格。
143.作为一种可选的实施方式,条件概率计算层包括有多个条件概率计算模型;条件概率计算单元2023将融合文案词向量输入至条件概率计算层,以计算得到融合文案词向量中每一词向量属于推广特征信息的条件概率的具体方式,包括:
144.将融合文案词向量并行输入至每一条件概率计算模型,以得到每一条件概率计算模型计算得到的融合文案词向量中每一词向量属于推广特征信息的条件概率;
145.对于融合文案词向量中任一词向量,根据所有条件概率计算模型计算得到的该词向量属于推广特征信息的条件概率,确定该词向量属于推广特征信息的条件概率。
146.作为一种可选的实施方式,分类单元2025将融合文案词向量中每一词向量与对应的条件概率相乘得到融合概率文案词向量的具体方式,包括:
147.将融合文案词向量中每一词向量与每一条件概率计算模型计算得到的条件概率相乘,得到多个子融合概率文案词向量;
148.将多个子融合概率文案词向量进行拼接得到融合概率文案词向量。
149.作为一种可选的实施方式,特征信息识别网络模型还包括有推广目标标记层和位置权重计算层;如图4所示,识别模块202还包括:
150.标记单元2026,用于在上下文融合单元2022将目标文案词向量输入至上下文信息提取层,以得到与上下文信息融合后的融合文案词向量之前,将目标文案词向量输入至推广目标标记层,以对目标广告文案中的所有推广目标文本对应的推广目标词向量进行标记;
151.以及,如图4所示,识别模块202还包括:
152.位置权重计算单元2027,用于在分类单元2025将融合文案词向量输入至分类层,以得到对应的文案风格之前,将融合文案词向量输入至位置权重计算层,以计算融合文案词向量中每一词向量对应的向量位置权重,并将所有词向量与对应的向量位置权重的乘积的组合确定为融合文案词向量;向量位置权重与词向量与推广目标词向量的距离成反比。
153.作为一种可选的实施方式,特征信息识别网络模型还包括有重要性权重计算层;如图4所示,识别模块202还包括:
154.重要性权重计算单元2028,用于在分类单元2025将融合文案词向量输入至分类层,以得到对应的文案风格之前,将融合文案词向量输入至重要性权重计算层,以计算融合文案词向量中每一词向量对应的向量重要性权重,并将所有词向量与对应的向量重要性权重的乘积的组合确定为融合文案词向量;向量重要性权重包括词向量对应的文本在目标广告文案中的词频-逆文件频率,和/或,词向量对应的文本的词性重要性权重。
155.作为一种可选的实施方式,如图4所示,该装置还包括训练模块203,用于执行以下步骤以训练得到特征信息识别网络模型:
156.确定被标注出文案风格和推广特征信息的多个训练广告文案;推广特征信息与文案风格相关;
157.确定特征信息识别训练模型;特征信息识别训练模型包括特征信息识别网络模型以及训练收敛层;训练收敛层用于在训练中调整特征信息识别网络模型中条件概率计算层和分类层的模型参数,以最小化条件概率计算层和分类层对应的损失函数;
158.将多个训练广告文案输入至特征信息识别训练模型进行训练直至收敛,得到训练好的特征信息识别网络模型。
159.本实施例中所述的文案特征信息识别装置,是用于执行如实施例一中所述的文案特征信息识别方法的部分或全部步骤的装置,其具体的技术细节和可选的实施方式可以参照实施例一种的表述,本实施例不再赘述。
160.实施例三
161.请参阅图4,图4是本发明实施例公开的又一种基于神经网络的广告文案特征信息识别装置的结构示意图。如图4所示,该装置可以包括:
162.存储有可执行程序代码的存储器401;
163.与存储器401耦合的处理器402;
164.处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或实施例二公开的基于神经网络的广告文案特征信息识别方法中的部分或全部步骤。
165.实施例四
166.本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或实施例二公开的基于神经网络的广告文案特征信息识别方法中的部分或全部步骤。
167.以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
168.通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read-only memory,rom)、随机存储器(random access memory,ram)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
169.最后应说明的是:本发明实施例公开的一种基于神经网络的广告文案特征信息识别方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非
对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献