一种基于Bi-GRU的字符级虚假评论自动生成工具的制作方法

2021-12-14 21:56:00 来源：中国专利 TAG：

一种基于bi
‑
gru的字符级虚假评论自动生成工具
技术领域
1.本发明涉及数据安全、文本生成技术领域，尤其涉及一种基于bi
‑
gru的字符级虚假评论自动生成工具。

背景技术：

2.随着互联网的蓬勃发展，人们不断利用互联网传递信息和获取信息，各大电商、社交媒体、品牌等通过商业营销等方式，来获取更多的流量和关注，希望获取更多收益。人们也通过积极发表自己的评价，来参与其中，如电商网站中对某个商品、某个品牌的评价。这些评价中蕴含巨大的商业价值。当某个品牌收到较正向的评价时，消费者则会更倾向于选择品牌的商品，反之，若某品牌的评价很低，消费者在购买商品时就会有意识的避开这些品牌。在利益的驱使下，针对在线评论系统生成虚假评论的任务顺势而生，围绕此任务的攻击与防御策略成为了数据安全领域关注的热点问题。
3.对于在线评价系统，最常见的一种虚假评论生成方式是通过众包服务，即一个攻击者通过众包服务招募一组工作人员，根据特定的主题和特定的上下文撰写虚假评论，然后发布在给目标系统上。然而通过众包服务来人工生成虚假评论的方法经济成本非常高，且不易操控。人为的大规模众包虚假评论攻击通常在时间上也具有一致性，容易暴露在防御机制面前。而随着深度学习的不断发展，利用神经网络来批量生成虚假评论，是一种成本更低、效率更高的方法，因此采用深度学习来生成虚假评论是更优的选择。
4.针对深度学习领域的文本生成，主要分为词汇级语言模型和字符级语言模型两种。词汇级的文本生成能较好的保留上下文之间的语义信息，且在生成长文本上效果显著。但这种方式需要一个强大的词汇字典支撑，构建词汇字典库的成本非常高。字符级语言模型训练时间较长，在语义学习方面效果要差于词汇级语言模型，但是其生成的文本更加灵活，更适用于短文本生成任务。虚假评论生成任务属于短文本生成任务，一般在线评论系统都会限制单条评论的字符长度，因此字符级的语言模型在虚假评论生成任务上更具有优势。其次，真实用户点评时常常出现错字错拼的现象，字符级的语言模型在生成虚假评论时会学习这一现象，生成的评论会更具真实感，而词汇级别生成的词汇都是从词汇字典得来的，会更加循规蹈矩，真实感较差。
5.现有的采用深度学习模型来用作虚假评价任务大多采用的是lstm模型，lstm模型在文本生成方向的效果非常好，但是其模型结构复杂，计算成本是比较高的，而gru作为lstm的一个变体，其只有两个门控单元，结构更简单，而效果与lstm相差甚微，甚至在某些方面效果要优于lstm，而本次任务虚假评论生成，本身是具有容错率的，允许一定程度内的错字错拼现象，这反而会增加虚假评论的真实感。
6.现有技术基本是在具有特定标签的评论数据集的基础上进行的，如采用本身属于五星好评的评论集来训练模型，从而批量生成特定领域的好评。这需要先对数据集来人为标签，但在一些场景下，评论是没有先区分其情感倾向的，如在线社交网站，用户发表评价时，没有选择打几星的选项，这就需要后期来对该评价进行情感倾向分析。
7.现有的虚假评论生成工具通用化的技术是采用特定名词替换策略。在当前特定语境场景下生成的虚假评论，是仅针对特定主题的，如根据餐厅评论数据生成的模型，其生成的虚假评论也是围绕餐厅主题的，名词替换策略即将虚假评论中的特定名词被替换为更符合当前所需上下文的名词，从而使工具通用化。但这种方式会降低虚假评论的流畅性，更容易被检测系统发现，并不能真正做到通用化，还需要额外构造特定名词库，成本很高。
8.因此，有必要提供一种基于bi
‑
gru的字符级虚假评论自动生成工具解决上述技术问题。

技术实现要素：

9.本发明提供一种基于bi
‑
gru的字符级虚假评论自动生成工具，解决了预先构建大型词汇库成本高的问题。
10.为解决上述技术问题，本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具包括以下步骤：
11.s1获取部分：从目标攻击平台收集真实评论集，并获取与该系统具有相同主题的带情感倾向标签的训练集，对其进行数据预处理；
12.s2过滤部分：搭建情感过滤模型，使用带标签训练集训练该情感过滤模型，训练完后，输入真实评论集进行情感过滤，筛选出可用评论集；
13.s3生成部分：搭建虚假评论生成模型，使用目标系统评论集训练虚假评论生成模型，训练完成后进行随机采样输入字符作为种子，批量生成虚假评论；
14.s4判断部分：将生成的虚假评论集输入到情感过滤模型，进行二次情感过滤，得到高质量虚假评论。
15.优选的，所述步骤s1中从目标攻击平台收集到的真实评论集，不需要人为打标签，通过步骤s2中的情感过滤模型来统一对其进行情感倾向分类。
16.优选的，所述真实评论集从目标攻击平台上爬虫获取，在社交网络一类平台上，用户在发表评论时不需要对其打分，也就意味着初始评论集是没有情感倾向标签的，因此需要额外获取到与目标攻击平台相同主题的带标签数据集，来训练情感过滤模型。
17.优选的，所述用户在发表评论的数据获取后首先对其做预处理，进行数据清洗去重，仅保留评论本身，对于带标签数据集，统一将其规范成为正面情感和反面情感两类，正向情感数据集标注0，反向情感数据集标注1。
18.优选的，所述评论本身的每条评论做one
‑
hot编码，将带标签数据集输入到情感过滤模型进行训练，当损失达到收敛状态，停止训练，保存模型参数，将真实评论集逐条输入到情感过滤模型中，得到0或1的输出，即为该条评论的情感倾向，0为正面评价，1为负面评价，保留符合需求的评论，整合成新的评论集。
19.优选的，所述步骤s2中的搭建情感过滤模型包含字符级语言模型以及bi
‑
gru神经网络模型，采用ascii码中的32到126的95个可打印字符作为映射字典，情感过滤模型的网络结构为输入层
‑
dropout
‑
双向gru
‑
dropout
‑
flatten层
‑
输出层，输入为单条评论，输出为0或1，0表示正向情感，1表示反向情感。
20.优选的，所述步骤s3中搭建虚假评论生成模型，批量生成虚假评论并进行训练，对目标平台评论集进行随机采样作为种子。
21.优选的，所述批量生成虚假评论时将新的评论集做one
‑
hot编码，单条评论控制在400个字符内，不足400的用0补全，编码后对数据进行切块，60个字符为一组，该60个字符后相邻的一个字符记录为该60个字符的标签。这60个字符为输入，标签作为输出，共同构成一条训练数据。
22.优选的，所述训练数据需要将数据块逐个输入到情感过滤模型进行训练，当损失达到收敛状态，停止训练，保存模型参数，从真实评论集中随机选取60个相邻字符作为初始种子，输入模型，预测其下一个字符，再将当前预测得到的字符加入到种子序列中，按照先进先出原则，将初始值移出序列，保证种子序列为60个字符不变，重复此步骤，即可得到批量虚假评论。
23.优选的，所述步骤s4中需要对生成的虚假评论集进行情感过滤，具体为：将生成的虚假评论集逐条输入到情感过滤模型中，对其进行情感标注0或1,将符合需求的评论整合成最终使用的数据集。
24.与相关技术相比较，本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具具有如下有益效果：
25.本发明提供一种基于bi
‑
gru的字符级虚假评论自动生成工具，不需要对在线系统的评论集做人为标注，可自动对其做情感过滤后再进行虚假评论生成任务，采用字符级语言模型来用作在线点评系统虚假评论生成，不需要预先构建大型词汇库，成本更低，且字符级语言模型可以充分满足短文本生成的需求，生成的评论更加流畅，虚假评论任务本身具有容错率，允许一定程度内的错字错拼现象，因为在真实场景中，用户在发表评价中，常常会出现这一情况，而字符级语言模型可以充分学习这一点，生成更具真实性的评论。
附图说明
26.图1为本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具的方法流程图；
27.图2为本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具的系统框图；
28.图3为本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具的gru模块安装使用时的结构示意图；
29.图4为图3所示的整体的剖视图；
30.图5为图4所示的内散热管部分的结构示意图；
31.图6为图5所示a部的放大示意图。
32.图中标号：
33.1、安装架，11、安装槽；
34.2、控制板本体；
35.3、安装罩，31、锁定螺栓；
36.4、内散热管，41、伸缩凹槽；
37.5、支撑弹簧；
38.6、外连接管。
具体实施方式
39.下面结合附图和实施方式对本发明作进一步说明。
40.请结合参阅图1、图2、图3、图4、图5和图6，其中，图1为本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具的方法流程图；图2为本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具的系统框图；图3为本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具的gru模块安装使用时的结构示意图；图4为图3所示的整体的剖视图；图5为图4所示的内散热管部分的结构示意图；图6为图5所示a部的放大示意图。
41.一种基于bi
‑
gru的字符级虚假评论自动生成工具包括以下步骤：
42.s1获取部分：从目标攻击平台收集真实评论集，并获取与该系统具有相同主题的带情感倾向标签的训练集，对其进行数据预处理；
43.评论集收集以及数据预处理：
44.本实验涉及到两部分数据集，第一部分是目标系统的真实数据集，这部分采取爬虫技术批量收集数据，用做后续训练虚假评论生成模型的训练集；第二部分数据集是和本次攻击系统主题相同或相近的带情感倾向标签数据集，这部分比较容易获取到，很多网站都会公开部分带标签数据集支持研究，通过这部分的带标签数据集来训练情感倾向分类模型，以用作对目标系统原始评论集的过滤，即第一部分数据集的一个情感过滤，只保留所需情感倾向的评论集用作训练虚假评论生成模型；
45.数据获取到之后首先对其做预处理，进行数据清洗去重，仅保留评论本身，其次对于带标签数据集，我们统一将其规范成为正面情感和反面情感两类，评分为三颗星及以上的为正向情感，反之为反向情感，对正向情感评论标注1，反向情感评论标注2。
46.s2过滤部分：搭建情感过滤模型，使用带标签训练集训练该情感过滤模型，训练完后，输入真实评论集进行情感过滤，筛选出可用评论集；
47.使用情感过滤模型对评论集进行过滤：
48.采用ascii码中的32到126的95个可打印字符作为映射字典，将输入的评论逐条进行one
‑
hot编码，情感过滤模型的目的是根据当前输入的评论，对其进行情感分类，对其进行情感倾向标注，其网络结构为输入层
‑
dropout
‑
双向gru
‑
dropout
‑
flatten层
‑
输出层，输入为单条评论，输出为0或1，0表示正向情感，1表示反向情感；
49.gru是lstm的一种变体，有两个门控单元，结构简单，计算效率更高，bi
‑
gru(双向gru)用到了两个gru网络，前向gru网络计算前向的隐特征，即从左向右移动，从初始时间步长开始计算直到最后的时间步长；后向gru网络计算后向的隐特征，即从右向左移动，从最后一个时间步长开始计算直到初始时间步长，最后将两个gru网络的输出结果拼接成为最终的输出层，得到双向gru网络，即bi
‑
gru；
50.将步骤s1中处理好的带标注评论集作为训练集，首先对每条评论做one
‑
hot编码，随后逐条评论输入模型中，标准输出为其情感倾向标签0或1，训练该模型，直到模型的损失达到收敛状态，训练完成之后，将真实评论集逐条输入到情感过滤模型中，得到0或1的输出，即为该条评论的情感倾向，0为正面评价，1为负面评价，对其进行统一标记，将符合本次需要情感倾向的评论组合成新的评论集，这一步是为了过滤掉不需要的情感倾向的数据，用于后续生成指定情感倾向的虚假评论的训练集。
51.s3生成部分：搭建虚假评论生成模型，使用目标系统评论集训练虚假评论生成模型，训练完成后进行随机采样输入字符作为种子，批量生成虚假评论；
52.虚假评论生成的目的是根据当前的60个字符，预测其下一个字符。这里同样使用
双向gru神经网络，与情感过滤阶段不同，评论生成模型的输出为95个选项，对应字典中的95个字符；
53.练虚假评论模型并批量生成虚假评论：
54.将步骤s2得到的符合情感倾向的评论集进行one
‑
hot编码，单条评论控制在400个字符内，不足400的用0补全，编码后进行切块，60个字符为一组，该60个字符后相邻的一个字符记录为该60个字符的标签，这60个字符为输入，标签作为输出，共同构成一条训练数据，虚假评论生成的目的是根据当前的60个字符，预测其下一个字符，这里同样使用双向gru神经网络，与情感过滤阶段不同，评论生成模型的输出为95个选项，对应字典中的95个字符；
55.训练完成后从真实评论集中随机选取60个相邻字符作为初始种子，输入模型，预测其下一个字符，再将当前预测得到的字符加入到种子序列中，按照先进先出原则，将初始值移出序列，保证种子序列为60个字符不变；
56.重复此步骤，即可得到批量虚假评论。
57.s4判断部分：将生成的虚假评论集输入到情感过滤模型，进行二次情感过滤，得到高质量虚假评论。
58.二次情感过滤：
59.将步骤s3生成的虚假评论数据集输入到情感过滤模型中去，对虚假评论进行二次情感过滤，对生成的虚假评论集进行情感标注，舍弃掉不符合本次任务所需情感倾向的评论，从而得到质量更高，更符合需求的虚假评论集，使其攻击成功率更高。
60.采用了效率更高的卷积神经模型双向gru，不仅可以充分学习评论中上下文之间存在的信息，同时比lstm的模型结构更加简单，计算效率也更高。同时对生成的虚假评论进行二次情感过滤，从而得到更符合情感倾向的高质量虚假评论。
61.所述基于bi
‑
gru的字符级虚假评论自动生成工具在使用时，gru模块安装使用时需要使用时直接暴露在外部，易受到灰尘和潮气的干扰，而直接密封安装则会导致散热不充分，因此设计一种安装结构，包括安装架1和控制板本体2，所述安装架1上开设有安装槽11，所述安装槽11的内表面卡接有安装罩3，所述安装罩3与所述安装架1之间设置有锁定螺栓31，所述安装罩3上设置有内散热管4，所述内散热管4的内表面开设有伸缩凹槽41，所述伸缩凹槽41的内部安装有支撑弹簧5，所述支撑弹簧5的一端固定连接有外连接管6。
62.所述内散热管4的一端与所述安装罩3的外部相互连通，并且内散热管4的内部与所述外连接管6的内部相互连通；
63.所述外连接管6的外表面与所述伸缩凹槽41的内表面滑动连接，所述内散热管4和所述外连接管6均为导热铜管，用于加快安装罩3内部和外部的导热，从而方便对安装罩3内部的散热，同时能够避免外界灰尘和潮气对控制板本体2造成损坏。
64.控制板本体2基于bi
‑
gru。
65.安装罩3的一端方便与安装槽11的内表面卡合，以便于安装罩3的安装和拆卸，安装罩3卡入安装槽11的内部时，通过锁定螺栓31方便将安装罩3稳定的锁定在安装架1的表面上，保持安装罩3安装后的稳定性。
66.安装罩3安装后罩设在控制板本体2的外侧，用于对控制板本体2的防护。
67.内散热管4位于安装罩3的内部，用于对控制板本体2作业时热量的传递，内散热管
4的表面与外连接管6之间连接，方便热量通过外连接管6传递至安装罩3的外侧，从而方便安装罩3内侧的热量向外侧传递。
68.具有保障对控制板本体2防护，同时在防护的同时能够将内部的热量向外部传递，以便于设备运行的过程中进行散热。
69.与相关技术相比较，本发明提供的基于bi
‑
gru的字符级虚假评论自动生成工具具有如下有益效果：
70.不需要对在线系统的评论集做人为标注，可自动对其做情感过滤后再进行虚假评论生成任务，采用字符级语言模型来用作在线点评系统虚假评论生成，不需要预先构建大型词汇库，成本更低，且字符级语言模型可以充分满足短文本生成的需求，生成的评论更加流畅，虚假评论任务本身具有容错率，允许一定程度内的错字错拼现象，因为在真实场景中，用户在发表评价中，常常会出现这一情况，而字符级语言模型可以充分学习这一点，生成更具真实性的评论。
71.以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于Bi-GRU的字符级虚假评论自动生成工具的制作方法

相关文献

最热文献