一种信息识别方法、装置及设备与流程

2022-02-20 00:54:05 来源：中国专利 TAG：

1.本发明涉及信息处理技术领域，具体涉及一种信息识别方法、装置及设备。

背景技术：

2.随着互联网的发展，网上论坛、贴吧也愈加火爆，不管在什么论坛或者贴吧中都存在一些故意扰乱讨论秩序的“黑子”，严重影响了其他正常用户的使用，降低贴吧、论坛的质量；而且到目前为止“黑子”已经由“有理有据”的“高级黑”进化为善于伪装的“反串黑”；所谓“反串黑”即指对想要黑(污蔑、侮辱)的现象极力吹捧，甚至出现很多极端言论达到反向引导舆论的效果。
3.目前针对论坛、贴吧发言内容的审核主要有两种方式：(1)第一种是管理员人工审核，管理员通过定期浏览或者其他用户的举报发现“反串黑”的言论，将用户定为“反串黑”用户并进行言论删除与账号禁言；(2)第二种则是通过ai(人工智能)模型进行智能审核，通过训练的ai模型对用户发布的言论进行判定，判断用户的言论是否违反相关的规定，如果违反则进行言论删除。
4.已有的方法都不能很好的应对“反串黑”这种新的扰乱论坛、贴吧的形式，主要有以下几个问题：
5.首先，人工审查的方式成本太高，而且效率太差，当“反串黑”的人数很多、发言也多的时候，管理员根本来不及删除相关言论并且禁言，这会导致论坛、贴吧的言论环境极速恶化，严重影响正常用户的使用体验；
6.其次，使用ai模型进行用户言论的审核，虽然可以审核出很多不合规的言论，但是很难判断出“反串黑”的言论，因为“反串黑”的言论往往都伪装成“正能量”的东西，ai模型很难识破这层伪装，从而使“反串黑”言论通过审查发表出来。
7.最后，由于“反串黑”言论的伪装性，不论是人工还是ai模型都不能很准确地判断一个人的发言是否是“反串黑”的言论，误判率极高；如果误判率太高封禁了正常的用户，也会严重影响正常用户的使用。

技术实现要素：

8.鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的信息识别方法、装置及设备。
9.根据本发明实施例的一个方面，提供了一种信息识别方法，包括：
10.获取用户发表的言论信息；
11.对所述言论信息进行识别，得到所述言论信息是否为预设类型的信息的第一识别结果；
12.若所述第一识别结果表示所述言论信息不是所述预设类型的信息，根据所述言论信息确认用户可信度，根据用户可信度确认所述言论信息是否为预设类型的信息的第二识别结果。
13.根据本发明实施例的另一方面，提供了一种信息识别装置，包括：
14.获取模块，用于获取用户发表的言论信息；处理模块，用于对所述言论信息进行识别，得到所述言论信息是否为预设类型的信息的第一识别结果；若所述第一识别结果表示所述言论信息不是所述预设类型的信息，根据所述言论信息确认用户可信度，根据用户可信度确认所述言论信息是否为预设类型的信息的第二识别结果。
15.根据本发明实施例的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；
16.所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述信息识别方法对应的操作。
17.根据本发明实施例的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述信息识别方法对应的操作。
18.根据本发明上述实施例提供的方案，通过获取用户发表的言论信息；对所述言论信息进行识别，得到所述言论信息是否为预设类型的信息的第一识别结果；若所述第一识别结果表示所述言论信息不是所述预设类型的信息，根据所述言论信息确认用户可信度，根据用户可信度确认所述言论信息是否为预设类型的信息的第二识别结果，解决现有技术中判别准确率不足、误判率大的问题，实现了自动、准确、高效地识别“反串黑”用户，取得了使贴吧、论坛变为一个“干净”的讨论环境的有益效果。
19.上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。
附图说明
20.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
21.图1示出了本发明实施例提供的信息识别方法流程图；
22.图2示出了本发明实施例提供的具体的言论识别流程图；
23.图3示出了本发明实施例提供的言论判别流程图；
24.图4示出了本发明实施例提供的语言态度判别模型示意图；
25.图5示出了本发明实施例提供的言论内容判别模型示意图；
26.图6示出了本发明实施例提供的另一种信息识别方法流程图；
27.图7示出了本发明实施例提供的言论处理算法模型流程图；
28.图8示出了本发明实施例提供的具体的“反串黑”用户识别方法流程图；
29.图9示出了用于图8所示的具体的“反串黑”用户识别方法所在的系统的主要模块示意图；
30.图10示出了本发明实施例提供的信息识别装置的结构示意图；
31.图11示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
32.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。
33.图1示出了本发明实施例提供的信息识别方法的流程图。如图1所示，该方法包括以下步骤：
34.步骤11，获取用户发表的言论信息；
35.步骤12，对所述言论信息进行识别，得到所述言论信息是否为预设类型的信息的第一识别结果；
36.步骤13，若所述第一识别结果表示所述言论信息不是所述预设类型的信息，根据所述言论信息确认用户可信度，根据用户可信度确认所述言论信息是否为预设类型的信息的第二识别结果。
37.该实施例所述的信息识别方法，通过获取用户发表的言论信息；对所述言论信息进行识别，得到所述言论信息是否为预设类型的信息的第一识别结果；若所述第一识别结果表示所述言论信息不是所述预设类型的信息，根据所述言论信息确认用户可信度，根据用户可信度确认所述言论信息是否为预设类型的信息的第二识别结果，可以实现自动、准确、高效地识别“反串黑
”ꢀ
用户的言论信息，使贴吧、论坛变为一个“干净”的讨论环境。
38.本发明的一可选的实施例中，步骤12中，对所述言论信息进行识别，得到所述言论信息是否为预设类型的信息的第一识别结果，包括：
39.将所述言论信息与预设言论模板匹配，若匹配成功，确定所述言论信息为预设类型的信息；若匹配不成功，将所述言论信息输入训练好的预设言论判别模型进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果。
40.其中，将所述言论信息与预设言论模板匹配，若匹配成功，确定所述言论信息为预设类型的信息，可以包括：
41.步骤121，利用预设语义转换模型将所述言论信息转换为语义向量；
42.步骤122，根据所述语义向量从预先存储的语义向量库的语义索引中查询，若得到与所述言论信息的相似度存在至少一个大于预设相似性阈值言论模板，则匹配成功，确定所述言论信息为预设类型的信息；
43.该实施例中，进一步地，在确定所述言论信息为预设类型的信息后，还可以包括：
44.将该预设类型的信息删除或者对发表该预设类型的信息的用户进行禁言操作；这里的预设类型的信息如可以是“反串黑”类型的言论信息；
45.该实施例中，首先初始化语义转换模型、语义转换模型所对应语义索引的内存中的存储空间以及一个相似度阈值。
46.其次定期的整理相关数据，将预设言论作为言论模版提交，所述预设言论可以包括“反串黑”言论，但不仅限于“反串黑”言论。
47.然后通过微调的语义转换模型对提交的言论模版进行语义匹配，将语义相似的表达，即使没有配置也可以匹配上，例如：“某某当世第一人”和“某某世界最佳”，得到语义向量的编码，并将所述言论信息存入后台数据库。这样可以提升言论模版的匹配精度与泛
化能力，也可以减少配置操作，从而节约人工配置成本。
48.上述步骤中，只需要对言论模版进行匹配，所以不在内存中存储实际的言论模版而只存储语义索引，这样可以有效的节省内存空间。
49.然后对历史语义向量构建一个语义索引，构建了一个树形的语义索引，并存入内存中，构建语义索引可使用annoy模型，但不仅限于此，存入内存可以供用户查询。
50.然后当用户发表言论时，言论信息等数据会提交到微调的语义转换模型中，微调的语义转换模型会将用户将要发表的言论转为语义向量。
51.最后在通过语义向量查询语义索引，得到语义上最近的与所述言论信息的相似度大于预设相似性阈值的n个言论模板。
52.如果所述言论信息与至少一个言论模板的相似性大于阈值，则确定所述用户发表的言论信息与言论模板匹配成功。
53.如图2所示，该实施例中，以一种具体的言论模版配置与识别模块说明，该模块主要是管理员在系统中配置“反串黑”的言论模版，例如“某某当世球王”、“某某横扫一切”等言论片段；在系统中通过使用训练数据微调的 bert模型对言论模版进行语义向量的编码，在建立起语义向量的语义索引用以加速言论模版的匹配；当用户提交言论时也使用微调后的bert模型对用户言论进行语义向量的编码，在用这个语义向量查询语义索引，查看是否有匹配的。
54.本发明的又一可选的实施例中，步骤12中，将所述言论信息输入训练好的预设言论判别模型进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果，可以包括：
55.步骤123，将所述言论信息输入训练好的预设言论判别模型的言论态度判别模型进行处理，得到第一处理结果；所述第一处理结果包括三元组《用户发表的言论信息，发言回复数据，态度》；
56.具体的，预设言论判别模型的言论态度判别模型用于根据用户发表的言论和对该用户言论的回复来进行判别，识别出用户的言论信息的第一态度，因为如果用户发表的言论是“高级黑”，看似褒扬实则贬低，但是通过对该言论的回复可以识别。例如，有些人发“某某天神下凡”这种褒扬性的言论，而大多数回复则是像“哈哈，某某又输了”、“某某状态不佳”等批评性的言论，则可以推导出用户发的言论其实也是负面的。若所述第一态度为正面态度，则所述第一处理结果不是预设类型的信息，若所述第一态度为负面态度，则所述第一处理结果是预设类型的信息。
57.步骤124，将所述第一处理结果输入训练好的预设言论判别模型的言论内容判别模型进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果。
58.进一步地，该步骤124之后还可以包括：
59.若第一识别结果表示所述言论信息为预设类型的信息时，将该预设类型的信息删除或者对发表该预设类型的信息的用户进行禁言操作；这里的预设类型的信息如可以是“反串黑”类型的言论信息；
60.若第一识别结果表示所述言论信息不是预设类型的信息时，直接输出该第一识别结果或者进一步对所述第一识别结果进行处理。
61.如图3所示，该实施例中，首先初始化言论判别模块，主要是将言论判别模块的预
设言论判别模型和预设言论判别模型两个模型加载到内存中来。
62.其次，将所述言论信息首先转化为一个二元组《用户发表的言论信息，发言回复》，将二元组输入到言论态度判别模型，识别用户的言论信息的第一态度，得到一个三元组《用户发表的言论信息，发言回复，态度》，其中“态度
”ꢀ
为一个bool(布尔)值，0表示负面态度，1表示正面态度。
63.最后，将三元组《用户的言论信息，发言回复，态度》输入到言论内容判别模型进行处理，得到第一识别结果。
64.根据所述第一处理结果判断所述言论信息是否为预设类型的信息，若所述第一处理结果表示所述言论信息不是预设类型的信息时，将用户言论和态度组合为一个二元组《用户的言论信息，态度》。
65.在本发明的又一可选的实施例中，步骤124可以包括：
66.步骤1241，将所述言论信息转换成二元组《用户发表的言论信息，发言回复数据》；
67.步骤1242，将所述用户发表的言论信息输入训练好的预设言论判别模型的言论态度判别模型的第一对抗网络g1进行处理，得到第一输出，所述第一对抗网络g1将所述用户发表的言论信息输入第一判别器d1生成第一目标发言回复数据；
68.步骤1243，将所述发言回复数据输入所述训练好的预设言论判别模型的言论态度判别模型的第二对抗网络g2进行处理，得到第二输出，所述第二对抗网络g2将所述发言回复数据输入第二判别器d2生成第一目标言论信息；
69.步骤1244，将所述第一输出和所述第二输出，输入所述训练好的预设言论判别模型的言论态度判别模型的长短期记忆lstm层进行处理，得到lstm 层的输出；
70.步骤1245，将所述第一目标发言回复数据和所述第一目标言论信息，输入所述训练好的预设言论判别模型的言论态度判别模型的第三判别器d3，并将所述lstm层的输出输入所述第三判别器d3，得到所述第一处理结果。
71.具体的，如图4所示，言论态度判别模型包括：对抗网络g1，对抗网络 g2，长短期记忆网络lstm，判别器d1、d2和d3；其中，用户发表的言论信息输入对抗网络g1，生成一目标发言回复，该目标发言回复，输入判别器 d1进行判断生成第一判断结果；发言回复输入对抗网络g2，生成一目标言论信息，该目标言论信息输入判别器d2，同时g1和g2的输出也输入到lstm 中处理后，得到目标输出结果，将所述第一判断结果，第二判断结果以及目标输出结果，均输入d3进行判断处理，得到一个三元组《用户发表的言论信息、发言回复、态度》；
72.从判别器d3得出用户言论的第一态度，即输出0表示负向的态度，1表示正向的态度。
73.在本发明的又一可选的实施例中，步骤125可以包括：
74.步骤1251，将所述三元组《用户发表的言论信息、发言回复数据、态度》的用户发表的言论信息输入训练好的预设言论判别模型的言论内容判别模型的第一编码器进行处理，得到第一编码向量；
75.步骤1252，将所述发言回复数据输入所述言论内容判别模型的第二编码器进行处理，得到第二编码向量；
76.步骤1253，将所述态度输入所述言论内容判别模型的第三编码器进行处理，得到第三编码向量；
77.步骤1254，将所述第一编码向量、第二编码向量以及所述第三编码向量，输入所述言论内容判别模型的卷积层进行处理，得到卷积输出；
78.步骤1255，将所述卷积输出输入所述言论内容判别模型的增强层进行处理，得到增强输出；
79.步骤1256，将所述增强输出输入所述言论内容判别模型的全连接层进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果。
80.具体的，如图5所示，为言论内容判别模型架构示意图，将判别器d3输出的三元组《用户发表的言论信息、发言回复、态度》，通过3个编码器对这三个元素进行编码得到3个编码向量，再通过一组卷积层conv进行卷积操作将三个向量融合并提取特征，接着再使用一个attention层来增强特征，最后使用全连接层fc进行标签判别，标签为：是否为预设类型的信息《是，否》。
81.如图6所示，本发明的一可选的实施例中，上述步骤13中，根据所述言论信息确认用户可信度，根据用户可信度确认所述言论信息是否为预设类型的信息的第二识别结果，可以包括：
82.步骤131，根据所述言论信息从知识图谱中获取相关知识信息；具体实现时，可以从知识图谱中找出相关领域的贴吧，比如体育领域的贴吧；
83.步骤132，根据所述相关知识信息确定用户的态度信息；实现时，可以使用言论态度判别模型，识别用户在不同贴吧谈论不同主题的真正态度；
84.步骤133，根据所述用户的态度信息，采用投票算法，确定投票者的关系矩阵；例如，根据相关领域的贴吧中用户发表的言论的态度，确定该贴吧的态度；从而可以根据用户的态度确定出相关领域的这些贴吧之间的关系，比如，a贴吧与b贴吧是敌对的关系，或者a贴吧与b贴吧是和睦的关系；多个贴吧之间的关系形成一个关系矩阵；
85.步骤134，根据投票者的关系矩阵和所述用户的态度信息，确定用户可信度；具体实现时，计算用户在相关领域的贴吧中发表的言论的态度利用预设言论处理算法进行投票，得到投票者的投票序列，这里投票者可以为贴吧，投票值为用户在该贴吧中发表言论的态度；
86.将用户的第一态度与所述投票序列进行比对，得到投票序列中与用户的第一态度不一致的态度，得到不一致的态度序列：n1，n2，
…
，nm。
87.将所述不一致的态度序列中的每一个态度值与预设可信度阈值进行比较，如果ni大于或者等于所述预设可信度阈值，则确定投票者为低可信度的投票者，否则确定投票者高可信度投票者；步骤135，根据用户可信度确定所述言论信息是否为预设类型的信息的第二识别结果。具体实现时，将低可信度的投票者的投票值进行翻转，得到最终的目标投票序列；将所述目标投票序列与所述关系矩阵中的相应行一致，则确认该用户的言论不是预设类型的信息，否则是预设类型的信息。
88.该实施例中，步骤135中得到第二识别结果后还可以进一步包括：
89.若所述第二识别结果是所述预设类型的信息时，则删除所述预设类型的信息或者对发表该预设类型的信息的言论信息的用户进行禁言操作；
90.若所述第二识别结果不是所述预设类型的信息时，则直接输出不是所述预设类型的信息第二识别结果。
91.该实施例中，所述第一识别结果表示所述言论信息不是所述预设类型的信息，根据所述言论信息与预设言论处理算法进行处理，输出所述言论信息是否为预设类型的信息的第二识别结果，进一步提高了对用户发表的言论信息识别是否为预设类型的信息的精准性。
92.一种具体的实现实例中，可根据用户在多个贴吧发表的言论，通过预设言论处理算法进行模型训练，再根据该模型对用户当前发表的言论信息进行进一步的识别，提高识别的准确率。
93.如下以一个用户在体育领域是否为“反串黑”用户来说明所述言论处理算法的实现过程：
94.例如一个用户在“a贴吧”发布了言论，则可以去“b贴吧”、“c贴吧
”ꢀ
等相关的体育类贴吧，查看该用户发布的对a的言论的态度是怎样的，将这些相关的贴吧作为投票者，如果持正向褒扬的态度则投p票，否则投n票；与一般的投票算法不同，然后根据知识图谱中贴吧之间的关系(即“和睦
”ꢀ
或“敌对”)预先生成一个投票序列，例如有“b贴吧”、“c贴吧”和“d 贴吧”三个投票者，而前两者和“a贴吧”是“敌对”的，后者是“和睦
”ꢀ
的，因此其生成序列即为“nnp”，当投票对象投出的票是“nnp”时认为该用户不是“反串黑”，否则认为其就是“反串黑”。
95.具体的，首先，根据所述第一识别结果表示所述言论信息不是所述预设类型的信息的态度选择是否打开精确判断模式，打开精确判断模式可小幅增强准确率。
96.如图7所示，通过体育领域的“反串黑”信息识别为例，来说明是否打开精确判断模式：
97.体育领域的“反串黑”信息识别一般只处理态度为“正向褒扬”的言论，因为“反串黑”言论一般都是伪装成“正向”言论，如果打开精确判断，也会处理态度为“负向贬低”的言论。
98.步骤1，根据所述言论信息从知识图谱中获取相关知识信息，例如在体育领域中，用户在“a贴吧”发布言论，则从知识图谱中找出相关领域贴吧，如“b贴吧”、“c贴吧”、“e贴吧”、“f贴吧”、“h贴吧”、“d贴吧”等，并且得出一个这些“贴吧”之间关系的矩阵，其中0表示“敌对”， 1表示“和睦”，如下所示：
[0099][0100]
其中纵轴与横轴的顺序都是“a贴吧”、“b贴吧”、“c贴吧”、“e 贴吧”、“f贴吧”、“h贴
吧”、“d贴吧”，如上述矩阵所示，由“a贴吧”和“b贴吧”定位到的都是0，即这两个贴吧是“敌对”关系。
[0101]
步骤2，根据获取到的相关领域数据，即如例子中的多个贴吧，要确定在
ꢀ“
c贴吧”用户谈论“f”的态度，可以通过言论态度判别模型，输入用户在四元组《c贴吧id，f，用户言论数据、言论回复数据》中的用户言论数据和言论回复数据，确定出用户的第一态度信息。
[0102]
具体的，首先根据获取到的相关领域数据，输出一个四元组《相关领域id，被谈论的主题，用户言论数据，言论回复数据》，再通过言论态度判别模型确定所述四元组的态度。
[0103]
步骤3，使用言论态度判别模型，识别用户在不同贴吧谈论不同主题的真正态度；例如，要得到在“c贴吧”该用户是怎样谈论“f贴吧”的，可以向模型中输入四元组《c贴吧id，f贴吧，用户言论数据、言论回复数据》中的用户言论数据和言论回复数据，得出真正的态度；
[0104]
步骤4，我们根据步骤3的计算假设可以得出找到用户的第一态度与预设言论处理算法的投票方法两个方向得出的不相同的“矛盾点”，计为(n1， n2，
…
，nm)。
[0105]
步骤5，使用步骤4的到的ni来衡量投票者的可信度，如果ni大于等于设定的可信度阈值，则认为该“投票者”可信度较低，否则认为该“投票者
”ꢀ
可信度较高；这实际上是根据一个用户在其他贴吧中是否有相互矛盾的言论态度来确定他是否反串黑，因为我们认为不是反串黑则态度因该一致；
[0106]
步骤6，根据对投票者可信度的评估，进行投票的修正，将可信度低的“投票者”所投的票翻转过来，从而得到最终的投票序列；如果该序列和步骤1 中相应行的序列相同，则认为不是“反串黑”，否则认定为“反串黑”进行相应的处理。
[0107]
以下以体育界的“反串黑”信息识别为例，说明该步骤的具体实现，例如：
[0108]
首先获取各个贴吧中谈论所有“投票者”言论数据，输出一个四元组《贴吧id，被谈论的主题，用户言论数据，言论回复数据》，再通过言论态度判别模型确定所述四元组的态度，其中“被谈论的主题”即是指谈论的“a”、“c
”ꢀ
等贴吧主题。
[0109]
如表1所示，其次从两个方向得出两个“投票人”之间的关系，其中，表1中用户在“c吧”中关于“e”的言论是n，而用户在“e贴吧”中关于
ꢀ“
c”的言论则是p，这明显矛盾，将p视做1，n视做0，且与从知识图谱中获取相关的知识信息得出的矩阵中的值不符合，所以定义这是一个矛盾点；根据上述表格找出每个“投票者”所有的矛盾点，将其计为(n1，n2，
…
，n7)。
[0110] abcefhdappnnppnbpppnnppcpppnnpnennppnppfnnnpppnhnppppppdppnpnpp
[0111]
表1：体育领域具体的投票序列
[0112]
最后根据“矛盾点”衡量投票者的可信度，如果“矛盾点”小于预设值，则认为用户可信度较高，如果“矛盾点”不小于预设值，则认为用户可信度较低。
[0113]
具体的，根据对投票者可信度的评估，进行投票的修正，将可信度低的
ꢀ“
投票者”所投的票翻转过来，从而得到最终的投票序列。如果最终的投票序列与预设言论处理算法的投票方法得出的四元组的态度的投票序列不同，则确认所述言论信息是预设类型的信息，如果最终的投票序列与预设言论处理算法的投票方法得出的四元组的态度的投票序列相同，则确认所述言论信息不是预设类型的信息。
[0114]
该实施例中，以体育界的“反串黑”信息识别为例，来说明该实施例。
ꢀ“
反串黑”在别的贴吧、论坛很有可能也是“反串黑”，这会造成投票者投出“假票”从而影响最终结果，因此，将改造分布式一致性算法pbft，将其应用于每个投票者的可信度，这个可信度将由该投票者在其他投票者那里的评论态度决定，这样有了这个可信度，就可以将可信度低于阈值的投票者所投的票反转，即原先投的n票，将其改为p票，从而避免“假票”得到准确的结果。
[0115]
如图8示出了本发明实施例提供的具体的信息识别方法的实现流程：
[0116]
第一层，即配置“反串黑”言论模版，当用户发表言论时如果匹配上这些模版，则直接判定为“反串黑”用户，并进行言论删除和/或用户禁言操作；
[0117]
第二层，如果在第一层中没有匹配到“反串黑”言论模版，则使用第二层中预先训练好的“反串黑”言论判别模型进行判别，如果判别模型认为其是“反串黑”言论，也会进行言论删除和/或禁言操作；
[0118]
第三层，当言论判别模型也判别不了时，则使用“反串黑”言论检验打分算法进行最终判别，如果被判别为“反串黑”言论，则进行言论删除和/或禁言操作，否则认为用户不是“反串黑”用户。
[0119]
以下通过体育领域的“反串黑”用户识别，来说明图8所示的具体的“反串黑”用户识别方法，例如：
[0120]
论坛、贴吧用户发表言论“某某天神下凡、无所不能、当世球王、横扫欧冠”，而事实情况是某某所在的球队在欧冠赛场上败北，则这条看似褒扬某某的言论实则为贬低某某的“反串黑”言论；当用户发表此言论时，首先进行第一层的言论模版匹配，如果言论模版中配置了“当世球王”、“球王下凡等”类似的言论，则直接匹配出是“反串黑”言论，把用户定为“反串黑”用户；如果匹配不上，则接下来使用模型来判别，如果模型识别为“反串黑”言论则将用户定为“反串黑”用户，进行相关操作；如果模型也识别不了(即模型没有判别为“反串黑”言论)则使用言论检验打分算法进行判别，该算法主要是综合考虑该用户在相关领域的所有言论，在举例中，某某是体育领域的，这里的相关领域可以是“b贴吧”、“c贴吧”、“f贴吧
”ꢀ
等体育类贴吧，在理解相关领域即这些其他贴吧该用户所发表言论语义的基础上推导出该用户是否是“反串黑”用户，如果是则进行相关处理，如果不是则认为用户发出的言论不是“反串黑”言论，该言论可正常发表。
[0121]
所述三层结构的“反串黑”用户识别方法，可以有效地识别善于伪装的
ꢀ“
反串黑”用户。首先，设计了一种结合语义的言论模版匹配方法，扩展了言论模版的匹配范围；其次，设计了一种基于改进gan的言论态度判别模型，能够综合考虑用户言论与回复，得出第一态度；然后，将言论态度判别模型与用户言论判别模型结合使用，使其能够识别一定的“反串黑”言论；然后，根据知识图谱来提取相关领域的用户言论信息；最后，设计一种言论检查投票方法来综合考量用户的言论，得到最终的识别结果。
[0122]
图9示出了用于图8所示的具体的“反串黑”用户识别方法所在的系统的主要模块示意图，如图9所示，“反串黑”用户识别方法所在的系统分为离线部分和在线部分。离线部分包含言论判别模型的训练模块和相关领域数据获取模块，该部分的模块主要用于离线定期运行，例如定期重新训练模型、爬去数据等，将产生的结果提供给在线模块。在线部分包含用户言论发表模块、言论模版配置与匹配模块、言论判别模型识别模块、言论检验打分模块、
ꢀ“
反串黑”言论处理模块和正常言论处理模块，该部分主要就是执行所述“反串黑”用户识别系统设计的三层用户言论判别方法。各模块的具体功能如下：
[0123]
用户发表言论模块：该模块主要就是提供给用户发表言论的基础功能，例如用户对自己言论的发表与删改等功能。
[0124]
言论模版配置与匹配模块：该模块首先由管理员配置“反串黑”的言论模版，每当用户需要发表言论时，通过语义匹配的方式来进行用户言论和言论模版的匹配。
[0125]
言论判别模型模块：该模块主要是根据训练好的言论判别模型判别没有匹配到言论模版的用户言论是否为“反串黑”言论；该模块包含了两个模型，一个是用于判别用户言论是正向褒扬还是负向辱骂的言论态度判别模型，另一个则是在第一个模型判别结果的基础上判断是否是“反串黑”言论的言论内容判别模型；其中第一个模型也会用于言论检查打分模块。
[0126]
言论检查打分模块，该模块主要负责根据预设言论处理算法判断用户言论是否是“反串黑”言论，其中需要使用言论态度判别模型来判别相关领域数据获取模块提取的用户言论的各种数据，以支撑言论检查打分算法。
[0127]
判别模型训练模块，主要功能就是按照设定的周期训练并更新言论态度判别模型和用户言论判别模型，将新训练的模型更新到言论判别模型模块，并将言论态度判别模型提供给言论检验打分模块。
[0128]
相关领域数据获取模块，该模块主要是根据一个用户发言的论坛、贴吧获取相关领域论坛、贴吧中该用户的发言，并通过知识图谱获取相关的领域知识。例如某用户在“a贴吧”发表了一些言论，根据知识图谱中的相关关联性可以得出这是个体育类贴吧，而且可以得到“c贴吧”、“b贴吧”和“a 贴吧”是“敌对”关系，不仅可以提取这些论坛、贴吧的数据，还可以对提取的数据进行预先标注供后续言论检查打分算法使用。
[0129]
反串黑言论处理模块，该模块根据“反串黑”用户的识别结果，对被识别的用户进行言论删除和/或禁言操作。
[0130]
正常言论处理模块，用户言论为正常言论，不做任何处理。
[0131]
本发明的上述实施例通过三层识别模型可以准确识别用户的言论信息；三层结构的识别模型也从三个角度提供了识别方法弥补各自的不足，相比起单一的使用，判别的准确率更高；三种方式都结合了语义，极大的降低了人工的参与度，节省人工成本，弥补了人工审核的不足。
[0132]
此外，言论态度判别模型综合考虑了用户发表言论和其他用户的回复言论后再判别用户第一态度，这样也使言论态度判别模型更加准确；言论检查打分模型也综合考虑了用户在多个相关领域的言论与态度，并改进了pbix算法使其能够判断出用户是否是“反
串黑”，具有更好的准确性，弥补了现有模型判别的不足。
[0133]
图10示出了本发明实施例提供的信息识别装置100的结构示意图。如图 10所示，该装置包括：
[0134]
获取模块101，用于获取用户发表的言论信息；
[0135]
处理模块102，用于对所述言论信息进行识别，得到所述言论信息是否为预设类型的信息的第一识别结果；若所述第一识别结果表示所述言论信息不是所述预设类型的信息，根据所述言论信息确认用户可信度，根据用户可信度确认所述言论信息是否为预设类型的信息的第二识别结果。
[0136]
可选的，所述处理模块102在对所述言论信息进行识别，得到所述言论信息是否为预设类型的信息的第一识别结果时，具体用于：
[0137]
将所述言论信息与预设言论模板匹配，若匹配成功，确定所述言论信息为预设类型的信息；若匹配不成功，将所述言论信息输入训练好的预设言论判别模型进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果。
[0138]
可选的，将所述言论信息与预设言论模板匹配，若匹配成功，确定所述言论信息为预设类型的信息，包括：
[0139]
利用预设语义转换模型将所述言论信息转换为语义向量；
[0140]
根据所述语义向量从预先存储的语义向量库的语义索引中查询，若存在与所述言论信息的相似度大于预设相似性阈值的至少一个言论模板，则匹配成功，确定所述言论信息为预设类型的信息。
[0141]
可选的，将所述言论信息输入训练好的预设言论判别模型进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果，包括：
[0142]
将所述言论信息输入训练好的预设言论判别模型的言论态度判别模型进行处理，得到第一处理结果；所述第一处理结果包括三元组《用户发表的言论信息，发言回复数据，态度》；
[0143]
将所述第一处理结果输入训练好的预设言论判别模型的言论内容判别模型进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果。
[0144]
可选的，将所述言论信息输入训练好的预设言论判别模型的言论态度判别模型进行处理，得到第一处理结果，包括：
[0145]
将所述言论信息转换成二元组《用户发表的言论信息，发言回复数据》；
[0146]
将所述用户发表的言论信息输入训练好的预设言论判别模型的言论态度判别模型的第一对抗网络g1进行处理，得到第一输出，所述第一对抗网络 g1将所述用户发表的言论信息输入第一判别器d1生成第一目标发言回复数据；
[0147]
将所述发言回复数据输入所述训练好的预设言论判别模型的言论态度判别模型的第二对抗网络g2进行处理，得到第二输出，所述第二对抗网络g2 将所述发言回复数据输入第二判别器d2生成第一目标言论信息；
[0148]
将所述第一输出和所述第二输出，输入所述训练好的预设言论判别模型的言论态度判别模型的长短期记忆lstm层进行处理，得到lstm层的输出；
[0149]
将所述第一目标发言回复数据和所述第一目标言论信息，输入所述训练好的预设言论判别模型的言论态度判别模型的第三判别器d3，并将所述 lstm层的输出输入所述
第三判别器d3，得到所述第一处理结果。
[0150]
可选的，将所述第一处理结果输入训练好的预设言论判别模型的言论内容判别模型进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果，包括：
[0151]
将所述三元组《用户发表的言论信息、发言回复数据、态度》的用户发表的言论信息输入训练好的预设言论判别模型的言论内容判别模型的第一编码器进行处理，得到第一编码向量；
[0152]
将所述发言回复数据输入所述言论内容判别模型的第二编码器进行处理，得到第二编码向量；
[0153]
将所述态度输入所述言论内容判别模型的第三编码器进行处理，得到第三编码向量；
[0154]
将所述第一编码向量、第二编码向量以及所述第三编码向量，输入所述言论内容判别模型的卷积层进行处理，得到卷积输出；
[0155]
将所述卷积输出输入所述言论内容判别模型的增强层进行处理，得到增强输出；
[0156]
将所述增强输出输入所述言论内容判别模型的全连接层进行处理，输出所述言论信息是否为预设类型的信息的第一识别结果。
[0157]
可选的，所述处理模块102在根据所述言论信息确认用户可信度，根据用户可信度确认所述言论信息是否为预设类型的信息的第二识别结果时，具体用于：
[0158]
根据所述言论信息从知识图谱中获取相关知识信息；
[0159]
根据所述相关知识信息确定用户的态度信息；
[0160]
根据所述用户的态度，采用投票算法，确定投票者的关系矩阵；
[0161]
根据投票者的关系矩阵和所述用户的态度信息，确定用户可信度；
[0162]
根据用户可信度确定所述言论信息是否为预设类型的信息的第二识别结果。
[0163]
需要说明的是，该实施例是与上述方法实施例对应的装置实施例，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。
[0164]
本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的信息识别方法。
[0165]
图11示出了本发明实施例提供的计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。
[0166]
如图11所示，该计算设备可以包括：处理器(processor)、通信接口 (communicationsinterface)、存储器(memory)、以及通信总线。
[0167]
其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口，用于与其它设备比如客户端或其它服务器等的网元通信。处理器，用于执行程序，具体可以执行上述用于计算设备的信息识别方法实施例中的相关步骤。
[0168]
具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。
[0169]
处理器可能是中央处理器cpu，或者是特定集成电路asic (applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个 cpu以及一个或多个asic。
[0170]
存储器，用于存放程序。存储器可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。
[0171]
程序具体可以用于使得处理器执行上述任意方法实施例中的信息识别方法。程序中各步骤的具体实现可以参见上述信息识别方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。
[0172]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明实施例的内容，并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
[0173]
在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
[0174]
类似地，应当理解，为了精简本发明实施例并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。
[0175]
本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0176]
此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0177]
本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序 (例如，计算机程序和计算机程序产品)。这样的实现本发明
实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
[0178]
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于diag系统的故障详情自动抓取方法、设备及存储介质与流程

一种信息识别方法、装置及设备与流程

相关文献

最热文献