一种敏感词过滤方法、装置、存储介质及电子设备与流程

2022-04-02 03:22:47 来源：中国专利 TAG：

1.本发明实施例涉及人工智能技术领域，尤其涉及一种敏感词过滤方法、装置、存储介质及电子设备。

背景技术：

2.近些年来，随着互联网和人工智能技术的高速发展，使得当下信息的生成、传播和收集的速度和规模达到了空前绝后的水平，在这些过程中不可避免会出现敏感词，需要把敏感词过滤掉。相关技术中，主要根据敏感词库对待检测文本中的敏感词进行匹配、查找、替换，但是这种方式准确性低，而如何准确进行敏感词的过滤变得至关重要。

技术实现要素：

3.本发明实施例提供一种敏感词过滤方法、装置、存储介质及电子设备，可以准确地对文本数据中的敏感词进行过滤。
4.第一方面，本发明实施例提供了一种敏感词过滤方法，包括：
5.获取待处理的文本数据；
6.确定所述文本数据中包含的敏感词类别；
7.将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词；
8.过滤所述文本数据中的目标敏感词。
9.第二方面，本发明实施例还提供了一种敏感词过滤装置，包括：
10.文本数据获取模块，用于获取待处理的文本数据；
11.敏感词类别确定模块，用于确定所述文本数据中包含的敏感词类别；
12.敏感词查找模块，用于将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词；
13.敏感词过滤模块，用于过滤所述文本数据中的目标敏感词。
14.第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的敏感词过滤方法。
15.第四方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例提供的敏感词过滤方法。
16.本发明实施例提供的敏感词过滤方案，获取待处理的文本数据；确定所述文本数据中包含的敏感词类别；将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词；过滤所述文本数据中的目标敏感词。通过本发明实施例提供的技术方案，可以准确、有效地对待处理的文本数据中的敏感词进行过滤。
附图说明
17.图1是本发明一实施例提供的一种敏感词过滤方法的流程图；
18.图2是本发明实施例提供的一种敏感词分类模型的结构示意图；
19.图3是本发明实施例提供的一种字典树模型的示意图；
20.图4是本发明实施例提供的一种敏感词过滤系统示意图；
21.图5是本发明另一实施例中的一种敏感词过滤装置的结构示意图；
22.图6是本发明另一实施例中的一种电子设备的结构示意图。
具体实施方式
23.下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。
24.应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
25.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
26.需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
27.需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
28.本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
29.图1为本发明一实施例提供的一种敏感词过滤方法的流程图，本发明实施例可适用于对敏感词进行过滤的情况，该方法可以由敏感词过滤装置来执行，该装置可由硬件和/或软件组成，并一般可集成在电子设备中。如图1所示，该方法具体包括如下步骤：
30.步骤110，获取待处理的文本数据。
31.其中，待处理的文本数据可以为待进行敏感词过滤的目标语句。文本数据中可包括一个或多个字，需要说明的是，本发明实施例对文本数据的长度不做限定。
32.在本发明实施例中，当监测到敏感词过滤请求时，根据敏感词过滤请求，获取待处理的文本数据。示例性的，可以将获取的用户输入的语句作为待处理的文本数据，也可以将其他电子设备传输的语句，作为处理的文本数据，还可以将用户待进行网络发布的语句作为待处理的文本数据。需要说明的是，本发明实施例对待处理的文本数据的获取方式不做限定。
33.可选的，所述文本数据为用于生成成长档案时发布的文本数据。其中，成长档案可以理解为用户成长过程中发布的动态数据。这样设置的好处在于，可以对用户在发布成长
档案或者评论等网络用语频繁的场景下的敏感词进行过滤。
34.步骤120，确定所述文本数据中包含的敏感词类别。
35.在本发明实施例中，待处理的文本数据中可能包含敏感词，也可能不包含敏感词。当待处理的文本数据中包含敏感词时，可能包含同一类型的敏感词，也可以包括不同类型的敏感词。在本发明实施例中，确定文本数据中包含的敏感词类别。需要说明的是，本发明实施例对敏感词类别不做限定。
36.示例性的，可以根据用户输入的敏感词类型标识，确定文本数据中包含的敏感词类型，还可以根据文本数据的上下文信息，确定文本数据中可能包含的敏感词类型。可选的，确定所述文本数据中包含的敏感词类别，包括：将所述文本数据输入至预先训练的敏感词分类模型中，根据所述敏感词分类模型的输出结果，确定所述文本数据中包含的敏感词类别。需要说明的是，本发明实施例对文本数据中敏感词类别的确定方式不做限定。
37.其中，敏感词分类模型为能够快速确定待处理的文本数据中包含敏感词类别的机器学习模型。示例性的，将文本数据输入至预先训练的敏感词分类模型中，敏感词分类模型可以输出文本数据中包含敏感词对应各个类别的分数，将最大分数对应的敏感词类别作为文本数据中包含的敏感词类别。在本发明实施例中，敏感词分类模型的获取方式可以包括：获取样本文本数据集，其中，样本文本数据集中包含至少两条样本文本数据，每条样本文本数据中包含不同类别的敏感词，基于每条样本文本数据中包含的敏感词类别对样本文本数据进行标记，生成训练文本数据集；基于训练文本数据集对预设机器学习模型进行训练，生成敏感词分类模型。
38.可选的，所述敏感词分类模型包括bert模型和分类器，所述bert模型的输出端与所述分类器的输入端连接。这样设置的好处在于，通过bert模型可以结合上下文信息进行词向量的生成，可以有效的利用上下文信息，丰富词的语义，体现词的复杂性，从而提高敏感词分类模型进行敏感词分类的准确性。
39.示例性的，图2为本发明实施例提供的一种敏感词分类模型的结构示意图。如图2所示，分类器为具有多分类功能的softmax函数，bert模型的输出结果输入至softmax函数中。其中，bert模型是采用双向transformer的结构，transformer 本质上是一个encoder-decoder的结构，在每个编码器、解码器之间加入了自注意力机制，通过计算输入和输出的权值来记录上下文信息，解决了lstm存在的长期依赖导致的信息丢失问题。在注意力机制中，每个单词都有三个不同的向量表示，分别是query向量(q)、key向量(k)和value向量(v)。其中，注意力机制如下公式所示：
40.其中，bert是一个多任务模型，通过训练masked language model(mlm) 和next sentence prediction(nsp)两个自监督任务得到预训练模型。mlm任务是指通过上下文来预测缺失的单词，nsp任务是用于判断两个句子是否为上下文关系，通过这两种任务可以训练得到包含语义关系和上下文信息的词向量模型。bert模型的输入编码向量是三个词嵌入特征向量，分别是字符向量，分割向量和位置向量，包含了一个单词的基本字符信息、上下文信息以及位置信息。基于迁移学习的思想，在特定任务集上训练好bert模型后，可以将预训练好的词向量模型作为输入迁移应用到敏感词文本分类任务中，减少神经网络训练时
间。根据bert模型的输出信息，可以完成对特定文本任务的微调，即在bert 模型的基础上添加一个分类器，利用多分类的softmax函数输出预测概率来判断文本的种类，从而达到敏感词分类的效果。
41.步骤130，将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词。
42.其中，字典树模型为基于同类敏感词集合构建的字典树。在本发明实施例中，将文本数据与敏感词类别对应的字典树模型进行匹配，判断文本数据中是否能够查找到与字典树模型中包含的敏感词匹配的目标敏感词，若是，则从文本数据中提取该目标敏感词，否则，说明文本数据中不包含该类别的敏感词。其中，目标敏感词可以为一个，也可以为多个，本发明实施例对目标敏感词的数量不做限定。
43.可选的，在将所述文本数据输入至与所述敏感词类别对应的字典树模型中之前，还包括：获取各个类型的敏感词库；针对各个类型的敏感词库，基于当前类型的敏感词库构建对应的字典树模型；其中，将当前类型的敏感词库中的每个敏感词的首字符作为所述字典树模型的根节点，每个敏感词的其他字符作为所述字典树模型的叶子节点，其中，其他字符为每个敏感词中除所述首字符外的字符；当前类型的敏感词库中的每个敏感词的各个字符及所述各个字符的状态信息构成所述字典树模型中的键值对，其中，所述状态信息包括词首、词中和词尾。这样设置的好处在于，可以准确构建各个敏感词类别的字典树模型。
44.在本发明实施例中，获取各个类型的敏感词库，其中，某类型的敏感词库中包含至少两个该类型的敏感词。针对各个类型的敏感词库，将当前类型的敏感词库中的每个敏感词的首字符作为字典树模型的根节点，并将当前类型的敏感词库中的每个敏感词的其他字符分别作为字典树的叶子节点，其中，其他字符为敏感词中除首字符外的字符。将当前类型的敏感词库中每个敏感词的各个字符作为字典树模型中的key值，每个敏感词的各个字符的状态信息作为字典树模型中的value值，其中，状态信息包括词首、词中及词尾，也即根据敏感词中各个字符位于敏感词的位置，确定各个字符的状态信息。将key值和value 值作为字典树模型中的健值对。示例性的，图3为本发明实施例提供的一种字典树模型的示意图。
45.在将文本数据与字典树模型匹配的过程中，字典树模型的根节点是开始匹配的节点，状态信息为词尾的叶子节点是匹配结束的节点。按照从前到后的顺序，将文本数据中的字符依次与字典树模型中的各个根节点进行匹配，文本数据中某字符与字典树模型中的某个根节点匹配时，将该字符的下一个字符与该根节点的叶子节点进行匹配，直至文本数据中存在一个字符与根节点的最后叶子节点(状态信息为词尾的叶子节点)匹配时，将与该根节点及与该根节点与最后叶子节点之间的所有节点(包括根节点及最后叶子节点)匹配的字符构成的词，作为文本数据中的目标敏感词。
46.步骤140，过滤所述文本数据中的目标敏感词。
47.在本发明实施例中，将文本数据中的目标敏感词过滤掉，并将过滤后的文本数据进行网络发布。
48.本发明实施例提供的敏感词过滤方法，获取待处理的文本数据；确定所述文本数据中包含的敏感词类别；将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词；过滤所述文本数据中的目标
敏感词。通过本发明实施例提供的技术方案，可以准确、有效地对待处理的文本数据中的敏感词进行过滤。
49.在一些实施例中，在将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词之前，还包括：响应于各个类型的敏感词库的更新事件被触发，获取各个类型更新后的敏感词库；针对各个类型的敏感词库，基于当前类型更新后的敏感词库对对应的字典树模型进行更新；将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词，包括：将所述文本数据输入至与所述敏感词类别对应的更新后的字典树模型中，在所述文本数据中确定与所述更新后的字典树模型匹配的目标敏感词。这样设置的好处在于，可以有效提高敏感词过滤的准确性。
50.在本发明实施例中，随着时间的推移，敏感词库包含的敏感词是不断动态变化的。示例性的，当接收到各个类型的敏感词库的更新操作时，确定敏感词库的更新事件被触发，其中，敏感词库的更新操作可以包括对敏感词库进行增、删、改、查，其中，增可以理解为在敏感词库中增加新的敏感词，删可以理解为删除敏感词库中原有的某个或某几个敏感词，改可以理解为对敏感词库中的敏感词进行修改，查可以理解为在敏感词库中查询敏感词。响应于各个类型的敏感词库的更新事件被触发，获取各个类型更新后的敏感词库。基于更新后的敏感词库对对应的字典树模型进行更新，从而使文本数据与敏感词类别对应的更新后的字典树模型进行匹配操作，以确定文本数据中包含的目标敏感词。
51.在一些实施例中，在确定所述文本数据中包含的敏感词类别之前，还包括：对所述文本数据进行预处理操作。其中，数据预处理是指在主要的处理以前对数据进行的一些处理，现实的数据大体上都是不完整、不一致的脏数据，无法直接进行数据挖掘，故产生了数据预处理技术。数据预处理方法包括：数据清理，数据集成，数据变换等。在本发明实施例中，待处理的文本数据可能包含各种网络用语和非常规用语，可先对待处理数据进行预处理操作(如进行数据清洗及转换等相关操作)，以获取规范的文本数据。
52.图4为本发明实施例提供的一种敏感词过滤系统示意图，如图4所示，敏感词过滤系统包括数据预处理模块、敏感词分类模型、敏感词过滤模块、消息传递模块、应用端及管理端。其中，文本数据输入至预处理模块，以对文本数据进行预处理操作，敏感词分类模块用于确定预处理后的文本数据中包含的敏感词类别，敏感词过滤模块为与敏感词类别对应的字典树模型，用于确定文本数据中包含的目标敏感词，并对目标敏感词进行过滤。消息传递模块用于应用端与管理端间的消息传递。消息传递模块可以采用消息队列架构，主要组成部分包括：消息生产者、消息消费者、消息队列，可以使用异步调用架构。管理端是消息的生产者，将更新后的敏感词库发布到消息队列后，由应用端消费消息队列中的敏感词库消息，然后由应用端进行敏感词过滤模型(字典树模型) 构建和更新。采用异步架构的发布订阅模型进行消息传递，在发布订阅模型中，消息可以被多个应用端系统使用，管理端系统发送消息到主题后，每个应用端系统可克隆订阅的消息到自己的私有队列，应用端之间不会竞争消息。这样设置的好处在于，可以在管理端对敏感词库进行维护，在更新敏感词库的同时，把敏感词数据信息传递给应用端，进行字典树模型构建和更新，可以对动态的敏感词库进行构建与应用。
53.图5为本发明另一实施例提供的一种敏感词过滤装置的结构示意图。如图 5所示，
该装置包括：文本数据获取模块510，敏感词类别确定模块520，敏感词查找模块530和敏感词过滤模块540。其中，
54.文本数据获取模块510，用于获取待处理的文本数据；
55.敏感词类别确定模块520，用于确定所述文本数据中包含的敏感词类别；
56.敏感词查找模块530，用于将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词；
57.敏感词过滤模块540，用于过滤所述文本数据中的目标敏感词。
58.本发明实施例提供的敏感词过滤装置，
59.获取待处理的文本数据；确定所述文本数据中包含的敏感词类别；将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词；过滤所述文本数据中的目标敏感词。通过本发明实施例提供的技术方案，可以准确、有效地对待处理的文本数据中的敏感词进行过滤。
60.可选的，所述装置还包括：
61.敏感词库获取模块，用于在将所述文本数据输入至与所述敏感词类别对应的字典树模型中之前，获取各个类型的敏感词库；
62.字典树模型构建模块，用于针对各个类型的敏感词库，基于当前类型的敏感词库构建对应的字典树模型；其中，将当前类型的敏感词库中的每个敏感词的首字符作为所述字典树模型的根节点，每个敏感词的其他字符作为所述字典树模型的叶子节点，其中，其他字符为每个敏感词中除所述首字符外的字符；当前类型的敏感词库中的每个敏感词的各个字符及所述各个字符的状态信息构成所述字典树模型中的键值对，其中，所述状态信息包括词首、词中和词尾。
63.可选的，还包括：
64.更新敏感词库获取模块，用于在将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词之前，响应于各个类型的敏感词库的更新事件被触发，获取各个类型更新后的敏感词库；
65.字典树模型更新模块，用于针对各个类型的敏感词库，基于当前类型更新后的敏感词库对对应的字典树模型进行更新；
66.所述敏感词查找模块，用于：
67.将所述文本数据输入至与所述敏感词类别对应的更新后的字典树模型中，在所述文本数据中确定与所述更新后的字典树模型匹配的目标敏感词。
68.可选的，所述敏感词类别确定模块，用于：
69.将所述文本数据输入至预先训练的敏感词分类模型中，根据所述敏感词分类模型的输出结果，确定所述文本数据中包含的敏感词类别。
70.可选的，所述敏感词分类模型包括bert模型和分类器，所述bert模型的输出端与所述分类器的输入端连接。
71.可选的，所述装置还包括：
72.预处理模块，用于在确定所述文本数据中包含的敏感词类别之前，对所述文本数据进行预处理操作。
73.可选的，所述文本数据为用于生成成长档案时发布的文本数据。
74.上述装置可执行本发明前述所有实施例所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本发明实施例中详尽描述的技术细节，可参见本发明前述所有实施例所提供的方法。
75.本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的敏感词过滤方法。
76.存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如cd-rom、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如dram、ddrram、sram、edoram，兰巴斯 (rambus)ram等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网) 连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
77.当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的敏感词过滤操作，还可以执行本发明任意实施例所提供的敏感词过滤方法中的相关操作。
78.本发明实施例提供了一种电子设备，该电子设备中可集成本发明实施例提供的敏感词过滤装置。图6为本发明实施例提供的一种电子设备的结构框图。电子设备600可以包括：存储器601，处理器602及存储在存储器601上并可在处理器运行的计算机程序，所述处理器602执行所述计算机程序时实现如本发明实施例所述的敏感词过滤方法。
79.本发明实施例中提供的电子设备，获取待处理的文本数据；确定所述文本数据中包含的敏感词类别；将所述文本数据输入至与所述敏感词类别对应的字典树模型中，在所述文本数据中查找与所述字典树模型匹配的目标敏感词；过滤所述文本数据中的目标敏感词。通过本发明实施例提供的技术方案，可以准确、有效地对待处理的文本数据中的敏感词进行过滤。
80.上述实施例中提供的敏感词过滤装置、存储介质及电子设备可执行本发明任意实施例所提供的敏感词过滤方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的敏感词过滤方法。
81.注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种电网监视业务质量评价系统和方法与流程

一种敏感词过滤方法、装置、存储介质及电子设备与流程

相关文献

最热文献