敏感词检测方法、装置、设备和计算机可读存储介质与流程

2022-05-18 15:08:49 来源：中国专利 TAG：

1.本发明涉及人工智能领域，特别涉及一种敏感词检测方法、装置、设备和计算机可读存储介质。

背景技术：

2.敏感词检测的应用领域越来越广，尤其是在网络普及的今天，敏感词检测是打击各种网络涉黄、涉邪教和涉违禁等非法行为的有效技术手段。目前，相关技术中，ac自动机即aho-corasick automaton是一种常用的敏感词检测方法。然而，由于非法行为人在实施非法行为时，往往会将一段文本中的字词进行变形，从而导致ac自动机不能检测出。换言之，现有技术并不能实现复杂敏感类型、自定义敏感类型的文本敏感内容检测。

技术实现要素：

3.本技术提供一种敏感词检测方法、装置、设备和计算机可读存储介质，以检测出文本中各种复杂敏感类型和/或自定义敏感类型的敏感词或敏感词组合。
4.一方面，本技术提供了一种敏感词检测方法，包括：
5.基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库，所述敏感词扩充库包括按照不同组合规则构成的i种敏感类型的单敏感词和/或多敏感词对，所述i为大于1的整数；
6.基于非敏感词库、停用词库和所述敏感词扩充库，检测目标检测文本；
7.若从所述目标检测文本检出的关键词均为非敏感词，则确定所述目标检测文本为非敏感文本；
8.若从所述目标检测文本尚未检测到非敏感词，则对所述目标检测文本进行预处理，并对所述预处理后的目标检测文本继续检测。
9.另一方面，本技术提供了一种敏感词检测装置，包括：
10.扩充模块，用于基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库，所述敏感词扩充库包括按照不同组合规则构成的i种敏感类型的单敏感词和/或多敏感词对，所述i为大于1的整数；
11.第一检测模块，用于基于非敏感词库、停用词库和所述敏感词扩充库，检测目标检测文本；
12.确定模块，用于若从所述目标检测文本检出的关键词均为非敏感词，则确定所述目标检测文本为非敏感文本；
13.第二检测模块，用于若从所述目标检测文本尚未检测到非敏感词，则对所述目标检测文本进行预处理，并对所述预处理后的目标检测文本继续检测。
14.第三方面，本技术提供了一种设备，所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述敏感词检测方法的技术方案的步骤。
15.第四方面，本技术提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述敏感词检测方法的技术方案的步骤。
16.从上述本技术提供的技术方案可知，由于对目标检测文本进行检测所依赖的库，不仅包括非敏感词库和停用词库，而且包括基于敏感词扩充算法对基础敏感词库进行扩充得到的敏感词扩充库，因此，本技术提供的技术方案可以检测出诸如形近、音近、繁体、拼音、近义、反义或倒序等变体，即能够检测具有多种敏感类型和复杂组合的敏感词，具有检测速率高、误报率低和召回率高等显著优势。
附图说明
17.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1是本技术实施例提供的敏感词检测方法的流程图；
19.图2是本技术实施例提供的敏感词检测装置的结构示意图；
20.图3是本技术实施例提供的设备的结构示意图。
具体实施方式
21.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
22.在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。
23.在本说明书中，为了便于描述，附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。
24.参阅图1，是本技术实施例提供的敏感词检测方法流程，主要包括步骤s101至s104，详述说明如下：
25.步骤s101：基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库，其中，敏感词扩充库包括按照不同组合规则构成的i种敏感类型的单敏感词和/或多敏感词对，i为大于1的整数。
26.在本技术实施例中，基础敏感词库是是由指定敏感类型的关键词通过特定的规则组合而成的词库。由于涉黄、涉邪教和涉违禁等非法行为人会使用敏感词的各种变体，绕开了基础敏感词库，因此，可以基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库，再基于敏感词扩充库对目标检测文本进行检测。作为本技术一个实施例，基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库可以是：设定目标敏感词及其变体
的目标数量，其中，目标敏感词为基础敏感词库中需要进行扩展的敏感词；根据字词-变体序列字典以及目标敏感词及其变体的目标数量，基于排列组合原理对目标敏感词进行扩展，得到敏感词扩充库。上述实施例中，字词-变体序列字典是根据敏感词扩充算法内部的词库创建，而目标敏感词的变体包括与目标敏感词形近、音近以及目标敏感词的繁体、拼音、近义、反义、倒序等字词，可以基于排列组合原理对上述目标敏感词的变体进行排列组合，从而实现对目标敏感词进行扩展，得到敏感词扩充库。
27.需要说明的是，敏感词扩充库包含的多敏感词对由实体敏感词和情感敏感词构成，或者由实体敏感词、情感敏感词和否定词构成，而构成i种敏感类型的单敏感词和/或多敏感词对的组合规则包括不同单敏感词之间或多敏感词对之间使用换行符分隔开，多敏感词对中的实体敏感词之间、情感敏感词之间或否定词之间使用分号连接，实体敏感词与情感敏感词之间使用加号连接，情感敏感词与否定词之间使用减号连接，等等。此外，敏感词扩充库包括i种敏感类型的单敏感词和/或多敏感词对，而i为大于1的整数，说明敏感类型包括多种。
28.步骤s102：基于非敏感词库、停用词库和敏感词扩充库，检测目标检测文本。
29.在本技术实施例中，目标检测文本为检测对象即需要被检测，以确定其中是否含有敏感词或者其是否为敏感文本的文本。具体地，步骤s102的实现可以是：读取非敏感词库、停用词库和敏感词扩充库，输入目标检测文本；针对敏感词扩充库中要检测的不同敏感类型和非敏感类型，分别建立一个检测对象；对于每一个检测对象，将对应的敏感词表添加至ac自动机中，分别创建各自的字典树；此后基于字典树对目标检测文本进行检测，即，ac自动机对目标检测文本进行字典树中包含的敏感词进行匹配，以确定是否从目标检测文本检出的关键词均为非敏感词。
30.步骤s103：若从目标检测文本检出的关键词均为非敏感词，则确定目标检测文本为非敏感文本。
31.若经步骤s102，从目标检测文本检出的关键词均为非敏感词，则确定目标检测文本为非敏感文本。此处需要说明的是，从目标检测文本检出的关键词均为非敏感词，当然可以直接确定目标检测文本为非敏感文本，但反之，若目标检测文本尚未检测到非敏感词，则不能确定目标检测文本是否为非敏感文本。这种情况下，需要进一步检测，即，流程进入后续步骤s104。
32.步骤s104：若从目标检测文本尚未检测到非敏感词，则对目标检测文本进行预处理，并对预处理后的目标检测文本继续检测。
33.如前所述，从目标检测文本检出的关键词均为非敏感词，则可以直接确定目标检测文本为非敏感文本。然而，多种因素可以导致不能从目标检测文本检测非敏感词，因此，若从目标检测文本尚未检测到非敏感词，并不意味着目标检测文本为非敏感文本，需要对目标检测文本进行进一步检测。在本技术实施例中，若从目标检测文本尚未检测到非敏感词，则对目标检测文本进行预处理，并对预处理后的目标检测文本继续检测，具体可以是：使用分隔符对目标检测文本进行分句，得到j个分句；以i种敏感类型为目标敏感类型，对j个分句逐个进行敏感词检测，直至输出敏感词组合或者输出空的结果，其中，j为大于等于1的整数。直至输出敏感词组合结果或者输出空的结果，意味着输出敏感词组合的结果，或者，因为确实从目标检测文本没有检测到敏感词，则输出空的结果。上述实施例中，使用分
隔符对目标检测文本进行分句，得到j个分句实际包括两种情况，具体是判断目标检测文本的字符总数是否大于预设数值(例如，100个字符)，若是，则以中文或英文的分号、感叹号、疑问号、冒号、中文句号、换行符为分隔符对目标检测文本进行分句；若目标检测文本的字符总数不大于预设数值(例如，100个字符)，则以换行符为分隔符对目标检测文本进行分句。
34.至于以i种敏感类型为目标敏感类型，对j个分句逐个进行敏感词检测，直至输出敏感词组合结果或者输出空的结果，作为本技术一个实施例，可以通过步骤s11至步骤s18实现，详细说明如下：
35.步骤s11：以i种敏感类型的第i种敏感类型为目标敏感类型，采用第一敏感词检测算法对j个分句中第j个分句进行敏感词检测，其中，i＝1，2，
…
，i，j＝1，2，
…
，j。
36.此处，i为1，2，
…
，i中任意一个数值，意味着本技术的技术方案的实施可以是从i种敏感类型的任何一种敏感类型为目标敏感类型开始；不失一般性，可以从i为1开始，采用第一敏感词检测算法对j个分句中第j个分句进行敏感词检测；同理，对于数值j的，意味着本技术的技术方案的实施可以是从j个分句中任何一个分句开始进行敏感词检测；不失一般性，可以从j为1开始即第1个分句开始对目标检测文本进行敏感词检测。
37.步骤s12：若从第j个分句检测出敏感词，则对第j个分句进行停用词处理，得到第j个已停用词处理分句。
38.所谓对分句进行停用词处理，是指采用计算机程序或者人工手段将分句中对敏感词检测价值不大的字词(例如，汉语中的语气助词、副词、介词、连词等，英语中的“i”、“is”、“a”、“the”等)滤除，以使最后剩下的分句中的字词都是具有实际意义的字词。对分句进行停用词处理，不仅能够显著降低后续流程的工作量，而且由于干扰量变少，可以提升对敏感词检测的准确性。
39.步骤s13：若从第j个已停用词处理分句检测出敏感词，则采用第二敏感词检测算法对第j个已停用词处理分句再次进行敏感词检测。
40.步骤s14：若采用第二敏感词检测算法对第j个已停用词处理分句再次进行敏感词检测时检测出敏感词，则保留敏感词检测结果。
41.由于步骤s14只是对第j个已停用词处理分句再次进行敏感词检测，尚未完成全部j个分句的敏感词检测，因此，需要保留敏感词检测结果，以待全部j个分句都完成敏感词检测后再进一步处理。
42.步骤s15：将j增1后跳转至步骤s11。
43.将j增1后跳转至步骤s11，意味着以i种敏感类型的第i种敏感类型为目标敏感类型，采用第一敏感词检测算法，重新开始对j个分句中第j 1个分句进行敏感词检测。
44.步骤s16：循环上述步骤s11至步骤s15，直至j个分句检测完毕后将i增1后跳转至步骤s11。
45.循环上述步骤s11至步骤s15，意味着在目标敏感类型不变(以第i种敏感类型为目标敏感类型)的情况下，按照步骤s11至步骤s15的技术方案，逐个对j个分句进行敏感词检测，直至j的数值增加至j为止。
46.步骤s17：循环上述步骤s11至步骤s16，直至以i种敏感类型为目标敏感类型对j个分句检测完毕。
47.循环上述步骤s11至步骤s17，意味着在检测对象不变(j个分句)的情况下，按照步骤s11至步骤s17的技术方案，改变目标敏感类型(将i进行增1操作)对j个分句进行敏感词检测，直至i的数值增加至i为止。
48.步骤s18：将上述每一次循环后保留的敏感词检测结果进行组合，输出敏感词组合结果。
49.如前所述，每当经过步骤s14，则保留敏感词检测结果；待以i种敏感类型为目标敏感类型对j个分句检测完毕，将上述每一次循环后保留的敏感词检测结果进行组合，输出敏感词组合结果。需要说明的是，若每一次循环后都没有检测到敏感词，则输出空的结果。
50.作为本技术一个实施例，上述采用第一敏感词检测算法对j个分句中第j个分句进行敏感词检测可以通过步骤s21至步骤s27实现，详细说明如下：
51.步骤s21：利用ac自动机对第j个分句进行敏感词检测，得到敏感词列表。
52.在本技术实施例中，敏感词列表列出了利用ac自动机对第j个分句进行敏感词检测的结果即包含哪些检出的敏感词。
53.步骤s22：若敏感词列表的字符数量与第j个分句的字符数量之比大于预设值，则将敏感词列表组合成敏感词检测结果字典，否则输出空字典。
54.例如，若敏感词列表的字符数量与第j个分句的字符数量之比大于预设值，例如50(或其它预设值)，则可以将敏感词列表组合成敏感词检测结果字典，否则输出空字典。
55.步骤s23：若敏感词检测结果字典中每一个敏感词的字符长度不大于2、为英文字符串或数字字符串，则执行步骤s24，否则执行步骤s27。
56.步骤s24：对第j个分句进行分词，得到分词列表。
57.步骤s25：若分词列表包含敏感词检测结果字典中的敏感词，则执行步骤s26，否则执行步骤s27。
58.步骤s26：返回敏感词检测结果字典。
59.此处，返回敏感词检测结果字典即输出敏感词检测结果字典。
60.步骤s27：判定敏感词检测结果为非敏感词。
61.作为本技术一个实施例，上述采用第二敏感词检测算法对第j个已停用词处理分句再次进行敏感词检测可以是：基于敏感词扩充库和非敏感词库创建二维列表；基于敏感词列表中q个敏感词和二维列表中p个敏感词组合，对第j个已停用词处理分句进行循环检测，直至检测出敏感词，其中，敏感词列表为上述实施例中采用第一敏感词检测算法对j个分句中第j个分句进行敏感词检测得到的列表。需要说明的是，上述实施例中，二维列表的每一行分别对应一种敏感词组合，二维列表的每一列对应一种敏感类型集合，对应地，基于敏感词扩充库和非敏感词库创建二维列表可以是：将敏感词扩充库的单敏感词置入二维列表的第一敏感类型集合中，并将二维列表的第二敏感类型集合和第三敏感类型集合置为空；或者将敏感词扩充库的多敏感词对中的实体词置入二维列表的第一敏感类型集合中，并将多敏感词对中的情感词置入二维列表的第二敏感类型集合中；以及若多敏感词对中存在否定词，则将这些否定词置入二维列表的第三敏感类型集合中。上述实施例中，第一敏感类型集合、第二敏感类型集合或第三敏感类型集合分别表示一种敏感词的组合类型即敏感词组合。可以理解的是，二维列表可以不止包括上述三种敏感类型集合，还可以包括更多的敏感类型集合。以二维列表包括三种敏感类型集合为例，基于敏感词扩充库和非敏感词库
创建的二维列表举例如下：
[0062][0063]
更为具体的例子(仅作为参考，并非真实的数据)如下：
[0064]
二维列表＝[[{纽约，旧金山，波士顿，
……
}，{房价高，脏乱差，
……
}，{并非，不是，
……
}]，[{亚马逊，netflix，
……
}，{假货多，发货慢，
……
}，{}]，[{falungong}，{}，{}]，
……
]。
[0065]
至于上述实施例中的基于敏感词列表中q个敏感词和二维列表中p个敏感词组合，对第j个已停用词处理分句进行循环检测，直至检测出敏感词，具体可以通过步骤s301至步骤s314实现，以下以一个敏感词组合包含三个敏感类型集合(第一敏感类型集合、第二敏感类型集合和第三敏感类型集合)为例详细说明如下：
[0066]
步骤s301：从创建的二维列表中第p个敏感词组合开始。
[0067]
步骤s302：上述实施例的步骤s21得到的敏感词列表第q个敏感词开始。
[0068]
步骤s303：若第p个敏感词组合中第二敏感类型集合为空，则执行步骤s304，否则，跳转至步骤s305。
[0069]
步骤s304：判断第q个敏感词是否包含于第p个敏感词组合的第一敏感类型集合，若是，则返回为结果“真”，否则，跳转至步骤s314。
[0070]
步骤s305：若第p个敏感词组合的第三敏感类型集合为空，则执行步骤s306，否则，跳转至步骤s309。
[0071]
步骤s306：判断第q个敏感词是否包含于第p个敏感词组合的第一敏感类型集合中，若是，则count_11自增1，即记count_11＝count_11 1。
[0072]
步骤s307：判断第q个敏感词是否包含于第p个敏感词组合的第二敏感类型集合中，若是，则count_12自增1，即记count_12＝count_12 1。
[0073]
步骤s308：判断count_11》0以及count_12》0是否成立，是则返回结果“真”，否则跳转至步骤s315。
[0074]
步骤s309：判断第q个敏感词是否包含于第p个敏感词组合的第一敏感类型集合中，若是，则count_21自增1，即记count_21＝count_21 1。
[0075]
步骤s310：判断第q个敏感词是否包含于第p个敏感词组合的第二敏感类型集合中，若是，则count_22自增1，即记count_22＝count_22 1。
[0076]
步骤s311：判断第q个敏感词是否包含于第p个敏感词组合的第三敏感类型集合中，若是，则count_23自增1，即记count_23＝count_23 1。
[0077]
步骤s312：判断count_21》1、count_22》1以及count_23》1是否成立，若是，则返回结果“真”，否则，跳转至步骤s315。
[0078]
步骤s313：判断第q个敏感词是否为步骤s21得到的敏感词列表中最后一个敏感词，若是，则跳转至步骤s315，否则，q自增1即q＝q 1，并跳转至步骤302。
[0079]
步骤s314：判断第p个敏感词组合是否为创建的二维列表中最后一个敏感词组合，
若是，则跳转至步骤s315，否则，p自增1即p＝p 1，并跳转至步骤301。
[0080]
步骤s315：返回结果“假”。
[0081]
从上述附图1示例的敏感词检测方法可知，由于对目标检测文本进行检测所依赖的库，不仅包括非敏感词库和停用词库，而且包括基于敏感词扩充算法对基础敏感词库进行扩充得到的敏感词扩充库，因此，本技术提供的技术方案可以检测出诸如形近、音近、繁体、拼音、近义、反义或倒序等变体，即能够检测具有多种敏感类型和复杂组合的敏感词，具有检测速率高、误报率低和召回率高等显著优势。
[0082]
请参阅附图2，是本技术实施例提供的一种敏感词检测装置，可以包括扩充模块201、第一检测模块202、确定模块203和第二检测模块204，详述如下：
[0083]
扩充模块201，用于基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库，其中，敏感词扩充库包括按照不同组合规则构成的i种敏感类型的单敏感词和/或多敏感词对，i为大于1的整数；
[0084]
第一检测模块202，用于基于非敏感词库、停用词库和所述敏感词扩充库，检测目标检测文本；
[0085]
确定模块203，用于若从目标检测文本检出的关键词均为非敏感词，则确定目标检测文本为非敏感文本；
[0086]
第二检测模块204，用于若从目标检测文本尚未检测到非敏感词，则对目标检测文本进行预处理，并对预处理后的目标检测文本继续检测。
[0087]
从上述附图2示例的敏感词检测装置可知，由于对目标检测文本进行检测所依赖的库，不仅包括非敏感词库和停用词库，而且包括基于敏感词扩充算法对基础敏感词库进行扩充得到的敏感词扩充库，因此，本技术提供的技术方案可以检测出诸如形近、音近、繁体、拼音、近义、反义或倒序等变体，即能够检测具有多种敏感类型和复杂组合的敏感词，具有检测速率高、误报率低和召回率高等显著优势。
[0088]
图3是本技术一实施例提供的设备的结构示意图。如图3所示，该实施例的设备3主要包括：处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32，例如敏感词检测方法的程序。处理器30执行计算机程序32时实现上述敏感词检测方法实施例中的步骤，例如图1所示的步骤s101至s104。或者，处理器30执行计算机程序32时实现上述各装置实施例中各模块/单元的功能，例如图2所示扩充模块201、第一检测模块202、确定模块203和第二检测模块2045的功能。
[0089]
示例性地，敏感词检测方法的计算机程序32主要包括：基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库，其中，敏感词扩充库包括按照不同组合规则构成的i种敏感类型的单敏感词和/或多敏感词对，i为大于1的整数；基于非敏感词库、停用词库和所述敏感词扩充库，检测目标检测文本；若从目标检测文本检出的关键词均为非敏感词，则确定目标检测文本为非敏感文本；若从目标检测文本尚未检测到非敏感词，则对目标检测文本进行预处理，并对预处理后的目标检测文本继续检测。计算机程序32可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器31中，并由处理器30执行，以完成本技术。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序32在设备3中的执行过程。例如，计算机程序32可以被分割成扩充模块201、第一检测模块202、确定模块203和第二检测模块204(虚拟装置中的模
块)的功能，各模块具体功能如下：扩充模块201，用于基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库，其中，敏感词扩充库包括按照不同组合规则构成的i种敏感类型的单敏感词和/或多敏感词对，i为大于1的整数；第一检测模块202，用于基于非敏感词库、停用词库和所述敏感词扩充库，检测目标检测文本；确定模块203，用于若从目标检测文本检出的关键词均为非敏感词，则确定目标检测文本为非敏感文本；第二检测模块204，用于若从目标检测文本尚未检测到非敏感词，则对目标检测文本进行预处理，并对预处理后的目标检测文本继续检测。
[0090]
设备3可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解，图3仅仅是设备3的示例，并不构成对设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算设备还可以包括输入输出设备、网络接入设备、总线等。
[0091]
所称处理器30可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0092]
存储器31可以是设备3的内部存储单元，例如设备3的硬盘或内存。存储器31也可以是设备3的外部存储设备，例如设备3上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。进一步地，存储器31还可以既包括设备3的内部存储单元也包括外部存储设备。存储器31用于存储计算机程序以及设备所需的其他程序和数据。存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
[0093]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即，将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0094]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0095]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0096]
在本技术所提供的实施例中，应该理解到，所揭露的装置/设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/设备实施例仅仅是示意性的，例如，模块或单元
的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0097]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0098]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0099]
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非临时性计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，敏感词检测方法的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤，即，基于敏感词扩充算法对基础敏感词库进行扩充，得到敏感词扩充库，其中，敏感词扩充库包括按照不同组合规则构成的i种敏感类型的单敏感词和/或多敏感词对，i为大于1的整数；基于非敏感词库、停用词库和所述敏感词扩充库，检测目标检测文本；若从目标检测文本检出的关键词均为非敏感词，则确定目标检测文本为非敏感文本；若从目标检测文本尚未检测到非敏感词，则对目标检测文本进行预处理，并对预处理后的目标检测文本继续检测。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。非临时性计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读内存(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，非临时性计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，非临时性计算机可读介质不包括电载波信号和电信信号。以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。以上所述的具体实施方式，对本技术的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本技术的具体实施方式而已，并不用于限定本技术的保护范围，凡在本技术的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种干扰信号滤除方法、装置、电子设备及存储介质与流程

敏感词检测方法、装置、设备和计算机可读存储介质与流程

相关文献

最热文献