一种实现文本内容安全审核的方法及装置与流程

2022-02-22 02:41:52 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种实现文本内容安全审核的方法及装置。

背景技术：

2.在健康医疗领域中，问诊平台为医生和患者提供了在线交流的平台，医生和患者在问诊平台中可以通过文字、语音或者视频等方式进行互动交流。
3.问诊平台接收用户自主提问的问题和医生回答的文字内容，这些文字内容的存在一定的违规风险，需要对内容全部进行审核操作。如果所有的文字内容均采用人工审核则要耗费大量的人力成本，同时在审核过程中可能出现时间过长，使得用户无法及时看到提问的内容或医生的回复，严重影响用户体验，如文字内容为“吗啡片能和其他镇痛药物一起吃吗？”。如果出现上述的分险内容，网监等监管部门发现后会发出警告，如情节严重会关闭网站。
4.上述的内容中，其中吗啡片是违禁药品，不允许出现相关内容，如出现相关内容需要即时删除。同时，用户均按照自身的语言习惯在平台上进行提问，会在提问过程中增加一些不雅、口语化的内容描述，这些内容均会对普通用户的阅读和医生的查看回复造成一定的困惑，需要对不雅和口语化的内容在不改变用户提问或医生回复意思的基础上实现替换操作。

技术实现要素：

5.本技术提供了一种实现文本内容安全审核的方法及装置，以解决现有医疗健康领域文本安全审核时间长、误删率高等问题。
6.第一方面，为实现上述目的，本技术提供了一种实现文本内容安全审核的方法，所述方法包括：
7.获取审核内容，根据内容id确定所述审核内容是否有审核记录；
8.如果所述审核内容的页面正常，没有审核记录则对所述审核内容进行关键词过滤；
9.如果关键词过滤后，所述审核内容中无敏感词，则确定所述审核内容是否存在科室敏感词；
10.如果没有科室敏感词，则拆分所述审核内容，获取拆分后内容；
11.对所述拆分后内容进行ai审核获取审核结果。
12.进一步地，所述根据内容id确定所述审核内容是否有审核记录，包括：
13.确定所述审核内容的页面状态及审核状态。
14.进一步地，所述审核内容进行关键词过滤，包括：
15.对所述审核内容进行敏感关键词过滤；
16.如果有敏感关键词，则标记为高风险和更新审核状态。
17.如果没有敏感关键词，再进行敏感关键词组合过滤；
18.如果有敏感关键词组合，则标记为高风险和更新审核状态。
19.进一步地，所述拆分所述审核内容，获取拆分后内容，包括：
20.获取审核内容的正文和标题，标记所述标题的序号；
21.进一步地，对所述拆分后内容进行ai审核获取审核结果之后，还包括：
22.对所述审核结果进行拼接获取目标文本。
23.第二方面，为实现上述目的，本技术提供了一种实现文本内容安全审核的装置，所述装置包括：
24.内容状态识别模块，用于获取审核内容，根据内容id确定所述审核内容是否有审核记录；
25.核心关键词过滤模块，用于如果所述审核内容的页面正常，没有审核记录则对所述审核内容进行关键词过滤；
26.科室违规内容审核模块，用于如果关键词过滤后，所述审核内容中无敏感词，则确定所述审核内容是否存在科室敏感词；
27.分拆内容模块，用于如果没有科室敏感词，则拆分所述审核内容，获取拆分后内容；
28.ai审核模块，用于对所述拆分后内容进行ai审核获取审核结果。
29.进一步地，所述内容状态识别模块还用于：
30.确定所述审核内容的页面状态及审核状态。
31.进一步地，所述核心关键词过滤模块，还用于：
32.对所述审核内容进行敏感关键词过滤；
33.如果有敏感关键词，则标记为高风险和更新审核状态。
34.如果没有敏感关键词，再进行敏感关键词组合过滤；
35.如果有敏感关键词组合，则标记为高风险和更新审核状态。
36.进一步地，所述分拆内容模块，还用于：
37.获取审核内容的正文和标题，标记所述标题的序号；
38.进一步地，所述的实现文本内容安全审核的装置还包括：
39.内容拼接模块，用于对所述审核结果进行拼接获取目标文本。
40.第三方面，为实现上述目的，本技术提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项实现文本内容安全审核的方法的步骤。
41.第四方面，为实现上述目的，本技术提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面任一项实现文本内容安全审核的方法的步骤。
42.由以上技术方案可见，本技术实施例提供的本技术实施例提供的一种实现文本内容安全审核的方法及装置，通过获取审核内容，根据内容id确定所述审核内容是否有审核记录；如果所述审核内容的页面正常，没有审核记录则对所述审核内容进行关键词过滤；如果关键词过滤后，所述审核内容中无敏感词，则确定所述审核内容是否存在科室敏感词；如果没有科室敏感词，则拆分所述审核内容，获取拆分后内容；对所述拆分后内容进行ai审核
获取审核结果，对医疗健康领域的用户提问内容和医生回答内容进行快速审核，把出现的违规或不雅的内容优先对其进行修改操作，无法修改的则采用删除操作，使得文本内容既符合审核要求，净化网站内容，也减少口语化与不雅的内容展示，使得内容更符合用户的阅读习惯。
43.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
44.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供的实现文本内容安全审核的方法的流程示意图；
46.图2为本技术实施例提供的审核记录的流程示意图；
47.图3为本技术实施例提供的文本安全审核的全流程示意图；
48.图4为本技术实施例提供的实现文本内容安全审核的装置的结构示意图。
具体实施方式
49.下面通过对本技术进行详细说明，本技术的特点和优点将随着这些说明而变得更为清楚、明确。
50.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。
51.在本技术的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“前”、“后”、“左”和“右”等指示的方位或位置关系为基于本技术工作状态下的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。此外，术语“第一”、“第二”、“第三”和“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性。
52.问诊时，用户根据自身具体症状进行提问、医生根据用户提问的详细信息进行回复均有可能触发问诊平台的内容审核规则，使得内容无法通过审核进而无法显示，此时需要对违规内容进行删除或修改后才可以正常显示。同时由于用户的不同语言习惯会导致在问诊平台上提问时增加不雅的、口语化的描述，对普通用户的阅读和医生的查看回复造成一定的困惑。
53.目前，类似的内容审核系统有关键词过滤系统和通用型人工智能审核系统。关键词过滤系统是通过把用户发表的内容(用户的提问和医生的回复)与敏感关键词库进行对比，把出现有敏感关键词的文本内容进行删除处理。但在医疗健康领域，很多的人体器官名称会被设置为敏感关键词，最后会导致很多用户正常提问内容被误删，严重
54.通用型人工智能审核系统则为针对全行业的内审核，虽然可以对存在风险的内容或不雅、口语化的内容进行删除操作，但在医疗健康领域，通用型的人工智能审核系统对正常的医学问题也存在误删，无法实现在医疗健康的精准审核和最大限度的保留用户提问和
医生回复的内容。其次通用类型的审核系统均为通过长句的方式对内容进行审核，其准确度会随文本长度增加使得识别违规内容的精确度降低。
55.为解决上述问题，本技术提供了一种实现文本内容安全审核的方法及装置，下面结合附图，详细介绍本技术的具体实施例。
56.图1为本技术实施例提供的一种实现文本内容安全审核的方法的流程示意图，如图1所示，所述方法包括步骤s101至s106。
57.s101：获取审核内容，根据内容id确定所述审核内容是否有审核记录。
58.具体地，所述根据内容id确定所述审核内容是否有审核记录，包括：
59.确定所述审核内容的页面状态及审核状态。
60.具体实施时，在审核帖子即审核内容时，首先通过该帖子的id获取当前帖子的页面状态和历史审核记录信息中的审核状态，通过上述的两个状态判断审核内容是否需要重新进入机器审核状态还是不需要进入重新审核状态，具体的审核记录的流程如图2所示。
61.审核帖子前，会先识别页面是否可以正常显示，如为非正常展示的内容，则需要更新审核记录表，把审核内容记录为删除状态，同时标记为高优先审核状态。
62.历史审核状态分为人工审核状态和机器审核状态两种，其中人工审核状态标记为高优先级审核状态，通过系统自动审核的内容标记为低优先级审核状态。已标记为高优先级审核状态的内容重新进入审核系统进行审核，不需要重新对内容进行审核，维持原系统的正常状态。
63.在内容审核记录中，审核内容的高优先审核状态只允许高优先审核操作进行修改；低优先级审核状态可以被任何的审核操作进行修改。审核内容经过系统审核后，需要记录该内容的审核结果及低优先级审核状态，为后续内容识别提供数据支撑。
64.s102：如果所述审核内容的页面正常，没有审核记录则对所述审核内容进行关键词过滤。
65.通过步骤s101的页面状态和审核记录对比，所述审核内容无审核记录、页面显示正常，则再对审核内容进行关键词的过滤。
66.具体地，对所述审核内容进行关键词过滤，包括：
67.s2001：对所述审核内容进行敏感关键词过滤；
68.s2002：如果有敏感关键词，则标记为高风险和更新审核状态。
69.s2003：如果没有敏感关键词，再进行敏感关键词组合过滤；
70.s2004：如果有敏感关键词组合，则标记为高风险和更新审核状态。
71.具体实施时，敏感关键词及敏感关键词组合预设在系统中，其中敏感关键词组合多为2个或以上敏感关键词组合而成。
72.过滤时，需要先获取审核内容包含的关键词，再将该关键词与预设在系统中的敏感关键词比对，如果匹配上，则将帖子标记为高风险，直接对帖子进行删除处理，并标记为已审核状态。如帖子内容为“吗啡片能和其他镇痛药物一起吃吗？”，其中提取出关键词“吗啡”，预存的系统中检索到对应的敏感关键词，因此，该帖子内容违规，需要删除处理。
73.如果匹配不上，即帖子没有出现违规后再进行敏感关键词组合的匹配。如帖子内容为“我服用了五颗安眠药会不会有事？”，提取关键词“服用、安眠药”，预存的系统中检索到对应的敏感关键词组合，故该帖子为违规帖子，需要删除处理。如果帖子内容在关键词过
滤审核中，没出现相关的关键词或关键词组合则进行下一步的内容审核。
74.由于在医疗健康领域中，人体器官名称会被列入为敏感关键词，而使用该方法对内容审核会出现很多正常的医学层面提问和医生回复的内容都会被删除，严重影响用户的体验。同时需要不断地维护一个庞大的关键词词库来实现对敏感内容的审核，随着系统启用时间增加，关键词库的不断增加，会影响整体的审核效率，也会占用大量的人力成本对关键词库进行维护，严重影响审核的效率和精确度。通过把用户提问与医生回复的内容与敏感关键词进行匹配，把有敏感关键词的内容进行删除操作，避免了误删操作。
75.s103：如果关键词过滤后，所述审核内容中无敏感词，则确定所述审核内容是否存在科室敏感词。
76.针对健康医疗领域，有部分涉及违规内容的敏感关键词在部分的科室中为正常的提问或正常的医学观点，均为正常的内容，因此对其不需要进行删除处理。
77.具体实施时，在系统中预存可能出现的科室敏感词。获取审核内容对应的科室，将审核内容与预存的科室敏感词进行匹配过滤。如果审核内容中出现科室敏感词，则把审核内容的审核状态记录为低风险状态，不对帖子进行删除处理。如帖子内容为“盐酸达泊西汀这个药物吃多少能治好早泄呢？”，帖子所在科室为：男科，对应提取出敏感词为“早泄”，由于“早泄”关键词在男科中为正常的医学讨论，该帖子为正常帖子，不需要删除处理。
78.s104：如果没有科室敏感词，则拆分所述审核内容，获取拆分后内容。
79.具体实施时，如果审核内容无科室敏感词，则进行ai审核，在审核之前需对审核内容做相应的处理，使ai审核更快速和精准。
80.具体地，拆分所述审核内容，获取拆分后内容包括：
81.s4001：获取审核内容的正文和标题，标记所述标题的序号；
82.s4002：对所述审核内容的正文进行分词拆分，获取短句，并标记短句对应的序号。
83.具体实施时，将审核内容的长句拆分成短句的精度读决定了后续内容审核的精度，因此本技术采用基于hmm的中文分词法，其分词方法引入了hmm和分词词典的融合对中文进行分词的方法，解决基于词典的中文分词过于依赖词典，容易造成歧义，导致错误切分，从而使得分词准确率低的问题。另外分词准确率也依赖于训练语料库，通过二者结合能大大提高将长句拆分为短句的准确性。
84.由于帖子的标题长度有限，故不需要将其拆分为短句进行审核，把其作为一个独立的句子，并把其顺序标记为0。
85.通过hmm分词法，把审核内容的长句按照语意分拆为有独立语义的短句，同时记录每个短句的顺序。如审核内容的标题为“哺乳期可以服用什么清热解毒的药吗？”，审核内容的正文为“怀孕后，辞职在家，本以为生产后可以好好养身子，谁知道待在家里却上火了，哺乳期可以服用什么清热解毒的药吗？”，通过hmm分词拆分后得到如下结果：
86.内容顺序哺乳期可以服用什么清热解毒的药吗？0怀孕后1辞职在家2本以为生产后可以好好养身子3谁知道待在家里却上火了4
哺乳期可以服用什么清热解毒的药吗5
87.s105：对所述拆分后内容进行ai审核获取审核结果。
88.具体实施时，通过大量的数据样本，对text cnn模型进行训练，得到违规内容审核、不雅用语和口语化用语识别模型，用于对分拆好的短句进行过滤筛选，并标记具体的结果。
89.采用text cnn模型构建审核ai模块，主要由于text cnn模型对文本浅层特征的抽取能力很强，在文本领域如搜索、对话领域专注于意图分类时效果很好，应用广泛，且速度快
90.采具体实施时，使用大量通过人工审核后得到的结果内容对模型进行违规内容审核的训练。对人工审核的内容及在关键词模块审核中出现违规的内容反馈到ai模块中，不断地进行机器学习，完善对违规内容审核的准确性。
91.通过ai模块，对拆分后内容进行审核，并把存在风险的内容标记为1，没风险的内容标记为0。如下：
92.内容顺序结果晚上需要服用超过5到6片安眠药才可以入睡012018年被确诊为抑郁症10我现在上大二了20晚上需要服用超过5到6片安眠药才可以入睡31白天就是感觉头部很难受40好像什么压着自己喘不过起气来50我很想轻轻松松活着60我该怎么办70
93.对所述拆分后内容进行ai审核获取审核结果后，还包括：
94.s106：对所述审核结果进行拼接获取目标文本。
95.具体实施时，通过ai审核的句内容，按照审核结果和具体句的顺序，依次对句进行拼接，获取对违规内容审核后的目标文本。
96.根据ai审核的结果，把审核结果为0的，按照原帖拆分的顺序依次拼接，短句之间使用中文“，”进行隔开，并在句子结尾已中文的“？”结束。之后标记审核状态，把帖子按照ai的审核结果进行拼接后，对比ai的审核结果。如所句的审核结果均为正常内容，需要把该贴标记为“正常帖子，不需要更新”。如帖子标题为存在风险但帖子所有句非均有风险或帖子标题为无风险同时帖子内容为均有风险，这需要把帖子标记为该帖子为“有风险，需要对帖子进行修改”。如帖子标题和主要内容均有风险，需要把帖子标记为“该帖子存在风险，需要删除处理”，并输出审核建议。
97.如原帖内容：
98.标题：晚上需要服用超过5到6片安眠药才可以入睡
99.内容：2018年被确诊为抑郁症，我现在上大二了，晚上需要服用超过5到6片安眠药才可以入睡，白天就是感觉头部很难受，好像什么压着自己喘不过起气来，我很想轻轻松松活着，我该怎么办。
100.ai审核后的审核结果如下表：
101.内容顺序结果处理晚上需要服用超过5到6片安眠药才可以入睡01删除2018年被确诊为抑郁症10保留我现在上大二了20保留晚上需要服用超过5到6片安眠药才可以入睡31删除白天就是感觉头部很难受40保留好像什么压着自己喘不过起气来50保留我很想轻轻松松活着60保留我该怎么办70保留
102.拼接后的内容如下：
103.标题：空
104.内容：2018年被确诊为抑郁症，我现在上大二了，白天就是感觉头部很难受，好像什么压着自己喘不过起气来，我很想轻轻松松活着，我该怎么办？
105.由于帖子标题为空，故取内容的指定的前60个字符(30个中文字)作为标题。最后的结果如下：
106.修改后的标题：2018年被确诊为抑郁症，我现在上大二了
107.修改后的内容：2018年被确诊为抑郁症，我现在上大二了，白天就是感觉头部很难受，好像什么压着自己喘不过起气来，我很想轻轻松松活着，我该怎么办？
108.本技术针对医疗健康领域的用户提问内容和医生回答内容进行快速审核，把出现的违规或不雅的内容优先对其进行修改操作，无法修改的则采用删除操作，使得文本内容既符合审核要求，净化网站内容，也减少口语化与不雅的内容展示，使得内容更符合用户的阅读习惯。图3为一实施例提供的文本安全审核的全流程示意图。
109.与本技术提供的一种实现文本内容安全审核的方法实施例相对应，本技术还提供一种实现文本内容安全审核的装置的实施例。参考图4，为本技术实施例提供的一种实现文本内容安全审核的装置的结构示意图，所述装置包括：
110.内容状态识别模块100，用于获取审核内容，根据内容id确定所述审核内容是否有审核记录；
111.核心关键词过滤模块200，用于如果所述审核内容的页面正常，没有审核记录则对所述审核内容进行关键词过滤；
112.科室违规内容审核模块300，用于如果关键词过滤后，所述审核内容中无敏感词，则确定所述审核内容是否存在科室敏感词；
113.分拆内容模块400，用于如果没有科室敏感词，则拆分所述审核内容，获取拆分后内容；
114.ai审核模块500，用于对所述拆分后内容进行ai审核获取审核结果。
115.进一步地，所述内容状态识别模块100还用于：
116.确定所述审核内容的页面状态及审核状态。
117.进一步地，所述核心关键词过滤模块200，还用于：
118.对所述审核内容进行敏感关键词过滤；
119.如果有敏感关键词，则标记为高风险和更新审核状态。
120.如果没有敏感关键词，再进行敏感关键词组合过滤；
121.如果有敏感关键词组合，则标记为高风险和更新审核状态。
122.进一步地，所述分拆内容模块400，还用于：
123.获取审核内容的正文和标题，标记所述标题的序号；
124.进一步地，所述的实现文本内容安全审核的装置还包括：
125.内容拼接模块600，用于对所述审核结果进行拼接获取目标文本。
126.本技术把健康领域的长文本内容审核拆分为几个步骤依次审核。由于健康领域的内容存在特殊性，首先通过关键词组合对涉及最敏感的内容进行删除标记，其次通过科室违规内容进行审核把涉及高危的内容进行删除标记，把不涉及敏感关键词和科室违规内容的其他帖子通过把长文本按照原内容的顺序把长文本依次分拆为短文本，并依次通过ai进行审核，最后把审核结果依次拼接为新的长文本内容，最大限度地保证内容的可读性，减少内容的删除。
127.最后，通过该方法审核得到的原文本的处理建议，并通过接口形式把相关的处理建议反馈到对应的业务系统进行自动处理，大大减少人为对内容审核的标准不确定性和提高内容审核速度。
128.根据上述实现文本内容安全审核的方法，本技术实施例还提供一种可读存储介质和一种计算机设备。可读存储介质上存储有可执行程序，该程序被处理器执行时实现上述实现文本内容安全审核的方法的步骤；计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行程序，处理器执行程序时实现上述实现文本内容安全审核的方法的步骤。
129.以上结合具体实施方式和范例性实例对本技术进行了详细说明，不过这些说明并不能理解为对本技术的限制。本领域技术人员理解，在不偏离本技术精神和范围的情况下，可以对本技术技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本技术的范围内。本技术的保护范围以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种实现文本内容安全审核的方法及装置与流程

相关文献

最热文献