一种基于自然语言处理的内容审核系统的制作方法

2022-12-13 22:05:20 来源：中国专利 TAG：

1.本发明涉及一种内容审核系统，特别涉及一种基于自然语言处理的内容审核系统。

背景技术：

2.随着5g网络的发展，包括文本、语音、视频甚至ar/vr等丰富形式的信息传播更加便捷和迅速，而通过数字阅读方式了解信息的用户数量大量增加：根据2019年度相关数据研究机构发布的报告，我国数字阅读用户达7.4亿，相较于前年增长了1.4个百分点。与此同时，大数据时代下数据内容良莠不齐的情况频出，如何检测不良信息并保留精品内容，是数字出版工作的内容审核部分面临的挑战。
3.另一方面，自然语言处理技术是研究人与机器间进行通信交流的一门技术，是人工智能和机器学习领域应用的热点方向。其中，语音识别、语义分析、文本摘要等算法常常应用于文本分类、信息过滤与信息检索等系统应用。
4.传统的内容审核工作多是人工审核的方式，往往完成内容审核耗时耗力，还会随着个人的评判标准不同出现偏差和争议，而信息传播方式的丰富注定了内容审核工作也需要不同的模式创新。随着人工智能技术的逐步落地应用，基于人工智能的文本、图像、语音、视频审核可以更加高效，在百度、阿里巴巴、今日头条等知名公司已经试着投入采用“ai 人工”的方式在保证有监督的情况下最大限度地解放人力。

技术实现要素：

5.针对上述问题，本发明提供一种基于自然语言处理的内容审核系统，可以实现对新型信息内容的审核工作，基于“ai 人工”形式，将人工智能技术应用于数字出版工作，充分发挥自然语言处理、图像识别、机器学习等技术的技术优点，提供一种创新的内容审核系统机制。
6.本发明的目的通过以下技术方案实现：系统包含四大板块：文字审核模块、语音审核模块、图像审核模块、视频审核模块；系统采用的审核机制为首先根据不同形式的内容分模块进行机器审核，然后进行人工复审，最后进行人工抽查；所述的文字审核模块和语音审核模块涉及到自然语言处理技术、机器学习相关算法实现文本语义分析和文本分类；所述的图像审核模块实现对不同图像的分类和标签化；所述的视频审核模块基于文字审核、语音审核、图像审核三大模块实现对视频进行文字、图像、音频等组成因素的分类与审核的功能。
7.所述的内容审核系统包含了功能模块示意图。
8.进一步地，所述的文字审核模块包含文字摘要、关键词提取、语义识别、文本分类等不同功能。
9.进一步地，所述的语音审核模块包含语音识别、语音转换、语义识别、文本分类等不同功能。
10.进一步地，所述的图像审核模块包含图像识别、目标检测、特征检索、图像分类等不同功能。
11.进一步地，所述的视频审核模块包含物体检测、动作识别、语音识别、视频分类等不同功能。
12.进一步地，所述的审核模块基于与自然语言处理相关的神经网络、机器学习等人工智能算法实现高效地内容审核与分类工作。
13.与现有技术相比，本发明有许多优点：(1)将ai技术融合入数字产品的审核工作，能够大大地提升审核效率，解放人力；(2)通过对行业工作模式的创新，可以为整个行业积累数据库和模板库，有助于整个行业升级，通过融合深度学习技术，能够形成专业度较强的训练模型，降低误判；(3)通过本发明的审核机制，可以加快数字产品领域的内容精品化、优质化进程，为广大用户提供正确的、积极的、良好的数字信息浏览环境。
附图说明
14.附图1是本发明的功能模块示意图。
具体实施方式
15.结合附图1，对本发明作进一步的描述。
16.为了使本发明的目的、技术方案及优点更加清晰易懂，结合以下具体实施例，对本发明进行进一步的阐述。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。
17.进一步，为了使公众对本发明有更好的了解，在下文对本发明的详细说明中，描述了一些特定的细节部分。对本领域技术人员而言没有这些细节部分的描述也完全有能力理解本发明。
18.本实施例提供一种基于自然语言处理的内容审核系统。
19.首先将待审核样本输入审核系统进行机器审核。
20.所述的机器审核包括四种审核方式，分别是文字审核、语音审核、图像审核、视频审核。根据样本的种类不同，输入不同的审核模块。
21.特别地，所述的视频审核包含了文字审核，是对视频中字幕，或者是图片中的文字特效的审核；所述的视频审核包含了语音审核，是对视频中的语音音频的审核；所述的视频审核包含了图像审核，即对视频中每一帧图像的审核。
22.所述的文字审核，通过文本摘要和文本分类技术，首先形成文本样本的概述，对文本样本进行初步分类，便于根据文本的不同种类制定审核的标准；然后利用关键词提取技术，查询文章中是否有不符合审核标准的关键字或者关键词，进行初步筛选；最后利用语义识别技术，进一步理解文本含义，在深度理解文本的基础上，对不符合审核标准的敏感、违规或违禁文本进行判别。
23.所述的语音审核，需要对音频文件进行语音识别和语音转换，将音频转变为文字样本，之后基于文字审核模块的审核步骤，进行文本分类、语义识别等工作，将文本分类与音频分类标签相对应，对音频分类并判别是否符合审核标准。
24.所述的图像审核，首先对输入的图像样本进行图像识别，先判别图像的种类，进行
多级分类，分步确定审核的标准；然后根据模板数据，对图像中不符合要求的图像块进行目标检测和特征检索操作，检测出相似度超过阈值的判定为不通过；特别地，需要定时更新模板库，保证审核的时效和准确性。
25.将经过机器审核的样本分为合格与不合格两大类，按照两者数量之比，从经过检测的样本库中抽取一定数量的样本和检测结果，反馈给人工复审成员进行人工复审；特别地，根据样本数量多少，可以控制审核颗粒度。
26.人工抽审的人员主要负责审核两种样本，一是经过人工复审得到的结果与机器审核不一致的样本，并对该种样本进行记录；二是在经过机器审核却未经过人工复审的样本库中随机抽取样本进行审核，检查机器审核对样本审核的结果；特别地，人工抽审的人员应为经验较丰富，熟知审核制度和标准的人员，以保证审核机制的高效和审核的正确。
27.综上所述，以上对发明内容和技术方案进行了详细说明，若本领域的技术人员对本发明所记载的技术方案进行修改或等同替换，以及对本领域的技术改进，只要不违背本发明技术方案的精神和原则，均应包含在本发明的保护范围内。

技术特征：
1.本发明涉及一种基于自然语言处理的内容审核系统，可以实现对新型信息内容的审核工作，基于“ai 人工”形式，将人工智能技术应用于数字出版工作，充分发挥自然语言处理、图像识别、机器学习等技术的技术优点，提供一种创新的内容审核系统机制。2.如权利要求1所述一种基于自然语言处理的内容审核系统，其特征在于，系统包含四大板块：文字审核模块、语音审核模块、图像审核模块、视频审核模块；系统采用的审核机制为首先根据不同形式的内容分模块进行机器审核，然后进行人工复审，最后进行人工抽查；所述的文字审核模块和语音审核模块涉及到自然语言处理技术、机器学习相关算法实现文本语义分析和文本分类；所述的图像审核模块实现对不同图像的分类和标签化；所述的视频审核模块基于文字审核、语音审核、图像审核三大模块实现对视频进行文字、图像、音频等组成因素的分类与审核的功能。3.如权利要求1所述一种基于自然语言处理的内容审核系统，其特征在于，首先将待审核样本输入审核系统进行机器审核，所述的机器审核包括四种审核方式，分别是文字审核、语音审核、图像审核、视频审核，根据样本的种类不同，输入不同的审核模块。

技术总结
本发明涉及一种基于自然语言处理的内容审核系统，可以实现对新型信息内容的审核工作。本发明系统包含四大板块：文字审核模块、语音审核模块、图像审核模块、视频审核模块；系统采用的审核机制为首先根据不同形式的内容分模块进行机器审核，然后进行人工复审，最后进行人工抽查；所述的文字审核模块和语音审核模块涉及到自然语言处理技术、机器学习相关算法实现文本语义分析和文本分类；所述的图像审核模块实现对不同图像的分类和标签化；所述的视频审核模块基于文字审核、语音审核、图像审核三大模块实现对视频进行文字、图像、音频等组成因素的分类与审核的功能。成因素的分类与审核的功能。

技术研发人员：孙琪
受保护的技术使用者：上海声通信息科技股份有限公司
技术研发日：2021.06.11
技术公布日：2022/12/12

再多了解一些

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种矩阵乘运算装置及其低开销异常定位方法与流程

一种基于自然语言处理的内容审核系统的制作方法

相关文献

最热文献