智能采编系统的制作方法

2022-02-22 17:22:43 来源：中国专利 TAG：

1.本发明涉及人工智能、图像技术领域，更具体地说，涉及智能采编系统。

背景技术：

2.目前融媒体的发展仍然处于不断探索的起步阶段，也存在着种种问题，例如：1、机构间更多呈现协作关系，而非融合关系，人员老化、编制不足等；2、各类新媒体产品冗余，技术提供商缺乏标准，有待进一步融合；3、内容缺乏丰富性和吸引力，缺少新媒体的特征；4、没有建立真正的新媒体传播矩阵，缺乏有影响力的信息出口。
3.针对上述问题，关于现有融媒体在发展过程中存在的机构间协作多、融合少等的技术问题而言，经过大量的检索，查询到专利号为cn202110316806.1的一种融媒体智能控制系统，采用融媒体智库、媒体人才培养平台、融媒体指挥管理平台、融媒体数据监测平台、融媒体数据调度平台和传播推送平台，通过融媒体智库存储融媒体的相关资源信息；媒体人才培养平台培养相关融媒体人才；融媒体指挥管理平台发布和管理融媒体的相关资源信息；融媒体数据监测平台监测融媒体的相关资源信息；传播推送平台传播和推送融媒体的相关资源信息；该发明通过技术融合、数据融合、业务融合，实现区域媒体平台互融互通，统一办公，统一指挥调度，统一宣传发动，对党政资源与宣传内容进行高效管理，构建真正意义上的融媒体传播体系；构建融媒体中心新闻信息有效的传播矩阵；解决了融媒体中心内容生产的难题。
4.但是该专利所提供的技术方案对于融媒体智能控制系统存在以下问题：1、无法对文稿进行分类、纠错、敏感词预警和全网查重；2、无法对图像/视频/音频进行分类、全网查重，无法识别敏感人物、图像鉴黄、文字提取和敏感词检测等，降低了信息采编结构化的编、审、发的效率。

技术实现要素：

5.本发明旨在于解决上述背景技术提出的技术问题，提供智能采编系统。
6.为实现上述目的，本发明提供如下技术方案：智能采编系统，包括：人脸检测与识别模块，用于检测图像中是否存在公众人物；图像鉴黄模块，用于检测令人反感的色情图像；ocr 敏感词识别模块，用于检测敏感内容；语音识别模块，用于识别音视频中的敏感内容；文本比对模块，用于发现文本中的敏感内容；图像比对模块，用于发现图像中的敏感内容。
7.进一步的优选方案：所述人脸检测与识别模块包括如下步骤：s1：检测图像中的人脸，通过dlib提取人脸特征，并使用gpu对其加速；s2：对比事先录入好的人脸特征库，计算当前人脸特征向量与人脸特征库中的人脸特征的距离；
s3：通过设置阈值的方式，判断该人脸是否属于已知人脸。
8.进一步的优选方案：所述图像鉴黄模块包括如下步骤：s1：使用imagenet1000数据集，并通过数据增强的方式对imagenet1000数据集进行增强；s2：使用增强后的数据对模型进行训练，得到预训练模型；s3：对预训练模型进行微调，并不断调整超参数和在特殊数据集上进行训练和测试；s4：得到可用的图像分类模型，预测出目标图像属于色情图像和常规图像的概率；s5：通过设置阈值的方式来判断目标图像是否为色情图像。
9.进一步的优选方案：所述imagenet1000数据集包含生活中常见的1000种动物和物体的一百多万张图像，所述数据增强的方式是对原图进行随机旋转、平移、色彩变换、加入噪音等并结合gan，所述特殊数据集用于训练图像鉴黄模型的数据集。
10.进一步的优选方案：所述ocr 敏感词识别模块包括如下步骤：s1：参考cnn rnn的方案实现对图像中的文字进行定位和识别；s2：将识别到的文本通过jieba工具进行分词；s3：对分词结果进行临近组合并判断文本中是否存在敏感词汇。
11.进一步的优选方案：所述语音识别模块包括如下步骤：s1：采用卷积神经网络（cnn）和连接性时序分类（ctc）方法；s2：使用大量中文语音数据集进行训练，将声音转录为中文拼音；s3：通过语言模型，将拼音序列转换为中文文本。
12.进一步的优选方案：所述文本比对模块包括如下步骤：s1：采用局部敏感哈希（locality-sensitive hashing,lsh）算法；s2：把文档降维到hash数字，数字两两计算。
13.进一步的优选方案：所述图像比对模块包括如下步骤：s1：缩小图片，把缩放后的图片转化为256阶的灰度图；s2：计算dct，缩小dct，计算缩小dct后的所有像素点的平均值；s3：进一步减小dct，得到信息指纹；s4：比对两张图片的指纹，获得汉明距离。
14.进一步的优选方案：所述图像比对模块采用感知哈希算法（phash）中的dct（离散余弦变换）来降低频率的方法。
15.进一步的优选方案：所述图像比对模块还用于在检测到当前图像与数据库中的敏感图像样本相符时，启动屏蔽该图像操作。
16.有益效果：1、该智能采编系统，能提升审核效率，有效减少违规图像或视频大量污染互联网，从而达到一种“净网”的目的；该系统能够减少人工审核图像、视频的工作量，减少审核人员因过多浏览不良图像、视频内容对自身造成的负面影响；从个人角度讲，该系统能够有效减轻人工审核图像、视频的工作量，能使人们从枯燥乏味的审核工作解放出来；从企业角度讲，该系统能极大地提升工作效率，又能减少人工审核的成本，减少相关开销；2、该智能采编系统，结合领先的ai技术和云计算能力，助力新闻生产的策划、采
编、审校、发布等全流程；智能化、网络化的信息采编系统包含采、编、审、发全部应用，从信息的上报，信息的选用、信息的分类到信息的纳用、合文全功能；基于全网文本、视频、图片、语音等海量信息，使得ai关键技术中的自然语言、机器学习、计算机视觉领域等有效应用到融媒体行业。可分别对文稿进行分类、纠错、敏感词预警、全网查重；对图像/视频/音频进行分类、全网查重、敏感人物识别、图像鉴黄、文字提取和敏感词检测等，根本上提高信息采编结构化的编、审、发的效率，防止由于工作人员的疏漏，对个人或企业造成不良影响；在社交、论坛、互动等平台，该系统能自动过滤敏感、违规的图像，助力营造和谐、干净的互联网平台；该系统对资讯采集、加工工作提供了有力支持，大幅提高编辑的工作效率，有效降低新媒体运营成本，明显提高公司业绩。
附图说明
17.图1为本发明的系统功能模块示意图；图2为本发明的人脸检测与识别模块的流程示意图；图3为本发明的图像鉴黄模块的流程示意图；图4为本发明的ocr 敏感词识别模块的流程示意图；图5为本发明的语音识别模块的流程示意图；图6为本发明的文本比对模块的流程示意图；图7为本发明的图像比对模块的流程示意图；图8为本发明的文本监测的流程示意图；图9为本发明的图片监测的流程示意图；图10为本发明的音频监测的流程示意图；图11为本发明的视频监测的流程示意图；图12为本发明的直播监测的流程示意图；图13为本发明的文本、图片、音频监测示例图；图14为本发明的视频监测示例图；图15为本发明的数据应用与数据服务体系的系统架构图；图16为本发明的数据提炼与数据处理分析的系统架构图；图17为本发明的数据采集与数据源的系统架构图。
具体实施方式
18.下面将结合本发明实施例中的附图1-图17，对本发明实施例中的技术方案进行清楚、完整地描述。
19.实施例1请参阅图1、图15-17，本发明实施例中，智能采编系统，包括：人脸检测与识别模块，用于检测图像中是否存在公众人物；图像鉴黄模块，用于检测令人反感的色情图像；ocr 敏感词识别模块，用于检测敏感内容；语音识别模块，用于识别音视频中的敏感内容；文本比对模块，用于发现文本中的敏感内容；
图像比对模块，用于发现图像中的敏感内容；在新闻采集、生产、分发等业务中，基于机器学习、深度学习等ai技术，构建智能生产和分发流程；实现准确的语音识别、图像识别、语义识别，创新媒体制作、发布和传播，大幅度提升媒体生产力和传播力；主要包含对编辑提交的文稿、图片、视频、音频进行监测。
20.实施例2请参阅图2和图13，本发明实施例相对于实施例1，其区别之处在于：人脸检测与识别模块包括如下步骤：s1：检测图像中的人脸，通过dlib提取人脸特征，并使用gpu对其加速；s2：对比事先录入好的人脸特征库，计算当前人脸特征向量与人脸特征库中的人脸特征的距离；s3：通过设置阈值的方式，判断该人脸是否属于已知人脸；其中，人脸识别算法能够支持正面的人脸识别和略微非正面的人脸识别，同时也能对人脸自动标记，方便审核人员快速进行查验；将人脸识别技术用于检测图像中是否存在公众人物，极大程度上减少因审核人员的疏忽，造成的不良影响；其中，人脸识别算法实现如下：使用hog算法对图片进行编码以创建图像的简化版本，使用这个简化的图像，找到图像中最像人脸的通用hog编码的部分；要在图像中查找人脸，首先将图像设为黑白，因为不需要颜色数据来查找人脸：然后将一次一个地查看图像中的每个像素；对于每个像素，还要查看直接围绕它的像素：目标是弄清楚当前像素与直接围绕它的像素相比有多暗；然后要绘制一个箭头，显示图像变暗的方向：只看这一个像素和接触它的像素，图像向右上方变暗；如果对图像中的每个像素重复该过程，最终每个像素都会被箭头替换；这些箭头称为渐变，它们显示了整个图像从亮到暗的流动；如果直接分析像素，同一个人的真暗图像和真亮图像将具有完全不同的像素值；但仅考虑亮度变化的方向，真正暗的图像和真正亮的图像最终都会得到相同的精确表示；如果能在更高的层次上看到明暗的基本流动，这样就可以看到图像的基本模式；其中，将图像分解为每个16x16像素的小方块；在每个方格中，将计算每个主要方向上的渐变点数（多少个点向上，指向右上，指向右等
……
）；然后将用最强的箭头方向替换图像中的那个方块；其中，最终结果是将原始图像转换为非常简单的表示，以简单的方式捕捉人脸的基本结构：原始图像被转换为hog表示，无论图像亮度如何，它都能捕获图像的主要特征；为了在这张hog图像中找到人脸，所要做的就是找到图像中与从一堆其他训练人脸中提取的已知hog模式最相似的部分：使用这种技术，可以轻松地在任何图像中找到人脸；其中，通过找到面部的主要标志来确定面部的姿势；一旦找到这些标志，就用它们来扭曲图像，使眼睛和嘴巴居中；将居中的人脸图像通过一个知道如何测量人脸特征的神经网络保存这128个测量特征值；查看保存下来的测量过的所有面部，看看哪个人的特征值与面部测量特征值最接近。
21.实施例3请参阅图3和图9，本发明实施例相对于实施例1，其区别之处在于：图像鉴黄模块包括如下步骤：
s1：使用imagenet1000数据集，并通过数据增强的方式对imagenet1000数据集进行增强；s2：使用增强后的数据对模型进行训练，得到预训练模型；s3：对预训练模型进行微调，并不断调整超参数和在特殊数据集上进行训练和测试；s4：得到可用的图像分类模型，预测出目标图像属于色情图像和常规图像的概率；s5：通过设置阈值的方式来判断目标图像是否为色情图像。
22.本发明实施例中，imagenet1000数据集包含生活中常见的1000种动物和物体的一百多万张图像，数据增强的方式是对原图进行随机旋转、平移、色彩变换、加入噪音等并结合gan，特殊数据集用于训练图像鉴黄模型的数据集；其中，使用resnet50模型结构，该网络不会出现梯度消失现象，因此理论上可以无限逼近真实的数据分布情况；能够将图像进行自动分类，其准确率已经超过95%；因为定义图像类别是十分主观的，一些图像在某些场景可能是令人反感的，然后有时又是合适的，因此通过预测出目标图像属于各个类别的概率，在不同场景下使用不同的阈值，从而达到因地制宜的效果；使用增强后的数据对模型进行训练能有效增强模型的泛化能力，使模型能有效学到图像的形状、纹理等特征；其中，图像鉴黄模块还包括图片监测流程，具体流程如下：1、上传图片文件2、调用图像内容监测算法进行检测，包括：图像中出现的文本、字幕提取出来进行敏感词检测；图像中出现的领导人头像进行检测提醒（人脸识别算法）；图像中是否存在色情内容进行预警（基于caffe深度神经网络训练的成人/淫秽图片分类模型）。
23.本发明实施例中，图像比对模块采用感知哈希算法（phash）中的dct（离散余弦变换）来降低频率的方法。
24.本发明实施例中，图像比对模块还用于在检测到当前图像与数据库中的敏感图像样本相符时，启动屏蔽该图像操作。
25.实施例4请参与图4，本发明实施例相对于实施例1，其区别之处在于：ocr 敏感词识别模块包括如下步骤：s1：参考cnn rnn的方案实现对图像中的文字进行定位和识别；s2：将识别到的文本通过jieba工具进行分词；s3：对分词结果进行临近组合并判断文本中是否存在敏感词汇；其中，先分词再识别的技术方案相比传统直接匹配敏感词方案能有效提升识别的准确率。
26.实施例5请参阅图5和图10，本发明实施例相对于实施例1，其区别之处在于：语音识别模块包括如下步骤：s1：采用卷积神经网络（cnn）和连接性时序分类（ctc）方法；s2：使用大量中文语音数据集进行训练，将声音转录为中文拼音；s3：通过语言模型，将拼音序列转换为中文文本；
其中，语音识别模块还包括音频监测流程，具体流程如下：1、上传音频文件；2、使用人工智能算法asrt进行音频识别，具体算法内容如下：asrt是一套基于深度学习实现的语音识别系统，通过采用卷积神经网络（cnn）和连接性时序分类（ctc）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本；特征提取：将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号，即语谱图；声学模型：基于keras和tensorflow框架，使用这种参考了vgg的深层的卷积神经网络作为网络模型，并训练；ctc解码：在语音识别系统的声学模型输出中，往往包含了大量连续重复的符号，因此需要将连续相同的符号合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列；语言模型：使用统计语言模型，将拼音转换为最终的识别文本并输出；拼音转文本本质被建模为一条隐含马尔可夫链，这种模型有着很高的准确率；3、识别出的文本内容调用敏感词检测算法进行检测，发现其中的敏感内容（反动、广告、政治、涉枪涉爆违法、色情、贪腐等）；4、到资源库进行查重，音频比对采用算法描述如下：首先把音乐当作信号处理，快速傅立叶变换(fft)，在信号处理方面也有很好的应用场景：音乐，其实就是与一长串数字相似的数字编码。在未压缩的wav文件里，有很多这样的数字—每个声道每秒钟 44100 个数字。这意味着三分钟长的歌曲有近 1600 万个数字；3分钟*60秒*44100个样本每秒*2声道=15,876,000个信号样本；声道是指，可以用扬声器播放的独立的信号样本序列；就音频录制来说，广泛接受的规则是可以忽略掉22050hz以上的信号，因为人类的耳朵无法听到20000hz以上的频率。因此根据奈奎斯特定理，需要加倍地采样：每秒需要采样的=最高频率*2=22050*2=44100；mp3格式的文件压缩了这个采样率，其实纯wav格式文件是一串16比特的数字序列（加上一个小小的文件头）；因为这些音频样本其实就是信号，可以不断地在一小段时间窗口内的歌曲样本上，用快速傅立叶变换生成歌曲的频谱图；频谱图是一个用横轴表示时间，纵轴表示频率，以颜色表示振幅大小的矩阵；快速傅立叶变换展示信号在特定频率的的强度（振幅）；如果计算足够次数的滑动窗口，可以拼在一起组成一个矩阵频谱；重要的是要注意，频率和时间的值是离散的，每对代表一个“bin”，振幅是实值；颜色表示在离散化（时间，频率）的坐标系中的振幅的实值（红-》较高，绿-》较低）；用这个频谱图来唯一地标记这首歌；识别歌曲时会有噪音—背景音里有说话声；找一个稳健的方法来获取音频信号的“数字指纹”；有了根据音频信号生成的频谱图，可以从在振幅里面寻找
‘
峰值’开始。定义峰值为振幅在附近“临域”极大值对应的时频；周围的时频对应的振幅都比它小，更有可能是背景噪音。
27.实施例6
请参阅图6和图8，本发明实施例相对于实施例1，其区别之处在于：文本比对模块包括如下步骤：s1：采用局部敏感哈希（locality-sensitive hashing,lsh）算法；s2：把文档降维到hash数字，数字两两计算；其中，文本比对模块还包括文本监测流程，具体流程如下：1、输入文本内容；2、对文本内容进行纠错识别，发现文本中的错误内容给出提示；3、调用敏感词检测算法进行检测，发现其中的敏感内容（反动、广告, 政治、涉枪涉爆违法、色情、贪腐等）；4、到线索库进行查重，查重采用simhash算法，算法具体说明如下：算法主要原理分为这几步：1）分词，把需要判断文本分词形成这个文章的特征单词；最后形成去掉噪音词的单词序列并为每个词加上权重，我们假设权重分为5个级别（1~5）；比如：“美国“51区”雇员称内部有9架飞碟，曾看见灰色外星人”==》分词后为“美国（4）51区（5）雇员（3）称（1）内部（2）有（1）9架（3）飞碟（5）曾（1）看见（3）灰色（4）外星人（5）”，括号里是代表单词在整个句子里重要程度，数字越大越重要；2）hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为100101,“51区”通过hash算法计算为101011；3）加权，通过2步骤的hash生成结果，需要按照单词的权重形成加权数字串，比如“美国”的hash值为“100101”，通过加权计算为“4-4-44-44”；“51区”的hash值为“101011”，通过加权计算为“5-55-555”；4）合并，把上面各个单词算出来的序列值累加，变成只有一个序列串；比如“美国”的“4-4-44-44”，“51区”的“5-55-555”，把每一位进行累加，“4 5-4 -5-4 54 -5-4 54 5”==》“9-91-119”；这里作为示例只算了两个单词的，真实计算需要把所有单词的序列串累加；5）降维，把4步算出来的“9-91-119”变成01串，形成最终的simhash签名；如果每一位大于0记为1，小于0记为0；最后算出结果为：“101011”；实施例7请参阅图7、图11和图12，本发明实施例相对于实施例1，其区别之处在于：图像比对模块包括如下步骤：s1：缩小图片，把缩放后的图片转化为256阶的灰度图；其中，32*32是一个较好的大小，这样方便dct计算；s2：计算dct，缩小dct，计算缩小dct后的所有像素点的平均值；其中，dct计算后的矩阵是32*32，保留左上角的8*8，这些代表图片的最低频率；s3：进一步减小dct，得到信息指纹；其中，大于平均值记录为1，反之记录为0；组合64个信息位，顺序随意保持一致性；s4：比对两张图片的指纹，获得汉明距离；其中，这等同于“汉明距离”(hamming distance,在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数)；如果不相同的数据位数不超过5，就说明两张图像很相似；如果大于10，就说明这是两张不同的图像；
其中，图像比对模块还包括视频监测流程，具体流程如下：1、上传视频文件；2、提取音频内容，对音频内容进行敏感词检测；3、对视频进行抽帧，每秒抽取1帧调用图像内容监测算法进行检测，包括：图像中出现的文本、字幕提取出来进行敏感词检测；图像中出现的领导人头像进行检测提醒（人脸识别算法）；图像中是否存在色情内容进行预警（基于caffe深度神经网络训练的成人/淫秽图片分类模型，输入要检测的图片，会返回图片评级（0-1），等级越高，图片越黄越暴力；过滤掉尺度较大的图像，0.8以上的过滤掉）；4、到资源库进行查重；其中，图像比对模块还包括直播监测流程，具体流程如下：1、发现有直播在进行；2、对直播流进行提取，每秒抽取1帧调用图像内容监测算法进行检测，包括：图像中出现的文本、字幕提取出来进行敏感词检测；图像中出现的领导人头像进行检测提醒（人脸识别算法）；图像中是否存在色情内容进行预警（基于caffe深度神经网络训练的成人/淫秽图片分类模型）；3、在监控台显示直播预警内容。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于块选择策略和像素值排序的可逆信息隐藏方法及装置与流程

智能采编系统的制作方法

相关文献

最热文献