一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种蒙语视频智能分析方法与流程

2022-09-03 14:09:21 来源:中国专利 TAG:

技术特征:
1.一种蒙语视频智能分析方法,其特征在于,包括以下步骤:步骤s1,数据处理,判断接收数据是否为视频数据,若是,转至步骤s2,若不是,则进行格式转换提取音频数据、蒙语文本信息,提取的音频数据通过音频的转写提取蒙语文本信息,之后将蒙语文本信息翻译成对应的中文文本信息,转至步骤s5;步骤s2,语音信息处理,提取视频数据中的语音信息作出处理;步骤s3,图像信息处理,提取视频数据中的图像信息作出处理;步骤s4,蒙汉文本翻译,通过图像的ocr识别从图像信息提取出蒙语文本信息,通过音频的转写从语音信息提取出蒙语文本信息,将蒙语文本信息翻译成对应的中文文本信息;步骤s5,要素提取,识别中文文本信息所包含的要素信息,包含人名、地名、事务、组织信息,并且根据提取出来的人名、地名、事务得到对应的要素组织信息;步骤s6,意图识别,根据中文文本信息的主题、内容和属性,将中文文本信息归到一个或多个类别,识别文本信息中所表达的意图;步骤s7,内容分析预警,系统通过基础库,结合人工经验战法模型,从原声、md5、声纹、关键词对视频进行打分预警,按照分值高低排序;步骤s8,通用模型研判识别,利用通用模型对视频数据进行研判识别;步骤s9,自建分析研判模型,通过对大数据的事件发生、发展趋势的分析、学习,形成具有针对性的事件分析研判模型,进行进一步研判。2.根据权利要求1所述的一种蒙语视频智能分析方法,其特征在于:所述步骤s2包括:步骤s21,语音信息预处理,对视频数据中的音频进行场景分割,划分为音乐、噪音、语音;步骤s22,语音信息语种识别,通过对蒙语语种进行声学模型训练和语言模型训练,对需要处理的视频数据进行语种识别比对,自动识别判断视频数据所属的语种,确认视频数据中的蒙语语种的视频数据片段;步骤s23,语音信息转写,对语音信息预处理得到的音乐、噪音、语音,进行端点检测、降噪,提取声学特征;将提取到的声学特征和对语音信息语种识别中识别到的蒙语语种的视频数据,在训练好的声学模型和语言模型训练中,使用解码器进行解码,进行音频文本转换得到蒙语文本信息。3.根据权利要求2所述的一种蒙语视频智能分析方法,其特征在于:所述步骤s21中,语音信息预处理还包括:s211,能量四门限算法,设置“静寂状态”、“语音起始状态”、“语音稳定状态”及“语音衰减状态”四个状态,并分别设置状态间跳转所需的四个能量门限值,根据视频数据中的音频中每一帧的能量信息,实现四个状态之间的跳转,最终实现音频中能量较高的语音片段的检测;s212,基于规则的噪声判断算法,利用音频的频段能量,对通过了能量四门限算法的信号片段,进行音乐、噪音场景的初判;s213,模型分类器判决,根据实际系统的应用环境,训练出与实际应用场景中所出现各种场景相匹配的模型;在训练过程中,引入区分性训练,并使用最小分类误差准则。4.根据权利要求1所述的一种蒙语视频智能分析方法,其特征在于:
所述步骤s3包括:步骤s31,图像信息预处理,筛选是否满足图片的有效性检测,清晰度检测,以及图像的md5去重功能;筛选是否满足图像增强、图像二值化、图像透视变换、图像边界检测、图像倾斜检测、图像外部块检测、图像内容区域检测;并针对满足检测的图像信息进行二值化、噪声去除、倾斜校正;所述二值化用于使图像信息只包含黑色的前景信息和白色的背景信息;所述噪声去除根据噪声的特征对待识别的图像信息进行去噪处理;所述倾斜校正用于校正图像方向;步骤s32,图像信息识别,结合ocr识别服务,利用各种模式识别算法分析文字形态特征,判断出蒙文的标准编码,提取出图片中包含的蒙古文文本信息,并按通用字符格式存储在文本文档中。5.根据权利要求1所述的一种蒙语视频智能分析方法,其特征在于:所述步骤s4包括:步骤s41,分词,将汉字序列切分成词序列;步骤s42,词性标注,给句子中每个词一个词性类别,包括数字和人名;步骤s43,解码器解码,包括基于层次短语的解码器psmt和基于神经网络的解码器nmt;所述基于层次短语的解码器psmt包括翻译模型、语言模型、调序模型、搜索空间和数线性模型打分,基于层次短语的解码器psmt用于将句子按照短语进行切分,每个短句分别进行翻译,然后再进行调序;所述搜索空间包括所有切分的短语,并获得所有的翻译假设,所述数线性模型打分对翻译假设打分,并选择得分最高的翻译假设作为翻译结果。6.根据权利要求1所述的一种蒙语视频智能分析方法,其特征在于:所述步骤s5中,要素提取通过大数据的行业领域数据,进行人工领域专家标注,所述的人工领域专家标注包括:词法、句法和语义;基于标注数据训练词法、句法、语义分析的统计模型;所述词法分析采用条件随机场模型,并结合规则文法;所述句法采用概率上下文无关文法建立统计句法分析模型,并基于动态规划思想设计句法分析算法,并进行分析算法的裁剪策略效率优化;所述语义基于句法结构树进行语义特征提取,根据带语义标注的数据训练语义消歧模型,结合语义解析规则文法,实现对要素的语义理解。7.根据权利要求1所述的一种蒙语视频智能分析方法,其特征在于:所述步骤s6中,意图识别支持多类别的组合关键词匹配kws策略,基于上访的实验原型,能够自定义不同类别的正负组合关键词,能够实现基于规则的关键词匹配;意图识别同时支持kws、kwp、nb、lda svm和nn五种策略;意图识别完成多类别文本分类下的多策略得分融合,每个策略都支持多分类判别,最后进行综合多策略得分融合,配置各个策略的权重,根据权重进行得分融合;意图识别支持多策略输入输出统一格式,完成不同策略下面统一的输入输出格式定义;意图识别基于nn策略,实现同时加载多个nn模型,支持配置各个nn模型的的权重和阈值,使用nn策略后计算各个nn模型的得分进行融合结果输出;意图识别基于nn策略能够动态切换使用的nn模型。8.根据权利要求1所述的一种蒙语视频智能分析方法,其特征在于:所述步骤s7包括:步骤s71,人声分离,对视频数据和音频数据中的语音内容进行活动语音监测,识别视频数据和音频数据片段中各部分的噪音,噪音包括静音、白噪音、彩铃,根据监测结果对噪
音进行抑制,对有效语音进行增强,然后根据不同说话人的声纹特点进行聚类,最终实现说话人的人声分离;声纹预警,人声分离之后进行视频数据和音频数据的声纹提取和注册,然后将视频数据和音频数据中的声纹信息注册到声纹库中,结合声纹库的预警发现模块,发现跨应用的特定人员;步骤s72,图像预警,基于场景识别和图像语种识别,将获取的图像数据标签化、场景化,对其中涉枪、涉蒙语、涉特定人像的数据进行推送预警;图像预警包括人像预警、蒙文图片的识别预警和涉枪类图片的发现预警;所述人像预警能够建立重点人像的知识库,通过知识库和当前人脸相似度识别引擎实现重点人像的预警;所述蒙文图片的识别预警调用图像ocr和语种识别引擎;所述涉枪类图片的发现预警调用图像类的物体监测引擎;所述图像预警的预警内容包括:人物、人群、游行、枪支、旗帜 、色情、血腥、自焚、烧伤的图片;步骤s73,文本内容预警,通过图像的ocr识别和音频数据的转写,建立关键词的知识库,结合关键词,发现图像中的有害文本信息,在接入视频数据时,对其中的中文、蒙文内容进行识别和提取,并且和关键词的知识库进行比对,所述文本内容预警还采取并行处理。9.根据权利要求1所述的一种蒙语视频智能分析方法,其特征在于:所述步骤s8包括:步骤s81,色情内容、场景识别,分成色情、性感、正常三类,通过训练多个网络模型、对特定的用户采用多模型级连判定,对于视频鉴黄,先采用截帧鉴黄,对于疑似的图片,再采用视频片段算法和光流算法;步骤s82,暴恐内容智能识别,通过暴恐图片和视频数据源,依托分布式深度学习平台,对图片、视频进行暴恐分类,并对暴恐场景和暴恐物品,所述暴恐场景的识别包括游行、旗帜、台标,所述暴恐物品的识别包括枪支、面具、胡须脸;步骤s83,政治敏感人物智能识别,自动对视频中出现的政治人物进行智能识别,通过对比政治人物人脸的特征,识别出视频图像中是否存在政治人物,如果存在,识别出是谁;政治敏感人物智能识别模型建立政治敏感人像的知识库,通过知识库和当前人脸相似度识别引擎实现政治人像的预警。10.根据权利要求1所述的一种蒙语视频智能分析方法,其特征在于:所述步骤s9中,所述自建分析研判模型,基于民警进行各自创建,与各民警关联,打上相应业务属性,说明应用的案件方向;所述自建分析研判模型基于不同的数据源,包括两群数据、互联网数据,各自使用不同的技战法进行分析,在呈现时,基于不同的数据类型进行归类展示;所述自建分析研判模型包括公共模型和私有模型,所有自建分析研判模型能够根据当前使用的成效,发布成文公共模型或者是指定共享至其他民警;所述自建分析研判模型的最终应用通过设置启用时间和应用数据范围与比对任务、预警分析挂钩,用于主动告警、提醒用户。

技术总结
本申请涉及一种蒙语视频智能分析方法,包括:数据处理、语音信息处理,图像信息处理,蒙汉文本翻译,要素提取,意图识别,内容分析预警,通用模型研判识别,自建分析研判模型。本申请利用当前先进的人工智能、大数据和蒙古文信息处理技术,针对蒙语的视频数据进行识别、翻译、检索、监测及管理,大大提升了蒙语视频自动分析能力,降低了人工分析成本,提高了分析效率和实时率。率和实时率。率和实时率。


技术研发人员:周巴特尔 蒋晓栋 杨莉莉 张宇 冯祥 董德武 王梦忠
受保护的技术使用者:讯飞智元信息科技有限公司
技术研发日:2022.05.24
技术公布日:2022/9/2
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献