视频内容监控方法、装置、设备及介质与流程

2022-08-13 14:06:29 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种视频内容监控方法、装置、设备及介质。

背景技术：

2.随着科技的不断发展，短视频平台和直播平台作为信息传播的载体在越来越多的场景中被使用，对于视频内容判断是否违规的时效性要求也越来越高，而且视频违规内容的监控相比于图文违规内容的监控更加困难。
3.现有技术往往是通过视频房间的标题和画面内容进行违规判断，此方式中的画面内容具有暂时性，且时效性无法保证，当接收到举报后，需要工作人员回放视频去进行判断，难以对异常视频做到快速处理，并且需要投入大量的人员全天不间断的对视频内容进行监控，这种监控方式的成本高且效率低。

技术实现要素：

4.本发明提供一种视频内容监控方法、装置、设备及介质，本发明实现了自动对视频内容的监控，提高了视频内容监控的准确性，降低了视频内容监控的成本，提高了视频内容监控的时效性。
5.一种视频内容监控方法，包括：
6.获取待处理视频，所述待处理视频包括至少一个内容标签；
7.获取预设视频标签集，并将所有所述内容标签与视频标签进行匹配；所述预设视频标签集中包括至少一个视频标签；
8.在任意一个所述内容标签与所述视频标签匹配时，将所述待处理视频记录为初始校验视频，并对所述初始校验视频进行地址解析，以确定所述初始校验视频的播放地址；
9.根据所述初始校验视频的播放地址和预设语音处理模型，对所述初始校验视频进行视频内容识别，得到与所述初始校验视频对应的至少一个语句文本；
10.将所述语句文本输入至预设的语句模型，通过所述预设的语句模型对所述语句文本进行匹配判断，得到与所述语句文本对应的文本匹配值；一个语句文本对应一个文本匹配值；
11.根据所有所述语句文本对应的文本匹配值，确定与所述初始校验视频对应的监控结果。
12.一种视频内容监控装置，包括：
13.获取模块，用于获取待处理视频，所述待处理视频包括至少一个内容标签；
14.匹配模块，用于获取预设视频标签集，并将所有所述内容标签与视频标签进行匹配；所述预设视频标签集中包括至少一个视频标签；
15.解析模块，用于在任意一个所述内容标签与所述视频标签匹配时，将所述待处理视频记录为初始校验视频，并对所述初始校验视频进行地址解析，以确定所述初始校验视
频的播放地址；
16.识别模块，用于根据所述初始校验视频的播放地址和预设语音处理模型，对所述初始校验视频进行视频内容识别，得到与所述初始校验视频对应的至少一个语句文本；
17.判断模块，用于将所述语句文本输入至预设的语句模型，通过所述预设的语句模型对所述语句文本进行匹配判断，得到与所述语句文本对应的文本匹配值；一个语句文本对应一个文本匹配值；
18.监控模块，用于根据所有所述语句文本对应的文本匹配值，确定与所述初始校验视频对应的监控结果。
19.一种计算机设备，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述视频内容监控方法。
20.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述视频内容监控方法。
21.本发明提供的视频内容监控方法、装置、设备及介质，获取待处理视频，所述待处理视频包括至少一个内容标签；获取预设视频标签集，并将所有所述内容标签与视频标签进行匹配；所述预设视频标签集中包括至少一个视频标签；在任意一个所述内容标签与所述视频标签匹配时，将所述待处理视频记录为初始校验视频，并对所述初始校验视频进行地址解析，以确定所述初始校验视频的播放地址；根据所述初始校验视频的播放地址和预设语音处理模型，对所述初始校验视频进行视频内容识别，得到与所述初始校验视频对应的至少一个语句文本；将所述语句文本输入至预设的语句模型，以通过所述预设的语句模型对所述语句文本进行匹配判断，得到与所述语句文本对应的文本匹配值；根据所有所述语句文本对应的匹配值，确定与所述初始校验视频对应的监控结果，如此，实现了自动对视频内容的监控，避免了投入大量的人力资源，提高了视频内容监控的准确性，降低了视频内容监控的成本，提高了视频内容监控的时效性。
附图说明
22.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
23.图1是本发明一实施例中视频内容监控方法的一应用环境示意图；
24.图2是本发明一实施例中视频内容监控方法的流程图；
25.图3是本发明一实施例中视频内容监控方法的步骤s4的流程图；
26.图4是本发明一实施例视频内容监控方法的步骤s5的流程图；
27.图5是本发明一实施例中视频内容监控方法的步骤s2的流程图；
28.图6是本发明一实施例视频内容监控装置的原理框图；
29.图7是本发明一实施例中计算机设备的示意图。
具体实施方式
30.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
31.本发明实施例提供的视频内容监控方法，该视频内容监控方法可应用如图1所示的应用环境中。具体地，该视频内容监控方法应用在视频内容监控装置中，该视频内容监控装置包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决现有技术中视频内容监控效率较低且成本高的问题。其中，该服务器可以采用独立的服务器或者是多个服务器组成的服务器集群来实现，其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
32.在一实施例中，如图2所示，提供一种视频内容监控方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：
33.s1，获取待处理视频，所述待处理视频包括至少一个内容标签。
34.可理解地，在获取到用户上传的待处理视频之后，可以对视频内容设置主题标签，该主题标签用于标记该待处理视频的内容属于哪一主题类型，例如，游戏类、搞笑类、说车类和保险类等等主题类型，并可以对不同主题类型的所述待处理视频设置不同的内容标签，也即预先对每一个不同的主题类型下均设置有多个内容标签，从而可以判定待处理视频是否包含与内容标签相匹配的视频内容(如视频语音文本中的某个字词)，如此即可对待处理视频设置一个(当待处理视频的视频内容仅与一个内容标签匹配)或多个(当待处理视频的视频内容与多个内容标签均匹配时)内容标签，例如在待处理视频的主题类型为保险类时，该内容标签可以包括但不限于保险、拒保、拒赔和平安福等，所述待处理视频为用户上传后没有进行内容标签匹配处理的视频，所述内容标签为预先通过人工标注的方式，或者通过神经网络模型进行关键词识别的方式对视频中关键字词进行标记的标签。
35.s2，获取预设视频标签集，并将所有所述内容标签与视频标签进行匹配；所述预设视频标签集中包括至少一个视频标签。
36.可理解地，所述视频标签为中文内容标签、拼音内容标签和英文内容标签的集合，例如保险、baoxian、insurance这就是一个视频标签，保险、baoxian、insurance；拒保、jubao、declinature；拒赔、jupei、claims rejected这就是一个视频标签集，所述视频标签集为将所有所述视频标签整理的集合，且所述视频标签集中至少包括一个视频标签，所述中文内容标签为将所述内容标签设置为中文，所述拼音内容标签为将所述内容标签设置为中文的拼音，所述英文内容标签为将所述内容标签设置为英文。需要说明的是，本实施例中的视频标签仅为一种示例，也即视频标签包括这三种内容标签但并不限于这三种，还可以是如德文内容标签、俄文内容标签和法文内容标签等等。
37.具体地，通过预先设定好所述视频标签集，并将所述视频标签集上传到服务器中，当需要进行视频标签匹配时，直接从服务器中进行获取，在获取预设的视频标签集之后，即
可将所述待处理视频包含的所有所述内容标签和所述视频标签集中的视频标签进行匹配，对所述待处理视频的内容标签与所述视频标签集中的视频标签进行相似度判断，以确定两者是否匹配；其中，相似度判断可以采用如余弦相似度或者欧式距离等方法。
38.s3，在任意一个所述内容标签与所述视频标签匹配时，将所述待处理视频记录为初始校验视频，并对所述初始校验视频进行地址解析，以确定所述初始校验视频的播放地址。
39.可理解地，所述初始校验视频为需要对视频内容进行判断的待处理视频；所述播放地址用于标识初始校验视频播放的平台，基于该播放地址可以获取到初始校验视频的视频文件。
40.具体地，在所述待处理视频包含的所有内容标签中的任意一个与所述视频标签匹配时，即所述内容标签和所述视频标签相同时，则将所述内容标签对应的所述待处理视频确定为初始校验视频，需要对所述初始校验视频做进一步的判断，对所述初始校验视频的地址进行解析，通过本地sdk(software development kit，软件开发工具)解析或者服务器webapi(web application programming interface，网页应用程序编程接口)解析，得到所述初始校验视频的ip地址(internet protocol address，互联网协议地址)或url地址(uniform resource locator，统一资源定位地址)或域名服务器名，从而得到所述初始校验视频的上传播放平台，并将初始校验视频上传至播放平台对应的地址确定为该初始校验视频的播放地址。
41.s4，根据所述初始校验视频的播放地址和预设语音处理模型，对所述初始校验视频进行视频内容识别，得到与所述初始校验视频对应的至少一个语句文本。
42.可理解地，所述预设语音处理模型为对视频文件内容进行识别并处理的神经网络模型，该预设语音处理模型可以预先通过大量的视频文件对所述语音处理模型进行训练，当训练结果的准确率达到设置的目标(例如当该预设语音处理模型的损失值低于某一设定的阈值，该设定的阈值可以为0.1等)时，结束训练完成模型训练；语句文本即为对视频文件中人声语音进行转换后得到的文本。
43.具体地，通过所述初始校验视频的播放地址，找到所述初始校验视频上传的播放平台，从所述播放平台得到与所述初始校验视频对应的视频文件，将所述视频文件输入到预设语音处理模型，通过所述语音处理模型将视频文件转换为语句文本，其中，在将所述视频文件转换为语句文本之前，对视频文件进行噪音处理，以去除视频文件的背景噪音，并对去除背景噪音后的视频文件进行文本识别，得到与去除背景噪音后的视频文件对应的待处理语句文本，再通过文本处理模块对所述待处理语句文本进行过滤处理，如将所述待处理语句文本中空格等无用的字词进行删除，得到与所述初始校验视频对应的至少一个语句文本。可以理解地，在初始校验视频中人声语音可能存在多段话术亦或者多句话术，一句话术或者一段话术即可对应一个语句文本。
44.s5，将所述语句文本输入至预设的语句模型，通过所述预设的语句模型对所述语句文本进行匹配判断，得到与所述语句文本对应的文本匹配值；一个语句文本对应一个文本匹配值。
45.可理解地，所述预设的语句模型为对文本进行匹配值判断的神经网络模型，该预设的语句模型可以预先通过大量的话术库对语句模型进行训练，当训练结果符合设置的目
标准确率时，结束训练完成模型训练。所述文本匹配值为所述语句文本与所述语句模型中的语句文本相似度的匹配值，其中，一个语句文本对应一个文本匹配值。
46.具体地，将得到的所有所述语句文本输入到预设的语句模型中，通过将所有所述语句文本与所述语句模型中的语句文本进行相似度判断，从而确定与所有所述语句文本对应的文本匹配值，其中，所述预设的语句模型包括正向语句匹配模块和负向语句匹配模块，首先对所述语句文本进行扫描划分，将所述语句文本划分为一个一个的文本字词，其次将所有所述文本字词分别输入到正向语句匹配模块和负向语句匹配模块，通过将所述语句文本与所述正向语句匹配模块和所述负向语句匹配模块中的语句文本进行相似度匹配，得到与所述文本字词对应的正向文本匹配值以及负向文本匹配值，然后并将所有所述文本字词的正向文本匹配值以及负向文本匹配值进行求和，得到与所述语句文本对应的文本匹配值。
47.s6，根据所有所述语句文本对应的文本匹配值，确定与所述初始校验视频对应的监控结果。
48.可理解地，所述监控结果用于表征初始校验视频是否存在异常，也即监控结果可以为表征初始校验视频不存在异常的结果，还可以为表征初始校验视频存在异常的结果。所述总文本匹配值为对所有语句文本的文本匹配值求和的结果，也即总文本匹配值是所述初始校验视频中所有语句文本对应的文本匹配值。
49.具体地，将得到的所有语句文本都输入到语句模型中，并得到所有与所述语句文本对应的文本匹配值之后，对所有的文本匹配值进行求和计算，得到与所述初始校验视频对应的总文本匹配值，从而根据该总文本匹配值确定与所述初始校验视频对应的监控结果，即根据所述总文本匹配值判断所述初始校验视频是否为正常视频，例如设定一个匹配阈值，当所述初始校验视频的总文本匹配值超过设定的匹配阈值，则将与所述初始校验视频对应的所述监控结果确定为正常视频，当所述初始校验视频的总文本匹配值未超过设定的匹配阈值，则将与所述初始校验视频对应的所述监控结果确定为异常视频。
50.本发明实施例通过设置内容标签并对内容标签进行匹配实现了自动对待处理视频进行内容监控，避免了需要投入大量的人员对视频内容进行监控，减少了投入的人力成本，通过对初始校验视频的地址解析实现了对视频文件的快速获取，通过预设语音处理模型对视频文件进行识别和文本处理实现了对语句文本的快速提取，通过语句模型对语句文本进行匹配实现了对语句文本的文本匹配值的确定，通过文本匹配值的计算实现了对所述初始校验视频的监控结果进行确定，进一步提高了视频内容监控的准确性，降低了视频内容监控的成本，提高了视频内容监控的时效性。
51.在一实施例中，如图5所示，所述步骤s2之前，即获取预设视频标签集之前，包括：
52.s21，获取中文内容标签集；所述中文内容标签集中包括至少一个中文内容标签。
53.可理解地，通过预先设定好所述中文内容标签集，将所述中文内容标签集上传至服务器中，当对所述待处理视频设置完成主题类型后，需要对所述待处理视频的内容标签进行设置时，直接从所述服务器中进行获取，在上传所述中文内容标签集之前，通过字典对所述中文内容标签进行扩展，根据字典获取所述中文内容标签的同义词或近义词，并将所述中文内容标签的同义词或近义词也确定为中文内容标签，并整理到所述中文内容标签集中，所述中文内容标签集为所有中文内容标签的集合。
54.具体地，获取所述中文内容标签集之后，自动从所述中文内容标签集中得到与所述主题类型关联的至少一个中文内容标签，例如汽车类、保险类的主题类型，需要关联多个中文内容标签对所述视频内容进行全面监控，从而避免从其他方面或其他方式对内容标签进行说明，可以根据实际需求设置所述主题类型的中文内容标签，从而实现对不同主题类型的视频内容进行全面监控。
55.s22，对所述中文内容标签进行泛化处理，生成与所述中文内容标签对应的英文内容标签和拼音内容标签。
56.可理解地，在得到中文内容标签集后，通过中英双语词典对所述中文内容标签集中的中文内容标签进行泛化处理，即对所述内容标签进行扩展，确定其他语言对应的内容标签，对视频内容进行全面监控，例如通过中英双语词典得到与所述中文内容标签对应的英文内容标签和拼音内容标签，还可以通过翻译软件进行翻译，从而得到英文内容标签和拼音内容标签，还可以通过中法双语词典、中德双语词典、中俄双语词典和翻译软件，得到对应的法文内容标签和拼音内容标签、德文内容标签和拼音内容标签、俄文内容标签和拼音内容标签。
57.s23，将中文内容标签、英文内容标签和拼音内容标签关联记录为视频标签，并将所有所述中文内容标签对应的视频标签整理为所述视频标签集。
58.可理解地，所述视频标签是中文内容标签、英文内容标签和拼音内容标签进行关联得到的，所述视频标签还可以是中文内容标签、德文内容标签和拼音内容标签进行关联得到的，也可以是中文内容标签、俄文内容标签、英文内容标签、德文内容标签和拼音内容标签进行关联得到的，所述视频标签的具体内容可以根据实际情况进行设定。
59.具体地，在对所述中文内容标签进行泛化处理后，将从所述中文内容标签集中得到的中文内容标签和与所述中文内容标签对应的英文内容标签以及拼音内容标签之间进行关联，可以通过任意一个内容标签快速查找到其他关联的标签，将关联后的标签命名为视频标签，将所有的中文内容标签、英文内容标签和拼音内容标签进行关联，并将关联后得到的所有视频标签整理成一个集合，将这个集合称为视频标签集。
60.本发明实施例通过泛化处理实现了对中文内容标签的扩展，避免了通过其他语言进行描述而避过设置的视频标签，通过将泛化处理后所有的内容标签进行关联实现了通过任意一个内容标签快速找到其他关联的内容标签，进一步提高了视频内容监控的准确性，降低了视频内容监控的成本，提高了视频内容监控的时效性。
61.在一实施例中，如图3所示，所述步骤s4中，即根据所述初始校验视频的播放地址和预设语音处理模型，对所述初始校验视频进行视频内容识别，得到与所述初始校验视频对应的至少一个语句文本，包括：
62.s41，自所述播放地址处获取与所述初始校验视频对应的视频文件，并对所述视频文件进行音频处理，以确定与所述初始校验视频对应的音频轨道。
63.可理解地，通过所述播放地址，从用户上传的播放平台中获取与所述初始校验视频对应的视频文件，将所述视频文件输入到音频处理模型中，通过所述音频处理模型对所述视频文件进行分帧处理，将视频文件划分为一帧一帧的音频数据，所述音频数据用于记录所述视频文件中各个时间点的音频，并通过音频处理模型对各个时间点的音频数据中的音频轨道进行提取，得到与所述初始校验视频对应的所有音频轨道，其中，该音频处理模型
可以为预先通过大量的音频数据对所述音频处理模型进行训练，当训练结果的准确率达到设置的目标时，结束训练完成模型训练。
64.s42，对所述音频轨道进行背景噪音处理，以确定人声语音。
65.可理解地，在得到与所述初始校验视频对应的音频轨道后，根据音量的大小和人声频段的范围，对所有所述音频轨道中人声的音频轨道进行提取，因为人体发出声音的频段范围是固定的，可以通过预先设定一个频段范围，对所述音频轨道中的其他频段数据进行删除，保留预设频段范围内的音频轨道，再对所述预设频段范围内的音频轨道进行噪音划分，分别得到背景噪音的音频轨道和人声的音频轨道，将所述背景噪音音频轨道进行删除，保留有人声的音频轨道，对人声的音频轨道中没有声音部分的音频轨道进行删除，即对空白部分进行删除，得到均有人声的音频轨道，将所述人声音频轨道确定为人声语音，所述音频轨道为记录有一条或几条记录声音信号的道路，所述人声语音为由人体发音器官发出的声音。
66.s43，通过所述预设语音处理模型对所述人声语音进行文本识别，以确定与所述初始校验视频对应的至少一个语句文本。
67.可理解地，本实施例中的预设语音处理模型中包括语音识别模型以及文本处理模块；其中，语音识别模块为对视频文件进行内容识别的神经网络模型，该语音识别模型可以将视频文件中的语音转换成语句文本；文本处理模块为对识别后得到文本进行过滤处理的神经网络模型，该文本处理模块可以对所述语句文本中的噪音词(例如语气词、拟声词和停用词等字词，如啊、呢、啾啾、咚咚、从而、除非等等)进行删除。
68.具体地，在得到所述人声语音后，将所述人声语音输入到预设的语音处理模型中进行文本识别，所述预设的语音处理模型包括语音识别模块和文本处理模块，通过所述语音识别模块对所述人声语音进行文本识别，该语音识别模块可以将所述人声语音转换成文本，从而得到与所述人声语音对应的待处理语句文本，通过所述文本处理模块对所述待处理语句文本进行过滤处理，该文本处理模块可以对所述待处理语句文本中的语气词和停用词等噪音词进行删除，得到与所述初始校验视频对应的语句文本。
69.本发明实施例通过播放地址实现了对视频文件的快速获取，通过音频处理实现了对音频轨道的提取，通过背景噪音处理实现了对人声音频轨道的获取，从而降低了文本识别的难度，通过语音处理模型实现了将所述人声语音转换为语句文本，提高了文本识别的准确性，进一步提高了视频内容监控的时效性。
70.在一实施例中，所述步骤s43中，即通过所述预设语音处理模型对所述人声语音进行文本识别，以确定与所述初始校验视频对应的至少一个语句文本，所述语音处理模型包括语音识别模块和文本处理模块，包括：
71.s431，将所述人声语音输入至语音识别模块，通过所述语音识别模块对所述人声语音进行文本识别，得到待处理语句文本。
72.可理解地，所述语音识别模块为可以将语音转换为文本的神经网络模型，预先通过输入大量的训练数据进行训练，当训练结果达到预设的准确率阈值时，结束训练模型构建完成，所述声学模型为可以将包含声音信息的多维向量转换成音素信息的神经网络模型，所述语言模型为将所述音素信息转换成语句文本的神经网络模型，所述移动窗函数为可以移动的时域有限宽的信号，所述梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对
数能量频谱的线性变换，所述梅尔频率倒谱系数是组成梅尔频率倒谱的系数，所述线性预测倒谱系数为组成线性预测倒谱的系数，所述音素为根据语音的自然属性划分出来的最小语音单位。
73.具体地，将得到的人声语音输入到语音处理模型中的语音识别模块，通过语音识别模块对人声语音进行信号切割，使用移动窗函数来实现将人声语音切成一小段一小段的语音信号，每小段称为一帧，信号切割不是简单的切开，各帧之间是有交叠的，然后对每一帧语音信号进行特征提取，通过线性预测倒谱系数和梅尔倒谱系数将每一帧语音信号变成一个包含声音信息的多维向量，即每一帧语音信号都用特征向量来表示，再根据声学模型将所有多维向量进行转化，得到对应的音素信息，通过语言模型将所述音素信息进行转换得到待处理语句文本。
74.s432，将所述待处理语句文本输入文本处理模块，通过所述文本处理模块对所述待处理语句文本进行过滤处理，得到与所述初始校验视频对应的至少一个语句文本。
75.可理解地，在得到待处理语句文本后，所述待处理语句文本一般是短文本或者长文本，因此，需要将所述待处理语句文本中的句子进行划分，将所述待处理语句文本输入到文本处理模块，通过所述文本处理模块对所述待处理语句文本进行分词，得到与所述待处理语句文本对应的待处理字词，并通过词性编码表将所述待处理字词进行词性标注，即给每个词或者词语打词类标签，基于词性标注对所述语句文本中的待处理字词进行实体识别，即对所述语句文本中的实体信息进行提取，得到与所述待处理字词对应的实体识别结果，再对与所述待处理语句文本对应的实体识别结果进行字词过滤，即将实体识别结果中的停用词和语气词等字词进行过滤删除，从而得到与所述初始校验视频对应的所述语句文本。
76.本发明实施例通过语音识别模块实现了语音到文本的转换，通过文本处理模块实现了对文本中停用词和语气词的删除，降低了匹配判断时的匹配难度，进一步提高了视频内容监控的准确性。
77.在一实施例中，所述步骤s432中，即将所述待处理语句文本输入至文本处理模块，通过所述文本处理模块对所述待处理语句文本进行过滤处理，以确定与所述初始校验视频对应的至少一个语句文本，包括：
78.s4321，对所述待处理语句文本进行切词处理，得到所述待处理语句文本中的至少一个待处理字词。
79.可理解地，在得到所述待处理文本之后，通过中文分词算法对所述待处理语句文本进行切词处理，根据上下文特征的联系将所述待处理语句文本进行全切分路径选择切词，得到与所述待处理语句文本对应的至少一个待处理字词，所述全切分路径选择切词过程为将所有可能的切词结果全部列出来，从中选择最佳的切分路径，并将所有的切词结果组成有向无环图，可以通过将切词结果作为节点，词和词之间的边赋予权重，找到权重和最小的路径即为最终结果，比如可以通过词频作为权重，找到一条总词频最大的路径即可认为是最佳路径，其中，所述待处理字词为对所述语句文本切分后的结果，所述切词结果为切分后得到的所述待处理字词，所述有向无环图为无回路、有方向的图。
80.s4322，对所述待处理字词进行词性标注以及实体识别，得到与所述待处理字词对应的实体识别结果。
81.可理解地，所述实体识别模型可以通过采用有标签的文本对如基于神经网络构建的模型进行有监督训练得到，所述词性标注为根据词性编码表给字词设置词类标签，所述实体识别为从语句文本中提取出实体信息的过程，所述实体识别结果为从语句文本中提取出的实体信息。
82.具体地，通过词性编码表对所有所述待处理字词进行词性标注，给每个词或者词语打词类标签，如形容词、动词、名词等，可以让所述待处理字词在后面的处理中融入更多有用的信息，将对每个待处理字词进行词性标注后的待处理语句文本输入到实体识别模型中，通过实体识别模型对待处理语句文本进行实体识别，如根据各个待处理字词的词性辅助确定每一待处理字词的实体类型，进而将实体类型确定为实体识别结果，即根据上下文特征、句子及字词的词性之间的联系，从给定的语句文本中抽取重要的实体信息，比如时间、地点、人物等等，时间即可以为时间实体、地点即可以为地点实体，人物例如可以为姓名实体等。
83.s4323，根据与各所述待处理字词对应的实体识别结果，对所述待处理语句文本进行字词过滤，得到所述语句文本。
84.可理解地，在得到与各所述待处理字词对应的实体识别结果后，通过预先设定好的词典库对所有实体识别结果中的停用词和语气词等噪音词语进行过滤，即对语句文本中的噪音词进行过滤删除，将过滤后得到的所有实体识别结果整理成所述语句文本。其中，停用词删除是根据具体场景来决定的，比如在一些情感分析的语句文本中，因为语气词、感叹号对表示语气程度、感情色彩有一定的意义，所以是应该保留的。
85.本发明实施例通过切词处理实现了对所述待处理语句文本进行分词，通过词性编码表实现了对所述待处理字词进行词性标注，通过实体识别实现了对语句文本中实体信息的提取，通过过滤处理实现了对文本中没有作用的字词进行删除，进一步提高了视频内容监控的准确性，降低了匹配判断时的匹配难度。
86.在一实施例中，如图4所示，所述步骤s5中，即将所述语句文本输入至预设的语句模型，通过所述预设的语句模型对所述语句文本进行匹配判断，得到与所述语句文本对应的文本匹配值；一个语句文本对应一个文本匹配值，包括：
87.s51，对所述语句文本进行扫描划分，得到语句文本中的至少一个文本字词。
88.可理解地，在得到所述语句文本之后，通过投影直方图方法对所述语句文本的内容进行扫描，即从左上角开始，逐步从左到右，从上到下的扫描图片，并将所述语句文本对应的内容划分成一行一行的内容，再通过投影的方式对划分内容进行投放出来，再根据连通域分析方法对所有所述语句文本进行等宽度的切分，得到一块一块的切分区域，并对切分区域内的所述语句文本进行卷积特征提取，得到与所述语句文本对应的卷积特征文本，对所述卷积特征文本进行文字序列特征提取，得到与所述卷积特征文本对应的文字序列特征文本，并对所述文字序列特征文本进行字符对齐处理，得到与所述语句文本对应的文本字词，其中，所述语句文本中包括至少一个文本字词，所述文本字词为对所述语句文本进行划分后得到的字词。
89.s52，将所述文本字词输入至所述预设的语句模型中，通过所述预设的语句模型确定与所述文本字词对应的正向文本匹配值以及负向文本匹配值。
90.可理解地，所述预设的语句模型中包括正向语句匹配模块和负向语句匹配模块，
将保险观念导入、产品讲解、理赔案例评价等多种场景的标准话术库输入到正向语句匹配模型进行训练，得到正向语句匹配模块，将警示案例和反面教材输入到负向语句匹配模型进行训练，得到负向语句匹配模块，所述零文本匹配值为所述文本字词与所述语句模型中的文本字词的相似度超过预设阈值或未匹配时的匹配值。
91.具体地，在得到所述文本字词后，将所有所述文本字词输入至所述预设的语句模型中，通过所述预设的语句模型对所述文本字词进行相似度匹配判断，分别得到正向欧式距离和负向欧式距离，并通过所述正向欧式距离与预设的正向距离阈值进行比较，当所述正向欧式距离小于所述正向距离阈值时，确定与所述正向欧式距离对应的文本字词的匹配值为正向文本匹配值，所述负向欧式距离与预设的负向距离阈值进行比较，当所述负向欧式距离小于负向距离阈值时，确定与所述负向欧式距离对应的文本字词的匹配值为负向文本匹配值，其中，当正向欧氏距离大于或等于正向距离阈值或负向欧氏距离大于或等于欧氏距离阈值时，确定出所述文本字词对应的匹配值为零文本匹配值，当所述文本字词与所述语句模型中的文本字词未匹配时，即所述语句模型中未记录该文本字词，则将该文本字词对应的匹配值确定为零文本匹配值，并将所述零文本匹配值划分到正向文本匹配值中。
92.s53，将所述语句文本中所有所述文本字词对应的所述正向文本匹配值和所述负向文本匹配值之和记录为与所述语句文本对应的文本匹配值。
93.可理解地，在得到与所述文本字词对应的正向文本匹配值以及负向文本匹配值之后，将语句文本中所有文本字词对应的所述正向文本匹配值和所述负向文本匹配值进行求和计算，将所有的所述正向文本匹配值和所述负向文本匹配值相加得到一个匹配值，将所述匹配值确定为与所述语句文本对应的文本匹配值，在一实施例中例如一个语句文本中包括五个文本字词，所述五个文本字词分别的文本匹配值为正向文本匹配值为1、负向文本匹配值为-1、负向文本匹配值为-1、正向文本匹配值为1、正向文本匹配值为1，对所述语句文本的文本匹配值进行计算，得到文本匹配值为1，其中，一个文本字词的正向文本匹配值为1，则这个文本字词的负向文本匹配值为0，即一个文本字词不可能既符合正向语句匹配模块，又符合负向语句匹配模块。
94.本发明实施例通过对所述语句文本进行扫描划分实现了对文本字词的获取，通过文本字词与语句模型匹配实现了对文本字词的匹配值计算，通过对所有文本字词的匹配值进行计算实现了对所述语句文本的文本匹配值的获取，提高了视频内容监控的准确性，进一步提高了视频内容监控的时效性。
95.在一实施例中，所述步骤s52中，即将所述文本字词输入至所述预设的语句模型中，通过所述预设的语句模型确定与所述文本字词对应的正向文本匹配值以及负向文本匹配值，包括：
96.s521，将所述文本字词输入至所述正向语句匹配模块，以确定与所述文本字词对应的正向欧式距离，并根据所述正向欧式距离确定与所述文本字词对应的正向文本匹配值。
97.可理解地，在得到所述文本字词之后，将所有所述文本字词输入到所述正向语句匹配模块中，通过计算所述文本字词与正向语句匹配模块之间的欧式距离，即计算两者之间的相似度，从而确定出与所述文本字词对应的正向欧式距离，并将所述正向欧式距离与预设的正向距离阈值进行比较大小，当所述正向欧式距离小于所述正向距离阈值时，确定
与所述正向欧式距离对应的文本字词的匹配值为正向文本匹配值，即根据所述正向欧式距离确定与所述文本字词对应的正向文本匹配值为1，当所述正向欧氏距离大于或等于正向距离阈值时，确定出与所述正向欧式距离对应的文本字词的匹配值为零文本匹配值，并将所述零文本匹配值划分到正向文本匹配值中，其中，所述正向欧式距离为所述语句文本与正向语句匹配模块中文本的相似度，所述正向距离阈值为预设的所述语句文本与正向语句匹配模块中文本的相似度。
98.s522，将所述文本字词输入至所述负向语句匹配模块，以确定与所述文本字词对应的负向欧式距离，并根据所述负向欧式距离确定与所述文本字词对应的负向文本匹配值。
99.可理解地，在得到所述文本字词之后，将所有所述文本字词输入到所述负向语句匹配模块中，通过计算所述文本字词与负向语句匹配模块之间的欧式距离，即计算两者之间的相似度，从而确定出与所述文本字词对应的负向欧式距离，并将所述负向欧式距离与预设的负向距离阈值进行比较大小，当所述负向欧式距离小于负向距离阈值时，确定与所述负向欧式距离对应的文本字词的匹配值为负向文本匹配值，即根据所述负向欧式距离确定与所述文本字词对应的负向文本匹配值为-1，当所述负向欧氏距离大于或等于负向距离阈值时，确定与所述负向欧式距离对应的文本字词的匹配值为零文本匹配值，并将所述零文本匹配值划分到正向文本匹配值中，其中，所述负向欧式距离为所述语句文本与负向语句匹配模块中文本的相似度，所述负向距离阈值为预设的所述语句文本与负向语句匹配模块中文本的相似度。
100.本发明实施例通过正向语句匹配模块实现了对文本字词的正向文本匹配值的确定，通过负向语句匹配模块实现了对文本字词的负向文本匹配值的确定，进一步提高了视频内容监控的准确性，降低了视频内容监控的成本，提高了视频内容监控的时效性。
101.在一实施例中，所述步骤s6之后，即根据所有所述语句文本对应的文本匹配值，确定与所述初始校验视频对应的监控结果之后，包括：
102.根据监控结果，对所有所述语句文本进行审核，以确定匹配异常语句文本，将所述匹配异常语句文本输入所述预设的语句模型进行优化处理，得到新的语句模型。
103.可理解地，在得到监控结果后，即得到所述初始校验视频为异常视频后，根据所述异常视频对应的总文本匹配值，对所述异常视频的优先级进行排序，将总文本匹配值低的语句文本作为最高优先级，优先级越高代表匹配的视频标签越多，异常的语句文本越多，优先级越低代表匹配的视频标签越少，异常的语句文本越少，例如，有五个异常视频的总文本匹配值分别为-10、-15、-13、-19、-17，排序结果为-19、-17、-15、-13、-10，通过排序结果可以知道总文本匹配值为-19对应的异常视频的优先级最高，即需要首先对其进行处理，总文本匹配值为-10对应的异常视频的优先级最低，不用立即对其进行处理，并将排序后的异常视频传输到下一流程中，由人工对所述异常视频的视频内容和与所述异常视频对应的所有所述语句文本进行审核判断，并从所有所述语句文本中确定出匹配异常语句文本，并将所述匹配异常语句文本输入到预设的语句模型中，对所述预设的语句模型进行更新，即将所述匹配异常语句文本作为训练数据对预设的语句模型进行优化，得到新的语句模型，其中，所述匹配异常语句文本为通过预设的语句模型对语句文本进行匹配判断而匹配结果错误的语句文本，所述异常视频为所述总文本匹配值大于或等于设定的匹配阈值的初始校验视
频。
104.本发明实施例通过对监控结果的优先级排序实现了对负面影响大的视频快速处理，通过人工根据监控结果对所述视频内容进行审核提高了视频内容监控的准确性，实现了全天对所述待处理视频进行监控，提高了对视频内容监控的时效性，降低了视频内容监控的投入成本。
105.在一实施例中，提供一种视频内容监控装置，该视频内容监控装置与上述实施例中视频内容监控方法一一对应。如图6所示，该视频内容监控装置包括获取模块11、匹配模块12、解析模块13、识别模块14、判断模块15和监控模块16。各功能模块详细说明如下：
106.获取模块11，用于获取待处理视频，所述待处理视频包括至少一个内容标签；
107.匹配模块12，用于获取预设视频标签集，并将所有所述内容标签与视频标签进行匹配；所述预设视频标签集中包括至少一个视频标签；
108.解析模块13，用于在任意一个所述内容标签与所述视频标签匹配时，将所述待处理视频记录为初始校验视频，并对所述初始校验视频进行地址解析，以确定所述初始校验视频的播放地址；
109.识别模块14，用于根据所述初始校验视频的播放地址和预设语音处理模型，对所述初始校验视频进行视频内容识别，得到与所述初始校验视频对应的至少一个语句文本；
110.判断模块15，用于将所述语句文本输入至预设的语句模型，通过所述预设的语句模型对所述语句文本进行匹配判断，得到与所述语句文本对应的文本匹配值；一个语句文本对应一个文本匹配值；
111.监控模块16，用于根据所有所述语句文本对应的文本匹配值，确定与所述初始校验视频对应的监控结果。
112.在一实施例中，所述识别模块14包括：
113.音频处理单元，用于自所述播放地址处获取与所述初始校验视频对应的视频文件，并对所述视频文件进行音频处理，以确定与所述初始校验视频对应的音频轨道；
114.噪音处理单元，用于对所述音频轨道进行背景噪音处理，以确定人声语音；
115.文本识别单元，用于通过所述预设语音处理模型对所述人声语音进行文本识别，以确定与所述初始校验视频对应的至少一个语句文本。
116.在一实施例中，所述文本识别单元包括：
117.语音识别子单元，用于将所述人声语音输入至语音识别模块，通过所述语音识别模块对所述人声语音进行文本识别，得到待处理语句文本；
118.文本处理子单元，用于将所述待处理语句文本输入至文本处理模块，通过所述文本处理模块对所述待处理语句文本进行过滤处理，得到与所述初始校验视频对应的至少一个语句文本。
119.在一实施例中，所述文本处理子单元包括：
120.切词子单元，用于对所述待处理语句文本进行切词处理，得到所述待处理语句文本中的至少一个待处理字词；
121.标注子单元，用于对所述待处理字词进行词性标注以及实体识别，得到与所述待处理字词对应的实体识别结果；
122.过滤子单元，用于根据与各所述待处理字词对应的实体识别结果，对所述待处理
语句文本进行字词过滤，得到所述语句文本。
123.在一实施例中，所述判断模块15包括：
124.划分单元，用于对所述语句文本进行扫描划分，得到语句文本中的至少一个文本字词；
125.确定单元，用于将所述文本字词输入至所述预设的语句模型中，通过所述预设的语句模型确定与所述文本字词对应的正向文本匹配值以及负向文本匹配值；
126.计算单元，用于将所述语句文本中所有所述文本字词对应的所述正向文本匹配值和所述负向文本匹配值之和记录为与所述语句文本对应的文本匹配值。
127.在一实施例中，所述确定单元包括：
128.正向确定子单元，用于将所述文本字词输入至所述正向语句匹配模块，以确定与所述文本字词对应的正向欧式距离，并根据所述正向欧式距离确定与所述文本字词对应的正向文本匹配值；
129.负向确定子单元，用于将所述文本字词输入至所述负向语句匹配模块，以确定与所述文本字词对应的负向欧式距离，并根据所述负向欧式距离确定与所述文本字词对应的负向文本匹配值。
130.在一实施例中，所述匹配模块12包括：
131.获取单元，用于获取中文内容标签集；所述中文内容标签集中包括至少一个中文内容标签；
132.泛化处理单元，用于对所述中文内容标签进行泛化处理，生成与所述中文内容标签对应的英文内容标签和拼音内容标签；
133.关联记录单元，用于将中文内容标签、英文内容标签和拼音内容标签关联记录为视频标签，并将所有所述中文内容标签对应的视频标签整理为所述视频标签集。
134.关于视频内容监控装置的具体限定可以参见上文中对于视频内容监控方法的限定，在此不再赘述。上述视频内容监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
135.在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频内容监控方法。
136.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中视频内容监控方法。
137.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中视频内容监控方法。
138.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
139.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
140.以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：电子账户的认证协作方法、装置、计算机设备及介质与流程

视频内容监控方法、装置、设备及介质与流程

相关文献

最热文献