一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

内容识别方法、装置、介质及电子设备与流程

2022-02-21 08:36:39 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,具体地,涉及一种内容识别方法、装置、介质及电子设备。


背景技术:

2.计算机技术的发展,使新闻、资讯等内容越来越多地被关注,同时内容共享平台的兴起使得可以发布内容的用户更加多样。平台通常会承载很多的ugc(user-generated content,用户生成内容)和pgc(professional-generated content,专业生成内容),而为了保证内容的有效性,通常需要工作人员对发布的内容进行审核,以确定待发布的内容是否是抄袭已发布的其他内容。
3.然而在上述过程中需要耗费大量人力的同时,极有可能因为人工主观的理解不同造成误判或者漏判的情况,并且更难以应对大量的内容的审核过程。


技术实现要素:

4.提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
5.第一方面,本公开提供一种内容识别方法,所述方法包括:
6.接收待识别内容;
7.根据包含所述待识别内容的多个内容识别对和内容识别模型,获得所述多个内容识别对的识别结果,其中,每一所述内容识别对还包括预设集合中的一个候选内容,所述内容识别模型用于获取所述待识别内容和所述候选内容在多个维度下的维度特征,并基于所述多个维度特征确定所述识别结果,所述多个维度用于表示所述待识别内容中的多种类型的组成部分;
8.根据多个所述识别结果,确定所述待识别内容的目标识别结果。
9.第二方面,本公开提供一种内容识别装置,所述装置包括:
10.接收模块,用于接收待识别内容;
11.处理模块,用于根据包含所述待识别内容的多个内容识别对和内容识别模型,获得所述多个内容识别对的识别结果,其中,每一所述内容识别对还包括预设集合中的一个候选内容,所述内容识别模型用于获取所述待识别内容和所述候选内容在多个维度下的维度特征,并基于所述多个维度特征确定所述识别结果,所述多个维度用于表示所述待识别内容中的多种类型的组成部分;
12.第一确定模块,用于根据多个所述识别结果,确定所述待识别内容的目标识别结果。
13.第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面所述方法的步骤。
14.第四方面,本公开提供一种电子设备,包括:
15.存储装置,其上存储有计算机程序;
16.处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述方法的步骤。
17.在上述技术方案中,通过将待识别内容与已有的内容形成内容识别对,以基于该内容识别对确定该待识别内容与已有内容之间的关联程度,从而可以基于多个内容识别对的结果综合确定出该待识别内容的识别结果,实现待识别内容的自动审核。由此,通过上述技术方案,在对待识别内容进行识别审核时,可以基于待识别内容中的不同类型的组成部分进行识别,从而可以识别出不同组成部分之间的相似重合行为,实现不同维度的特征之间的识别,提高识别结果的准确性,有效避免待识别内容的误判、漏判的情况,有效节省人工工作量的同时,提高识别结果的准确性,同时为保证原创内容的发布提供有效的数据支持,便于用户使用。
18.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
19.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
20.图1是根据本公开的一种实施例提供的内容识别方法的流程图;
21.图2是根据包含待识别内容的多个内容识别对和内容识别模型,获得多个内容识别对的识别结果的示例性实现方式的流程图;
22.图3是根据本公开的一种实施例提供的标题特征提取子模型的示意图;
23.图4是根据本公开的一种实施例提供的图像特征提取子模型的示意图;
24.图5是根据本公开的一种实施例提供的内容识别模型的结构示意图;
25.图6是根据本公开的一种实施例提供的内容识别装置的框图;
26.图7示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
27.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
28.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
29.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
30.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
31.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
32.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
33.在实际应用场景中,经申请人研究发现,在内容撰写时可能会出现以下内容相似的抄袭现象:复写已发布内容中的图像,即将现有内容中的图像中的文字以文本的形式复写出来,形成新的文本内容;或者将已发布内容中的视频字幕修改为文本,即将现有内容中的视频中的字幕信息提取出来进行复写,从而形成新的文本内容;或者对另一内容进行简单的改写,以形成新的内容。上述过程中不同类型的信息之间其也可能存在相似度过高的情况,相关技术中针对于此类现象可能会出现漏判的问题。而针对标题相似的文章其分别对应的内容可能差异较大,针对此类现象则容易出现误判。现有技术中难以进行有效识别,人工识别所需的工作量剧增。基于此,本公开还提供以下实施例。
34.图1所示,为根据本公开的一种实施例提供的内容识别方法的流程图,如图1所示,所述方法可以包括:
35.在步骤11中,接收待识别内容,其中,该待识别内容可以是上传的需要进行审核的内容,如可以是上传的ugc内容、pgc内容,也可是官方账户上传的内容,可以根据实际需要进行审核识别的要求进行确定。
36.在步骤12中,根据包含待识别内容的多个内容识别对和内容识别模型,获得多个内容识别对的识别结果,其中,每一所述内容识别对还包括预设集合中的一个候选内容,所述内容识别模型用于获取所述待识别内容和所述候选内容在多个维度下的维度特征,并基于所述多个维度特征确定所述识别结果,所述多个维度用于表示所述待识别内容中的多种类型的组成部分,如维度可以是正文、标题、图像、音频、视频等,从而可以基于多个维度下的特征进行识别,从而实现不同维度的特征之间的识别,提高识别结果的准确性。
37.其中,预设集合可以根据实际使用场景进行设置,例如该预设集合可以是用于审核的平台能够获得的全部的内容数据形成的集合,也可以是针对某一类型的内容数据所形成的集合,例如,体育新闻集合,娱乐新闻集合等,本公开对此不进行限定。
38.在一种可能的实施例中,候选内容可以通过如下方式确定:
39.将所述待识别内容与所述预设集合中的多个存储内容进行相似度计算,从而获得该待识别内容与存储内容之间的相似度。示例地,可以将待识别内容和存储内容基于一致的向量转换方式生成其分别对应的向量表示,而后可以基于向量表示进行相似度计算,如计算距离的倒数、夹角余弦值等。
40.之后,根据待识别内容与存储内容之间的相似度,确定候选内容。如可以将相似度大于阈值的存储内容确定为候选内容,也可以是按照相似度由大至小的顺序进行排序,从而获取前n的存储内容确定为候选内容,n可以根据实际应用场景进行设置,如可以设置为10或15,在保证计算准确性的同时尽量降低数据计算量。
41.因此,确定出的候选内容是与待识别内容具有一定相似度的内容,在该步骤中可以将该待识别内容与任一候选内容形成一内容识别对,以进一步通过一一比对的方式确定
speech recognition)技术对其中的音频进行识别,或者通过光学字符识别(ocr,optical character recognition)对视频中的字幕进行识别,以获得该视频对应为文本,并间隔预设时段获取视频中的图像,获得图像序列,从而可以基于上文所述方式确定文本对应的向量,以及图像序列中的每一图像对应的向量,以获得该视频对应的向量。
51.在步骤22中,针对每一维度,将待识别内容和候选内容在该维度下的特征进行拼接,获得该维度对应的拼接特征。
52.示例地,如图3所示,a区域中用于获取待识别内容的维度特征,b区域中用于获取候选内容的维度特征。在本公开实施例中,并非是直接将待识别内容与候选内容进行对比,而是将待识别内容和候选内容融合到一起获得一个特征以基于该特征进行识别。因此,在将待识别内容和候选内容的特征进行拼接时,可以在待识别内容和候选内容的特征中间通过分隔标记进行分隔,在实现两者特征拼接的同时,对两者的特征进行有效区分。其中,分隔标记的设置可以根据具体的应用场景进行设置,并对其进行向量编码,从而可以将其作为分隔向量标记至拼接特征中,如图3中c区域所示。同样地,如图4所示,在图像维度下,该分隔标记可以为一分隔图,从而可以对该分割图进行特征提取并进行embedding向量编码,获得分割图对应的embedding向量,进而获得拼接特征。
53.在步骤23中,根据多个维度对应的拼接特征,获得内容识别对对应的融合特征。
54.在步骤24中,基于内容识别模型的分类子模型和融合特征,确定内容识别对的识别结果。
55.作为示例,可以对该多个维度对应的拼接特征,基于维度拼接的方向进行拼接,获得该融合特征,即该融合特征中包含该多个维度对应的拼接特征。进一步地,该融合特征中同时包含待识别内容和候选内容的特征,从而可以基于该融合特征和分类子模型进行识别分类,从而可以得出分类结果。
56.由此,通过上述技术方案,可以针对候选内容和待识别内容的每一维度进行特征提取,从而可以获得每一维度下的待识别内容和候选内容的特征,进而将多个维度下的特征进行融合,可以使得融合特征中同时包含待识别内容和候选内容在多个维度下的特征,保证进行分类识别的特征的准确性和全面性,为进行识别结果的分类提供准确的数据支持。同时,可以基于融合特征进行分类,与相关技术中计算相似度进行对比而言,可以获得更多的分类结果,以便于对该内容识别方法进行扩展,提高该内容识别方法的应用范围。
57.在一种可能的实施例中,在步骤23中,根据多个维度对应的拼接特征,获得内容识别对对应的融合特征的示例性实现方式如下,该步骤可以包括:
58.针对每一维度对应的拼接特征,基于第一注意力层对所述拼接特征进行处理,获得所述拼接特征对应的注意力特征。
59.示例地,可以基于transformer模型对拼接特征进行处理,其中,transformer模型中包含注意力层,从而可以在对拼接特征进行处理时,在拼接特征的基础上融合该待识别内容对候选内容的关注度信息,以及待识别内容的自注意力信息,以便于后续确定候选内容中的相似部分,以及待识别内容的内容质量信息。
60.作为示例,为了进一步提高特征处理的准确性,可以采用多层transformer模型进行处理,例如,针对内容信息复杂的正文和图像部分,可以采用双层transformer进行注意力处理,针对标题部分,可以采用单层transformer进行注意力处理。
61.将每一维度下的注意力特征进行拼接,获得多维度拼接特征。
62.示例地,每一维度下的注意力特征的大小是相同的,例如每一维度下的注意力特征为10*32的矩阵,则可以基于维度拼接的方式对注意力特征进行拼接,在对标题、正文、图像等3个维度的注意力特征进行拼接后,可以获得尺寸为10*96的多维度拼接特征。
63.基于第二注意力层对所述多维度拼接特征进行处理,获得所述融合特征。
64.其中,该第二注意力层和第一注意力层的结构可以相同,也可以不同,其可以根据实际应用场景进行设置。注意力层对多维度拼接特征进行再次处理,可以使得在融合特征中既能够包含包该多维度拼接特征,同时又可以针对多维度拼接特征中的信息赋予不同的权重。其中,通过注意力处理,可以基于原有数据找到其之间的关联性并突出其中的重要特征。示例地,多维度拼接特征中可以包括待识别内容的标题特征、正文特征和图像特征,以及候选内容的标题特征、正文特征和图像特征,因此通过第二注意力层进行注意力计算处理,可以使得待识别内容中的标题特征也能够关注到候选内容的标题特征、正文特征和图像特征,便于获得待识别内容中的特征与候选内容中的多个维度下的特征的关联,从而保证后续待识别内容进行识别的准确度,为对不同类型信息之间的相似度识别,以进一步确定抄袭或复写行为的识别提供数据支持。
65.在一种可能的实施例中,所述识别结果包括所述待识别内容对应于分类的识别参数,其中,所述分类用于表示所述待识别内容的原创程度,所述识别参数可以是该待识别内容对应于该分类的概率。
66.相应地,所述基于所述内容识别模型的分类子模型和所述融合特征,确定所述内容识别对的识别结果的示例性实现方式可以包括:
67.根据所述融合特征和所述分类子模型,获得所述融合特征分别对应于多个分类的特征向量,所述分类包括相似内容分类、低质量内容分类、原创内容分类。其中,所述特征向量中的维度和该多个分类中的分类一一对应。
68.其中,所述相似内容分类用于表示该待识别内容与现有内容的重合度过高,即该待识别内容为相似内容;低质量内容分类用于表示由于该待识别内容的字数较少或者图像模糊或者表意不清等问题导致的难以进行识别审核;原创内容分类用于表示该待识别内容与现有内容的重合度较低,即该待识别内容为原创的内容。
69.其中,该分类子模型可以基于gap(global average pooling,全局平均池化)层和dense密集连接层实现。如,可以将融合特征输入该gap层,以将特征图进行全局平均并输出至dense层,从而获得用于进行分类的特征向量。通过gap层可以使得输入的融合特征与确定出的用于进行分类的特征向量之间的转换更加简单,并且该层与fc全连接层相比,无需大量训练调优的参数,从而可以有效降低空间参数,以使模型更加健壮,避免模型过拟合。其中,dap层和dense层的结构可以选择本领域中常规结构,本公开对此不进行限定。
70.对所述特征向量进行处理,获得所述融合特征对应于每一分类的识别参数,以获得所述识别结果。
71.之后,可以通过softmax激活函数对该特征向量进行处理,从而基于特征向量中的每一维度的特征确定该特征向量对应于每一分类的概率,即获得每一分类的识别参数。
72.通过上述技术方案,在对待识别内容进行识别时,与相关技术中基于待识别内容与现有的内容之间计算相似度,以确定是否与已发布内容相似的方案相比,本公开中通过
将内容识别对中的两篇内容合成为一个融合特征进行综合判断,从而可以有效识别出例如“复写已发布内容中的图像”、“将已发布内容中的视频字幕修改为文本”等涉及不同类型的内容之间的复写抄袭现象,从而可以有效识别不同类型信息之间存在的抄袭或复写的行为,从而为后续确定待识别内容的识别结果的准确度提供有效的数据支持。
73.在一种可能的实施例中,所述识别结果包括所述待识别内容对应于分类的识别参数,其中,所述分类用于表示所述待识别内容的原创程度,所述识别参数可以是该待识别内容对应于该分类的概率。
74.相应地,所述根据多个所述识别结果,确定所述待识别内容的目标识别结果的示例性实现方式如下,该步骤可以包括:
75.获取多个识别结果中分别对应于相似内容分类的识别参数,即确定多个内容识别对中确定出的对应于相似内容分类的概率值。
76.若多个所述相似内容分类的识别参数满足相似识别条件,确定所述目标识别结果为相似内容分类,其中,所述相似识别条件可以包括以下情况:
77.第一种情况,所述对应于相似内容分类的识别参数的最大值大于第一预设阈值。
78.其中,如上文所述,可以基于待识别内容初步筛选出多个候选内容,则在后续将该待识别内容与每一候选识别内容一一对比。作为示例,若确定出该待识别内容相较于一候选内容对应于相似内容分类的概率值过大,则可以确定该待识别内容与该候选内容相似度过高,此时可以确定该待识别内容的目标识别结果为相似内容分类。进一步地,在本公开中可以直接基于对应于相似内容分类的识别参数的最大值进行判断,从而可以降低需要进行比较判断的数据量,保证目标识别结果的准确度的同时,提高识别效率。
79.作为另一示例,若所述对应于相似内容分类的识别参数的最大值小于或等于所述第一预设阈值,可以将该待识别内容对应的多个识别结果进行输出,以由人工进行审核,以进一步确定该待识别内容的目标识别结果。
80.第二种情况,所述对应于相似内容分类的识别参数的最大值小于或等于所述第一预设阈值,且所述对应于相似内容分类的识别参数的平均值大于第二预设阈值,此时也可以确定所述目标识别结果为相似内容分类。
81.其中,所述对应于相似内容分类的识别参数的最大值小于或等于所述第一预设阈值,表示该待识别内容与任一候选内容相较其对应于相似内容分类的概率都不满足要求,即该待识别内容与任一候选内容相比其相似度均不高,则该待识别内容并不是与其中的一个候选内容高度相似。在该情况下,可以进一步确定该待识别内容是否为同时与多篇候选内容相似。
82.相应地,在本公开实施例中,在所述对应于相似内容分类的识别参数的最大值小于或等于所述第一预设阈值的情况下,可以进一步确定所述对应于相似内容分类的识别参数的平均值的情况,在所述对应于相似内容分类的识别参数的平均值大于第二预设阈值,表示该待识别内容与各个候选内容相较,其相似的程度较大,即表示该待识别内容是与多篇候选内容是相似的,则表示该待识别内容可能是同时从多篇候选内容中选取了部分内容复写,此时可以将该待识别内容的目标识别结果确定为相似内容分类。
83.由此,通过上述技术方案,可以结合多个内容识别对的识别结果进行综合确定,既能够确定出待识别内容对应于单篇内容的相似情况,又能够确定出待识别内容对应于多篇
内容的相似情况,从而可以对待识别内容进行全面的分析,提高待识别内容识别结果的全面性和准确性,同时可以有效拓展本公开方案的使用范围。
84.在另一种可能的实施例中,所述根据多个所述识别结果,确定所述待识别内容的目标识别结果的示例性实现方式如下,该步骤还可以包括:
85.获取多个识别结果中分别对应于低质量内容分类的识别参数,即确定多个内容识别对中确定出的对应于低质量内容分类的概率值。
86.若多个所述低质量内容分类的识别参数满足低质量识别条件,且多个所述相似内容分类的识别参数不满足相似识别条件,确定所述目标识别结果为低质量内容分类,其中,所述低质量识别条件可以包括以下情况:
87.第一种情况,所述对应于低质量内容分类的识别参数的最大值大于第三预设阈值。
88.其中,可以基于各个内容识别对的识别结果中对应于低质量内容分类的识别分数确定该待识别内容是否为低质量内容。示例地,若确定出该待识别内容对应于低质量内容分类的概率值过大,则该待识别内容可能为低质量内容,若该待识别内容不属于相似内容分类时,此时可以确定该待识别内容的目标识别结果为低质量内容分类。进一步地,在本公开中可以直接基于对应于低质量内容分类的识别参数的最大值进行判断,从而可以降低需要进行比较判断的数据量,保证目标识别结果的准确度的同时,提高识别效率。
89.第二种情况,所述对应于低质量内容分类的识别参数的最大值小于或等于所述第三预设阈值,且所述对应于低质量内容分类的识别参数的平均值大于第四预设阈值,此时也可以确定所述目标识别结果为低质量内容分类。
90.其中,所述对应于低质量内容分类的识别参数的最大值小于或等于所述第三预设阈值,表示该待识别内容的多个识别结果中并没有明确的指向性结果,因此可以进一步确定对应于低质量内容分类的识别参数的平均值的情况,在所述对应于低质量内容分类的识别参数的平均值大于第四预设阈值时,表示该待识别内容的多个识别结果中综合指向其为低质量内容的概率较大,此时可以将该待识别内容的目标识别结果确定为低质量内容分类。
91.由此,通过上述技术方案,可以结合多个内容识别对的识别结果进行综合确定,从而既可以审核该待识别内容是否为与已发布内容高度相似的内容,同时可以对该待识别内容本身的质量进行审核,使得内容识别的过程中可以直接关注该待识别内容本身的撰写质量,避免直接将该待识别内容确定为相似内容或者原创内容所造成的片面性审核,提高内容识别的精度,从而可以提高待识别内容识别结果的全面性和准确性,可以进一步拓展本公开方案的使用范围,同时也可以为避免低质量内容的发布提供数据支持,提升用户使用体验。
92.在另一种可能的实施例中,所述根据多个所述识别结果,确定所述待识别内容的目标识别结果的示例性实现方式还可以包括:
93.获取多个识别结果中分别对应于原创内容分类的识别参数,即确定多个内容识别对中确定出的对应于原创内容分类的概率值。
94.若所述多个所述原创内容分类的识别参数的最大值大于第五预设阈值,且多个所述相似内容分类的识别参数不满足相似识别条件,以及多个所述低质量内容分类的识别参
数不满足低质量识别条件,确定所述目标识别结果为原创内容分类。
95.在该实施例中,在确定出该待识别内容相较于某一候选内容对应于原创内容分类的识别参数的最大值大于第五预设阈值,表示该待识别内容相较于该候选内容为原创内容,则在该待识别内容相较于其他候选内容不属于相似内容,也不属于低质量内容的情况下,则可以直接将该待识别内容确定为原创内容。
96.其中需要进行说明的是,第一预设阈值、第二预设阈值、第三预设阈值、第四预设阈值、第五预设阈值的设置可以根据实际应用场景进行设置,本公开对此不进行限定。
97.由此,通过上述技术方案,待识别内容相较于任一候选内容为原创内容分类时,并不能直接确定其为原创内容分类,需要进一步确定该待识别内容针对于其他候选内容也不存在相似度过高现象或者低质量撰写时,才能确定待识别内容为原创内容,从而可以有效保证确定出的待识别内容识别结果的准确性,为后续内容的发布提供准确的数据支持。
98.在另一种可能的实施例中,可以将多个所述识别结果中分别对应于原创内容分类、低质量内容分类和相似内容分类的识别参数的最大值和平均值进行展示输出,则用户在审核时可以直接基于该各个识别参数的信息进行审核判定,进一步保证待识别内容的目标识别结果的准确性,在一定程度上降低人工工作量,并且可以减少相似度过高内容的误判、漏判,提高内容识别的效率和准确性。
99.其中,在确定待识别内容为相似内容的情况下,为进一步说明识别结果的准确性,可以确定出该待识别内容对应的相似度过高的相似部分,即可以直接将识别参数的最大值的内容识别对中的候选内容确定为该相似部分,则该内容识别对确定为该目标内容识别对。作为示例,可以直接将该目标内容识别对中的候选内容进行展示输出,以展示给用户该待识别内容对应的相似部分。
100.在另一种可能的实施例中,所述方法还可以包括:
101.在确定出目标识别结果为相似内容分类的情况下,根据目标内容识别对对应的融合特征,确定所述融合特征中注意力参数大于预设阈值的目标位置,其中,所述目标内容识别对为对应于相似内容分类的识别参数的最大值的内容识别对。
102.其中,在本公开实施例中,是基于融合特征和分类子模型进行分类,从而获得识别结果。因此,在基于融合特征进行识别确定该待识别内容为相似内容时,在识别分类的过程中注意力参数越大的部分对识别结果的影响越大,即融合特征中注意力参数大于预设阈值的目标位置对于将该待识别内容分类为相似内容的贡献更大,则可以将该目标位置对应的内容作为相似部分。
103.进一步地,将所述目标位置在所述目标内容识别对的候选内容中对应的内容,确定为所述待识别内容对应的重合内容;
104.输出所述目标内容识别对中的候选内容和所述重合内容。
105.其中,在对候选内容进行特征提取时,是基于候选内容中的各部分内容的顺序进行提取的,例如是按照正文部分每一段落进行顺序提取,则正文部分特征a1-am则分别对应于正文中第一段落至第m段落的特征,从而可以基于直接基于确定出的目标位置确定该目标位置在候选内容中对应的部分内容,即待识别内容相似度过高的重合部分内容。之后对候选内容和所述重合内容进行展示。
106.由此,通过上述技术方案,既可以向用户提示该待识别内容为相似内容,又可以进
一步提示用户该待识别内容对应的相似度过高的已有内容,以及在该已有内容中的相似部分,从而可以为保证目标识别结果的准确性提供数据支持,对目标识别结果进行更加明确的说明展示,提高目标识别结果的可信度,提升用户使用体验。
107.在一种可能的实施例中,所述维度与所述内容识别模型的特征提取子模型一一对应,以维度包含标题、正文、图像为例,如图5所述为所述内容识别模型的结构示意图,所述内容识别模型通过以下方式获得:
108.获取所述训练样本数据,其中,所述训练样本数据中包括样本内容、与所述样本内容对应的关联内容以及关联标签。其中,该关联内容可以为确定出的与该样本内容对应的相似内容,该关联标签则可以表示该样本内容相对于该关联内容的原创程度,如上文所述的低质量内容分类、原创内容分类和相似内容分类等。
109.针对每一所述训练样本数据,根据所述样本内容和该样本内容对应的关联内容,以及每一维度对应的所述特征提取子模型,确定所述样本内容和所述关联内容分别在多个维度下对应的维度特征;
110.针对每一所述维度,将所述样本内容和所述关联内容在该维度下的特征进行拼接,获得该维度对应的拼接特征;根据多个维度对应的拼接特征,获得所述训练样本数据对应的融合特征;基于所述内容识别模型的分类子模型和所述融合特征,确定所述训练样本数据的识别结果。
111.其中,上述步骤的具体实施方式与上文所述待识别内容和候选内容之间的相关处理流程相同,在此不再赘述。
112.根据所述识别结果和所述关联标签,对所述内容识别模型的参数进行调整,获得训练完成的内容识别模型。
113.其中,可以基于该识别结果与该关联标签计算内容识别模型的识别误差,在该识别误差大于误差阈值时,基于该识别误差对内容识别模型的参数进行调整,如可以基于梯度下降法进行参数调整,直至计算出的识别模型的识别误差小于或等于该误差阈值时停止训练,获得训练完成的内容识别模型。
114.由此,通过上述技术方案,可以基于样本内容、与所述样本内容对应的关联内容以及关联标签,对内容识别模型进行训练,从而实现与用于进行对比的两篇内容的特征提取、拼接融合,以及分类识别,通过对不同维度下的特征进行聚合判断,使得该内容识别模型可以用于对不同类型的内容之间的识别,提高该内容识别模型的应用范围,同时提高基于该内容识别模型获得的识别结果的准确度。
115.本公开还提供一种内容识别装置,如图6所示,所述装置10包括:
116.接收模块100,用于接收待识别内容;
117.处理模块200,用于根据包含所述待识别内容的多个内容识别对和内容识别模型,获得所述多个内容识别对的识别结果,其中,每一所述内容识别对还包括预设集合中的一个候选内容,所述内容识别模型用于获取所述待识别内容和所述候选内容在多个维度下的维度特征,并基于所述多个维度特征确定所述识别结果,所述多个维度用于表示所述待识别内容中的多种类型的组成部分;
118.第一确定模块300,用于根据多个所述识别结果,确定所述待识别内容的目标识别结果。
119.可选地,所述维度与所述内容识别模型的特征提取子模型一一对应,所述处理模块包括:
120.第一确定子模块,用于针对每一所述内容识别对,根据所述待识别内容和该内容识别对中的候选内容,以及每一维度对应的所述特征提取子模型,确定所述待识别内容和所述候选内容分别在多个维度下对应的维度特征;
121.第一拼接子模块,用于针对每一所述维度,将所述待识别内容和所述候选内容在该维度下的特征进行拼接,获得该维度对应的拼接特征;
122.融合子模块,用于根据多个维度对应的拼接特征,获得所述内容识别对对应的融合特征;
123.第二确定子模块,用于基于所述内容识别模型的分类子模型和所述融合特征,确定所述内容识别对的识别结果。
124.可选地,所述融合子模块包括:
125.第一处理子模块,用于针对每一维度对应的拼接特征,基于第一注意力层对所述拼接特征进行处理,获得所述拼接特征对应的注意力特征;
126.第二拼接子模块,用于将每一维度下的注意力特征进行拼接,获得多维度拼接特征;
127.第二处理子模块,用于基于第二注意力层对所述多维度拼接特征进行处理,获得所述融合特征。
128.可选地,所述识别结果包括所述待识别内容对应于分类的识别参数,所述第二确定子模块包括:
129.第三处理子模块,用于根据所述融合特征和所述分类子模型,获得所述融合特征分别对应于多个分类的特征向量,所述分类包括相似内容分类、低质量内容分类、原创内容分类;
130.第四处理子模块,用于对所述特征向量进行处理,获得所述融合特征对应于每一分类的识别参数,以获得所述识别结果。
131.可选地,所述识别结果包括所述待识别内容对应于分类的识别参数,所述第一确定模块包括:
132.第一获取子模块,用于获取多个识别结果中分别对应于相似内容分类的识别参数;
133.第三确定子模块,用于若多个所述相似内容分类的识别参数满足相似识别条件,确定所述目标识别结果为相似内容分类,其中,所述相似识别条件包括:
134.所述对应于相似内容分类的识别参数的最大值大于第一预设阈值;
135.所述对应于相似内容分类的识别参数的最大值小于或等于所述第一预设阈值,且所述对应于相似内容分类的识别参数的平均值大于第二预设阈值。
136.可选地,所述第一确定模块还包括:
137.第二获取子模块,用于获取多个识别结果中分别对应于低质量内容分类的识别参数;
138.第四确定子模块,用于若多个所述低质量内容分类的识别参数满足低质量识别条件,且多个所述相似内容分类的识别参数不满足相似识别条件,确定所述目标识别结果为
低质量内容分类,其中,所述低质量识别条件包括:
139.所述对应于低质量内容分类的识别参数的最大值大于第三预设阈值;
140.所述对应于低质量内容分类的识别参数的最大值小于或等于所述第三预设阈值,且所述对应于低质量内容分类的识别参数的平均值大于第四预设阈值。
141.可选地,所述第一确定模块还包括:
142.第三获取子模块,用于获取多个识别结果中分别对应于原创内容分类的识别参数;
143.第五确定子模块,用于若所述多个所述原创内容分类的识别参数的最大值大于第五预设阈值,且多个所述相似内容分类的识别参数不满足相似识别条件,以及多个所述低质量内容分类的识别参数不满足低质量识别条件,确定所述目标识别结果为原创内容分类。
144.可选地,所述装置还包括:
145.第二确定模块,用于在确定出目标识别结果为相似内容分类的情况下,根据目标内容识别对对应的融合特征,确定所述融合特征中注意力参数大于预设阈值的目标位置,其中,所述目标内容识别对为对应于相似内容分类的识别参数的最大值的内容识别对;
146.第三确定模块,用于将所述目标位置在所述目标内容识别对的候选内容中对应的内容,确定为所述待识别内容对应的重合内容;
147.输出模块,用于输出所述目标内容识别对中的候选内容和所述重合内容。
148.可选地,所述维度与所述内容识别模型的特征提取子模型一一对应,所述内容识别模型通过以下方式获得:
149.获取所述训练样本数据,其中,所述训练样本数据中包括样本内容、与所述样本内容对应的关联内容以及关联标签;
150.针对每一所述训练样本数据,根据所述样本内容和该样本内容对应的关联内容,以及每一维度对应的所述特征提取子模型,确定所述样本内容和所述关联内容分别在多个维度下对应的维度特征;
151.针对每一所述维度,将所述样本内容和所述关联内容在该维度下的特征进行拼接,获得该维度对应的拼接特征;
152.根据多个维度对应的拼接特征,获得所述训练样本数据对应的融合特征;
153.基于所述内容识别模型的分类子模型和所述融合特征,确定所述训练样本数据的识别结果;
154.根据所述识别结果和所述关联标签,对所述内容识别模型的参数进行调整,获得训练完成的内容识别模型。
155.下面参考图7,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
156.如图7所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问
存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
157.通常,以下装置可以连接至i/o接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
158.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从rom 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
159.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
160.在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
161.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
162.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收待识别内容;根据包含所述待识别内容的多个内容识
别对和内容识别模型,获得所述多个内容识别对的识别结果,其中,每一所述内容识别对还包括预设集合中的一个候选内容,所述内容识别模型用于获取所述待识别内容和所述候选内容在多个维度下的维度特征,并基于所述多个维度特征确定所述识别结果,所述多个维度用于表示所述待识别内容中的多种类型的组成部分;根据多个所述识别结果,确定所述待识别内容的目标识别结果。
163.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
164.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
165.描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,接收模块还可以被描述为“接收待识别内容的模块”。
166.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
167.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
168.根据本公开的一个或多个实施例,示例1提供了一种内容识别方法,其中,所述方法包括:
169.接收待识别内容;
170.根据包含所述待识别内容的多个内容识别对和内容识别模型,获得所述多个内容识别对的识别结果,其中,每一所述内容识别对还包括预设集合中的一个候选内容,所述内容识别模型用于获取所述待识别内容和所述候选内容在多个维度下的维度特征,并基于所述多个维度特征确定所述识别结果,所述多个维度用于表示所述待识别内容中的多种类型的组成部分;
171.根据多个所述识别结果,确定所述待识别内容的目标识别结果。
172.根据本公开的一个或多个实施例,示例2提供了示例1的方法,其中,所述维度与所述内容识别模型的特征提取子模型一一对应,所述根据包含所述待识别内容的多个内容识别对和内容识别模型,获得所述多个内容识别对的识别结果,包括:
173.针对每一所述内容识别对,根据所述待识别内容和该内容识别对中的候选内容,以及每一维度对应的所述特征提取子模型,确定所述待识别内容和所述候选内容分别在多个维度下对应的维度特征;
174.针对每一所述维度,将所述待识别内容和所述候选内容在该维度下的特征进行拼接,获得该维度对应的拼接特征;
175.根据多个维度对应的拼接特征,获得所述内容识别对对应的融合特征;
176.基于所述内容识别模型的分类子模型和所述融合特征,确定所述内容识别对的识别结果。
177.根据本公开的一个或多个实施例,示例3提供了示例2的方法,其中,所述根据多个维度对应的拼接特征,获得所述内容识别对对应的融合特征,包括:
178.针对每一维度对应的拼接特征,基于第一注意力层对所述拼接特征进行处理,获得所述拼接特征对应的注意力特征;
179.将每一维度下的注意力特征进行拼接,获得多维度拼接特征;
180.基于第二注意力层对所述多维度拼接特征进行处理,获得所述融合特征。
181.根据本公开的一个或多个实施例,示例4提供了示例2的方法,其中,所述识别结果包括所述待识别内容对应于分类的识别参数,所述基于所述内容识别模型的分类子模型和所述融合特征,确定所述内容识别对的识别结果,包括:
182.根据所述融合特征和所述分类子模型,获得所述融合特征分别对应于多个分类的特征向量,所述分类包括相似内容分类、低质量内容分类、原创内容分类;
183.对所述特征向量进行处理,获得所述融合特征对应于每一分类的识别参数,以获得所述识别结果。
184.根据本公开的一个或多个实施例,示例5提供了示例1的方法,其中,所述识别结果包括所述待识别内容对应于分类的识别参数,所述根据多个所述识别结果,确定所述待识别内容的目标识别结果,包括:
185.获取多个识别结果中分别对应于相似内容分类的识别参数;
186.若多个所述相似内容分类的识别参数满足相似识别条件,确定所述目标识别结果为相似内容分类,其中,所述相似识别条件包括:
187.所述对应于相似内容分类的识别参数的最大值大于第一预设阈值;
188.所述对应于相似内容分类的识别参数的最大值小于或等于所述第一预设阈值,且
所述对应于相似内容分类的识别参数的平均值大于第二预设阈值。
189.根据本公开的一个或多个实施例,示例6提供了示例5的方法,其中,所述根据多个所述识别结果,确定所述待识别内容的目标识别结果,还包括:
190.获取多个识别结果中分别对应于低质量内容分类的识别参数;
191.若多个所述低质量内容分类的识别参数满足低质量识别条件,且多个所述相似内容分类的识别参数不满足相似识别条件,确定所述目标识别结果为低质量内容分类,其中,所述低质量识别条件包括:
192.所述对应于低质量内容分类的识别参数的最大值大于第三预设阈值;
193.所述对应于低质量内容分类的识别参数的最大值小于或等于所述第三预设阈值,且所述对应于低质量内容分类的识别参数的平均值大于第四预设阈值。
194.根据本公开的一个或多个实施例,示例7提供了示例6的方法,其中,所述根据多个所述识别结果,确定所述待识别内容的目标识别结果,还包括:
195.获取多个识别结果中分别对应于原创内容分类的识别参数;
196.若所述多个所述原创内容分类的识别参数的最大值大于第五预设阈值,且多个所述相似内容分类的识别参数不满足相似识别条件,以及多个所述低质量内容分类的识别参数不满足低质量识别条件,确定所述目标识别结果为原创内容分类。
197.根据本公开的一个或多个实施例,示例8提供了示例5-7中任一示例的方法,其中,所述方法还包括:
198.在确定出目标识别结果为相似内容分类的情况下,根据目标内容识别对对应的融合特征,确定所述融合特征中注意力参数大于预设阈值的目标位置,其中,所述目标内容识别对为对应于相似内容分类的识别参数的最大值的内容识别对;
199.将所述目标位置在所述目标内容识别对的候选内容中对应的内容,确定为所述待识别内容对应的重合内容;
200.输出所述目标内容识别对中的候选内容和所述重合内容。
201.根据本公开的一个或多个实施例,示例9提供了示例1的方法,其中,所述维度与所述内容识别模型的特征提取子模型一一对应,所述内容识别模型通过以下方式获得:
202.获取所述训练样本数据,其中,所述训练样本数据中包括样本内容、与所述样本内容对应的关联内容以及关联标签;
203.针对每一所述训练样本数据,根据所述样本内容和该样本内容对应的关联内容,以及每一维度对应的所述特征提取子模型,确定所述样本内容和所述关联内容分别在多个维度下对应的维度特征;
204.针对每一所述维度,将所述样本内容和所述关联内容在该维度下的特征进行拼接,获得该维度对应的拼接特征;
205.根据多个维度对应的拼接特征,获得所述训练样本数据对应的融合特征;
206.基于所述内容识别模型的分类子模型和所述融合特征,确定所述训练样本数据的识别结果;
207.根据所述识别结果和所述关联标签,对所述内容识别模型的参数进行调整,获得训练完成的内容识别模型。
208.根据本公开的一个或多个实施例,示例10提供了一种内容识别装置,其中,所述装
置包括:
209.接收模块,用于接收待识别内容;
210.处理模块,用于根据包含所述待识别内容的多个内容识别对和内容识别模型,获得所述多个内容识别对的识别结果,其中,每一所述内容识别对还包括预设集合中的一个候选内容,所述内容识别模型用于获取所述待识别内容和所述候选内容在多个维度下的维度特征,并基于所述多个维度特征确定所述识别结果,所述多个维度用于表示所述待识别内容中的多种类型的组成部分;
211.第一确定模块,用于根据多个所述识别结果,确定所述待识别内容的目标识别结果。
212.根据本公开的一个或多个实施例,示例11提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理装置执行时实现示例1-9中任一示例所述方法的步骤。
213.根据本公开的一个或多个实施例,示例12提供了一种电子设备,其中,包括:
214.存储装置,其上存储有计算机程序;
215.处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1-9中任一示例所述方法的步骤。
216.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
217.此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
218.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献