一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

类别确定方法、装置、设备、存储介质和产品与流程

2022-06-30 00:52:37 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别涉及一种类别确定方法、装置、设备、存储介质和产品。


背景技术:

2.随着计算机技术和互联网技术的不断发展,互联网中传播的视频数据越来越多。为了方便用户检索到想要的视频数据,检索系统会对互联网中传播的视频的标题信息进行分类来得到视频的类别,基于视频的类别,为用户提供检索数据。
3.目前,大多通过类别识别模型对标题信息进行类别识别,得到视频的类别。但是标题信息普遍比较简短,包含的信息十分有限,因此,通过这种方式得到的类别的准确性较低。


技术实现要素:

4.本技术实施例提供了类别确定方法、装置、设备、存储介质和产品,能够提高视频类别的准确性。所述技术方案如下:
5.一方面,提供了一种类别确定方法,所述方法包括:
6.获取目标视频的第一视频描述信息,所述第一视频描述信息用于描述所述目标视频的视频内容;
7.对所述第一视频描述信息进行实体识别,得到所述第一视频描述信息中的第一实体;
8.获取所述第一实体的第一知识扩展信息;
9.基于所述第一视频描述信息和所述第一知识扩展信息,确定所述目标视频的类别。
10.另一方面,提供了一种类别确定装置,所述装置包括:
11.第一获取模块,用于获取目标视频的第一视频描述信息,所述第一视频描述信息用于描述所述目标视频的视频内容;
12.识别模块,用于对所述第一视频描述信息进行实体识别,得到所述第一视频描述信息中的第一实体;
13.第二获取模块,用于获取所述第一实体的第一知识扩展信息;
14.确定模块,用于基于所述第一视频描述信息和所述第一知识扩展信息,确定所述目标视频的类别。
15.在一些实施例中,所述目标视频的类别包括一级类别和二级类别;所述确定模块,包括:
16.第一确定单元,用于基于所述第一视频描述信息,确定所述目标视频的一级类别;
17.第二确定单元,用于基于所述第一视频描述信息和所述第一知识扩展信息,确定所述目标视频的二级类别。
18.在一些实施例中,所述第一确定单元,用于确定所述第一视频描述信息的描述语义特征,基于所述描述语义特征,确定所述目标视频的一级类别;
19.所述第二确定单元,用于确定所述第一知识扩展信息的扩展语义特征,对所述描述语义特征和所述扩展语义特征进行融合,得到融合特征,基于所述融合特征,确定所述目标视频的二级类别。
20.在一些实施例中,所述目标视频的类别包括一级类别和二级类别;所述确定模块,用于将所述第一视频描述信息和所述第一知识扩展信息输入类别识别模型,输出所述目标视频的一级类别和二级类别,所述类别识别模型用于基于所述第一视频描述信息,确定所述目标视频的一级类别,基于所述第一视频描述信息和所述第一知识扩展信息,确定所述目标视频的二级类别。
21.在一些实施例中,所述装置还包括:
22.第三获取模块,用于获取样本数据,所述样本数据包括样本视频的第二视频描述信息、所述样本视频的样本一级类别和样本二级类别;
23.所述第二获取模块,还用于获取第二实体的第二知识扩展信息,所述第二实体为所述第二视频描述信息中的实体;
24.所述确定模块,还用于通过训练前的类别识别模型,对所述第二视频描述信息和所述第二知识扩展信息进行类别识别,得到所述样本视频的预测一级类别和预测二级类别;
25.训练模块,用于基于所述预测一级类别、所述样本一级类别、所述预测二级类别和所述样本二级类别,对所述训练前的类别识别模型进行训练,得到所述类别识别模型。
26.在一些实施例中,所述训练模块,包括:
27.第一确定单元,用于基于所述预测一级类别和所述样本一级类别,确定第一损失值;
28.第二确定单元,用于基于所述预测二级类别和所述样本二级类别,确定第二损失值;
29.融合单元,用于将所述第一损失值与所述第二损失值进行融合,得到第三损失值;
30.训练单元,用于基于所述第三损失值,对所述训练前的类别识别模型进行训练,得到所述类别识别模型。
31.在一些实施例中,所述训练模块,还用于确定第一概率和第二概率,所述类别识别模型用于确定所述目标视频属于多个一级类别的概率和所述目标视频属于多个二级类别的概率,所述第一概率为所述类别识别模型确定的至少一个一级类别的概率,所述第二概率为所述类别识别模型确定的至少一个二级类别的概率;
32.所述训练模块,用于基于所述预测一级类别、所述样本一级类别、所述预测二级类别、所述样本二级类别、所述第一概率和所述第二概率,对所述训练前的类别识别模型进行训练,得到所述类别识别模型。
33.在一些实施例中,所述训练模块,用于执行以下任一项:
34.将所述类别识别模型确定的正确一级类别的概率确定为所述第一概率,将所述类别识别模型确定的正确二级类别的概率确定为所述第二概率,所述正确一级类别是与所述样本一级类别相同的类别,所述正确二级类别是与所述样本二级类别相同的类别;
35.将所述预测一级类别的概率确定为所述第一概率,将所述预测二级类别的概率确定为所述第二概率;
36.将所述预测一级类别的概率确定为所述第一概率,将所述类别识别模型确定的多个二级类别的概率确定为所述第二概率;
37.将所述类别识别模型确定的多个一级类别的概率确定为所述第一概率,将所述类别识别模型确定的多个二级类别的概率确定为所述第二概率。
38.在一些实施例中,所述训练模块,包括:
39.第一确定单元,用于基于所述预测一级类别和所述样本一级类别,确定第一损失值;
40.第二确定单元,用于基于所述预测二级类别和所述样本二级类别,确定第二损失值;
41.第三确定单元,用于基于所述第一概率和所述第二概率,确定第四损失值;
42.融合单元,用于将所述第一损失值、所述第二损失值和所述第四损失值进行融合,得到第五损失值;
43.训练单元,用于基于所述第五损失值,对所述类别识别模型进行训练。
44.在一些实施例中,所述第三确定单元,用于在所述第一概率小于所述第二概率的情况下,基于所述第一概率和所述第二概率的差值,确定所述第四损失值,所述第四损失值与所述差值呈正相关;在所述第一概率不小于所述第二概率的情况下,确定所述第四损失值为0。
45.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现本技术实施例中的类别确定方法。
46.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现如本技术实施例中的类别确定方法。
47.另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各个方面的各种可选实现方式中提供的类别确定方法。
48.本技术实施例提供了一种类别确定方法、装置、设备、存储介质和产品,在基于视频描述信息对视频进行分类时,通过识别视频描述信息中的实体,引入了该实体的知识扩展信息,由于基于该知识扩展信息能够获取到额外的关于该实体的信息,因此,引入知识扩展信息使得该实体的信息更加丰富,也使得该实体能够被更加准确地理解。因此,基于该知识扩展信息和视频描述信息来确定视频的类别时,能够更加准确地确定视频的类别,提高了视频类别的准确性。
附图说明
49.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
50.图1是本技术实施例提供的一种类别确定方法的实施环境的示意图;
51.图2是本技术实施例提供的一种类别确定方法的流程图;
52.图3是本技术实施例提供的一种类别确定方法的流程图;
53.图4是本技术实施例提供的一种从知识图谱中获取知识扩展信息的示意图;
54.图5是本技术实施例提供的一种类别确定方法的流程图;
55.图6是本技术实施例提供的一种类别识别模型的示意图;
56.图7是本技术实施例提供的一种类别识别模型的训练方法的流程图;
57.图8是本技术实施例提供的一种类别确定装置的框图;
58.图9是本技术实施例提供的另一种类别确定装置的框图;
59.图10是本技术实施例提供的一种终端的结构框图;
60.图11是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
61.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
62.本技术中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
63.本技术中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上。
64.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的视频描述信息、视频、样本数据等都是在充分授权的情况下获取的。
65.以下,对本技术涉及的术语进行解释。
66.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
67.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
68.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领
域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
69.本技术实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明。
70.以下,对本技术涉及的实施环境进行介绍:
71.本技术实施例提供的类别确定方法,能够由计算机设备执行。在一些实施例中,该计算机设备为终端。该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端等,但并不限于此。在一些实施例中,该计算机设备为服务器,该服务器是独立的服务器也能够是多个物理服务器工程的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
72.在一些实施例中,该计算机设备包括终端和服务器。下面首先以计算机设备包括终端101和服务器102为例,介绍一下本技术实施例提供的类别确定方法的实施环境示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102能够通过有线或无线通信方式进行之间或间接地连接,本技术在此不做限制。
73.在一些实施例中,服务器102主要承担计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算服务,终端101承担主要计算工作;或者,服务器102和终端101二者之间采用分布式计算架构进行协同计算。
74.在一些实施例中,终端101上传视频和该视频的标题信息,服务器102接收终端101上传的视频和标题信息,基于该标题信息确定视频的类别。后续,服务器102可以基于视频的类别对视频进行管理。例如,视频是终端101分享的视频,服务器102可以基于视频的类别,将该视频推荐给其他终端101;又如,服务器102可以基于视频的类别,在终端101检索视频时,为终端101提供准确的检索结果。
75.以下,对本技术的应用场景进行介绍:
76.本技术实施例提供的类别确定方法可以应用于视频分类场景、视频检索场景等视频处理场景。
77.例如,应用于视频分类场景。
78.用户上传视频的时候需要设置该视频的类别,如果采用本技术实施例提供的类别确定方法,能够自动为用户确定该视频的类别,无需用户手动设置,减少了用户操作,提高了视频上传效率。
79.又如,应用于视频检索场景。
80.视频检索系统对视频库中的多个视频进行分类,后续基于视频的类别为用户提供视频检索结果。如果采用本技术实施例提供的方案,由于引入了知识扩展信息,丰富了视频分类的参考信息,能够更加准确地确定视频的类别,提高了视频类别的准确性,还能够更加准确地为用户提供视频检索结果。
81.需要说明的是,本技术实施例提供的类别确定方法还可以应用于其他视频处理场景,本技术实施例对此不做限定。
82.图2是根据本技术实施例提供的一种类别确定方法的流程图,参见图2,在本技术实施例中以计算机设备为执行主体进行示例性说明,该类别确定方法包括以下步骤:
83.201、计算机设备获取目标视频的第一视频描述信息,该第一视频描述信息用于描述该目标视频的视频内容。
84.本技术实施例中,目标视频为任一视频。例如,该目标视频为计算机设备本地的视频。又如,该目标视频为计算机设备从其他设备中获取的视频;又如,目标视频为计算机设备拍摄的视频;又如,目标视频为任一用户上传的视频;又如,目标视频为视频库中的任一视频等,本技术实施例对目标视频不做限定。
85.第一视频描述信息是描述该目标视频的视频内容的信息,该视频内容可以是目标视频的主题内容,例如,该第一视频描述信息是目标视频的视频标题;该视频内容还可以是目标视频中任一视频帧的内容,例如,该第一视频描述信息为目标视频的首帧;该视频内容还可以是目标视频中的音频内容;例如,该第一视频描述信息为目标视频的字幕信息。需要说明的是,该第一视频描述信息可以是本技术实施例示出的几种视频描述信息中的任一种或者多种的组合,还可以是其他视频描述信息,本技术实施例对第一视频描述信息不做限定。
86.202、计算机设备对第一视频描述信息进行实体识别,得到第一视频描述信息中的第一实体。
87.实体可以认为是某一概念的实例。例如,“时间”是一种概念,“中秋节”是“时间”的一种实例,因此该“中秋节”为一种时间实体。又如,“地点”是一种概念,“景点a”是“地点”的一种实例,因此,该“景点a”为一种“地点”实例。
88.计算机设备对第一视频描述信息进行实体识别,就是识别第一视频描述信息中的实体。
89.203、计算机设备获取第一实体的第一知识扩展信息。
90.本技术实施例中,第一知识扩展信息是与第一实体相关的知识信息,该知识信息包括第一视频描述信息中与第一实体相关的信息之外的其他信息,对第一实体的知识信息起到了扩展作用,因此,称为第一实体的知识扩展信息。以第一视频描述信息是标题信息为例,标题信息普遍比较简短,因此,标题信息中关于第一实体的信息较少,通过获取与第一实体相关的知识信息,可以扩展第一实体的信息。
91.204、计算机设备基于第一视频描述信息和第一知识扩展信息,确定该目标视频的类别。
92.本技术实施例中,在确定视频的类别时,不仅会考虑该视频本身的信息——视频描述信息,还可以引入额外的信息——知识扩展信息,使得类别确定过程所参考的信息更加丰富,进而确定出更加准确的视频类别。
93.本技术实施例提供的类别确定方法,在基于视频描述信息对视频进行分类时,通过识别视频描述信息中的实体,引入了该实体的知识扩展信息,由于基于该知识扩展信息能够获取到额外的关于该实体的信息,因此,引入知识扩展信息使得该实体的信息更加丰富,也使得该实体能够被更加准确地理解。因此,基于该知识扩展信息和视频描述信息来确定视频的类别时,能够更加准确地确定视频的类别,提高了视频类别的准确性。
94.图3是本技术实施例提供的一种类别确定方法的流程图。该类别确定方法包括以
下步骤:
95.301、计算机设备获取目标视频的第一视频描述信息,该第一视频描述信息用于描述该目标视频的视频内容。
96.在一些实施例中,第一视频描述信息可以是当前已经存在的信息,计算机设备可以直接获取该第一视频描述信息。例如,第一视频描述信息为目标视频的标题信息,视频库中存储有多个视频以及该多个视频的标题信息,计算机设备可以从视频库中直接获取某一视频的标题信息。
97.在一些实施例中,第一视频描述信息可以是当前不存在、需要进行处理才可以获得的信息,那么计算机设备需要通过数据处理来获取第一视频描述信息。例如,第一视频描述信息为目标视频的字幕信息,计算机设备获取目标视频的音频数据,对该音频数据进行语音识别,得到目标视频的字幕信息。
98.302、计算机设备对第一视频描述信息进行实体识别,得到该第一视频描述信息中的第一实体。
99.本技术实施例中,在对第一视频描述信息进行实体识别时,可以采用nlp领域中的任一种实体识别方法,本技术实施例对此不做限定。在一些实施例中,计算机设备可以基于nlp工具textsmart(一种实体识别工具)来完成。在一些实施例中,计算机设备还可以通过hannlp(一种nlp工具包)等成熟的nlp工具包来完成,其中,成熟的工具包中集成了分词、词性标注、实体识别等一系列基础的nlp功能,因此,基于成熟的nlp工具包能够对第一视频描述信息进行实体识别,并且得到准确的识别结果,也即是,得到准确的第一实体。
100.303、计算机设备获取该第一实体的第一知识扩展信息。
101.在一些实施例中,计算机设备从知识图谱中获取第一实体的第一知识扩展信息。其中,知识图谱用于记录多个实体、多个实体的类型、多个实体的属性、多个实体关联的其他对象等。可选地,知识图谱包括多个节点以及多个节点之间的边,其中,节点用于表示实体、实体类型、实体属性或者实体关联的其他对象,两个节点之间的边表示这两个节点之间的关系。第一知识扩展信息为知识图谱中与代表第一实体的节点相关的节点和边。
102.可选地,计算机设备从知识图谱中获取第一实体的第一扩展信息,包括:计算机设备从知识图谱中确定代表第一实体的第一节点,以第一节点为中心,从知识图谱中截取目标跳的子图谱,将该子图谱确定为第一实体的第一扩展信息。
103.其中,目标跳可以所述2跳、3跳、5跳等任一跳数,本技术实施例对目标跳不做限定,可以根据实际应用场景中的数据处理能力和数据处理要求的准确度来设置。
104.例如,目标跳为2跳,在知识图谱中以第一节点为中心,截取与第一节点连接的多个第二节点以及与多个第二节点连接的第三节点。需要说明的是,在截取与第一节点连接的多个第二节点时,连接第一节点和第二节点的边也一并被截取到。
105.例如,知识图谱如图4所示,需要说明的是,图4仅示出了知识图谱的一部分。该知识图谱中包括节点“游戏名称a”,还包括节点“游戏名称a”的类型知识信息,分别是“小程序”和“游戏”,还包括“游戏名称a”所在的平台“应用程序b”,还包括节点“游戏”连接的节点“游戏名称c”以及和节点“游戏名称c”连接的节点“手机”和节点“公司d”。如果第一实体为“游戏名称a”,从知识图谱中截取第一知识扩展信息可以得到节点“游戏名称a”的类型知识信息,分别是“小程序”和“游戏”,还可以得到“游戏名称a”所在的平台“应用程序b”。
106.其中,计算机设备从知识图谱中确定代表第一实体的第一节点时,可以使用关键词匹配的方法,也可以使用nlp领域中的实体链指方法,本技术实施例对此不做限定。
107.在一些实施例中,计算机设备可以从检索平台中获取第一实体的第一知识扩展信息,例如,计算机设备将第一实体作为检索数据,在检索平台中进行检索,将检索结果作为第一实体的第一知识扩展信息。
108.需要说明的是,本技术实施例仅是以第一知识扩展信息为知识图谱的子图谱和第一实体的检索结果为例进行示例性说明,并不对第一知识扩展信息进行限定,第一知识扩展信息还可以是其他能够扩展第一视频描述信息中的实体的知识信息的信息。
109.304、计算机设备基于第一视频描述信息,确定目标视频的一级类别。
110.本技术实施例中,将目标视频的类别划分了层级,分别是一级类别和二级类别,其中,一级类别是粗粒度类别,二级类别是相对一级类别更加细致的类别。例如,一级类别包括体育、游戏、娱乐等44个类别。二级类别包括小游戏、手游、广场舞、街舞、拉丁舞等305个类别。其中,二级类别是针对每个一级类别划分出的,因此,二级类别和一级类别存在从属关系。例如,一级类别为舞蹈,该一级类别下的二级类别包括广场舞、街舞、拉丁舞等多个舞种。
111.由于一级类别是粗粒度的类别,因此,无需采用较多的信息来确定目标视频的一级类别,为了提高类别确定效率,减少类别确定所需的计算量,可以只采用第一视频描述信息来确定目标视频的一级类别。在一些实施例中,计算机设备基于第一视频描述信息,确定目标视频的一级类别,包括:确定第一视频描述信息的描述语义特征,基于该描述语义特征,确定该目标视频的一级类别。
112.其中,描述语义特征用于描述第一视频描述信息的语义,该描述语义特征的表现形式可以是向量等,本技术实施例对此不做限定。
113.在一些实施例中,计算机设备确定第一视频描述信息的描述语义特征,包括:计算机设备对第一视频描述信息进行特征提取,得到该描述语义特征。其中,计算机设备可以采用任一种特征提取的方法来对第一视频描述信息进行特征提取,例如,采用bert模型等任一用于处理文本数据的模型对第一视频描述信息进行特征提取;又如,采用词向量转换等方法对第一视频描述信息进行特征提取,本技术实施例对特征提取方法不做限定。
114.305、计算机设备基于第一视频描述信息和第一知识扩展信息,确定目标视频的二级类别。
115.由于二级类别是更加细致的类别,因此,在确定目标视频的二级类别时,可以输入更多的信息,来得到更加准确的结果。
116.本技术实施例中,在输入信息中加入了第一知识扩展信息,来丰富输入的信息。在一些实施例中,计算机设备将输入的多个信息进行融合后再进行分类。可选地,计算机设备基于第一视频描述信息和第一知识扩展信息,确定目标视频的二级类别,包括:确定该第一知识扩展信息的扩展语义特征,对描述语义特征和扩展语义特征进行融合,得到融合特征,基于该融合特征,确定目标视频的二级类别。
117.其中,描述语义特征在计算机设备确定目标视频的一级类别时计算得到,在确定目标视频的二级类别时,直接使用该描述语义特征即可,无需再对第一视频描述信息进行计算。
118.其中,扩展语义特征可以采用任一种特征提取方法来获取,需要说明的是,不同数据类型的知识扩展信息采用的特征提取方法不同。例如,知识扩展信息为图像类型,则采用任一种图像特征提取方法,如果知识扩展信息为文本类型,则采用任一种文本特征提取方法,本技术实施例对此不做限定。
119.需要说明的是,本技术实施例可以采用任一种融合方法,对描述语义特征和扩展语义特征进行融合。本技术实施例仅以以下两种方法进行示例性说明。在一些实施例中,计算机设备对描述语义特征和扩展语义特征进行融合,得到融合特征,包括:计算机设备对描述语义特征和扩展语义特征进行特征提取,得到融合特征。在一些实施例中,计算机设备对描述语义特征和扩展语义特征进行融合,得到融合特征,包括:计算机设备将描述语义特征和扩展语义特征进行拼接,得到融合特征。
120.需要说明的是,本技术实施例仅是以视频的类别包括一级类别和二级类别进行示例性说明,但是并不对视频类别进行限定。在一些实施例中,视频的分类只有二级类别,没有一级类别,也就是说,计算机设备仅是对视频进行比较细致的分类,没有对视频进行粗粒度分类。在一些实施例中,视频的分类包括一级类别、二级类别和三级类别等,本技术实施例提供的方法还可以应用于确定视频的三级类别。
121.需要说明的是,本技术实施例提供的方法还可以应用于确定视频的一级类别,本技术实施例对此不做限定。
122.本技术实施例提供的类别确定方法,在基于视频描述信息对视频进行分类时,通过识别视频描述信息中的实体,引入了该实体的知识扩展信息,由于基于该知识扩展信息能够获取到额外的关于该实体的信息,因此,引入知识扩展信息使得该实体的信息更加丰富,也使得该实体能够被更加准确地理解。因此,基于该知识扩展信息和视频描述信息来确定视频的类别时,能够更加准确地确定视频的类别,提高了视频类别的准确性。
123.另外,本技术实施例在确定视频的一级类别时仅考虑了视频描述信息,在保证视频的一级类别准确的基础上,减少了计算量,提高了类别确定效率。在确定视频的二级类别时不仅考虑视频描述信息,还考虑了视频描述信息中实体的知识扩展信息,使得计算机设备在进行更加细致的分类时,获取了较多的信息,从而能够更加准确地确定视频的二级类别。
124.需要说明的是,本技术实施例中,计算机设备基于第一视频描述信息和第一知识扩展信息确定目标视频的类别时,可以通过类别识别模型完成,在一些实施例中,计算机设备基于第一视频描述信息和第一知识扩展信息,确定目标视频的类别,包括:将第一视频描述信息和第一知识扩展信息输入类别识别模型,输出该目标视频的一级类别和二级类别,该类别识别模型用于基于第一视频描述信息,确定该目标视频的一级类别,基于该第一视频描述信息和第一知识扩展信息,确定目标视频的二级类别。以下以通过类别识别模型来确定目标视频的类别为例进行示例性说明。
125.图5是本技术实施例提供的一种类别确定方法的流程图。该类别确定方法包括以下步骤:
126.501、计算机设备将目标视频的第一视频描述信息和第一视频描述信息中第一实体的第一知识扩展信息输入类别识别模型。
127.502、计算机设备通过类别识别模型对第一视频描述信息进行特征提取,得到该第
一视频描述信息的描述语义特征。
128.在一些实施例中,该类别识别模型包括第一特征提取层,计算机设备将第一视频描述信息输入到第一特征提取层,通过第一特征提取层对第一视频描述信息进行处理。例如,计算机设备通过类别识别模型对第一视频描述信息进行特征提取,得到该第一视频描述信息的描述语义特征,包括:计算机设备通过该第一特征提取层,对第一视频描述信息进行特征提取,得到该第一视频描述信息的描述语义特征。
129.其中,第一特征提取层可以是bert(一种语言表征模型),lstm(long short-term memory,长短期记忆网络)等用于提取文本特征的网络结构,本技术实施例对第一特征提取层不做限定。
130.例如,第一特征提取层为bert子模型,将视频的标题信息输入到bert子模型之后,得到cls_token,该cls_token为bert子模型的输出结果,该cls_token=bert(title),其中,bert表示bert子模型,title为视频的标题信息。本技术实施例将bert子模型输出信息中cls_token对应的embedding信息作为描述语义特征。
131.在一些实施例中,类别识别模型在对第一视频描述信息进行特征提取时,可以将第一视频描述信息进行分词或者分字处理,类别识别模型在对分词结果或者分字结果进行特征提取时,会基于分词结果或者分字结果的上下文信息来对该分词结果或者分字结果进行特征提取,以得到更加准确地语义特征。
132.503、计算机设备通过类别识别模型对第一视频描述信息中第一实体的第一知识扩展信息进行特征提取,得到扩展语义特征。
133.在一些实施例中,该类别识别模型包括第二特征提取层,计算机设备将第一知识扩展信息输入到第二特征提取层,通过该第二特征提取等对第一知识扩展信息进行处理。例如,计算机设备通过类别识别模型对第一视频描述信息中第一实体的第一知识扩展信息进行特征提取,得到扩展语义特征,包括:计算机设备通过第二特征提取层对第一知识扩展信息进行特征提取,得到扩展语义特征。
134.在一些实施例中,第一知识扩展信息为图谱信息,第二特征提取层是用于对图像进行处理的网络,如gcn(graph convolutional neural networks,图卷积网络),node2vec等。
135.在一些实施例中,采用图卷积网络gcn对第一知识扩展信息进行特征提取,该特征提取过程即是对第一知识扩展信息的编码过程。以第一知识扩展信息为子图谱为例,采用图卷积网络gcn对子图谱进行编码,可以较好地在节点和边的语义特征中蕴含图谱中的拓扑信息。该节点和边的语义特征为nodei|sidej=gcn(sub_graph)。其中,nodei表示第i个节点,sidej表示第j个节点,gcn为图卷积网络,sub_graph为第一实体的子图谱。
136.在一些实施例中,可以将图谱信息中每个节点和边的语义特征进行池化平均来得到扩展语义特征。例如,扩展语义特征为g_emb=avgpooling(nodei|sidej),avgpooling表示池化平均处理。
137.在一些实施例中,还可以采用其他方法将每个节点和边的语义特征进行融合得到扩展语义特征,本技术实施例对此不做限定。
138.504、计算机设备通过类别识别模型将描述语义特征与扩展语义特征进行融合,得到融合特征。
139.本技术实施例中,计算机设备可以采用任一种融合方式,将描述语义特征与扩展语义特征进行融合。例如,计算机设备通过类别识别模型将描述语义特征与扩展语义特征进行拼接,得到该融合特征,例如,该融合特征为fusion=[cls_token:g_emb]。又如,该类别识别模型包括第三特征提取层,计算机设备通过第三特征提取层对描述语义特征和扩展语义特征进行特征提取,得到融合特征。
[0140]
505、计算机设备通过类别识别模型对描述语义特征进行类别识别,得到目标视频的第一类别。
[0141]
在一些实施例中,类别识别模型包括第一识别层,该第一识别层用于识别视频的一级类别。可选地,类别识别模型用于从多个一级类别中确定视频所属的一级类别。可选地,类别识别模型用于确定视频属于多个一级类别的概率,将最大概率对应的一级类别确定为该视频所属的一级类别。
[0142]
506、计算机设备通过类别识别模型对融合特征进行类别识别,得到目标视频的第二类别。
[0143]
在一些实施例中,类别识别模型包括第二识别层,该第二识别层用于识别视频的二级类别。可选地,类别识别模型用于从多个二级类别中确定视频所属的二级类别。可选地,类别识别模型用于确定视频属于多个二级类别的概率,将最大概率对应的二级类别确定为该视频所属的二级类别。
[0144]
需要说明的是,本技术实施例中,目标视频的二级类别可以是多个。在一些实施例中,类别识别模型用于确定视频属于多个二级类别的概率,将概率满足识别条件的二级类别确定为该视频所属的二级类别。
[0145]
可选地,将概率满足识别条件的二级类别确定为该视频所属的二级类别,包括:将概率大于目标概率的二级类别确定为该视频所属的二级类别。其中,目标概率可以为一经验值,也可以是技术人员设置的数值等,本技术实施例对目标概率不做限定。
[0146]
需要说明的是,本技术实施例中的第一识别层和第二识别层可以是softmax分类器,也可以是其他分类器,本技术实施例对此不做限定。
[0147]
在一些实施例中,如图6所示,该类别识别模型包括第一特征提取层、第二特征提取层、第一识别层和第二识别层;其中,第一特征提取层与第一识别层和第二识别层连接,第二特征提取层与第二识别层连接。将第一视频描述信息输入到第一特征提取层,将第一知识扩展信息输入到第二特征提取层,通过第一特征提取层获取第一视频描述信息的描述语义特征,通过第二特征提取层获取第一知识扩展信息的扩展语义特征;将描述语义特征输入到第一识别层,通过第一识别层输出目标视频的一级类别;将描述语义特征与扩展语义特征拼接后输入到第二识别层,通过第二识别层输出目标视频的二级类别。
[0148]
本技术实施例提供的类别确定方法,通过类别识别模型对该第一视频描述信息和第一知识扩展信息进行处理,来得到目标视频的一级类别和二级类别,保证了确定的一级类别和二级类别的准确性。
[0149]
需要说明的是,本技术实施例提供的类别识别模型是经过训练的,达到目标准确率的模型,其中,目标准确率为一经验值,或者由技术人员设置的,本技术实施例对目标准确率不做限定。
[0150]
图7是本技术实施例提供的一种类别识别模型的训练方法的流程图。该类别识别
模型的训练方法包括以下步骤:
[0151]
701、计算机设备获取样本数据,该样本数据包括样本视频的第二视频描述信息,该样本视频的样本一级类别和样本二级类别。
[0152]
本技术实施例中,样本数据可以是一条,也可以是多条,本技术实施例对此不做限定。其中,样本一级类别和样本二级类别是样本视频的正确一级类别和正确二级类别。该样本数据可以是人工标注得到,也可以是从互联网中获取的,本技术实施例对此不做限定。
[0153]
本技术实施例通过表1对样本数据进行示例性说明。
[0154]
表1
[0155][0156]
702、计算机设备获取第二实体的第二知识扩展信息,该第二实体为第二视频描述信息中的实体。
[0157]
该步骤702与上述步骤303同理,本技术实施例在此不再一一赘述。
[0158]
703、计算机设备通过训练前的类别识别模型,对第二视频描述信息和第二知识扩展信息进行类别识别,得到样本视频的预测一级类别和预测二级类别。
[0159]
其中,训练前的类别识别模型仅是针对本次训练而言的,是本次训练之前的类别识别模型。因此,该类别识别模型可以是未经过训练的类别识别模型;还可以是经过训练,但是训练未完成的模型;还可以是经过训练,且已经投入使用,为了提高准确率再次训练的模型,本技术实施例对训练前的类别识别模型不做限定。
[0160]
需要说明的是,上述步骤703中“通过训练前的类别识别模型,对第二视频描述信息和第二知识扩展信息进行类别识别,得到样本视频的预测一级类别和预测二级类别”的过程与上述图5所示的“基于类别识别模型对第一视频描述信息和第一知识扩展信息,确定目标视频的一级类别和二级类别”的过程同理,在此不再一一赘述。
[0161]
704、计算机设备基于预测一级类别、样本一级类别、预测二级类别和样本二级类别,对训练前的类别识别模型进行训练,得到该类别识别模型。
[0162]
本技术实施例对类别识别模型进行训练,是为了使类别识别模型的输出结果准确,也即是类别识别模型输出的预测一级类别与样本一级类别应该相同,预测二级类别与样本二级类别应该相同。如果预测一级类别与样本一级类别不同,则说明类别识别模型的输出结果错误,需要调整类别识别模型的模型参数,以使类别识别模型更加准确。同理,如果预测二级类别与样本二级类别不同,则说明类别识别模型的输出结果错误,需要调整类别识别模型的模型参数,以使类别识别模型更加准确。
[0163]
本技术实施例中,计算机设备基于预测一级类别、样本一级类别、预测二级类别和样本二级类别,对训练前的类别识别模型进行训练时,可以基于预测一级类别、样本一级类
别、预测二级类别和样本二级类别,对整个类别识别模型进行训练,还可以针对类别识别模型的不同部分分开训练。
[0164]
在一些实施例中,计算机设备对类别识别模型的不同部分分开训练。可选地,类别识别模型包括第一特征提取层、第二特征提取层、第一识别层和第二识别层。计算机设备基于预测一级类别、样本一级类别、预测二级类别和样本二级类别,对训练前的类别识别模型进行训练,得到该类别识别模型,包括:计算机设备基于预测一级类别和样本一级类别,对第一特征提取层和第一识别层进行训练;基于预测二级类别和样本二级类别,对第二特征提取层和第二识别层进行训练,得到类别识别模型。
[0165]
在一些实施例中,计算机设备对整个类别识别模型一起训练。计算机设备基于预测一级类别、样本一级类别、预测二级类别和样本二级类别,对训练前的类别识别模型进行训练,得到类别识别模型,包括:基于预测一级类别和样本一级类别,确定第一损失值;基于预测二级类别和样本二级类别,确定第二损失值;将第一损失值与第二损失值进行融合,得到第三损失值;基于第三损失值,对训练前的类别识别模型进行训练,得到类别识别模型。
[0166]
其中,第一损失值与预测一级类别和样本一级类别的差异正相关,第二损失值与预测二级类别和样本二级类别的差异正相关。
[0167]
在一些实施例中,计算机设备基于第一损失函数,对预测一级类别和样本一级类别进行处理,得到第一损失值;计算机设备基于第二损失函数,对预测二级类别和样本二级类别进行处理,得到第二损失值。可选地,第一损失函数和第二损失函数为负对数损失函数。可选地,第一损失函数和第二损失函数为其他类型的损失函数。
[0168]
在一些实施例中,计算机设备将第一损失值与第二损失值进行融合,得到第三损失值,包括:计算机设备将第一损失值和第二损失值进行加权处理,得到第三损失值。其中,第一损失值和第二损失值的权重可以是一经验值,也即是由技术人员设置。可选地,第一损失值的权重与第二损失值的权重之和为1。可选地,计算机设备将第一损失值与第二损失值进行融合,得到第三损失值,包括:计算机设备采用损失调和函数,对第一损失值和第二损失函数进行调和处理,得到第三损失值。其中,损失调和函数可以是相关技术中的任一种损失调和函数,本技术实施例对损失调和函数不做限定。
[0169]
需要说明的是,由于本技术实施例中的一级类别是粗粒度的分类,二级类别是更加细致的分类,因此二级类别的确定难度要高于一级类别的确定难度,因此,本技术实施例为了更好地保证类别识别模型的准确性,还会训练类别识别模型确定的一级类别的概率大于确定的二级类别的概率。因此,训练的类别识别模型时,还会考虑一级类别的概率和二级类别的概率。
[0170]
在一些实施例中,计算机设备基于预测一级类别、样本一级类别、预测二级类别和样本二级类别,对训练前的类别识别模型进行训练,得到类别识别模型,包括:确定第一概率和第二概率,类别识别模型用于确定目标视频属于多个一级类别的概率和目标视频属于多个二级类别的概率,第一概率为类别识别模型确定的至少一个一级类别的概率,第二概率为类别识别模型确定的至少一个二级类别的概率;基于预测一级类别、样本一级类别、预测二级类别、样本二级类别、第一概率和第二概率,对训练前的类别识别模型进行训练,得到类别识别模型。
[0171]
其中,第一概率为类别识别模型确定的至少一个一级类别的概率,也是类别识别
模型确定的该样本视频属于该至少一个一级类别的概率;第二概率为类别识别模型确定的至少一个二级类别的概率,也是类别识别模型确定的该样本视频属于该至少一个二级类别的概率。
[0172]
其中,至少一个一级类别可以是样本视频的正确一级类别,还可以是类别识别模型确定的样本视频属于的一级类别,还可以是一级类别分类中的多个一级类别等,本技术实施例对至少一个一级类别不做限定。至少一个二级类别与至少一个一级类别同理,在此不再一一赘述。
[0173]
可选地,计算机设备确定第一概率和第二概率,包括以下任一项:
[0174]
(1)将类别识别模型确定的正确一级类别的概率确定为第一概率,将类别识别模型确定的正确二级类别的概率确定为第二概率,正确一级类别是与样本一级类别相同的类别,正确二级类别是与样本二级类别相同的类别。
[0175]
(2)将预测一级类别的概率确定为第一概率,将预测二级类别的概率确定为第二概率。
[0176]
(3)将预测一级类别的概率确定为第一概率,将类别识别模型确定的多个二级类别的概率确定为第二概率。
[0177]
(4)将类别识别模型确定的多个一级类别的概率确定为第一概率,将类别识别模型确定的多个二级类别的概率确定为第二概率。
[0178]
在一些实施例中,计算机设备基于预测一级类别、样本一级类别、预测二级类别、样本二级类别、第一概率和第二概率,对训练前的类别识别模型进行训练,得到类别识别模型,包括:基于预测一级类别和样本一级类别,确定第一损失值;基于预测二级类别和样本二级类别,确定第二损失值;基于第一概率和第二概率,确定第四损失值;将第一损失值、第二损失值和第四损失值进行融合,得到第五损失值;基于第五损失值,对类别识别模型进行训练。
[0179]
其中,第一损失值与预测一级类别和样本一级类别的差异正相关,第二损失值与预测二级类别和样本二级类别的差异正相关。第四损失值用于在第一概率小于第二概率时,惩罚类别识别模型,也即是基于损失值,调整类别识别模型的模型参数。
[0180]
可选地,计算机设备基于第一概率和第二概率,确定第四损失值,包括:在第一概率小于第二概率的情况下,基于第一概率和第二概率的差值,确定第四损失值,第四损失值与差值呈正相关;在第一概率不小于第二概率的情况下,确定第四损失值为0。
[0181]
在一些实施例中,计算机设备基于第一损失函数,对预测一级类别和样本一级类别进行处理,得到第一损失值;计算机设备基于第二损失函数,对预测二级类别和样本二级类别进行处理,得到第二损失值;计算机设备基于第三损失函数,对第一概率和第二概率进行处理,得到第四损失值。
[0182]
在一些实施例中,第一损失函数和第二损失函数为负对数损失函数。例如,第一损失函数为:
[0183]
[0184]
其中,loss1为第一损失值,为求和函数,n为一级类别的数量,i表示第i个一级类别,yi表示样本视频是否属于第i个一级类别,如果yi为1,表示该样本数据属于第i个一级类别;如果yi为0,表示该样本数据不属于第i个一级类别;log为对数函数,ai表示类别识别模型预测的样本视频属于第i个一级类别的概率。i为大于0且小于等于n的正整数,n为大于1的正整数。
[0185]
第二损失函数为:
[0186][0187]
其中,loss2为第二损失值,为求和函数,m为二级类别的数量,j表示第j个一级类别,yj表示样本视频是否属于第j个一级类别,如果yj为1,表示该样本数据属于第j个一级类别;如果yj为0,表示该样本数据不属于第j个一级类别;log为对数函数,aj表示类别识别模型预测的样本视频属于第j个一级类别的概率。j为大于0且小于等于m的正整数,m为大于1的正整数。
[0188]
第三损失函数为:
[0189][0190]
其中,loss3为第四损失值,为求和函数,k表示第k个正确二级类别,z为正确二级类别的数量,max为求最大值函数。
[0191]
当λ i
2k-i1小于或等于0时,max函数的输出结果为0,当λ i
2k-i1小于或等于0时,max函数的输出结果为λ i
2k-i1;其中,λ为大于0的超参数,由经验值确定。i
2k
表示类别识别模型确定的第k个正确二级类别的概率,i1表示类别识别模型确定的正确一级类别的概率。其中,k为大于0小于等于z的正整数,z为大于0的正整数。
[0192]
采用以下公式,对第一损失值、第二损失值和第四损失值进行融合:
[0193]
loss=λ1loss1 λ2loss2 λ3loss3[0194]
loss为第五损失值,λ1为第一损失值的权重,λ2为第二损失值的权重,λ3为第四损失值的权重,loss1为第一损失值,loss2为第二损失值,loss3为第四损失值。其中,λ1,λ2,λ3为大于0的超参数。
[0195]
本技术实施例提供的类别识别模型的训练方法,通过样本视频的视频描述信息和视频描述信息中实体的知识扩展信息将类别识别模型训练成既能确定视频的一级类别又能确定视频的二级类别的模型。相比于相关技术中,只识别视频的二级类别,通过二级类别回溯一级类别的方法,本技术实施例提供的类别识别模型能够更加准确地确定视频的类别。
[0196]
并且,本技术实施例提供的类别识别模型的训练方法,在训练类别识别模型时,不
仅基于预测结果和样本结果对类别识别模型进行训练,还考虑到一级类别的确定难度低于二级类别的确定难度,因此,通过控制一级类别的概率大于二级类别的概率使得类别识别模型能够更加准确地确定视频的类别。
[0197]
图8是根据本技术实施例提供的一种类别确定装置的框图,该装置用于执行上述类别确定方法,参见图8,装置包括:
[0198]
第一获取模块801,用于获取目标视频的第一视频描述信息,该第一视频描述信息用于描述该目标视频的视频内容;
[0199]
识别模块802,用于对该第一视频描述信息进行实体识别,得到该第一视频描述信息中的第一实体;
[0200]
第二获取模块803,用于获取该第一实体的第一知识扩展信息;
[0201]
确定模块804,用于基于该第一视频描述信息和该第一知识扩展信息,确定该目标视频的类别。
[0202]
如图9所示,在一些实施例中,该目标视频的类别包括一级类别和二级类别;该确定模块804,包括:
[0203]
第一确定单元8041,用于基于该第一视频描述信息,确定该目标视频的一级类别;
[0204]
第二确定单元8042,用于基于该第一视频描述信息和该第一知识扩展信息,确定该目标视频的二级类别。
[0205]
在一些实施例中,该第一确定单元8041,用于确定该第一视频描述信息的描述语义特征,基于该描述语义特征,确定该目标视频的一级类别;
[0206]
该第二确定单元8042,用于确定该第一知识扩展信息的扩展语义特征,对该描述语义特征和该扩展语义特征进行融合,得到融合特征,基于该融合特征,确定该目标视频的二级类别。
[0207]
在一些实施例中,该目标视频的类别包括一级类别和二级类别;该确定模块804,用于将该第一视频描述信息和该第一知识扩展信息输入类别识别模型,输出该目标视频的一级类别和二级类别,该类别识别模型用于基于该第一视频描述信息,确定该目标视频的一级类别,基于该第一视频描述信息和该第一知识扩展信息,确定该目标视频的二级类别。
[0208]
在一些实施例中,该装置还包括:
[0209]
第三获取模块805,用于获取样本数据,该样本数据包括样本视频的第二视频描述信息、该样本视频的样本一级类别和样本二级类别;
[0210]
该第二获取模块803,还用于获取第二实体的第二知识扩展信息,该第二实体为该第二视频描述信息中的实体;
[0211]
该确定模块804,还用于通过训练前的类别识别模型,对该第二视频描述信息和该第二知识扩展信息进行类别识别,得到该样本视频的预测一级类别和预测二级类别;
[0212]
训练模块806,用于基于该预测一级类别、该样本一级类别、该预测二级类别和该样本二级类别,对该训练前的类别识别模型进行训练,得到该类别识别模型。
[0213]
在一些实施例中,该训练模块806,包括:
[0214]
第一确定单元8061,用于基于该预测一级类别和该样本一级类别,确定第一损失值;
[0215]
第二确定单元8062,用于基于该预测二级类别和该样本二级类别,确定第二损失
值;
[0216]
融合单元8063,用于将该第一损失值与该第二损失值进行融合,得到第三损失值;
[0217]
训练单元8064,用于基于该第三损失值,对该训练前的类别识别模型进行训练,得到该类别识别模型。
[0218]
在一些实施例中,该训练模块806,还用于确定第一概率和第二概率,该类别识别模型用于确定该目标视频属于多个一级类别的概率和该目标视频属于多个二级类别的概率,该第一概率为该类别识别模型确定的至少一个一级类别的概率,该第二概率为该类别识别模型确定的至少一个二级类别的概率;
[0219]
该训练模块806,用于基于该预测一级类别、该样本一级类别、该预测二级类别、该样本二级类别、该第一概率和该第二概率,对该训练前的类别识别模型进行训练,得到该类别识别模型。
[0220]
在一些实施例中,该训练模块806,用于执行以下任一项:
[0221]
将该类别识别模型确定的正确一级类别的概率确定为该第一概率,将该类别识别模型确定的正确二级类别的概率确定为该第二概率,该正确一级类别是与该样本一级类别相同的类别,该正确二级类别是与该样本二级类别相同的类别;
[0222]
将该预测一级类别的概率确定为该第一概率,将该预测二级类别的概率确定为该第二概率;
[0223]
将该预测一级类别的概率确定为该第一概率,将该类别识别模型确定的多个二级类别的概率确定为该第二概率;
[0224]
将该类别识别模型确定的多个一级类别的概率确定为该第一概率,将该类别识别模型确定的多个二级类别的概率确定为该第二概率。
[0225]
在一些实施例中,该训练模块806,包括:
[0226]
第一确定单元8061,用于基于该预测一级类别和该样本一级类别,确定第一损失值;
[0227]
第二确定单元8062,用于基于该预测二级类别和该样本二级类别,确定第二损失值;
[0228]
第三确定单元8065,用于基于该第一概率和该第二概率,确定第四损失值;
[0229]
融合单元8063,用于将该第一损失值、该第二损失值和该第四损失值进行融合,得到第五损失值;
[0230]
训练单元8064,用于基于该第五损失值,对该类别识别模型进行训练。
[0231]
在一些实施例中,该第三确定单元8065,用于在该第一概率小于该第二概率的情况下,基于该第一概率和该第二概率的差值,确定该第四损失值,该第四损失值与该差值呈正相关;在该第一概率不小于该第二概率的情况下,确定该第四损失值为0。
[0232]
需要说明的是:上述实施例提供的类别确定方法在对确定视频类别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的类别确定装置与类别确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0233]
在本技术实施例中,计算机设备能够被配置为终端或者服务器,当计算机设备被
配置为终端时,由终端作为执行主体来实施本技术实施例提供的技术方案;当计算机设备被配置为服务器时,由服务器作为执行主体来实施本技术实施例提供的技术方案;或者,通过终端和服务器之间的交互来实施本技术提供的技术方案,本技术实施例对此不作限定。
[0234]
图10是本技术实施例提供的一种终端的结构框图。该终端1000用于执行上述实施例中终端执行的步骤,可以是便携式移动终端,比如:笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端等。
[0235]
通常,终端1000包括有:处理器1001和存储器1002。
[0236]
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla
[0237]
(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0238]
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1001所执行以实现本技术中方法实施例提供的类别确定方法。
[0239]
在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007和电源1008中的至少一种。
[0240]
外围设备接口1003可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本技术实施例对此不加以限定。
[0241]
射频电路1004用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括nfc(near field communication,近距离无线通信)有关的
电路,本技术对此不加以限定。
[0242]
显示屏1005用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置终端1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在另一些实施例中,显示屏1005可以是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0243]
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0244]
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
[0245]
电源1008用于为终端1000中的各个组件进行供电。电源1008可以是交流电、直流电、一次性电池或可充电电池。当电源1008包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0246]
在一些实施例中,终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、光学传感器1014以及接近传感器1015。
[0247]
加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
[0248]
陀螺仪传感器1012可以检测终端1000的机体方向及转动角度,陀螺仪传感器1012
可以与加速度传感器1011协同采集用户对终端1000的3d动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0249]
压力传感器1013可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时,可以检测用户对终端1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0250]
光学传感器1014用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1014采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1014采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
[0251]
接近传感器1015,也称距离传感器,通常设置在终端1000的前面板。接近传感器1015用于采集用户与终端1000的正面之间的距离。在一个实施例中,当接近传感器1015检测到用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1015检测到用户与终端1000的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。
[0252]
本领域技术人员可以理解,图10中示出的结构并不构成对终端1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0253]
图11是本技术实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)1101和一个或一个以上的存储器1102,其中,存储器1102中存储有至少一条程序代码,至少一条程序代码由处理器1101加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0254]
本技术实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码,该至少一条程序代码由该处理器加载并执行上述实施例的通信连接建立中所执行的操作。
[0255]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一段计算机程序,该至少一段计算机程序由处理器加载并执行以实现如上述实施例中的类别确定方法。
[0256]
本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行如上述实施例的类别确定方法中所执行的操作。
[0257]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来程序代码相关的硬件完成,所述的程序可以存储于一种计算机
可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0258]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献