一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据分类方法、装置、设备、存储介质及计算机程序产品与流程

2022-04-09 07:41:37 来源:中国专利 TAG:


1.本技术实施例涉及机器学习领域,特别涉及一种数据分类方法、装置、设备、存储介质及计算机程序产品。


背景技术:

2.数据分类通常用于语音分类检索或者图像分类检索等领域。通过对大规模的数据基于数据特征的相似度进行分类,存在相似数据特征的数据为一个分类集合,在进行数据检索过程中,先确定搜索数据对应的类别,再将对应类别中的数据进行选取,得到对应的数据,完成数据检索。
3.在相关技术中,通常采用提取输入数据的特征向量的方式进行向量检索,基于输入数据的特征向量,选择与其具有关联关系的数据类别,基于该数据类别确定输入数据对应的分类类别,提取该数据类别下的数据作为该输入数据对应的检索结果。
4.然而,上述数据分类方法的实现过程中,仅依靠提取输入数据的特征向量进行分类检索的方式忽略了输入数据包含的语义信息,从而使得检索结果存在形状相似但语义无关的问题,导致分类检索的准确率较低。


技术实现要素:

5.本技术实施例提供了一种数据分类方法、装置、设备、存储介质及计算机程序产品,能够提高数据分类的准确率。所述技术方案如下。
6.一方面,提供了一种数据分类方法,所述方法包括:
7.提取样本数据集中样本数据的语义特征,所述语义特征用于指示所述样本数据对应的分类语义;
8.基于所述语义特征对所述样本数据集进行聚类,得到所述样本数据集对应的候选聚类结果,所述候选聚类结果用于将所述样本数据集中具有语义关联关系的样本数据聚合至同一聚类;
9.通过数据分类模型提取所述样本数据的数据特征,所述数据特征用于指示所述样本数据对应的数据元素分布特征;
10.基于所述数据特征确定所述候选聚类结果中目标聚类对应的中心表征;
11.基于所述中心表征对所述数据分类模型进行迭代训练,得到目标分类模型,所述目标分类模型用于对输入的数据进行分类检索。
12.另一方面,提供了一种数据分类装置,所述装置包括:
13.提取模块,用于提取样本数据集中样本数据的语义特征,所述语义特征用于指示所述样本数据对应的分类语义;
14.聚类模块,用于基于所述语义特征对所述样本数据集进行聚类,得到所述样本数据集对应的候选聚类结果,所述候选聚类结果用于将所述样本数据集中具有语义关联关系的样本数据聚合至同一聚类;
15.所述提取模块,还用于通过数据分类模型提取所述样本数据的数据特征,所述数据特征用于指示所述样本数据对应的数据元素分布特征;
16.确定模块,用于基于所述数据特征确定所述候选聚类结果中,目标聚类对应的中心表征;
17.训练模块,用于基于所述中心表征对所述数据分类模型进行迭代训练,得到目标分类模型,所述目标分类模型用于对输入的数据进行分类检索。
18.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本技术实施例中任一所述数据分类方法。
19.另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本技术实施例中任一所述的数据分类方法。
20.另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据分类方法。
21.本技术实施例提供的技术方案带来的有益效果至少包括:
22.在对目标分类模型的训练过程中,基于样本数据的语义特征得到样本数据对应的候选聚类结果,通过数据分类模型提取样本数据的数据特征,基于数据特征确定候选聚类结果中目标聚类对应的中心表征,将中心表征作为训练参数对数据分类模型进行迭代训练,最终获取用于分类检索的目标分类模型,通过语义特征获取目标聚类对应的中心表征对数据分类模型进行迭代训练的方式使模型在训练过程中包含语义信息,提高分类检索的准确率以及检索结果的相关性,从而提高分类检索效率。
附图说明
23.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1是本技术一个示例性实施例提供的基于语义特征的图像分类方法的过程示意图;
25.图2是本技术一个示例性实施例提供的实施环境示意图;
26.图3是本技术一个示例性实施例提供的数据分类方法的流程图;
27.图4是本技术另一个示例性实施例提供的数据分类方法的流程图;
28.图5是本技术一个示例性实施例提供的resnet-101残差模块结构示意图;
29.图6是本技术另一个示例性实施例提供的数据分类方法的流程图;
30.图7是本技术另一个示例性实施例提供的数据分类方法的流程图;
31.图8是本技术一个示例性实施例提供的数据分类装置的结构框图;
32.图9是本技术另一个示例性实施例提供的数据分类装置的结构框图;
33.图10是本技术一个示例性实施例提供的服务器的结构示意图。
具体实施方式
34.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
35.首先,针对本技术实施例中涉及的名词进行简单介绍。
36.人工智能(artificial intelligence,ai):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
37.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
38.机器学习(machine learning,ml):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
39.计算机视觉技术(computer vision,cv):是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(optical character recognition,ocr)、视频处理、视频语义理解、视频内容 /行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
40.图像分类:是指图像类别级别的分类,通过只考虑对象的类别(如人、狗、猫和鸟等)而不考虑对象的特定实例的方式对对象进行识别从而确定对象所述的类别,如:给出一张图像,确定图像中的某个物体对应的类别(其中,类别是已经提前设计好的)。
41.本技术实施例提供的数据分类方法主要应用于数据检索。以图像检索为例进行说明,利用深度学习训练得到的图像嵌入层特征(embedding)作为特征向量进行向量检索是当今大规模图像检索的常用技术,即,从大量样本数据集中提取样本数据的语义特征,基于语义特征获取样本数据对应聚类的中心表征,对数据分类模型进行迭代训练,使基于图像检索的embedding学习方法中包括样本数据对应的分类语义,提高了目标分类模型的分类检索效率及准确率。示意性的,请参考图1,其示出了本技术一个示例性实施例提供的基于
语义特征的图像分类方法的过程示意图,如图1所示,针对图像101,将图像101输入目标分类模型102提取图像101对应的数据特征,基于图像101的数据特征确定与图像101对应的数据特征符合相似度阈值的分类类别103,其中,相似度阈值用于确定图像101与分类类别103的分类中心之间的相似度,从分类类别103中获取分类图像104,通过计算图像101的数据特征与分类图像104的数据特征之间的距离,根据计算结果从小到大排序,基于排序结果确定检索结果105。
42.针对本技术训练得到的目标分类模型,在应用时包括如下场景中的至少一种。
43.1.应用于图像分类检索场景中,示意性的,输入一张目标图像,目标图像中包含了某个漫画人物,通过目标分类模型确定关于某个漫画人物的图像特征,基于该图像特征确定该图像特征对应的分类类别,从该分类类别中获取与输入的目标图像中漫画人物对应的图像,该分类检索结果可用于图片识别搜索功能中,如:用户将包含某个漫画人物的图像上传至服务器后,服务器根据分类结果确定输入图像对应的类别,在对应类别中获取符合用户要求的图像(如个数要求,相似度要求等)反馈给用户;
44.2.应用于语音分类检索场景中,示意性的,将目标语音文本输入至目标分类模型后,对目标语音文本进行特征提取,得到目标语音文本对应的语音特征,基于语音特征确定与目标语音文本对应的语音类别,从该语音类别中获取与输入目标语音文本对应的语音文本,该分类检索结果可用于语音方言识别搜索功能中,如:用户将某段语音内容上传至服务器后,服务器根据方言分类结果确定输入语音内容对应的方言类别,并将该方言类别内符合用户需求的语音内容反馈给用户,便于用户对于方言的学习;
45.3.应用于向用户进行内容推荐的场景中,示意性的,获取用户的历史互动数据,如:历史图像浏览数据,对历史图像浏览数据进行特征提取,得到历史图像浏览数据对应的图像特征,基于该图像特征确定与历史图像浏览数据对应所属的图像分类类别,从对应的图像分类类别中确定与历史图像浏览数据具有相关性的图像作为分类检索结果,将该分类检索结果作为推荐内容反馈给用户。
46.值得注意的是,上述应用场景仅为示意性的举例,本技术实施例提供的数据分类方法还可以应用于其他场景中,如:对多个文本进行分类检索的场景等,本技术实施例对此不加以限定。
47.其次,对本技术实施例中涉及的实施环境进行说明,示意性的,请参考图2,该实施环境中涉及终端210、服务器220,终端210和服务器220之间通过通信网络230连接。
48.在一些实施例中,终端210用于向服务器220发送待分类检索数据。在一些实施例中,终端210中安装有具有检索功能的应用程序,示意性的,终端210 中安装有具有图像检索功能的应用程序;或者,终端210中安装有具有分类功能的应用程序。如:终端210中安装有搜索引擎程序、即时通讯应用程序、游戏类程序等,本技术实施例对此不加以限定。
49.服务器220中包括通过目标分类模型预测得到的分类结果,根据分类结果对待分类检索数据进行检索后,输出得到检索结果,并将检索结果反馈至终端 210进行显示。
50.其中,目标分类模型是通过样本数据集中的样本数据进行分类并训练得到的。提取样本数据集中样本数据的语义特征,基于语义特征对样本数据集进行聚类得到对应的候选聚类结果,再通过数据分类模型提取样本数据的数据特征,基于数据特征确定上述候选聚类结果中目标聚类对应的中心表征,根据中心表征对数据分类模型进行迭代训练最终得
到目标分类模型,从而通过目标分类模型中的分类结果完成数据检索。
51.上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、智能车载等多种形式的终端设备,本技术实施例对此不加以限定。
52.值得注意的是,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
53.其中,云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
54.在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链 (blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
55.结合上述名词简介和应用场景,对本技术提供的数据分类方法进行说明,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本技术实施例中,以该方法由服务器执行为例进行说明,如图3所示,该方法包括如下步骤:
56.步骤301,提取样本数据集中样本数据的语义特征。
57.其中,语义特征用于指示样本数据对应的分类语义。
58.在一些实施例中,同一个样本数据集中的样本数据属于同一数据类型,如:样本数据集中的样本数据为图像数据,文本数据、语音数据、色彩数据等,本技术实施例对此不加以限定。
59.可选地,以该样本数据为图像数据为例,该样本数据集包括imagenet,即大型通用物体识别开源数据集,或者open image数据集,本实施例对此不加以限定。
60.示意性的,样本数据的语义特征用于指示样本数据对应的分类语义信息,单个样本数据包含的语义特征对应一个或者多个分类类别,其中,分类类别是已经预设好的,如:以图像数据为例,当样本数据为一张图像时,且图像中包含一个人和一条狗,则该图像包含关于人的语义特征和包含宠物的语义特征,也即,该图像可对应为“人物”类别中的图像数据,或者可对应为“宠物”类别中的图像数据。
61.示意性的,样本数据对应的语义特征通过预设的特征分类模型进行提取,通过构建特征分类模型对样本数据提取语义特征,特征分类模型中包含多个分类类别,每个分类类别对应包含分类语义。
62.步骤302,基于语义特征对样本数据集进行聚类,得到样本数据集对应的候选聚类
结果。
63.其中,候选聚类结果用于将所述样本数据集中具有语义关联关系的样本数据聚合至同一聚类。
64.在一些实施例中,将样本数据根据语义特征进行聚类,聚类的选择方式包括如下几种方式中的至少一种:
65.1.平均聚类方法,即将样本数据进行平均聚类,每个聚类的样本数据数量相等,同一聚类中的样本数据具有相同或者相似的语义特征;
66.2.基于聚类中心进行聚类,即通过确定样本数据对应的空间分布,选取n个聚类中心(n可配),计算样本数据与聚类中心的距离,选择与样本数据距离最近的(或者设定距离阈值,选择与样本数据的距离符合距离阈值的)聚类中心,将该样本数据聚合到该聚类中。
67.值得注意的是,上述对样本数据的聚类选择方式仅为示意性举例,本实施例中对样本数据的具体聚类选择方式不做限定。
68.示意性的,聚类的实施方法包括采用k均值聚类法(k-means聚类法)、谱聚类法、均值漂移聚类法等,本技术实施例中对此不加以限定。
69.可选的,一个样本数据对应有一个聚类,或者,对应有多个聚类,在此不做限定,将样本数据对应的多个聚类作为样本数据集对应的候选聚类结果。
70.步骤303,通过数据分类模型提取样本数据的数据特征。
71.其中,数据特征用于指示样本数据对应的数据元素分布特征。
72.在一些实施例中,当样本数据为图像数据时,样本数据的数据元素为图像数据对应的像素点,或者,当样本数据为语音数据时,样本数据的数据元素为语音数据对应的语音帧,或者,当样本数据为视频数据时,样本数据的数据元素为视频数据对应的视频帧(或者为视频帧中对应的像素点),对此不作限定。
73.示意性的,数据分类模型为一个待训练的模型,在训练过程中将模型参数需调整为待学习状态,在训练时对数据分类模型中的模型参数进行调整从而达到训练目的。
74.示意性的,数据分类模型是用于对输入的样本数据进行类别分类并进行检索的模型,通过数据分类模型提取样本数据的数据特征的方式包括如下几种方式中的至少一种:
75.1.通过数据分类模型对样本数据进行向量分析,获取样本数据对应的特征向量,基于样本数据对应的特征向量的向量分布情况,得到样本数据的数据特征;
76.2.通过数据分类模型对样本数据进行元素分析,获取样本数据对应的元素点对应在空间中对应位置,基于元素点在空间位置的分布情况,从而确定样本数据的数据特征。
77.值得注意的是,上述对样本数据的数据特征提取方式仅为示意性举例,本实施例中对数据特征的具体提取方式不做限定。
78.可选的,每个样本数据对应有各自的数据特征,各数据特征包含相同特征或者相似特征,或者各自为不同的特征,对此不加以限定。
79.在一些实施例中,样本数据对应一个或者多个数据元素,数据元素分布特征用于指示样本数据对应的数据元素在平面上的分布特征,或者在空间上的分布特征,在此不做限定,数据元素分布特征用于指示样本数据对应的数据元素的分布共性。
80.步骤304,基于数据特征确定候选聚类结果中目标聚类对应的中心表征。
81.其中,目标聚类为候选聚类结果中样本数据进行聚合对应的各聚类。
82.可选的,基于样本数据对应的数据特征依次确定候选聚类结果中各聚类各自对应的中心表征。
83.在一些实施例中,对同一个目标聚类中,基于样本数据的数据特征确定该目标聚类对应的中心表征,其中,中心表征为一个特征向量,一个目标聚类对应有一个中心表征,中心表征的确定方式包括如下方式中的至少一种:
84.1.将同一目标聚类中样本数据的数据特征进行求和计算平均值,将数据特征的平均值作为目标聚类对应的中心表征;
85.2.确定每个目标聚类对应的语义特征,在目标聚类中选择语义特征与该目标聚类对应语义特征相似度最高或者具有相同语义特征的样本数据,将其对应的数据特征作为该目标聚类对应的中心表征;
86.3.获取目标聚类中各样本数据对应的数据特征,分析获取各样本数据对应的数据元素分布特征的分布共性,基于该分布共性生成一个共性向量,将该共性向量作为该目标聚类对应的中心表征。
87.值得注意的是,上述对中心表征的确定方式仅为示意性举例,本实施例中对中心表征的具体确定方式不做限定。
88.步骤305,基于中心表征对数据分类模型进行迭代训练,得到目标分类模型。
89.其中,目标分类模型用于对输入的数据进行分类检索。
90.在一些实施例中,基于中心表征对数据分类模型进行迭代训练是指将中心表征作为数据分类模型中的模型参数,每一次模型训练都对中心表征进行调整,也即对数据分类模型中的模型参数进行调整,示意性的,对中心表征调整包括对中心表征的特征参数进行调整,或者,对中心表征的权重值进行调整,对此不加以限定。
91.综上所述,本实施例提供的方法,在对目标分类模型的训练过程中,基于样本数据的语义特征得到样本数据对应的候选聚类结果,通过数据分类模型提取样本数据的数据特征,基于数据特征确定候选聚类结果中目标聚类对应的中心表征,将中心表征作为训练参数对数据分类模型进行迭代训练,最终获取用于分类检索的目标分类模型,通过语义特征获取目标聚类对应的中心表征对数据分类模型进行迭代训练的方式使模型在训练过程中包含语义信息,提高分类检索的准确率以及检索结果的相关性,从而提高分类检索效率。
92.在一个可选的实施例中,候选聚类结果通过聚类中心确定,示意性的,请参考图4,其示出了本技术一个示例性实施例提供的数据分类方法的流程图,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本技术实施例中,以该方法由服务器执行为例进行说明,如图4所示,该方法包括如下步骤:
93.步骤401,提取样本数据集中样本数据的语义特征。
94.其中,语义特征用于指示样本数据对应的分类语义。
95.在一些实施例中,通过采用特征分类模型对样本数据集中的样本数据进行语义特征的分类提取。
96.可选地,特征分类模型中包括嵌入层(embedding)和语义分类层,其中,嵌入层包括嵌入层参数,语义分类层包括分类参数。
97.可选地,特征分类模型中还包括一个预训练的基础模块,基础模块用于对输入的样本数据进行特征提取,从而将提取的特征通过嵌入层进行嵌入处理以及通过分类层进行
语义分类。
98.这里以resnet-101网络结构提取样本数据的语义特征为例进行说明,请参考表一与表二,表一与表二组成特征分类模型结构。
99.示意性的,embedding层采用如下表一所示的resnet-101网络提取基础特征参数。
100.表一
[0101][0102]
其中,conv1、conv2_x等为该网路结构中不同的网络层,每层网络层的输入参数即为前一层网络层的输出参数,resnet-101特征网络中通过学习残差函数对网络进行训练,其中每层网络层的残差模块(block)结构如图5所示,其示出了本技术一个示例性实施例提供的resnet-101残差模块结构示意图,如图 5所示,输入为一个256维参数向量,通过第一层结构501(即1
×
1卷积层, 64维)对其进行下采样,再通过第二层结构502(即3
×
3卷积层,64维)对其进行通道卷积,最后通过第三层结构503(即1
×
1卷积层,256维)对其进行上采样,保证对输入参数进行卷积时参数的数目降低便于运算,而输出结果的参数数目与输入参数的数目保持一致,其中,501至503中的参数可根据每层网络层的参数不同进行调整,block结构的个数也可随每层网络层对应block结构的个数进行调整(如conv4_x对应三个blocks,即该网络层训练时由三个这个的残差模块结构堆叠而成进行训练),也即,embedding层的学习实际为每个模型在不同参数下通过残差模块经过多次堆叠产生。
[0103]
语义分类层如下表二所示:
[0104]
表二
[0105]
层名输出尺寸层类型pool1
×
2048最大池化层max poolfc1
×
10000fc
[0106]
其中,将样本数据输入表一中的resnet-101网络结构中进行卷积池化后输出特征提取模型的embedding参数(即表一中通过conv5_x网络层输入的结果),输入表二,即表二
中特征提取模型的embedding参数为1
×
2048维向量,用于对语义分类层中的标签分类数据(即表二中1
×
10000维向量,其中10000指标签对应的类别个数,该类别个数可配)进行训练,基于标签对应的分类信息确定样本数据对应的分类语义,最终获取样本数据对应的语义特征,即用于提取样本数据的语义embedding。
[0107]
步骤402,基于样本数据的语义特征确定样本数据集对应的n个聚类中心, n为正整数。
[0108]
其中,根据实际需要确定聚类的个数,如:目标聚类数量为n个时,则对应有n个聚类中心。
[0109]
在一些实施例中,每个样本数据的语义特征在二维平面或者三维空间中对应有分布位置,基于各样本数据的语义特征对应的分布位置得到样本数据集在二维平面或者三维空间中的平面或者空间划分结果。根据样本特征对应的平面或者空间划分结果,确定n个聚类中心,确定方式包括随机确定,或者,根据样本特征的分布情况确定(如:在某些具有相似或者相同语义特征分布密集处确定聚类中心)。
[0110]
步骤403,基于第i个样本数据的语义特征确定第i个样本数据所属的聚类中心,i为正整数。
[0111]
在一些实施例中,确定第i个样本数据的语义特征与n个聚类中心分别对应的特征距离;将特征距离符合距离要求的聚类中心作为第i个样本数据所属的聚类中心。
[0112]
可选地,基于步骤402中确定的n个聚类中心后,分别计算每个样本数据与各个聚类中心对应的特征距离,其中,计算方法包括:l1距离计算方法、l2 距离计算方法、切比雪夫距离计算方法等,在此不做限定,本实施例中以l2距离计算方法为例进行说明,l2距离计算公式可参考公式一:
[0113]
公式一:
[0114]
其中,和分别对应样本数据的语义特征和聚类中心,通过计算第i个样本数据对应的语义特征xi和第i个聚类中心yi的平方差,从而确定第i个样本数据对应的语义特征与第i个聚类中心之间的特征距离。
[0115]
可选的,基于l2距离计算方法确定各样本数据与各聚类中心对应的特征距离,选择各样本数据对应的聚类中心,将其聚合至该聚类中心对应的聚类中,其中。聚类的选择方法包括如下方式中的至少一种:
[0116]
1.选择与样本数据的语义特征距离最近的聚类中心作为样本数据所属聚类的聚类中心;
[0117]
2.设定距离阈值,当聚类中心与样本数据的语义特征的特征距离达到距离阈值时,选择该聚类中心作为样本数据所属聚类的聚类中心。
[0118]
值得注意的是,上述对聚类的选择方式仅为示意性举例,本实施例中对距离的具体选择方式不做限定。
[0119]
示意性的,一个样本数据对应所属包括一个或者多个聚类中心,在此不做限定。
[0120]
步骤404,基于样本数据分别对应的聚类中心,得到样本数据集对应的候选聚类结果。
[0121]
其中,根据每个样本数据对应所属的聚类中心,确定每个样本数据对应的聚类,将其作为样本数据集对应的候选聚类结果。
[0122]
步骤405,通过数据分类模型提取样本数据的数据特征。
[0123]
其中,数据特征用于指示样本数据对应的数据元素分布特征。
[0124]
步骤405中对提取样本数据的数据特征过程在后续实施例中进行详细说明。
[0125]
步骤406,基于数据特征确定候选聚类结果中目标聚类对应的中心表征。
[0126]
在一些实施例中,获取目标聚类中的样本数据的数据特征;确定目标聚类中的样本数据的数据特征对应的均值结果,作为目标聚类对应的中心表征。
[0127]
可选的,对于同一个目标聚类中的样本数据,对其数据特征进行平均求值,得到的均值结果作为该目标聚类对应的中心表征,各目标聚类对应的中心表征可能相同或者不同,对此不加以限定。
[0128]
步骤407,基于中心表征对数据分类模型进行迭代训练,得到目标分类模型。
[0129]
其中,目标分类模型用于对输入的数据进行分类检索。
[0130]
步骤407中对数据分类模型进行迭代训练的过程在后续实施例中进行详细说明。
[0131]
综上所述,本实施例提供的方法,在对目标分类模型的训练过程中,基于样本数据的语义特征得到样本数据对应的候选聚类结果,通过数据分类模型提取样本数据的数据特征,基于数据特征确定候选聚类结果中目标聚类对应的中心表征,将中心表征作为训练参数对数据分类模型进行迭代训练,最终获取用于分类检索的目标分类模型,通过语义特征获取目标聚类对应的中心表征对数据分类模型进行迭代训练的方式使模型在训练过程中包含语义信息,提高分类检索的准确率以及检索结果的相关性,从而提高分类检索效率。
[0132]
本实施例中,通过使用特征分类模型对样本数据的语义特征进行提取,使每个样本数据对应有分类语义,为后续数据分类模型的迭代训练提供分类基础,同时,包含分类语义的样本数据在应用过程中有利于更快的获取对应的分类类别从而进行数据检索;通过对样本数据集进行聚类的方式避免了人工对每个样本数据进行标签标注,而是通过聚类的方式确定每个聚类对应的中心表征(也即该聚类对应的分类类别信息)。
[0133]
在一个可选的实施例中,目标分类模型通过训练过程中预测损失对数据分类模型进行参数调整的方式获取,示意性的,请参考图6,其示出了本技术一个示例性实施例提供的数据分类方法的流程图,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本技术实施例中,以该方法由服务器执行为例进行说明,如图6所示,该方法包括如下步骤:
[0134]
步骤601,提取样本数据集中样本数据的语义特征。
[0135]
其中,语义特征用于指示样本数据对应的分类语义。
[0136]
步骤601中关于提取语义特征的过程已经在上述步骤401中进行详细说明,这里不再赘述。
[0137]
步骤602,基于语义特征对样本数据集进行聚类,得到样本数据集对应的候选聚类结果。
[0138]
其中,候选聚类结果用于将样本数据集中具有语义关联关系的样本数据聚合至同一聚类。
[0139]
步骤602中关于候选聚类结果的获取过程在上述步骤302和步骤402中进行详细说
明,这里不再赘述。
[0140]
步骤603,通过数据分类模型提取样本数据的数据特征。
[0141]
其中,数据特征用于指示样本数据对应的数据元素分布特征。
[0142]
可选的,数据分类模型中包括嵌入层(embedding)、特征提取层和类别分类层,其中,嵌入层包括嵌入参数,特征提取层包括特征参数,类别分类层包括类别分类参数,本实施例中,数据分类模型由表一(上述实施例中已示出) 与表三组成。
[0143]
在一些实施例中,首先初始化数据分类模型的模型参数(将上述实施例中的中心表征作为初始化参数),将数据分类模型的模型参数设置为待学习状态,并设置学习率,从而在训练过程中对模型参数进行调整。本实施例中,由于本任务是训练数据分类模型,对其模型参数进行调整,故采用较小的学习率进行调整。嵌入层、特征提取层采用lr1=0.0005学习率;对类别分类层采用lr2=0.005 学习率。类别分类层因为是学习类别,容易过拟合,从而影响目标分类模型的分类检索效果,故两个模块采用不同的学习率,使得目标分类模型的嵌入层在每次学习中受分类回传的梯度影响比类别分类层少。
[0144]
示意性的,embedding层采用如表一所示的resnet-101网络提取基础特征参数。
[0145]
本实施例中对基础特征参数的提取过程已经在上述步骤402中进行详细说明,这里不再赘述。
[0146]
embedding层特征提取分支如下表三所示。
[0147]
表三
[0148]
层名输出尺寸层类型pool1
×
2048最大池化层max poolembedding1
×
128fcfc_class1
×
100fc
[0149]
其中,表三中的pool层为特征提取模型的embedding参数(用于获取样本数据对应的语义embedding),embedding层为数据分类模型embedding参数,对样本数据用数据分类模型获取到各样本数据的数据embedding,这里的数据 embedding便是用来做检索的特征,也是用来做分类的特征。该特征向量即为样本数据对应的数据特征。
[0150]
步骤604,基于数据特征确定候选聚类结果中,目标聚类对应的中心表征。
[0151]
可选的,基于上述获取的样本数据对应的数据特征为一个1
×
128维特征向量,对于同一个目标聚类中样本数据对应数据特征进行均值求解,将该目标聚类中数据特征的均值求和结果作为该目标聚类对应的中心表征,也即该目标聚类对应的中心表征也为一个1
×
128维特征向量,若候选聚类结果中包括100个目标聚类,则该候选聚类结果对应的中心表征为100
×
128维特征向量,将其作为表三中类别分类层(fc_class)的初始化参数。
[0152]
步骤605,基于中心表征和数据特征,确定数据分类模型对应的预测损失。
[0153]
在一些实施例中,预测损失包括分类损失,也即,确定数据特征所属的聚类;获取数据特征所属聚类的聚类中心;基于数据特征与聚类中心之间的差异,确定数据分类模型对应的分类损失。
[0154]
可选的,根据候选分类结果确定样本数据的数据特征所属的聚类,通过l2 公式距离算法选择与样本数据的语义特征距离最近的聚类中心作为样本数据所属聚类的聚类中心。
[0155]
可选的,分类损失通过数据特征的聚类和聚类对应的聚类中心之间的差异性决定,由交叉熵函数进行表示,示意性的,请参考公式二:
[0156]
公式二:
[0157]
其中,yi为数据特征所述的聚类,pi为数据特征所属聚类的聚类中心,n 为聚类个数,通过交叉熵函数对聚类以及聚类中心进行计算,从而确定分类损失。
[0158]
在一些实施例中,预测损失还包括三元组损失,也即,构建样本数据对应的样本三元组,样本三元组中包括锚点数据、正样本数据和负样本数据,锚点数据与正样本数据之间的相似度符合相似度条件,锚点数据与负样本数据之间的相似度不符合相似度条件;基于样本三元组中锚点数据、正样本数据和负样本数据所属的聚类,确定数据分类模型对应的三元组损失。
[0159]
在一些实施例中,样本三元组为从样本数据集中标注得到的三元组样本对,其中包括锚点数据(anchor)、正样本数据(positive)以及负样本数据(negative),其中,锚点数据与正样本数据为一对相似样本,锚点数据与负样本数据为一对不相似样本。
[0160]
可选地,锚点数据与正样本数据的相似度大于(或者等于)相似度阈值,锚点数据与负样本数据之间的相似度小于(或者等于)相似度阈值。本技术实施例中,以锚点数据与正样本数据处于同一聚类,锚点数据与负样本数据处于不同聚类为目标进行模型训练,从而将样本数据之间的相似度作为聚类的其中一个条件,避免相似样本被分至不同聚类的情况。
[0161]
本实施例中,从样本数据集中每次随机不放回抽取两个样本数据,计算两个样本数据之间的相似度,如果两个样本数据相同(或者设置相似度阈值,当两个样本数据的相似度达到相似度阈值),则将这两个样本数据作为正样本数据进行相似度标注。基于正样本数据,还需要对负样本数据进行挖掘从而获取样本三元组。对于每个正样本数据,从样本数据集中剩下的样本数据组成的样本数据对中计算该样本数据对与正样本数据之间的距离,获得各样本数据对与正样本数据的距离结果,将距离结果从小到大进行排序,选取排序中前20个(可配)作为负样本数据组成样本三元组,对于m个正样本数据而言,(m为正整数) 样本三元组有20*m个(m的值需要取大一些,即正样本数据需要尽可能多一些,保证模型的泛化性)。
[0162]
可选地,三元组损失是通过样本三元组之间的距离差确定的,也即,确定锚点数据与正样本数据的第一特征距离,以及确定锚点数据与负样本数据的第二特征距离;基于第一特征距离和第二特征距离的差值确定所述数据分类模型对应的三元组损失。
[0163]
示意性的,三元组损失计算公式请参考公式三:
[0164]
公式三:l
tri
=max(||x
a-x
p
||-||x
a-xn|| α,0)
[0165]
其中,xa指锚点数据,x
p
指正样本数据,xn指负样本数据,α指边缘阈值 (本实施例中边缘阈值设为6),||x
a-x
p
||表示锚点数据对应的数据特征与正样本数据对应的数据特征之间的第一特征距离,||x
a-xn||表示锚点数据对应的数据特征与负样本数据对应的数据特征之间的第二特征距离,二者差值即为数据分类模型对应的三元组损失。
[0166]
其中,三元组损失的目的是为了保证第一特征距离与第二特征距离之差大于边缘阈值,用于保证样本数据之间的相似性。
[0167]
步骤606,基于预测损失对数据分类模型的模型参数进行调整,得到目标分类模型。
[0168]
在一些实施例中,确定三元组损失对应的第一权重;将第一权重与分类损失之积确定为第一子损失;确定分类损失对应的第二权重;将第二权重与三元组损失之积确定为第二子损失;将第一子损失和第二子损失之和作为预测损失;基于预测损失对图像分类模型的模型参数进行梯度调整,得到目标分类模型。
[0169]
示意性的,预测损失的确定方式请参考公式四:
[0170]
公式四:l
total
=w1l
t
w2lc[0171]
其中,预测损失为l
total
,l
t
为三元组损失,lc为分类损失,w1为第一权重, w2为第二权重,第一权重和第二权重为预设值(本实施例中设w1=1,w2=0.2),第一权重和第二权重可根据模型训练要求进行调整。
[0172]
在模型参数的更新过程中,样本数据分批次迭代,示意性的,将全量n个样本三元组每128个作为一个批次,共n/128个批次,每次网络处理一个批次(包括前向预测、后向梯度计算以及网络参数更新)。当全量样本的批次都处理完,算完成一个阶段。模型一共学习m个阶段停止迭代(m为预设值,如10)。其中,网络参数的更新通过使用随机梯度下降法(stochastic gradient descent,sgd),将预测损失进行梯度计算后得到模型参数的更新值,对数据分类网络进行参数更新,最终得到目标分类模型。其中,如表三所示,三元组损失用于对数据分类模型中embedding层进行参数调整,用于训练提取样本数据中的数据特征,分类损失用于对语义分类层进行参数调整,即调整中心表征的权重。
[0173]
步骤607,将待分类检索数据输入目标分类模型,输出得到分类检索结果。
[0174]
可选地,在应用过程中,提取待分类检索数据的语义特征,将其输入目标分类模型,目标分类模型对待分类检索数据提取数据特征,基于该数据特征计算数据特征与各聚类对应的聚类中心的距离,基于距离确定分类结果,设定一个距离阈值,当该数据特征与某个聚类中心的距离达到举例阈值时,可认为该聚类中心所在聚类为数据特征所属聚类(一个数据特征所属一个或者多个聚类),获取该数据特征所属聚类下的样本数据,通过l2距离公式计算样本数据与待检索数据之间的距离,根据计算结果选择对应的样本数据作为分类检索结果(如:根据距离从小到大排序并按序选择样本数据,或者,选择topk个样本数据,对此不做限定)。
[0175]
综上所述,本实施例提供的方法,在对目标分类模型的训练过程中,基于样本数据的语义特征得到样本数据对应的候选聚类结果,通过数据分类模型提取样本数据的数据特征,基于数据特征确定候选聚类结果中目标聚类对应的中心表征,将中心表征作为训练参数对数据分类模型进行迭代训练,最终获取用于分类检索的目标分类模型,通过语义特征获取目标聚类对应的中心表征对数据分类模型进行迭代训练的方式使模型在训练过程中包含语义信息,提高分类检索的准确率以及检索结果的相关性,从而提高分类检索效率。
[0176]
本实施例中,通过确定三元组损失和分类损失对数据分类模型的模型参数进行梯度调整,在数据分类模型中加入特征分类模型的pool层进行参数调整辅助数据分类模型的训练,使得embedding层与pool层能够进行联合迭代优化。
[0177]
在一个可选的实施例中,数据分类模型的训练过程中还包括初次训练数据分类模型的过程,数据分类模型采用表一与表三组成的模型(上述实施例中已示出),初次训练中由于不包括中心表征,故不需要训练fc_class层,仅需要采用样本三元组,通过三元组损失对数据分类模型的模型参数进行梯度调整。其中embedding层采用0均值、方差为0.1的正态分布随机数作为初始化参数。训练过程中对所有网络层均进行训练,并将数据分类模型的模型参数设置为待学习状态,学习率为0.01,采用sgd梯度更新方法,每经过10次训练(可配) 后学习率变为原来的0.1,对全量数据训练20次,初次训练过程与上述训练过程一致,这里不赘述。
[0178]
示意性的,请参考图7,其示出了本技术一个示例性实施例示出的数据分类方法的流程图,如图7所示,获取样本数据701,通过特征提取模型702得到样本数据701的语义特征,并对样本数据701进行聚类,得到样本数据集对应的候选聚类结果,通过数据分类模型703对样本数据701提取数据特征,其中,数据分类模型703中包括基础特征模块7031和embedding层7032,其中, embedding层7032用于进行度量学习,即分析输入样本数据对应的embedding 特征,基于数据特征确定候选聚类结果中目标聚类对应的中心表征704,基于中心表征704对数据分类模型703进行迭代训练,通过中心表征704计算分类损失705和通过数据特征计算三元组损失706得到预测损失707,对数据分类模型 703的模型参数进行梯度调整,最终得到目标分类模型708用于对输入数据的分类检索。
[0179]
综上所述,本实施例提供的方法,在对目标分类模型的训练过程中,基于样本数据的语义特征得到样本数据对应的候选聚类结果,通过数据分类模型提取样本数据的数据特征,基于数据特征确定候选聚类结果中目标聚类对应的中心表征,将中心表征作为训练参数对数据分类模型进行迭代训练,最终获取用于分类检索的目标分类模型,通过语义特征获取目标聚类对应的中心表征对数据分类模型进行迭代训练的方式使模型在训练过程中包含语义信息,提高分类检索的准确率以及检索结果的相关性,从而提高分类检索效率。
[0180]
本技术涉及的方案包括如下几个优点:
[0181]
1.无需明确语义的分类初始化:通过特征提取模型根据空间分布预先对样本数据进行分类初始化,使得分类具备语义关联前提下满足训练样本数据的分布;
[0182]
2.分类与度量学习相互兼容学习提升分类应用效果:借助度量学习过程调整中心标准,借助分类的下游任务通过梯度回传到embedding层,使得embedding 层的特征提取学习在支持本身相似度度量外,尽量支持分类任务同时又不被分类任务影响收敛效果;
[0183]
3.可以调整的分类方法:由于分类初始化以及训练取决于样本数据的语义特征分布以及相似度度量空间约束调整,故在不同的业务下,当样本数据集发生变化、或者样本数据集分布发生变化(如卡通漫画检索下,样本数据集中在卡漫语义空间以及检索空间),借助本技术涉及的方案可以随着样本数据的变化重新建立分类初始化、并在后续学习中进行参数调整。
[0184]
本技术实施例中涉及的方案,不需要人工设计语义类别、实现支持检索的语义分类效果:采用不相关的语义分类未必能对相似度检索有效果,而本方案中经过联合学习调整的中心表征权重以及embedding层的特征提取可以相互辅助分类检索;对不同的业务可根据样本数据进行分类调整,从而满足不同业务的检索需要。
[0185]
本技术实施例中,除了resnnet-101还可以使用不同的网络结构、不同的预训练模
型权重作为基础模型,如resnet-50、inceptionv4等,对于数据量较大的检索,可采用小网络如resnet-18,以及降低embedding维度,如采用64维。
[0186]
图8是本技术一个示例性实施例提供的数据分类装置的结构框图,如图8 所示,该装置包括如下部分:
[0187]
提取模块810,用于提取样本数据集中样本数据的语义特征,所述语义特征用于指示所述样本数据对应的分类语义;
[0188]
聚类模块820,用于基于所述语义特征对所述样本数据集进行聚类,得到所述样本数据集对应的候选聚类结果,所述候选聚类结果用于将所述样本数据集中具有语义关联关系的样本数据聚合至同一聚类;
[0189]
所述提取模块810,还用于通过数据分类模型提取所述样本数据的数据特征,所述数据特征用于指示所述样本数据对应的数据元素分布特征;
[0190]
确定模块830,用于基于所述数据特征确定所述候选聚类结果中,目标聚类对应的中心表征;
[0191]
训练模块840,用于基于所述中心表征对所述数据分类模型进行迭代训练,得到目标分类模型,所述目标分类模型用于对输入的数据进行分类检索。
[0192]
在一个可选的实施例中,所述确定模块830,还用于获取所述目标聚类中的样本数据的数据特征;确定所述目标聚类中的样本数据的数据特征对应的均值结果,作为所述目标聚类对应的中心表征。
[0193]
在一个可选的实施例中,所述聚类模块820,如图9所示,包括:
[0194]
确定单元821,用于基于所述样本数据的语义特征确定所述样本数据集对应的n个聚类中心,n为正整数;
[0195]
所述确定单元821,还用于基于第i个样本数据的语义特征确定第i个样本数据所属的聚类中心,i为正整数;
[0196]
获取单元822,用于基于样本数据分别对应的聚类中心,得到所述样本数据集对应的候选聚类结果。
[0197]
在一个可选的实施例中,所述确定单元821,还用于确定第i个样本数据的语义特征与n个聚类中心分别对应的特征距离;将特征距离符合距离要求的聚类中心作为所述第i个样本数据所属的聚类中心;
[0198]
在一个可选的实施例中,所述训练模块840,还用于基于所述中心表征和所述数据特征,确定所述数据分类模型对应的预测损失;基于所述预测损失对所述数据分类模型的模型参数进行调整,得到所述目标分类模型。
[0199]
在一个可选的实施例中,所述预测损失中包括分类损失;
[0200]
所述训练模块840,还用于确定所述数据特征所属的聚类;获取所述数据特征所属聚类的聚类中心;基于所述数据特征与所述聚类中心之间的差异,确定所述数据分类模型对应的分类损失。
[0201]
在一个可选的实施例中,所述预测损失中包括三元组损失;
[0202]
所述训练模块840,还用于构建所述样本数据对应的样本三元组,所述样本三元组中包括锚点数据、正样本数据和负样本数据,所述锚点数据与所述正样本数据之间的相似度符合相似度条件,所述锚点数据与所述负样本数据之间的相似度不符合所述相似度条
件;基于所述样本三元组中所述锚点数据、所述正样本数据和所述负样本数据所属的聚类,确定所述数据分类模型对应的三元组损失。
[0203]
在一个可选的实施例中,所述训练模块840,还用于确定所述锚点数据与所述正样本数据的第一特征距离,以及确定所述锚点数据与所述负样本数据的第二特征距离;基于所述第一特征距离和所述第二特征距离的差值确定所述数据分类模型对应的三元组损失。
[0204]
在一个可选的实施例中,所述预测损失中包括分类损失和三元组损失;
[0205]
所述训练模块840,还用于确定所述三元组损失对应的第一权重;将所述第一权重与所述分类损失之积确定为第一子损失;确定所述分类损失对应的第二权重;将所述第二权重与所述三元组损失之积确定为第二子损失;将所述第一子损失和所述第二子损失之和作为所述预测损失;基于所述预测损失对所述图像分类模型的模型参数进行梯度调整,得到所述目标分类模型。
[0206]
在一个可选的实施例中,所述装置还包括:
[0207]
输入模块850,用于将待分类检索数据输入所述目标分类模型,输出得到分类检索结果。
[0208]
综上所述,本实施例提供的装置,在对目标分类模型的训练过程中,基于样本数据的语义特征得到样本数据对应的候选聚类结果,通过数据分类模型提取样本数据的数据特征,基于数据特征确定候选聚类结果中目标聚类对应的中心表征,将中心表征作为训练参数对数据分类模型进行迭代训练,最终获取用于分类检索的目标分类模型,通过语义特征获取目标聚类对应的中心表征对数据分类模型进行迭代训练的方式使模型在训练过程中包含语义信息,提高分类检索的准确率以及检索结果的相关性,从而提高分类检索效率。
[0209]
需要说明的是:上述实施例提供的数据分类装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据分类装置与数据分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0210]
图10示出了本技术一个示例性实施例提供的服务器的结构示意图。该服务器可以是如图2所示的服务器。
[0211]
具体来讲:服务器1000包括中央处理单元(central processing unit,cpu) 1001、包括随机存取存储器(random access memory,ram)1002和只读存储器(read only memory,rom)1003的系统存储器1004,以及连接系统存储器 1004和中央处理单元1001的系统总线1005。服务器1000还包括用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1006。
[0212]
大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1006及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,大容量存储设备1006可以包括诸如硬盘或者紧凑型光盘只读存储器(compact disc read only memory, cd-rom)驱动器之类的计算机可读介质(未示出)。
[0213]
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何
方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(erasableprogrammable read only memory,eprom)、带电可擦可编程只读存储器 (electrically erasable programmable read only memory,eeprom)、闪存或其他固态存储其技术,cd-rom、数字通用光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。
[0214]
根据本技术的各种实施例,服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005 上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元 1011来连接到其他类型的网络或远程计算机系统(未示出)。
[0215]
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由cpu执行。
[0216]
本技术的实施例还提供了一种计算机设备,该计算机设备可以实现为如图2 所示的终端或者服务器。该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的数据分类方法。
[0217]
本技术的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的数据分类方法。
[0218]
本技术的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的数据分类方法。
[0219]
可选地,该计算机可读存储介质可以包括:只读存储器(rom,read onlymemory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd, solid state drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器 (dram,dynamic random access memory)。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0220]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0221]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献