一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法、装置、设备及存储介质与流程

2023-03-01 11:14:09 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。


背景技术:

2.关系识别是社交关系链建设的必要环节。举例来说,挖掘与对象数据有关的关系链,对于关系识别和对象数据集合构建都具有非常重要的意义。实际应用中,可以通过构建对象间的社交网络关系以及对象数据集合标签,进行基于社交网络关系的推荐和精准营销,能够有效提高推荐和营销效果。然而,传统的数据处理方法在进行关系识别时准确度较低,因此,如何提升关系识别的准确性成了当下的研究热点。


技术实现要素:

3.本发明实施例提供了一种数据处理方法、装置、设备及存储介质,可提升关系识别的准确度。
4.一方面,本发明实施例提供了一种数据处理方法,包括:
5.获取待识别关系对的关系数据,所述待识别关系对包括第一对象和第二对象,所述关系数据包括所述第一对象和所述第二对象之间的操作序列数据,所述第一对象的第一对象数据以及所述第二对象的第二对象数据;
6.基于所述第一对象和所述第二对象之间的操作序列数据构建所述待识别关系对的第一操作序列模式特征,基于所述第一对象数据构建所述第一对象的第一对象数据集合,并基于所述第二对象数据构建所述第二对象的第二对象数据集合;
7.采用训练后的贝叶斯模型,基于所述第一操作序列模式特征、所述第一对象数据集合以及所述第二对象数据集合,对所述待识别关系对进行关系识别,得到所述待识别关系对的社交关系。
8.一方面,本技术实施例提供了一种数据处理装置,包括:
9.获取单元,用于获取待识别关系对的关系数据,所述待识别关系对包括第一对象和第二对象,所述关系数据包括所述第一对象和所述第二对象之间的操作序列数据,所述第一对象的第一对象数据以及所述第二对象的第二对象数据;
10.特征构建单元,用于基于所述第一对象和所述第二对象之间的操作序列数据构建所述待识别关系对的第一操作序列模式特征,基于所述第一对象数据构建所述第一对象的第一对象数据集合,并基于所述第二对象数据构建所述第二对象的第二对象数据集合;
11.关系识别单元,用于采用训练后的贝叶斯模型,基于所述第一操作序列模式特征、所述第一对象数据集合以及所述第二对象数据集合,对所述待识别关系对进行关系识别,得到所述待识别关系对的社交关系。
12.一方面,本技术实施例提供了一种数据处理设备,包括:
13.处理器,适于实现一条或多条计算机程序;
14.计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行:
15.获取待识别关系对的关系数据,所述待识别关系对包括第一对象和第二对象,所述关系数据包括所述第一对象和所述第二对象之间的操作序列数据,所述第一对象的第一对象数据以及所述第二对象的第二对象数据;基于所述第一对象和所述第二对象之间的操作序列数据构建所述待识别关系对的第一操作序列模式特征,基于所述第一对象数据构建所述第一对象的第一对象数据集合,并基于所述第二对象数据构建所述第二对象的第二对象数据集合;采用训练后的贝叶斯模型,基于所述第一操作序列模式特征、所述第一对象数据集合以及所述第二对象数据集合,对所述待识别关系对进行关系识别,得到所述待识别关系对的社交关系。
16.一方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行:
17.获取待识别关系对的关系数据,所述待识别关系对包括第一对象和第二对象,所述关系数据包括所述第一对象和所述第二对象之间的操作序列数据,所述第一对象的第一对象数据以及所述第二对象的第二对象数据;基于所述第一对象和所述第二对象之间的操作序列数据构建所述待识别关系对的第一操作序列模式特征,基于所述第一对象数据构建所述第一对象的第一对象数据集合,并基于所述第二对象数据构建所述第二对象的第二对象数据集合;采用训练后的贝叶斯模型,基于所述第一操作序列模式特征、所述第一对象数据集合以及所述第二对象数据集合,对所述待识别关系对进行关系识别,得到所述待识别关系对的社交关系。
18.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品包括计算机程序,该计算机程序存储在存储介质中,数据处理设备的处理器从存储介质中读取该计算机程序,处理器执行该计算机程序,使得关系处理设备执行:
19.获取待识别关系对的关系数据,所述待识别关系对包括第一对象和第二对象,所述关系数据包括所述第一对象和所述第二对象之间的操作序列数据,所述第一对象的第一对象数据以及所述第二对象的第二对象数据;基于所述第一对象和所述第二对象之间的操作序列数据构建所述待识别关系对的第一操作序列模式特征,基于所述第一对象数据构建所述第一对象的第一对象数据集合,并基于所述第二对象数据构建所述第二对象的第二对象数据集合;采用训练后的贝叶斯模型,基于所述第一操作序列模式特征、所述第一对象数据集合以及所述第二对象数据集合,对所述待识别关系对进行关系识别,得到所述待识别关系对的社交关系。
20.本技术实施例采用了基于操作序列模式特征和关系对的对象数据集合训练后的贝叶斯模型进行关系识别,由于输入贝叶斯模型中的操作序列模式特征和关系对的对象数据集合满足特征独立性假设,因此采用本技术提供的贝叶斯模型训练方法训练出的贝叶斯模型对待识别关系对进行关系识别,可以得到更加准确的识别结果(即:社交关系)。
附图说明
21.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普
通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本发明实施例提供的一种贝叶斯模型的关系识别训练方法流程示意图;
23.图2是本技术实施例提供的又一种贝叶斯模型的关系识别训练方法的流程示意图;
24.图3是本技术实施例提供的一种数据处理方法的流程示意图;
25.图4是本技术实施例提供的一种数据处理装置的结构示意图;
26.图5是本技术实施例提供的一种数据处理设备的结构示意图。
具体实施方式
27.人工智能技术通过利用数字计算机或利用数字计算机控制的机器去模拟、延伸和扩展人的智能,进而得到可用于感知环境、获取知识或使用知识获得最佳结果的理论、方法、技术及应用系统。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习是指一门包括概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科的交叉学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构以使计算机不断改善自身的性能。
28.本技术实施例充分利用了上述人工智能技术与机器学习技术,提供了一种图像处理方法,该方法主要通过训练后的贝叶斯模型对待识别关系对进行关系识别处理,以得到该待识别关系对的社交关系,其中,待识别关系对包括第一对象和第二对象,且第一对象和第二对象之间具有操作序列数据;所谓的对象可以包括但不限于:用户(如:某个应用程序的使用者)、组织(如xx公司)等。基于此,操作序列数据可以理解为:第一对象和第二对象之间的对象间操作(如分享操作)组成的序列数据;或者,也可以为:与第一对象和第二对象间之间的组织合作相关的数据(如:共同举办某项活动等)。在采用训练后的贝叶斯模型对待识别关系对进行关系识别处理之前,本技术实施例还利用深度学习算法,采用大批量的标注样本对贝叶斯模型进行训练,其中,标注样本包括训练关系对的训练关系数据,以及该训练关系对对应的标准社交关系,训练关系对中包括第一标注对象和第二标注对象,训练关系数据包括第一标注对象和第二标注对象之间的操作序列数据,第一标注对象的第一标注对象数据以及第二标注对象的第二标注对象数据。可以理解,标注对象可以认为是具有标注对象信息(如:该标注对象与其他标注对象的社交关系、该标注对象的对象特征等)的对象;标注对象数据则可以为上述提及的该标注对象的对象特征。又由于对象可以为组织,那么标注对象则可以认为是具有标注组织信息的组织,那么在此情况下,标注对象也可以称标注组织,其中,标注组织信息可以包括但不限于:该标注组织与其他组织之间的组织关系(如标注组织a与公司b的资源转移关系或合作关系等)、对该标注组织进行描述的标注组织描述信息(如:标注组织的地理位置信息、标注组织的信誉信息等)等;那么,标注对象数据则可以为上述提及的标注组织描述信息。在训练贝叶斯模型时,可以充分利用训练关系数据构建满足特征独立性假设的样本特征,采用该样本特征对贝叶斯模型进行训练,可以使得训练后的贝叶斯模型的关系识别准确度更高。其中,采用标注样本中的训练关系数据对贝叶斯模型进行训练的大致流程可以参见图1所示,具体流程将在后面实施例进行详细阐述,在此不再赘述。需要特别说明的是,当本技术的所有实施例在运用到具体产品或技术中
时,若涉及到获取与对象相关的数据的行为,相关的产品或技术需要获得相应对象的许可或者同意,并且相关的产品或技术获取的数据需要符合相关国家和地区的法律法规和标准,其中,对象可以包括但不限于上述提及的用户、组织等。
29.可以理解,通过本技术提供的数据处理方法对待识别关系对进行关系识别,可以识别得到更加准确的社交关系,进而可以基于该社交关系为该待识别关系对中的第一对象和第二对象提供更加准确的推荐数据,此外,也可以基于该社交关系,对该待识别关系对中的第一对象和第二对象进行更加精准的营销。此外,需要说明的是,为了便于描述,在无特殊说明的情况下,以下均以操作序列数据为对象间操作组成的序列、标注对象为具有标注信息的对象,且标注对象数据为该标注对象的对象特征为例,对本技术实施例提供的数据处理方法进行详细说明。
30.在一个实施例中,上述数据处理方法可以在同一数据处理设备中完成应用,例如:数据处理设备可以是服务器,那么可以通过服务器获取待识别关系对的关系数据,并基于该关系数据构建该待识别关系对的特征,进而采用训练后的贝叶斯模型对该特征进行处理,以识别该待识别关系对中第一对象和第二对象的社交关系;在另一个实施例中,上述数据处理方法也可以在不同的数据处理设备中完成应用,如:可以在第一设备中完成待识别关系对的获取,在第二设备中进行待识别关系对的关系识别,其中,第一设备可以例如是终端设备,第二设备可以例如是与上述终端设备建立有通信连接的服务器。
31.在数据处理设备对待识别关系对进行关系识别之前,本技术实施例还可以通过模型训练设备基于标注样本对贝叶斯模型进行关系识别训练,可以理解,模型训练设备和数据处理设备可以是同一设备,也可以是不同设备,本技术对此不做限制。
32.以下,本技术均以数据处理设备可以模型训练设备为同一设备为例进行详细阐述。需要特别说明的是,以下所有实施例在运用到具体产品或技术中时,若涉及到获取与对象或与标注对象相关的数据的行为,相关的产品或技术必须获得相应对象的许可或者同意,并且相关的产品或技术获取的数据必须符合相关国家和地区的法律法规和标准。
33.请参见图2,图2是本技术实施例提供的一种贝叶斯模型训练方法的示意图,该贝叶斯模型训练方法可以由上述所提及的数据处理设备执行。如图2所示,该方法包括:
34.s201,获取标注样本。
35.其中,标注样本包括训练关系对的训练关系数据,以及训练关系对对应的标准社交关系。训练关系对包括第一标注对象和第二标注对象,训练关系数据包括:第一标注对象和第二标注对象之间的操作序列数据、第一标注对象的第一标注对象数据,以及第二标注对象的第二标注对象数据。标准社交关系用于指示第一对象与第二对象之间的实际社交关系。举例来说,假设训练关系对包括对象a与对象b,且对象a和对象b在实际生活中为社交关系为关系x,那么,该训练关系对对应的标准社交关系即为关系x。
36.实际应用中,由于标注对象可以是具有标注信息的对象,那么可以理解,训练关系对可以是任意一对已知社交关系的对象,其中,已知的社交关系可以作为该训练关系对中每个标注对象的标注信息。那么,也就是说,在已知两个对象(如:对象a和对象b)的对象数据于某个维度下存在关联关系时,这两个对象可以组成一个训练关系对,为了便于描述,以下假设对象a和对象b之间已知的社交关系为“关系x”。进一步地,数据处理设备可以将该训练关系对对应的“关系x”作为标准社交关系,进一步地可以理解,训练关系数据中的操作序
列数据可以为:基于对象a和对象b之间的互动操作生成的数据,该数据可以用于构建操作序列模式特征,示例性地,该操作序列数据可以是对象操作时间序列数据。其中,在获取对象时间操作序列数据时,数据处理设备可以通过抓取关键时间节点前后的资源转移数据、分享数据等信息,以构建训练关系对中第一标注对象和第二标注对象之间的对象时间操作序列数据。继续以上述“关系x”为例,假设社交关系为关系x的训练关系对中,两个对象之间的资源转移数据存在关联关系,那么,数据处理设备在构建对象a和对象b之间的时间操作序列数据时,数据处理设备可以抓取xx节日前后a天(即:抓取数据的时间段为[xx节日-a天,xx节日 a天])内,对象a和对象b之间的资源转移数据,以构建得到社交关系为关系x的训练关系对的操作序列数据。
[0037]
以下结合具体示例,对训练关系对的社交关系为x关系时,数据处理设备构建该训练关系对的操作序列数据的具体方式进行详细阐述。在本示例中,假设社交关系为x关系的训练关系对所包括的对象为对象a和对象b。那么,数据处理设备可以基于对象a和对象b之间的资源转移数据构建映射标签,该映射标签可用于对对象a和对象b进行操作序列标注。举例来说,对于资源转移数据a“对象b接收对象a给对象b转移的资源1”,数据处理设备可以基于资源转移数据a为对象a构建“a-接收资源1-b”的映射标签,为对象b构建“b-转移资源1-a”的映射标签,由于表示同一含义的资源转移数据可以有多个,因此,数据处理设备在构建得到训练关系对的映射标签后,数据处理设备可以对该映射标签进行类型标识处理(或理解为:分类处理),如:将同一类型的资源转移数据用同一标识符标识,以得到类型标识处理后的映射标签。举例来说,假设资源1和资源2表示的含义相同,则数据处理设备可以将“b-转移资源1-a”和“a-转移资源2-b”这两条资源转移数据均标识为“x”。同理地,对于与训练关系对相关的其他数据,数据处理设备也可以按照上述逻辑为其他数据构建具有类型标识的映射标签,以得到该训练关系对的操作序列数据。示例性地,其他数据可以包括但不限于:对象a和对象b在关键时间节点内先后,或同时公开发布了相似信息、对象a邀请对象b浏览与资源转移相关的文档等。
[0038]
s202,基于第一标注对象和第二标注对象之间的操作序列数据构建训练关系对的第二操作序列模式特征。
[0039]
其中,标注样本的数量可以为多个,且该多个标注样本中可以包括目标数量个标准社交关系相同的第二目标标注样本,即:该目标数量个第二目标标注样本中每个第二目标标注样本的操作序列数据都是在同一社交关系下获取到的,如:目标数量个第二目标标注样本中每个第二目标标注样本的操作序列数据均是基于社交关系为关系x下的目标数量个关系对生成的,基于此,可以理解,数据处理设备可以基于同一社交关系下的目标数量个标注样本对应的操作序列数据,挖掘该社交关系下的各个关系对的操作序列模式特征。
[0040]
在一个实施例中,基于上述描述可以理解,数据处理设备在获取任一标注样本中训练关系对的第二操作序列模式特征时,可以具体通过如下方式实现:数据处理设备获取每个第二目标标注样本的训练关系对中的第一标注对象和第二标注对象之间的操作序列数据,得到目标数量个第二目标标注样本对应的所有操作序列数据,可以理解,上述提及的“任一标注样本”为目标数量个第二目标标注样本中的任一标注样本;然后,数据处理设备可以采用多最小支持度策略,根据所有操作序列数据构建该目标数量个第二目标标注样本中任一第二目标标注样本的训练关系对的操作序列模式特征,并将任一第二目标标注样本
的训练关系对的操作序列模式特征作为第二操作序列模式特征。可选地,对于多个标注样本中除目标数量个第二目标标注样本以外的其他标注样本,数据处理设备在获取任一标注样本中训练关系对的第二操作序列模式特征时,可以具体通过如下方式实现:数据处理设备获取与该任一其他标注样本的标准社交关系相同的目标数量个第三目标标注样本,并获取每个第三目标标注样本的训练关系对对应的操作序列数据,得到目标数量个第三目标标注样本对应的所有操作序列数据;然后,数据处理设备可以采用多最小支持度策略,根据所有操作序列数据构建该目标数量个第三目标标注样本中任一第三目标标注样本的训练关系对的操作序列模式特征,并将任一第三目标标注样本的训练关系对的操作序列模式特征作为该任一其他标注样本的第二操作序列模式特征。
[0041]
其中,多最小支持度策略包括多项前缀特征对应的最小支持度策略,如:一项前缀特征对应的最小支持度策略、二项前缀特征对应的最小支持度策略,等;或者,“多最小支持度策略”也可以理解为:每次挖掘操作序列模式特征时所用的最小支持度可以不一致。基于此,数据处理设备采用多最小支持度策略,根据所有操作序列数据构建目标数量个目标标注样本中任一第二目标标注样本的训练关系对的操作序列模式特征时,可以具体通过如下方式实现:数据处理设备采用一项前缀特征对应的最小支持度策略,获取所有操作序列数据对应的一项前缀特征;在数据处理设备获取到一项前缀特征之后,可以采用二项前缀特征对应的最小支持度策略,基于该一项前缀特征获取所有操作序列数据对应的二项前缀特征,直至采用n项前缀特征对应的最小支持度策略,基于n-1项前缀特征获取所有操作序列数据对应的n项前缀特征,其中,n项前缀特征对应的后缀特征不满足n 1项前缀特征对应的最小支持度策略,n≥2,n为正整数;然后,数据处理设备可以将n项前缀特征作为任一目标标注样本的训练关系对的操作序列模式特征,以得到上述“任一标注样本”对应的第二操作序列模式特征。
[0042]
在实际应用中,数据处理设备可以采用prefixspan算法(一种数据挖掘方法)对同一标准社交关系下的所有操作序列数据进行挖掘,以得到该标准社交关系下的每个标注样本中训练样本对应的第二操作序列模式特征。在采用prefixspan算法进行操作序列模式特征挖掘之前,关系设备还可以对每个操作序列数据进行编码处理,以得到操作序列标签,例如:将社交关系为关系x的对象之间的资源转移操作标识为操作a、关键时间节点内均发布相似信息标识为操作b、浏览相同文档标识为操作c,从而可以将操作序列数据转换为如《abc》形式的操作序列标签,其中,a、b、c均可称为该操作序列标签中的项(或称:操作序列元素)。当数据处理设备调用prefixspan算法对目标数量个第二目标标注样本对应的所有操作序列数据进行操作序列模式特征挖掘时,若在挖掘过程中采用上述多最小支持度策略,由于多最小支持度策略包括多个最小支持度策略,每个最小支持度策略对应一个最小支持度(即:最小支持度阈值),那么,针对每个最小支持度的计算方式,可以如式1所示:
[0043]
min_sup=a
×nꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式1
[0044]
其中,n为相同关系类型的关系对的数量(即:目标数量),a为最小支持率,最小支持率可以根据相同关系类型的关系对的数量进行调整;举例来说,当标准社交关系为关系x的标注样本的数量为10个时,挖掘该标准社交关系下各个训练关系对的操作序列模式特征所采用的最小支持率可以为a,而当标准社交关系为关系x的标注样本的数量为5个时,挖掘该标准社交关系下各个训练关系对的操作序列模式特征所采用的最小支持率可以为b,且a
≠b。需要说明的是,该prefixspan算法的大致原理可以如下:(1):获取单位长度为1的操作序列元素所在上下文序列前缀和对应投影数据集,其中,上下文序列前缀可以理解为上述所提及的前缀特征,投影数据集可以理解为上述所提及的后缀特征。(2):统计(1)中的操作序列元素所在上下文序列前缀的出现频率,并将支持度高于最小支持度阈值的上下文序列前缀作为频繁一项集序列模式(即:一项前缀特征)。(3):对所有长度为i(i≤操作序列标签中所有项的数量)且满足最小支持度要求(如:大于最小支持度阈值)的i项前缀进行递归挖掘。具体的挖掘方式如下:挖掘i项前缀的投影数据集,如果投影数据集为空集合,则递归返回;统计对应投影数据集中各项的最小支持度,将满足最小支持度要求的项与当前前缀(第i项前缀)合并,得到若干个新前缀(第i 1项前缀),若该对应投影数据集中所有的项均不满足支持度要求,则递归返回;令i=i 1,前缀为合并单项后的若干个新前缀,然后递归执行(3)中的所有步骤。当上述(3)中的递归执行结束后(如:i》操作序列标签中所有项的数量后),可以得到项数最多的前缀,将该项数最多的前缀作为基于该所有操作序列数据挖掘出的操作序列模式特征。
[0045]
举例来说,假设关系对a和关系对b为多个标注样本中,标准社交关系相同的两个训练关系对,且关系对a的操作序列标签为《bcafgh》,关系对b的操作序列标签为《bcdaghf》;若最小支持度阈值为0.5,那么满足该最小支持度阈值的一项前缀与其对应后缀可以参见表1所示。
[0046]
表1
[0047][0048]
对应地,基于上述prefixspan算法的大致原理可得,满足最小支持度阈值的二项前缀特征和对应的后缀特征可如表2所示。
[0049]
表2
[0050][0051]
同理地,满足最小支持度阈值的三项前缀特征以及对应的后缀特征可如表3所示。
[0052]
表3
[0053][0054]
同理地,满足最小支持度阈值的四项前缀特征以及对应的后缀特征可如表4所示。
[0055]
表4
[0056][0057][0058]
同理地,满足最小支持度阈值的五项前缀特征以及对应的后缀特征可如表5所示。
[0059]
表5
[0060]
五项前缀特征后缀特征(或称:投影数据集)bcaghf
[0061]
可以理解,由操作序列标签《bcafgh》和操作序列标签《bcdaghf》对应的“所有操作序列数据”的操作序列模式特征为“bcagh”。
[0062]
本技术提供的方法通过多轮迭代挖掘扩充关系类型判断规则库,可以不断的完善规则库,进而提高规则覆盖的召回率,并且,由于本技术中操作序列模式是自动生成,不需要过多人工参与,因此本技术能够很好的满足线上迭代自动化需求,同时,本技术基于频繁
序列模式挖掘生成操作序列模式特征,使得该操作序列模式特征更能表征该标准社交关系下各个关系对之间的对象共性。
[0063]
s203,基于第一标注对象数据构建第一标注对象的第一标注对象数据集合。
[0064]
对于训练关系对中的第一标注对象,数据处理设备可以基于第一标注对象数据构建该第一标注对象的对象数据集合,得到第一标注对象的第一标注对象数据集合。示例性地,对象数据集合可以是对象特征,或者,可以是数据处理设备基于该标注组织的标注描述信息提取的组织特征。其中,第一标注对象数据可以包括多个维度的对象数据,数据处理设备可以基于多个维度的对象数据,构建得到多个维度中每个维度对应的基础对象数据集合,以得到多个基础对象数据集合;进一步地,在数据处理设备得到该多个基础对象数据集合之后,可以对该多个基础对象数据集合中的各个基础对象数据集合进行预处理,并基于预处理之后的各个基础对象数据集合构建第一标注对象数据集合。
[0065]
其中,预处理可以包括:(1)异常值处理:根据特征分布,舍弃特征值太大,或舍弃排在前1/k的特征值,可选地,k可以根据应用场景的不同而设置不同的值,示例性的,k=10000。(2)缺失值填充:连续性特征用均值填充,离散型特征用常数填充作为单独类别。(3)特征衍生:通过特征变换、特征平方、特征加减进行特征组合和衍生;(4)特征处理:连续型特征进行分箱离散化、离散型特征进行one-hot编码。(5)通过设置缺失值过滤阈值,舍弃缺失值数量大于该缺失值过滤阈值的基础对象数据集合,同时删除单值特征(仅包含一个特征值的基础对象数据集合)。可选地,缺失值过滤阈值的设置可以如式2所示:
[0066]
缺失值过滤阈值=样本数据量
×mꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式2
[0067]
其中,样本数据量可以理解为:组成每个基础对象数据集合的特征值的数量,m可以理解为:该基础对象数据集合中缺失值的占比,可选地,m可以根据应用场景的不同而设置不同的值;示例性地,m=0.4。
[0068]
可见,本技术中通过对第一标注对象的对象数据集合进行精确构建,过滤了训练关系对在关系识别过程中可能出现的干扰噪音,相较于传统的数据处理方法能够更好的提高关系识别的准确性。
[0069]
s204,基于第二标注对象数据构建第二标注对象的第二标注对象数据集合。
[0070]
在一个实施例中,步骤s204中涉及的相关实施例的处理逻辑可以参见步骤s203中的描述,本技术实施例在此不再赘述。
[0071]
s205,采用贝叶斯模型基于第二操作序列模式特征、第一标注对象数据集合以及第二标注对象数据集合,对训练关系对进行识别,得到训练关系对的关系识别结果。
[0072]
在一个实施例中,数据处理设备可以采用贝叶斯模型,基于第二操作序列模式特征、第一标注对象数据集合以及第二标注对象数据集合,对训练关系对进行关系识别,得到多个候选识别结果;然后,数据处理设备可以获取多个候选识别结果中每个候选识别结果的互信息。进一步地,若互信息大于互信息阈值的目标候选识别结果的数量为1个,则将该目标候选识别结果确定为训练关系对的关系识别结果;若互信息大于互信息阈值的目标候选识别结果的数量为多个,则从该多个目标候选识别结果中确定互信息最大的目标候选识别结果,并将该互信息最大的目标候选识别结果作为关系识别结果。举例来说,假设数据处理设备对训练关系对w进行关系识别后,得到的候选识别结果包括关系x、关系y、关系z,那么,若关系y的互信息和关系z的互信息均小于互信息阈值,则将关系x作为该训练关系对w
的关系识别结果;若关系y的互信息和关系x的互信息均大于或等于互信息阈值,则选择关系y和关系x中互信息更大的一个候选识别结果,作为该训练关系对w的关系识别结果。其中,关系x、关系y和关系z中任一关系可以表示:训练关系对w包括的各个对象的对象数据在某个维度下具有关联关系时,训练关系对w中的两个对象所具备的社交关系,并且,关系x、关系y和关系z所对应的维度各不相同。
[0073]
由前述可知,标注样本的数量可以为多个,那么基于此,数据处理设备可以通过如下方式获取多个候选识别结果中每个候选识别结果的互信息:数据处理设备首先获取多个候选识别结果中每个候选识别结果的识别概率,其中,识别概率可以用于表示该候选识别结果为训练关系对的关系识别结果的概率,示例性地,识别概率可以用p(a)或p(a)来表示,a(或a)为候选识别结果,如:p(关系x)表示训练关系对的关系识别结果用于指示该训练关系对的社交关系为关系x的概率。进一步地,数据处理设备可以基于第一标注对象数据集合和第二标注对象数据集合,构建训练关系对的对象数据集合,示例性地,数据处理设备可以将第一标注对象数据集合和第二标注对象数据集合进行拼接,以得到训练关系对的对象数据集合;举例来说,假设训练关系对中对象t1的对象数据集合编码(可以理解为:第一标注对象数据集合)为[0.2,-0.4,0.09,0.54,-2.5],对象t2的对象数据集合编码(可以理解为:第二标注对象数据集合)为[0.7,-0.01,0.3,0.4,9],那么,数据处理设备可以根据对象t1的对象数据集合编码和对象t2的对象数据集合编码构建得到该训练关系对的对象数据集合为:[0.2,-0.4,0.09,0.54,-2.5,0.7,-0.01,0.3,0.4,9]。
[0074]
进一步地,在数据处理设备得到训练关系对的对象数据集合以及每个候选识别结果的识别概率之后,可以确定包含第二操作序列模式特征以及该训练关系对的对象数据集合的样本特征对应的第一目标标注样本的数量。其中,样本特征可以包括操作序列模式特征和对象数据集合(如:第一标注对象的对象数据集合和第二标注对象的对象数据集合),具体来说,假设多个标注样本对应的训练关系对为:训练关系对w1、训练关系对w2、训练关系对w3和训练关系对w4,且训练关系对w1的样本特征为《abcde》,训练关系对w2的样本特征为《abfdsc》,训练关系对w3的样本特征为《ljcfd》;基于此,若训练关系对w4对应的操作序列模式特征表示为a,训练样本对的对象数据集合表示为c,那么包含《ac》的样本特征有训练关系对w1的样本特征和训练关系对w2的样本特征。因此,第一目标标注样本的数量为2。
[0075]
那么,数据处理设备可以进一步地基于第一目标标注样本的数量以及标注样本的数量,得到第二操作序列模式特征、训练关系对的对象数据集合在多个标注样本中任一标注样本的样本特征中同时出现的出现概率,示例性的,出现概率可以用p(q)表示,p(q)可以根据式3计算得到。
[0076][0077]
其中,q表示输入贝叶斯模型的输入特征,qi表示特征(如:操作序列模式特征、第一标注对象数据集合等),n表示特征的数量。示例性地,本技术中第二操作序列模式特征和训练关系对的对象数据集合同时出现的概率可以根据式4计算得到。
[0078]
p(q)=p(q1)*p(q2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式4
[0079]
其中,q1为第二操作序列特征,q2为训练关系对的对象数据集合。可以理解,式4即为上述式3中n=2时,p(q)的计算方式。
[0080]
最后,数据处理设备可以基于每个候选识别结果的识别概率和出现概率,计算每
个候选识别结果的互信息。示例性地,关系处理设备可以先构建条件概率p(a|q),即:特征q存在的条件下,关系识别结果为a的概率。其中,根据贝叶斯公式可知,p(a|q)的计算方式可以如式5所示。
[0081][0082]
又由前述可知,a(或a)为候选识别结果,且识别概率可以用p(a)或p(a)来表示,那么可以理解,p(a)=p(a)。因此p(q|a)可以如式6所示:
[0083][0084]
进一步可得,可以如式7所示:
[0085][0086]
进一步可得,可以如式8所示:
[0087][0088]
进一步地,每个候选识别结果的互信息可以如式9所示:
[0089][0090]
其中,式9可以理解为计算候选识别结果与第二操作序列模式特征的互信息,以及该候选识别结果与训练关系对的对象数据集合的互信息,并对这两部分互信息汇总,以得到该候选识别结果的互信息。
[0091]
在又一个实施例中,数据处理设备采用贝叶斯模型对训练关系对进行关系识别,可以得到一个候选识别结果,那么在此情况下,贝叶斯模型可以直接把该候选识别结果作为关系识别结果,本技术对候选识别结果的数目不作限制。
[0092]
s206,基于关系识别结果和标准社交关系,对贝叶斯模型进行训练,以得到训练后的贝叶斯模型。
[0093]
在实际应用中,数据处理设备可以基于关系识别结果,在贝叶斯模型进行关系识别的过程中运行优化算法,该优化算法的优化对象为贝叶斯模型,优化对象的优化目标为:贝叶斯模型基于第二操作序列模式特征、第一标注对象数据集合以及第二标注对象数据集合进行关系识别得到的多个候选识别结果中,与标准社交关系相同的候选识别结果的互信息最大。可以理解,互信息越大,上述的条件概率p(q|a)越大,其中,a为候选识别结果,因此,数据处理设备在得到每个候选识别结果的互信息之后,可以设置互信息阈值,并基于满足互信息阈值的互信息计算条件概率p(q|a),基于条件概率p(q|a)对贝叶斯模型进行参数调整,以得到参数调整完成(即:训练后)的贝叶斯模型。
[0094]
本技术实施例提供的贝叶斯模型训练方法通过挖掘训练关系对的互动操作来挖掘操作序列模式,使得贝叶斯模型能够根据训练关系对的操作序列数据自动生成操作序列模式,避免了人工指定操作序列模式生成规则,同时提升了贝叶斯模型生成操作序列模式的泛化性;此外,本技术实施例通过挖掘训练关系对的对象数据集合以及操作序列模式特
征,构建了满足特征独立性假设的输入特征输入至贝叶斯模型来对贝叶斯模型进行关系识别训练,可以更好地提高关系识别的准确度。
[0095]
请参见图3,图3是本技术提供的一种数据处理方法的流程示意图,该数据处理方法可以由上述所提及的数据处理设备执行。需要特别说明的是,以下与图3相关的实施例在运用到具体产品或技术中时,若涉及到获取与对象相关的数据的行为,相关的产品或技术必须获得相应对象的许可或者同意,并且相关的产品或技术获取的数据必须符合相关国家和地区的法律法规和标准。如图3所示,该方法包括:
[0096]
s301,获取待识别关系对的关系数据。
[0097]
其中,待识别关系对包括第一对象和第二对象,关系数据包括第一对象和第二对象之间的操作序列数据,以及第一对象的第一对象数据、第二对象的第二对象数据。需要说明的是,基于前述可知,对象数据可以是相关对象的对象特征;当对象为组织时,对象数据可以是对该组织进行描述的组织描述信息(如:组织地理位置信息、组织信誉信息等)。
[0098]
s302,基于第一对象和第二对象之间的操作序列数据构建待识别关系对的第一操作序列模式特征,基于第一对象数据构建第一对象的第一对象数据集合,并基于第二对象数据构建第二对象的第二对象数据集合。
[0099]
在一个实施例中,步骤s302中的相关实施例可以参见步骤s202中的描述,本技术在此不再赘述。
[0100]
s303,采用训练后的贝叶斯模型,基于第一操作序列模式特征、第一对象数据集合以及第二对象数据集合,对待识别关系对进行关系识别,得到待识别关系对的社交关系。
[0101]
本技术实施例采用了基于操作序列模式特征和关系对的对象数据集合训练后的贝叶斯模型进行关系识别,由于输入贝叶斯模型中的操作序列模式特征和关系对的对象数据集合满足特征独立性假设,因此采用本技术提供的贝叶斯模型训练方法训练出的贝叶斯模型对待识别关系对进行关系识别,可以得到更加准确的识别结果(即:社交关系),可见,本技术提供的数据处理方法在社交关系识别领域具有广泛的应用价值和参考意义。
[0102]
基于上述数据处理方法实施例的描述,本技术还公开了一种数据处理装置,该数据处理装置可以是运行于上述所提及的数据处理设备中的一个计算机程序(包括程序代码)。该数据处理装置可以执行图2和图3所示的数据处理方法中所有步骤。请参见图4,所述数据处理装置可以包括:获取单元401、特征构建单元402、关系识别单元403以及训练单元404。
[0103]
获取单元401,用于获取待识别关系对的关系数据,所述待识别关系对包括第一对象和第二对象,所述关系数据包括所述第一对象和所述第二对象之间的操作序列数据,所述第一对象的第一对象数据以及所述第二对象的第二对象数据;
[0104]
特征构建单元402,用于基于所述第一对象和所述第二对象之间的操作序列数据构建所述待识别关系对的第一操作序列模式特征,基于所述第一对象数据构建所述第一对象的第一对象数据集合,并基于所述第二对象数据构建所述第二对象的第二对象数据集合;
[0105]
关系识别单元403,用于采用训练后的贝叶斯模型,基于所述第一操作序列模式特征、所述第一对象数据集合以及所述第二对象数据集合,对所述待识别关系对进行关系识别,得到所述待识别关系对的社交关系。
[0106]
在一种实施方式中,所述数据处理装置还可以包括训练单元404,该训练单元404可以具体用于执行:
[0107]
获取标注样本,所述标注样本包括训练关系对的训练关系数据,以及所述训练关系对对应的标准社交关系;所述训练关系对包括第一标注对象和第二标注对象,所述训练关系数据包括:所述第一标注对象和所述第二标注对象之间的操作序列数据、所述第一标注对象的第一标注对象数据,以及所述第二标注对象的第二标注对象数据;
[0108]
基于所述第一标注对象和所述第二标注对象之间的操作序列数据构建所述训练关系对的第二操作序列模式特征,基于所述第一标注对象数据构建所述第一标注对象的第一标注对象数据集合,并基于所述第二标注对象数据构建所述第二标注对象的第二标注对象数据集合;
[0109]
采用贝叶斯模型,基于所述第二操作序列模式特征、所述第一标注对象数据集合以及所述第二标注对象数据集合,对所述训练关系对进行关系识别,得到所述训练关系对的关系识别结果;
[0110]
基于所述关系识别结果和所述标准社交关系,对所述贝叶斯模型进行训练,以得到训练后的贝叶斯模型。
[0111]
在又一种实施方式中,训练单元404在采用贝叶斯模型,基于所述第二操作序列模式特征、所述第一标注对象数据集合以及所述第二标注对象数据集合,对所述训练关系对进行关系识别,得到所述训练关系对的关系识别结果时,具体执行:
[0112]
采用所述贝叶斯模型,基于所述第二操作序列模式特征、所述第一标注对象数据集合以及所述第二标注对象数据集合,对所述训练关系对进行关系识别,得到多个候选识别结果;
[0113]
获取所述多个候选识别结果中每个候选识别结果的互信息;
[0114]
若所述互信息大于互信息阈值的目标候选识别结果的数量为1个,则将所述目标候选识别结果确定为所述训练关系对的关系识别结果;
[0115]
若所述互信息大于互信息阈值的目标候选识别结果的数量为多个,则从所述多个目标候选识别结果中确定互信息最大的目标候选识别结果,并将所述互信息最大的目标候选识别结果作为所述关系识别结果。
[0116]
在又一种实施方式中,所述标注样本的数量为多个;所述训练单元404在执行获取所述多个候选识别结果中每个候选识别结果的互信息时,具体执行:
[0117]
获取所述多个候选识别结果中每个候选识别结果的识别概率;
[0118]
基于所述第一标注对象数据集合和所述第二标注对象数据集合,构建所述训练关系对的对象数据集合;
[0119]
确定包含所述第二操作序列模式特征以及所述训练关系对的对象数据集合的样本特征对应的第一目标标注样本的数量;
[0120]
基于所述第一目标标注样本的数量以及所述标注样本的数量,得到所述第二操作序列模式特征、所述训练关系对的对象数据集合在所述多个标注样本中任一标注样本的样本特征中同时出现的出现概率;
[0121]
基于所述每个候选识别结果的识别概率和所述出现概率,计算所述每个候选识别结果的互信息。
[0122]
在又一种实施方案中,所述训练单元404在基于所述关系识别结果和所述标准社交关系,对所述贝叶斯模型进行训练,以得到所述训练后的贝叶斯模型时,具体执行:
[0123]
基于所述关系识别结果,在所述贝叶斯模型进行关系识别的过程中运行优化算法,所述优化算法的优化对象为所述贝叶斯模型,所述优化对象的优化目标为:所述贝叶斯模型基于所述第二操作序列模式特征、所述第一标注对象数据集合以及所述第二标注对象数据集合进行关系识别得到的多个候选识别结果中,与所述标准社交关系相同的候选识别结果的互信息最大。
[0124]
在又一种实施方案中,所述标注样本的数量为多个,且所述多个标注样本中包括目标数量个标准社交关系相同的第二目标标注样本,所述训练单元404在基于所述第一标注对象和所述第二标注对象之间的操作序列数据构建所述训练关系对的第二操作序列模式特征时,具体加载并执行:
[0125]
获取所述目标数量个第二目标标注样本中,每个目标标注样本的训练关系对中的第一标注对象和第二标注对象之间的操作序列数据,得到所述目标数量个第二目标标注样本对应的所有操作序列数据;
[0126]
采用多最小支持度策略,根据所述所有操作序列数据构建所述目标数量个第二目标标注样本中任一目标标注样本的训练关系对的操作序列模式特征;
[0127]
将所述任一第二目标标注样本的训练关系对的操作序列模式特征作为所述第二操作序列模式特征。
[0128]
在又一种实施方案中,所述多最小支持度策略包括多项前缀特征对应的最小支持度策略;所述训练单元404在执行采用多最小支持度策略,根据所述所有操作序列数据构建所述目标数量个第二目标标注样本中任一第二目标标注样本的训练关系对的操作序列模式特征时,具体执行:
[0129]
采用一项前缀特征对应的最小支持度策略,获取所述所有操作序列数据对应的一项前缀特征;
[0130]
采用二项前缀特征对应的最小支持度策略,基于一项前缀特征获取所述所有操作序列数据对应的二项前缀特征,直至采用n项前缀特征对应的最小支持度策略,基于n-1项前缀特征获取所述所有操作序列数据对应的n项前缀特征,其中n项前缀特征对应的后缀特征不满足n 1项前缀特征对应的最小支持度策略,n≥2,n为正整数;
[0131]
将n项前缀特征作为所述任一第二目标标注样本的训练关系对的操作序列模式特征。
[0132]
根据本技术的一个实施例,图2和图3所示的数据处理方法中的各个步骤均可由图4所示的数据处理装置中各个单元来执行。例如:图2所示的步骤s201至步骤s206均可以由图4所示的数据处理装置中的训练单元404来执行;再如,图3所示的步骤s301可以由图4所示的数据处理装置中的获取单元401来执行,步骤s302可以由图4所示的数据处理装置中的特征构建单元402来执行,步骤s303可以由图4所示的数据处理装置中的关系识别单元403来执行。
[0133]
根据本技术的另一个实施例,图4所示的数据处理装置中的各个单元是基于逻辑功能划分的,上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操
作,而不影响本技术的实施例的技术效果的实现。在本技术的其它实施例中,上述数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
[0134]
根据本技术的另一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用终端上运行能够执行如图2,以及图3所示的方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图4中所示的数据处理装置,以及来实现本技术的数据处理方法。所述计算机程序可以记载于例如存储介质上,并通过存储介质装载于上述数据处理设备中,并在其中运行。
[0135]
本技术实施例提供的数据处理装置采用了基于操作序列模式特征和关系对的对象数据集合训练后的贝叶斯模型进行关系识别,由于输入贝叶斯模型中的操作序列模式特征和关系对的对象数据集合满足特征独立性假设,因此采用本技术提供的贝叶斯模型训练方法训练出的贝叶斯模型对待识别关系对进行关系识别,可以得到更加准确的识别结果(即:社交关系)。
[0136]
基于上述方法实施例以及装置实施例的描述,本技术还提供了一种数据处理设备,请参见图5,该数据处理设备包括处理器501,输入接口502、输出接口503以及存储介质504,且该数据处理设备的处理器501,输入接口502、输出接口503以及存储介质504可通过总线或其他方式连接。
[0137]
所述存储介质504是数据处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储介质504既可以包括数据处理设备中的内置存储介质,当然也可以包括数据处理设备所支持的扩展存储介质。存储介质504提供存储空间,该存储空间存储了数据处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器501加载并执行的一条或多条的计算机程序。需要说明的是,此处的计算机存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。所述处理器501(或称cpu(central processing unit,中央处理器))是数据处理设备的计算核心以及控制核心,其适于实现一条或多条计算机程序,具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。
[0138]
在一个实施例中,数据处理设备可以由处理器501加载并执行存储介质504中存放的一条或多条计算机程序,以实现上述有关图2以及图3所示的方法。具体实现中,存储介质504中的一条或多条计算机程序由处理器501加载并执行:
[0139]
获取待识别关系对的关系数据,所述待识别关系对包括第一对象和第二对象,所述关系数据包括所述第一对象和所述第二对象之间的操作序列数据,所述第一对象的第一对象数据以及所述第二对象的第二对象数据;
[0140]
基于所述第一对象和所述第二对象之间的操作序列数据构建所述待识别关系对的第一操作序列模式特征,基于所述第一对象数据构建所述第一对象的第一对象数据集合,并基于所述第二对象数据构建所述第二对象的第二对象数据集合;
[0141]
采用训练后的贝叶斯模型,基于所述第一操作序列模式特征、所述第一对象数据集合以及所述第二对象数据集合,对所述待识别关系对进行关系识别,得到所述待识别关系对的社交关系。
[0142]
在一种实施方式中,所述处理器501可以具体用于执行:
[0143]
获取标注样本,所述标注样本包括训练关系对的训练关系数据,以及所述训练关系对对应的标准社交关系;所述训练关系对包括第一标注对象和第二标注对象,所述训练关系数据包括:所述第一标注对象和所述第二标注对象之间的操作序列数据、所述第一标注对象的第一标注对象数据,以及所述第二标注对象的第二标注对象数据;
[0144]
基于所述第一标注对象和所述第二标注对象之间的操作序列数据构建所述训练关系对的第二操作序列模式特征,基于所述第一标注对象数据构建所述第一标注对象的第一标注对象数据集合,并基于所述第二标注对象数据构建所述第二标注对象的第二标注对象数据集合;
[0145]
采用贝叶斯模型,基于所述第二操作序列模式特征、所述第一标注对象数据集合以及所述第二标注对象数据集合,对所述训练关系对进行关系识别,得到所述训练关系对的关系识别结果;
[0146]
基于所述关系识别结果和所述标准社交关系,对所述贝叶斯模型进行训练,以得到训练后的贝叶斯模型。
[0147]
在又一种实施方式中,处理器501在采用贝叶斯模型,基于所述第二操作序列模式特征、所述第一标注对象数据集合以及所述第二标注对象数据集合,对所述训练关系对进行关系识别,得到所述训练关系对的关系识别结果时,具体执行:
[0148]
采用所述贝叶斯模型,基于所述第二操作序列模式特征、所述第一标注对象数据集合以及所述第二标注对象数据集合,对所述训练关系对进行关系识别,得到多个候选识别结果;
[0149]
获取所述多个候选识别结果中每个候选识别结果的互信息;
[0150]
若所述互信息大于互信息阈值的目标候选识别结果的数量为1个,则将所述目标候选识别结果确定为所述训练关系对的关系识别结果;
[0151]
若所述互信息大于互信息阈值的目标候选识别结果的数量为多个,则从所述多个目标候选识别结果中确定互信息最大的目标候选识别结果,并将所述互信息最大的目标候选识别结果作为所述关系识别结果。
[0152]
在又一种实施方式中,所述标注样本的数量为多个;所述处理器501在执行获取所述多个候选识别结果中每个候选识别结果的互信息时,具体执行:
[0153]
获取所述多个候选识别结果中每个候选识别结果的识别概率;
[0154]
基于所述第一标注对象数据集合和所述第二标注对象数据集合,构建所述训练关系对的对象数据集合;
[0155]
确定包含所述第二操作序列模式特征以及所述训练关系对的对象数据集合的样本特征对应的第一目标标注样本的数量;
[0156]
基于所述第一目标标注样本的数量以及所述标注样本的数量,得到所述第二操作序列模式特征、所述训练关系对的对象数据集合在所述多个标注样本中任一标注样本的样本特征中同时出现的出现概率;
[0157]
基于所述每个候选识别结果的识别概率和所述出现概率,计算所述每个候选识别结果的互信息。
[0158]
在又一种实施方案中,所述处理器501在基于所述关系识别结果和所述标准社交
关系,对所述贝叶斯模型进行训练,以得到所述训练后的贝叶斯模型时,具体执行:
[0159]
基于所述关系识别结果,在所述贝叶斯模型进行关系识别的过程中运行优化算法,所述优化算法的优化对象为所述贝叶斯模型,所述优化对象的优化目标为:所述贝叶斯模型基于所述第二操作序列模式特征、所述第一标注对象数据集合以及所述第二标注对象数据集合进行关系识别得到的多个候选识别结果中,与所述标准社交关系相同的候选识别结果的互信息最大。
[0160]
在又一种实施方案中,所述标注样本的数量为多个,且所述多个标注样本中包括目标数量个标准社交关系相同的第二目标标注样本,所述处理器501在基于所述第一标注对象和所述第二标注对象之间的操作序列数据构建所述训练关系对的第二操作序列模式特征时,具体加载并执行:
[0161]
获取所述目标数量个第二目标标注样本中,每个目标标注样本的训练关系对中的第一标注对象和第二标注对象之间的操作序列数据,得到所述目标数量个第二目标标注样本对应的所有操作序列数据;
[0162]
采用多最小支持度策略,根据所述所有操作序列数据构建所述目标数量个第二目标标注样本中任一目标标注样本的训练关系对的操作序列模式特征;
[0163]
将所述任一第二目标标注样本的训练关系对的操作序列模式特征作为所述第二操作序列模式特征。
[0164]
在又一种实施方案中,所述多最小支持度策略包括多项前缀特征对应的最小支持度策略;所述处理器501在执行采用多最小支持度策略,根据所述所有操作序列数据构建所述目标数量个第二目标标注样本中任一第二目标标注样本的训练关系对的操作序列模式特征时,具体执行:
[0165]
采用一项前缀特征对应的最小支持度策略,获取所述所有操作序列数据对应的一项前缀特征;
[0166]
采用二项前缀特征对应的最小支持度策略,基于一项前缀特征获取所述所有操作序列数据对应的二项前缀特征,直至采用n项前缀特征对应的最小支持度策略,基于n-1项前缀特征获取所述所有操作序列数据对应的n项前缀特征,其中n项前缀特征对应的后缀特征不满足n 1项前缀特征对应的最小支持度策略,n≥2,n为正整数;
[0167]
将n项前缀特征作为所述任一第二目标标注样本的训练关系对的操作序列模式特征。
[0168]
本技术实施例提供的数据处理设备采用了基于操作序列模式特征和关系对的对象数据集合训练后的贝叶斯模型进行关系识别,由于输入贝叶斯模型中的操作序列模式特征和关系对的对象数据集合满足特征独立性假设,因此采用本技术提供的贝叶斯模型训练方法训练出的贝叶斯模型对待识别关系对进行关系识别,可以得到更加准确的识别结果(即:社交关系)。
[0169]
本技术还提供了一种计算机存储介质,该计算机存储介质中存储了上述数据处理方法的计算机程序,当一个或多个处理器加载并执行该计算机程序,可以实现实施例中对数据处理方法的描述,在此不再赘述。对采用相同方法的有益效果的描述,在此不再赘述。可以理解的是,计算机程序可以被部署在一个或多个能够相互通信的设备上执行。
[0170]
需要说明的是,根据本技术的一个方面,还提供了一种计算机程序产品或计算机
程序,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。数据处理设备中的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该数据处理设备执行:
[0171]
获取待识别关系对的关系数据,所述待识别关系对包括第一对象和第二对象,所述关系数据包括所述第一对象和所述第二对象之间的操作序列数据,所述第一对象的第一对象数据以及所述第二对象的第二对象数据;基于所述第一对象和所述第二对象之间的操作序列数据构建所述待识别关系对的第一操作序列模式特征,基于所述第一对象数据构建所述第一对象的第一对象数据集合,并基于所述第二对象数据构建所述第二对象的第二对象数据集合;采用训练后的贝叶斯模型,基于所述第一操作序列模式特征、所述第一对象数据集合以及所述第二对象数据集合,对所述待识别关系对进行关系识别,得到所述待识别关系对的社交关系。
[0172]
本领域普通技术人员可以理解实现上述方法中的全部或部分流程,是可以通过计算机程序相关的硬件来完成,所述的计算机程序可存储于存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0173]
以上所揭露的仅为本发明的局部实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献