一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的设计资源能力评估方法与流程

2021-10-24 04:41:00 来源:中国专利 TAG:地说 数据处理 强化 评估 能力


1.本发明属于计算机数据处理技术领域,具体地说,是涉及一种基于强化学习的设计资源能力评估方法。


背景技术:

2.能力是完成某项活动所需具备的基本素质。传统的能力评价理论将能力划分为一般能力和特殊能力,其中一般能力指的是应对基本活动的能力,比如观察能力和思考的能力;而特殊能力指的是在从事某些特定活动所表现出的与经验相关的能力,比如设计能力、宣传能力、管理能力等。因此,能力是多样化的,每个服务商/商户在不同的设计领域中所表现出来的能力也有所不同。在服务平台中,能力域是一个重要的组成部分,与平台的运行、任务的完成、知识资源的积累都有着密不可分的联系。
3.设计资源服务需求是指需要利用外部资源服务来完成产品设计过程,主要是智力资源服务需求、知识资源服务需求、工具资源服务需求以及其它服务需求,其属性主要包括基本属性、目标属性和服务属性。因此随着设计能力主体所完成的设计任务数量的提高,其设计能力将会不断成长,而这种成长特性决定了无法依靠静态的数学模型来分析评价设计能力。基于己完成设计任务数量及相应的任务完成表现评价设计能力水平,是一种有效地途径。
4.众包网站中存在各种类型的服务提供商,这些服务商/商户基于众包网站完成来自各个地域的客户的设计需求,并在平台上展示了大大小小的设计资源,正确的整合商户的设计资源及其能力范围成为了一项重要的任务,与传统商家的能力值口口相传的

评价’模式相比,平台方对服务商/商户的能力评估提供了更为客观且直接的等级分配模式。
5.但是,由于受到各方面技术的限制,目前的方法依然缺少动态性,例如,设计资源中的文字部分无法量化为数值形式,只是简单地根据学习项目的完成比例以及用户的好评率统计数据来掌握服务商/商户的能力情况,无法了解服务商/商户对特定的领域的能力程度,也无法掌握单个服务商/商户的能力程度。因此,很多众包平台对特定的领域设计资源的评判没有针对性的效果评估和反馈机制,表现出了能力评估不准确,客户无法真正了解服务商/商户的水平的问题,使得众包平台上优秀的设计资源难以被挖掘,新兴的设计资源难发展。
6.评价设计资源能力单元的能力不能仅仅根据其单次设计任务的表现或者根据某一时间节点的设计能力单元测试结果,而应该从多个层面对设计能力影响因素进行分析并给出综合评判。能力是一种综合素质的体现,在评价时既要体现整体性,也要具有区分性,既能说明个体的综合能力,也能体现其优势和所擅长的方面。


技术实现要素:

7.本发明的目的在于提供一种基于强化学习的设计资源能力评估方法,基于强化学习自学习自演进的特点,从服务商的历史设计任务,从多个角度出发,动态的设计了一种设
计资源能力评估方法,对服务商设计能力进行分析并给出综合判断。
8.本发明采用以下技术方案予以实现:
9.提出一种基于强化学习的设计资源能力评估方法,包括:获取众包平台中服务商的历史交易数据和设计资源数据;基于以下步骤得到服务商设计资源特征:提取所述设计资源信息数据得到的设计资源共性,量化所述历史交易数据得到交易等级,提取所述历史交易数据得到广度资源划分数据,提取所述设计资源信息数据得到的描述标签,以及,获取前一时刻强化学习得到的能力评估结果;以时间为序构建树状结构集合作为强化学习的经验回放集合;以服务商为单位,以服务商的历史交易数据和服务商设计资源特征为强化学习的状态,以推送最大能力评估值的服务商为强化学习的动作,基于强化学习得到服务商的设计资源能力评估结果。
10.进一步的,推送最大能力评估值的服务商为强化学习的动作,具体为:
11.设计前馈函数f(s,action)=eval_score;其中,f

(s,s

,reward)=action,s为环境代理交互前状态,s

为环境代理交互后状态,reward为强化学习给出的奖励,action为推荐概率,eval_score为能力评估值。
12.进一步的,所述方法还包括:将强化学习得到的各项设计资源特征对应的能力评估值按照生成时间排列,得到各项设计资源特征对应的分值序列;根据各分值序列中第一个元素得到服务商的能力评估结果;和/或,根据各分值序列的各项元素的数值变化得到服务商对设计资源的能力成长结果;和/或,根据分值序列中大于预设值的元素的位置得到服务商对设计资源的能力承担结果;和/或,根据分值序列各项元素的时间间隔,得到服务商对设计资源的能力熟悉结果。
13.进一步的,提取所述历史交易数据得到广度资源划分数据,具体包括:分级划分服务商的设计资源数据;按照分级将对应的能力评估值按照生成时间排列,得到各分级的子分值序列;将各子分值序列以父子树状结构进行存储,得到服务商的能力成长结构模型。
14.进一步的,根据各分值序列中的第一个元素得到服务商的能力评估结果,包括:根据各分值序列中的第一个元素得到服务商在领域下最新的能力分值;对分值序列中所有能力分值取均值,评估服务商在领域下的设计资源整体能力值。
15.进一步的,根据各分值序列的各项元素的数值变化得到服务商对设计资源的能力成长结果,具体为:对比各分值序列的最新的能力分值及整体能力值,得到服务商在领域下的设计资源的成长速度。
16.与现有技术相比,本发明的优点和积极效果是:本发明提出的基于强化学习的设计资源能力评估方法中,以服务商历史交易数据以及当前设计资源数据为状态数据,以推送最大能力评估值的服务商为动作,并采用树状结构构建经验回放集合,基于强化学习在各个领域内评估服务商的能力广度分值和能力宽度分值,从而了解服务商的综合能力、成长能力和承担能力,并基于强化学习自学习自演进的构想,对服务商不仅依赖数据还依据质量进行合理评估,能够了解当前服务商的综合能力、成长能力以及承担能力,为众包平台提供更客观的能力反馈信息,也能为众包平台的个性化推送服务提供服务商的数据支撑。
17.结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更加清楚。
附图说明
18.图1为本发明提出的基于强化学习的设计资源能力评估方法的流程图;
19.图2为本发明中经验回放集合的树状结构示意图;
20.图3为本发明强化学习模型示意图;
21.图4为本发明实施例中经验回放集合的树状结构示意图。
具体实施方式
22.下面结合附图对本发明的具体实施方式作进一步详细的说明。
23.强化学习是机器学习中的一个领域,是学习“做什么(即如何把当前的情景映射成动作)才能使得数值化的收益信号最大化”。学习者不会被告知应该采取什么动作,而是必须自己通过尝试去发现哪些动作会产生最丰厚的收益。强化学习在“试探”与“开发”之间的折中权衡,智能体开发已有的经验来获取收益,同时进行试探,使得未来可以获得更好的动作选择空间(即从错误中学习)。
24.当前的众包平台中资源众多,人工难以全面覆盖式的界定此类资源的能力值,强化学习的此类思想提供了“探索”机制,众包平台中的客户(任务发布者)和设计资源提供方(服务商/商户)之间并无交互,强化学习可以将两者完整的结合起来,客户提交的任务请求通过众包服务平台寻找符合客户需求的服务,因此从众包平台的服务角度来看,可以发现设计任务和设计能力之间存在某种相关关系,可称为任务

能力匹配程度。
25.基于上述,本发明提出一种基于强化学习的设计资源能力评估方法,如图1所示,包括:
26.步骤s1:获取众包平台中服务商的历史交易数据和设计资源数据。
27.服务商的设计资源数据来源于服务商在各个领域下上传的数据;设计资源用于描述服务商提供的各项服务的内容,涉及的领域,以及相应的知识点等,可以对应于不同的设计任务的预先指定,也可以从设计资源的描述文件中提取。
28.从设计资源的描述文件中提取时,可以根据描述文本的格式和结构采用自然语言/结构化文本处理方式,得到对应的设计资源描述标签。关键字的提取包括tf

idf算法等。
29.一个设计资源的类别标签可以应用于多个设计资源,一个设计项目也可以对应多个设计资源类别标签。
30.步骤s2:基于以下步骤得到服务商设计资源特征:提取设计资源信息数据得到的设计资源共性,量化历史交易数据得到交易等级,提取历史交易数据得到广度资源划分数据,提取设计资源信息数据得到的描述标签,以及,获取前一时刻强化学习得到的能力评估结果。
31.设计资源的共性表明任务的相似性,例如提供装修服务的服务商都具有刷墙这项基本服务。
32.交易数据的交易等级根据交易数额的大小进行划分。
33.广度根据交易数据划分,与宽度资源反映服务商的总体能力,众包平台对各类设计资源的分类以及商户的基本信息,利用服务商能力评价指标体系对服务商的数据进行综合能力等级划分,可以更多维度的评估服务商对一技术领域内设计资源的广度能力值,也
可以理解为综合能力值。
34.资源类别标签为众包平台提供的属性标签,例如装修服务属于工程服务等。
35.步骤s3:以时间为序构建树状结构集合作为强化学习的经验回放集合。
36.本发明提出的设计资源能力评估方法中,强化学习的经验回放集合采用树状结构集合实现,如图2所示,一个服务商的每项设计资源经强化学习得到的能力评估值以时间为序构成一个分值序列存储于树状结构的一个分枝中。
37.步骤s4:以服务商为单位,以服务商的历史交易数据和服务商设计资源特征为强化学习的状态,以推送最大能力评估值的服务商为强化学习的动作,基于强化学习得到服务商的设计资源能力评估结果。
38.本发明申请中,以服务商的历史交易数据和服务商设计资源特征作为强化学习环境的状态数据s,以推送最大能力评估值的服务商作为强化学习的动作a(即根据服务商的能力评估值将分值最大的服务商推送给客户),将强化学习环境中的神经网络(agent)应用为能力评估隶属度函数,采用强化学习来得到服务商的设计资源能力评估结果。
39.在本发明实施例中,推送最大能力评估值的服务商作为强化学习的动作采用如下手段实现:
40.设计前馈函数f(s,action)=eval_score;其中,f

(s,s

,reward)=action,s为环境代理交互前状态,s

为环境代理交互后状态,reward为强化学习给出的奖励,action为推荐概率,eval_score为能力评估值。
41.具体的,强化学习过程包括:
42.1)随机初始化所有的状态s和动作a对应的能力评估值q,随机初始化当前q网络(能力评估值网络)的所有参数w,初始化目标q网络q

的参数w

,清空经验回放集合d;
43.2)初始化状态s为当前状态序列的第一个状态,得到其特征向量φ(s);
44.3)在q网络中使用φ(s)作为输入,得到q网络的所有动作对应的q值输出,用ε

贪婪法在当前q值输出中选择对应的动作a;
45.4)在状态s执行当前动作a,得到新状态s

对应的特征向量φ(s

)和奖励r,得到是否终止状态is_end;
46.5)将{φ(s),a,r,φ(s

),is_end}存入经验回放集合d;
47.6)s=s


48.7)从经验回放集合d中采样m个样本{φ(sj),aj,rj,φ(s

j),is_endj},j=1,2.,,,m,计算当前目标q值
[0049][0050]
8)使用均方差损失函数通过神经网络的梯度反向传播来更新q网络的所有参数w;
[0051]
9)如果t%c=1,则更新目标q网络参数w

=w;其中,t为时间,c为自定义的周期;
[0052]
10)如果s

是终止状态,当前轮迭代完毕,否则转到步骤3)。
[0053]
如图3所示的基于强化学习的设计资源能力评估模型,本发明采用强化学习的方法提升评价标准的自演化机制,在服务商特征方面,由于强化学习算法的特殊性,保证每个服务商的特征是独立于其他服务商的,不会出现特征交叉的现象和能力评估交叉影响;通过agent对每个服务商的特征提取、特征赋权和特征融合计算最终融合产生eval_score;强化学习的状态

动作交互机制使得算法可以根据一定的规则计算action,取代了传统强化学习人为设计action

space部分,通过增加全连接层使得本方法自学习到自演进值,并将自演进值作为服务商个体的一部分,该值可以是单个数值,也可以是一维向量,初始时赋值为1。
[0054]
下面以两个具体的实施例对本发明提出的基于强化学习的设计资源能力评估方法给出详细说明。
[0055]
实施例一
[0056]
众包平台一般按照设计资源的类别设置多种设计资源的分类,对每个设计资源类设置不同的能力评判标准,本实施例根据服务商不同的设计资源给出不同的能力评估值,包括以下步骤:
[0057]
1)获取众包平台中服务商的历史交易数据和设计资源数据。
[0058]
2)对设计资源数据进行预处理:提取设计资源信息数据得到的设计资源共性,量化历史交易数据得到交易等级,提取历史交易数据得到广度资源划分数据,提取设计资源信息数据得到的描述标签,以及,获取前一时刻强化学习得到的能力评估结果。
[0059]
3)采用强化学习评估服务上的设计资源能力。
[0060]
本实施例中,设计资源的能力评估针对当前一段时间服务商的订单成交量、所属订单的设计资源给出的能力评估分值,随着时间和算法演进,分值会根据相应的数据上升或者下降,每个服务商可能涉及多个领域,所以每个领域得到的能力评估值也不同,如图4所示,设计资源的分值序列可以视为领域的子分值,在完成一个服务商全部设计资源子分值的能力评估后,可以根据全部分值给予服务商的总体分值。
[0061]
4)将强化学习得到的领域内各项设计资源特征对应的能力评估值按照生成时间排列,得到各项设计资源特征对应的子分值序列。
[0062]
具体地,一项设计资源能力评估体现了服务商在近期交易以及该领域的能力程度,而在某一领域设计资源类别中某服务商第一次涉及时所获得的能力评估值可以整体体现该服务商对该设计资源的熟悉、掌控程度,分值越高意味着服务商对该领域的设计资源基础能力值越好,本实施例将得到的各个设计资源对应的能力评估分值按时间顺序进行排列(日期从大到小排列),得到对应的子分值序列。
[0063]
5)根据各子分值序列中第一个元素得到服务商在一个领域的能力评估结果。
[0064]
根据各子分值序列中的第一个元素得到服务商在领域下最新的能力分值;再对子分值序列中所有能力分值取均值,评估服务商在领域下的设计资源整体能力值。
[0065]
和/或,6)根据各子分值序列的各项元素的数值变化得到服务商对设计资源的能力成长结果。
[0066]
通过对比各子分值序列的最新的能力分值及整体能力值,得到服务商在领域下的设计资源的能力成长速度。
[0067]
为了精确化计算,在计算中还可以根据领域间的差异,给对应的领域的设计资源
设置加权值。
[0068]
和/或,7)根据子分值序列中大于预设值的元素的位置得到服务商对设计资源的能力承担结果。
[0069]
对于某一领域中的设计资源能力评估值,可以使用预设值(阈值)判断服务商当前的能力是否足够应对当前的需求,如果低于阈值,平台内部可以提供第三方培训辅助能力培训;本实施例中,获取子分值序列中大于预设值的分值,评判服务商有足够的能力提供相对应的服务,具体计算时可以采用众包平台中所有服务商在该领域中所完成的订单数量、客户评价、店铺月均流量等进行加权运算,当前述属性都在不断增长的情况下,认定服务商在该领域中所提供的设计资源有一定的引领性,以及该服务商对该领域的服务有足够的承担力。
[0070]
和/或,8)根据子分值序列各项元素的时间间隔,得到服务商对设计资源的能力熟悉结果。
[0071]
服务商在对某个领域进行订单交易时,订单数会随着时间的推进有增有减,本实施例提供订单间隔阈值,认定当服务商在该领域前后交易订单超过阈值时,根据阈值及总订单数计算出间隔加权值与该服务商的能力评估值进行相乘,若未超出阈值,则对连续订单的时间进行累计计算,由此可以计算出服务商对该领域设计资源的熟悉能力值。
[0072]
实施例二
[0073]
本实施例根据平台线上服务商提交的设计资源以及商家信息评估服务商的能力水平,包括服务商的总体能力广度和各种设计资源的能力宽度,能够给出服务商对各领域设计资源的能力成长值,能力承担值以及资源熟悉能力值。
[0074]
包括以下步骤:
[0075]
1)获取众包平台中服务商的数据的集合,包括服务商的历史交易数据和服务商的设计资源数据。
[0076]
2)根据众包平台对各类设计资源的分类以及商户基本信息,利用服务商能力评价指标体系对服务上数据进行从粗到细的综合能力分级划分。
[0077]
本实施例中,包含从粗到细的三级划分,包括一级指标、二级指标和三级制表。
[0078]
3)采用强化学习根据上述的三级指标得到服务商的广度能力评估结果。
[0079]
本实施例中,将服务商的各领域设计资源进行三级指标划分,可以更多维度地评估服务商对一个领域内设计资源的广度能力值;本实施例中,进行从大到小的三级分类,按照服务商在众包平台上对应的数据值(根据经营状况、经营能力以及经营资源)划分所得,得到三级指标。三级指标按照父子树状结构划分并存储,其中一级指标代表服务商的盈利能力,二级指标依据一级指标划分出三个独立指标,即经营因素,外部环境和竞争环境,三级指标同样为对二级指标的细粒划分,例如服务商的人力、物力和财力等服务商经营因素的充分必要条件。除了上述的分类还可依据服务商领域划分。其中,二级指标相较于一级指标以及三级指标范围更适中,本实施例选择二级指标的子分值作为评估服务商的宽度能力基础,能够获得在中位区间大部分服务商的设计资源能力评估值。
[0080]
4)按照分级将对应的能力评估值按照生成时间排列,得到各分级的子分值序列。
[0081]
5)将各子分值序列以父子树状结构进行存储,得到服务商的能力成长结构模型。
[0082]
将各子分值序列以父子树状结构进行存储,得到该服务商的能力成长结构模型,
应用相应的剪枝(例如误差降低剪枝rep,代价复杂剪枝ccp等算法)降低能力值的成长误差,该能力成长树同时也避免了数据冗余。
[0083]
具体地,将各个服务商对应的能力数值序列输入能力成长结构模型中(sumtree),可以得到一个不断更新迭代的树状结构,对某个服务商的三级指标,随着服务商在众包平台上交易量的增加,该树结构会随之依据相对应得算法进行更新得到该服务商的能力值,树状成长模型同时考虑了数据冗余,数据异常,数据更新等算法结构,能够考虑商户在部分交易中存在退换增减得情况,可以动态的对服务商进行建模,由此更能够客观清晰公正得展示出各个服务商的能力差异。
[0084]
由于各领域得交易属性不同,所以导致不同服务商的订单更新时长也不同,在本发明一些实施例中,根据各领域中月成交量总数作为一个周期,根据单个周期内的变化,得到服务商在三级指标中的能力成长及熟悉度结果。
[0085]
上述本发明实施例中,规则以及对应的数据结构封装至强化学习算法中对应的模块,其中各指标的算法作为状态更新的子函数,结果作为状态向量中的子向量,树状结构作为记忆模块的存储方式,如此构成一个系统闭环演进过程,由于选择dqn作为自演进算法,所以当前算法有经验回放功能,即根据最近的记忆学习网络评估权重。
[0086]
应该指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜