一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

市场决策系统、方法、电子设备及可读存储介质与流程

2022-07-10 05:55:04 来源:中国专利 TAG:


1.本技术实施例涉及人工智能技术领域,具体涉及一种基于人工智能的市场决策系统、市场决策方法、电子设备及存储介质。


背景技术:

2.以往,公司在进行市场研究时会考虑竞争分析等各种市场策略,典型的方法是swot分析,即基于内外部竞争环境和竞争条件下的态势分析。专家通过调查列举各种主要内部优势、劣势和外部的机会和威胁等,用系统分析的思想,把各种因素相互匹配起来加以分析,从中得出一系列相应的结论。
3.近年来,随着人工智能技术的开发和普及,也在考虑将人工智能技术与市场决策分析相结合。例如,在专利文献1(cn111488988a)中,公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
4.另外,在其他领域中,也考虑使用人工智能技术来应用于策略制定。例如,在专利文献2(cn111437608a)中,提供了一种基于人工智能的游戏对局方法、装置、设备及存储介质;所述方法包括:响应于接收到的加入游戏对局的操作指令,获取在所述游戏对局中所有参与者的游戏对局数据流;通过训练好的神经网络模型对所述游戏对局数据流进行预测操作,得到预测结果,其中,所述训练好的神经网络模型至少包括自注意力编码模块;基于所述预测结果确定目标游戏策略;将所述目标游戏策略发送至服务器。如此,能够提高游戏策略的准确性。
5.专利文献
6.专利文献1:cn111488988a
7.专利文献2:cn111437608a


技术实现要素:

8.然而,在swot分析中,纯粹依靠专家的方式,主观性太强,会有各类的遗漏,且需要人工地大量调查各种数据,耗时耗力。
9.在使用了人工智能技术的专利文献1的方法中,虽然解决了耗时耗力的问题,但是,仍然是通过学习专家的方式进行决策,决策的方式和可能性受人类自身的局限,可能失去一些能带来更优结果的策略。
10.另外,专利文献2的方法应用于游戏对战领域,游戏中的规则和策略相对固定,游戏的最终结果也很确定。但市场的随机性更强,需要考虑的因素和环境更多,竞争对手也多样化,显然专利文献2的方法无法直接应用于市场决策。
11.本技术实施例的目的是提供一种基于人工智能的市场决策系统、市场决策方法、电子设备及存储介质。能够基于真实市场中的竞争主体和宏观、微观环境和各竞争主体的竞争动作、规则,进行多竞争主体的竞争、合作等目的的对抗,覆盖尽可能多的可能性,分析各类好的结果和差的结果及对应的路径。从而提供基于人工智能的市场运营中的辅助决策依据。
12.为了解决上述技术问题,本技术是这样实现的:
13.依据本发明的一个方面,提供一种市场决策系统,其基于人工智能而实现,包括:市场信息输入模块,其被输入与市场、市场主体、市场主体的利益相关方有关的市场信息,并且被输入初始化的各市场主体的状态;规则知识库构建模块,其根据已知的市场场景,定义所述市场主体的动作,并对所有的所述动作以及结果进行赋值,之后根据已有的市场数据,对被赋值的所述动作以及结果进行自动识别并调整赋值,从而构建市场规则;环境参数输入模块,其被输入对市场的环境造成影响的因素和参数;市场策略训练模块,其根据被输入所述市场信息输入模块的信息、由所述规则知识库构建模块调整后的所述市场规则、以及被输入所述环境参数输入模块的因素和参数,使每个市场主体作为独立对抗主体相互对抗,得到各市场主体进行了各动作后的状态,以契合特定市场目的为评分,使用强化学习的方式训练出各市场主体的最优模型;以及结果记录模块,其将各个市场主体作为对抗主体的一方,记录其中的一方或多方的结果及/或路径。
14.可选地,在所述市场决策系统中,被输入所述环境参数输入模块的因素和参数包括系统随机输入的一些环境影响的因素和参数。
15.可选地,所述市场决策系统包括:规则优化模块,其基于所述环境参数和所述市场规则进行优化,根据相互影响调整赋值。
16.可选地,所述市场决策系统包括:市场策略学习模块,其以特定的所述市场主体的特定结果为评分依据,得到特定动作后的状态,并输出特定主体的最优结果和路径,所述市场策略学习模块使用监督学习的方式学习专家的决策行为,和专家的动作一致性越高的,评分越高,由此优化市场策略。
17.可选地,在所述市场决策系统中,在对抗中,所述市场主体能够在预定时间内获取其他市场主体的行为和可能结果,并相互学习。
18.依据本发明的另一个方面,提供一种市场决策方法,其基于人工智能而实现,包括:市场信息输入步骤,输入与市场、市场主体、市场主体的利益相关方有关的市场信息,并且输入初始化的各市场主体的状态;规则知识库构建步骤,根据已知的市场场景,定义所述市场主体的动作,并对所有的所述动作以及结果进行赋值,之后根据已有的市场数据,对被赋值的所述动作以及结果进行自动识别并调整赋值,从而构建市场规则;环境参数输入步骤,输入对市场的环境造成影响的因素和参数;市场策略训练步骤,根据在所述市场信息输入步骤中输入的信息、在所述规则知识库构建步骤中调整后的所述市场规则、以及在所述环境参数输入步骤中输入的因素和参数,使每个市场主体作为独立对抗主体相互对抗,得到各市场主体进行了各动作后的状态,以契合特定市场目的为评分,使用强化学习的方式
训练出各市场主体的最优模型;以及结果记录步骤,将各个市场主体作为对抗主体的一方,记录其中的一方或多方的结果及/或路径。
19.可选地,在所述环境参数输入步骤中,输入的因素和参数包括系统随机输入的一些环境影响的因素和参数。
20.可选地,还包括:
21.规则优化步骤,基于所述环境参数和所述市场规则进行优化,根据相互影响调整赋值。
22.可选地,还包括:
23.市场策略学习步骤,以特定的所述市场主体的特定结果为评分依据,得到特定动作后的状态,并输出特定主体的最优结果和路径,
24.在所述市场策略学习步骤中,使用监督学习的方式学习专家的决策行为,和专家的动作一致性越高的,评分越高,由此优化市场策略。
25.可选地,在对抗中,所述市场主体能够在预定时间内获取其他市场主体的行为和可能结果,并相互学习。
26.依据本发明的另一个方面,提供一种电子设备,包括处理器和收发器,所述收发器在处理器的控制下接收和发送数据,所述处理器用于执行以下操作:市场信息输入步骤,输入与市场、市场主体、市场主体的利益相关方有关的市场信息,并且输入初始化的各市场主体的状态;规则知识库构建步骤,根据已知的市场场景,定义所述市场主体的动作,并对所有的所述动作以及结果进行赋值,之后根据已有的市场数据,对被赋值的所述动作以及结果进行自动识别并调整赋值,从而构建市场规则;环境参数输入步骤,输入对市场的环境造成影响的因素和参数;市场策略训练步骤,根据在所述市场信息输入步骤中输入的信息、在所述规则知识库构建步骤中调整后的所述市场规则、以及在所述环境参数输入步骤中输入的因素和参数,使每个市场主体作为独立对抗主体相互对抗,得到各市场主体进行了各动作后的状态,以契合特定市场目的为评分,使用强化学习的方式训练出各市场主体的最优模型;以及结果记录步骤,将各个市场主体作为对抗主体的一方,记录其中的一方或多方的结果及/或路径。
27.依据本发明的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行所述程序时实现上述所述的市场决策方法。
28.依据本发明的另一个方面,提供一种可读存储介质,其存储有能够使处理器运行所述的市场决策方法的程序。
附图说明
29.图1是表示本发明的实施例的市场决策系统的结构的示意图。
30.图2是表示本发明的实施例的市场决策系统的动作的流程图。
31.图3是表示本发明的实施例的市场决策系统的市场策略学习动作的示意图。
具体实施方式
32.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
33.【实施例】
34.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的市场决策系统进行详细地说明。
35.【市场决策系统及方法】
36.图1是表示本发明的实施例的市场决策系统的结构的示意图。如图1所示,本发明的市场决策系统包括市场信息输入模块101、规则知识库构建模块102、环境参数输入模块103、规则优化模块104、市场策略学习模块105、市场策略训练模块106以及结果记录模块107。但该市场决策系统并不限于该结构,也可以不设置规则优化模块104和市场策略学习模块105。
37.图2是表示本发明的实施例的市场决策系统的动作的流程图。以下,结合图1和图2对于本发明的市场决策系统的动作进行具体说明。
38.如图2所示,在步骤s1中,首先对于市场决策系统进行初始化,构建并定义各种市场主体以及动作规则。
39.市场信息输入模块101被输入与市场、市场主体、市场主体的利益相关方有关的市场信息。具体而言,例如在市场信息输入模块101中设定相关市场范畴,包括但不限于设定市场类型,如电信市场、智能手机市场、家电市场等,还可以设定市场范围,如全球市场、全国市场、省级市场等,另外,设定相关的市场主体的范畴,如移动、电信、联通等,以及设定与各个市场主体对应的利益相关方,如供货商、客户、监管部门等。最后,输入初始化的各市场主体的状态s:市场占有、资金、用户、产品。
40.同时,在规则知识库构建模块102中构建市场的规则知识库。能够根据以往的市场场景来构建规则,对市场主体可能会产生的动作a进行赋值。
41.动作包含但不限于:
42.①
价格:提价、降价、联合限价、短时活动降价,短时提供赠品,免费升档体验等;
43.②
产品:提升产品品质、推出创新产品、原有产品退市、竞争方同类产品跟进等;
44.③
宣传:广告、塑造新品牌、品牌提升、损毁对方品牌等;
45.④
渠道:拓建渠道、减少渠道、优化渠道、独占渠道、大客户维系;
46.⑤
资源及独占:购买牌照、建立独占合作、推动独占资源等。
47.动作的赋值包括但不限于:
48.①
前提:原有状态;前提条件;启动需要时间;
49.②
作用过程:作用时间;成本;
50.③
结果:影响时间;收益;
51.④
相互作用影响:对其他动作的影响;受其他动作的影响。
52.对可能的结果进行赋值(含利润、用户数、影响力、满意度等),包括但不限于:
53.①
我方优:我方绝对收益最高;对方损失最大;我方收益增幅比例最大;
54.②
我方风险:对方绝对收益最高;我方损失最大;对方收益增幅比例最大;
55.③
平衡结果:双方等比发展;
56.④
总量最优:市场总量最大化。
57.然后,在规则知识库构建模块102中,根据以往的市场数据,进行上述建立的规则的自动识别和调整。具体而言,能够通过对接crm的数据和报表数据,对应每一个动作,调整参数。登入未登入的动作和规则。也能够基于市场过往数据,建立基于爬虫和nlp分析的规则自动识别系统,获取各个市场主体的动作和对应的规则,并进行参数调整。并且,能够建立实时规则更新和优化系统,基于上述的运营报表和实时的爬虫及nlp分析,按一定频度(如每天、每小时)进行规则自动识别,并进行参数调整。通过这些调整动作,能够使得构建的市场规则更加合理,且贴近当前的市场环境。
58.在步骤s2中,针对环境参数输入模块103构建市场环境参数,即设定可能对市场的环境造成影响的因素和参数,符合历史上可认知的一些可能的环境影响。例如,构建一些持续的或者随机的可能对市场有重大影响的事件,如政府政策、外部环境、国民总体收入水平变化等。
59.这些事件包括但不限于(每个环境影响赋予其一个概率参数):
60.①
瞬时影响:行政命令下的合并,牌照发放等;
61.②
长效影响:国民收入增加,可支配收入增加放缓等。
62.另外,考虑到市场环境的多样性,优选地设置很难预测和知道的一些影响,作为系统随机输入的一些环境影响(每个环境影响赋予其一个概率参数):
63.①
瞬时影响:如公司资金瞬时损失/得到xx元,失去/得到用户xx,满意度降低/增加xx等;
64.②
长效影响:如每天(持续xx天)损失/得到f(t)元,如每天(持续xx天)损失/得到h(t)用户,如每天(持续xx天)损失/得到m(t)满意度等。由此,初步建立了市场主体所在的市场环境可能发生的一些环境影响。
65.通过上述的步骤s1和s2的动作,能够建立以各市场主体为对象,市场环境多样的模型。
66.接下来,在步骤s3中,通过规则优化模块104对于已经输入的环境变量和规则进行优化,根据相互影响调整赋值。
67.在步骤s4中,开始各市场主体的市场策略学习。图3是表示市场决策系统的市场策略学习动作的示意图。如图3所示,以市场主体z为对象,由于已经设立了环境影响ht及市场规则,因此使市场主体z进行动作at,得到状态st。以特定主体特定结果rt(收入、用户、影响、满意度等,可做归一化)作为评分依据,输出特定主体的最优结果和路径。
68.能够使用监督学习的方式来进行市场策略学习,学习专家的决策行为,和专家的动作一致性越高的,打分越高,相差越远的,打分越低。计算主体的输出与专家数据的kl loss,并以此优化网络。
69.例如,使用汉明距离(hamming distance)进行计算,有abcd四种动作,各用0或1表示是否进行了相关动作,专家进行了动作abc,表示为1110,主体进行了动作abd,表示为1101,两者汉明距离为2(两处不同),“动作得分”为-2。
70.也可以使用编辑距离(edit distance)进行计算,专家的动作顺序是abcd,主体的动作顺序是bacd,把bacd变成abcd所需最小操作是2次,(bacd变成aacd再变成abcd),则“顺序评分”为-2。
71.对于不同目的的市场动作,以市场目的为准,根据与目的的契合度进行打分。通过上述步骤,能够学习专家的动作来评价并优化市场动作。
72.接下来,在步骤s5中,使各市场主体进行市场策略对抗,并以契合特定市场目的为评分。存在如下两种方式。
73.第一种,无竞争和环境变量的输出。固定环境变量和其他竞争主体,输出最优结果和路径。分别训练出各市场主体的最优模型。
74.第二种,多方对抗,多市场主体直接对抗,分别训练出各市场主体的最优模型。
75.这两种训练方式下,优化策略,使得各主体的期望奖励最大。
[0076][0077]
在市场策略对抗中,使用actor-critic进行强化学习。在状态s下,计算当前给出动作a相比于“平均动作”获得的优势,
[0078][0079]
用优势计算策略梯度,
[0080][0081]
利用价值函数来训练价值网络,并同时输入对手数据,
[0082][0083]
使用联盟学习(构建对手池,过去的自己,最新的自己,对手,打败自己的对手等)的方法来提升相关的参数。
[0084]
对于不同目的的市场策略,以市场目的为准,根据与目的的契合度进行打分:可以是做大共同市场,可以是挤压对手,可以是自身盈利最丰厚。
[0085]
优选地,各主体能够相互学习,并且能够在一定时间内(t=0-∞)获取其他主体的行为和可能结果。
[0086]
最后,在步骤s6中,通过结果记录模块107记录各类结果及/或路径,作为辅助决策的依据。将各个市场主体作为对抗主体的一方,如市场方共有a1,a2

an等n方,分别基于这n方进行对抗,获得并记录各方的结果及/或路径,也可以筛选关注的某一方或多方的结果及/或路径并进行记录。
[0087]

某方或多方所有的悲观的结果及/或路径;
[0088]

某方或多方所有的乐观的结果及/或路径;
[0089]

某方或多方最优可能的结果及/或路径;
[0090]

某方或多方最差可能的结果及/或路径。
[0091]
由此,通过上述各模块以及各模块的动作,能够基于真实市场中的竞争主体和宏观、微观环境和各竞争主体的竞争动作、规则,进行多竞争主体的竞争、合作等目的的对抗。
[0092]
【电子设备】
[0093]
本技术实施例还提供一种电子设备,包括处理器和收发器,所述收发器在处理器的控制下接收和发送数据,所述处理器用于执行以下操作:
[0094]
市场信息输入步骤,输入与市场、市场主体、市场主体的利益相关方有关的市场信息,并且输入初始化的各市场主体的状态;
[0095]
规则知识库构建步骤,根据已知的市场场景,定义所述市场主体的动作,并对所有的所述动作以及结果进行赋值,之后根据已有的市场数据,对被赋值的所述动作以及结果进行自动识别并调整赋值,从而构建市场规则;
[0096]
环境参数输入步骤,输入对市场的环境造成影响的因素和参数;
[0097]
市场策略训练步骤,根据在所述市场信息输入步骤中输入的信息、在所述规则知识库构建步骤中调整后的所述市场规则、以及在所述环境参数输入步骤中输入的因素和参数,使每个市场主体作为独立对抗主体相互对抗,得到各市场主体进行了各动作后的状态,以契合特定市场目的为评分,使用强化学习的方式训练出各市场主体的最优模型;以及
[0098]
结果记录步骤,将各个市场主体作为对抗主体的一方,记录其中的一方或多方的结果及/或路径。
[0099]
可选地,所述处理器还用于执行以下操作:
[0100]
在所述环境参数输入步骤中,输入的因素和参数包括系统随机输入的一些环境影响的因素和参数。
[0101]
可选地,所述处理器还用于执行以下操作:
[0102]
规则优化步骤,基于所述环境参数和所述市场规则进行优化,根据相互影响调整赋值。
[0103]
可选地,所述处理器还用于执行以下操作:
[0104]
市场策略学习步骤,以特定的所述市场主体的特定结果为评分依据,得到特定动作后的状态,并输出特定主体的最优结果和路径,
[0105]
在所述市场策略学习步骤中,使用监督学习的方式学习专家的决策行为,和专家的动作一致性越高的,评分越高,由此优化市场策略。
[0106]
可选地,在对抗中,所述市场主体能够在预定时间内获取其他市场主体的行为和可能结果,并相互学习。
[0107]
本技术实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行所述程序时实现上述的实施例中的市场决策方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0108]
【可读存储介质】
[0109]
本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述实施例中的市场决策方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0110]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
[0111]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及
的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0112]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0113]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献