一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种桥梁布跨方法、装置、设备及可读存储介质与流程

2021-11-05 23:19:00 来源:中国专利 TAG:


1.本发明涉及桥梁建造技术领域,具体而言,涉及桥梁布跨方法、装置、设备及可读存储介质。


背景技术:

2.桥梁在交通运输中发挥着重大作用。修建桥梁可以有效解决路基沉降问题、节省土地资源、保证行车平顺,其中桥梁孔跨布置在方案设计中是一个关键问题。桥梁布跨需要十分有经验的设计人员,并且需要花费大量的时间,而且得出的结果不一定最优,现在亟需一种桥梁布跨算法代替人工进行设计。


技术实现要素:

3.本发明的目的在于提供一种桥梁布跨方法、装置、设备及可读存储介质,以改善上述问题。为了实现上述目的,本发明采取的技术方案如下:
4.第一方面,本技术提供了一种桥梁布跨方法,包括:获取线路地形图纸信息;根据所述线路地形图纸信息,分析得到第一信息,所述第一信息包括桥墩高程信息、路线里程信息、桥梁起始坐标信息、桥梁终止坐标信息和跨越区域位置信息;基于第一信息建立基于sarsa算法和alphago的桥梁布跨数学模型,求解所述桥梁布跨数学模型得到第二信息,所述第二信息包括桥梁的桥墩坐标和桥墩里程。
5.进一步地,所述基于所述第一信息建立基于sarsa算法和alphago的桥梁布跨数学模型,求解所述桥梁布跨数学模型得到第二信息,包括:获取第三信息,所述第三信息包括动作集、第一价值网络信息、第二价值网络信息和所述动作集内桥梁的尺寸信息;建立基于sarsa(λ)算法的策略价值数学模型,将所述第一信息和所述第三信息作为所述策略价值数学模型的输入信息,求解所述策略价值数学模型得到策略价值网络,所述策略价值网络包括布跨方案和累计奖励信息,所述布跨方案包括桥梁的桥墩坐标和桥墩里程;建立基于alphago算法的布跨分析数学模型,将所述策略价值网络信息、所述第一信息和所述第三信息作为所述布跨分析数学模型的输入信息,求解所述布跨分析数学模型得到第四信息。
6.进一步地,所述建立基于sarsa(λ)算法的策略价值数学模型,将所述第一信息和所述第三信息作为所述策略价值数学模型的输入信息,求解所述策略价值数学模型得到策略价值网络,包括:获取预设循环次数;根据所述线路里程信息和预设状态长度,计算得到状态数m;构建第一循环体:建立基于模拟退火算法的sarsa(λ)数学模型,设置所述sarsa(λ)数学模型的学习率为第一预设值、折扣率为第二预设值、更新步频为第三预设值、初始化温度为第一预设值、退火参数为指数衰减,求解所述sarsa(λ)数学模型,得到一次布跨策略价值结果;重复执行第一循环体到预设次数,得到第四信息,所述第四信息包括所述预设次数数目个的布跨方案结果;根据所述第四信息,判断得到策略价值网络,所述策略价值网络为所述第四信息中所述累计奖励最高的一次布跨方案结果。
7.进一步地,所述建立基于sarsa(λ)算法的策略价值数学模型,将所述第一信息和
所述第三信息作为所述策略价值数学模型的输入信息,求解所述策略价值数学模型得到策略价值网络,包括:根据所述第一信息,建立alphago数学模型的根节点,所述根节点为桥梁起始坐标信息;构建第三循环体:基于所述策略价值网络、所述动作集和所述alphago数学模型建立节点扩展数学模型,求解所述节点扩展数学模型得到所述根节点下的最优布跨方式的一个子节点;重复执行所述第三循环体,直到节点扩展数学模型已计算到桥梁终止,得到第四信息。
8.第二方面,本技术还提供了一种桥梁布跨装置,包括:第一获取单元,用于获取线路地形图纸信息;第一转化单元,用于根据所述线路地形图纸信息,分析得到第一信息,所述第一信息包括桥墩高程信息、路线里程信息、桥梁起始坐标信息、桥梁终止坐标信息和跨越地区位置信息;桥梁布跨单元,用于基于第一信息建立基于sarsa算法和alphago的桥梁布跨数学模型,求解所述桥梁布跨数学模型得到第二信息,所述第二信息包括桥梁的桥墩坐标和桥墩里程。
9.进一步地,所述桥梁布跨单元包括:第二获取单元,用于获取第三信息,所述第三信息包括动作集、第一价值网络信息、第二价值网络信息和所述动作集内桥梁的尺寸信息;策略价值单元,用于建立基于sarsa(λ)算法的策略价值数学模型,将所述第一信息和所述第三信息作为所述策略价值数学模型的输入信息,求解所述策略价值数学模型得到策略价值网络,所述策略价值网络包括布跨方案和累计奖励信息,所述布跨方案包括桥梁的桥墩坐标和桥墩里程;布跨分析单元,用于建立基于alphago算法的布跨分析数学模型,将所述策略价值网络信息、所述第一信息和所述第三信息作为所述布跨分析数学模型的输入信息,求解所述布跨分析数学模型得到第四信息。
10.进一步地,所述策略价值单元包括:第三获取单元,用于获取预设循环次数;第一子计算单元,用于根据所述线路里程信息和预设状态长度,计算得到状态数m;第一循环单元,用于构建第一循环体:建立基于模拟退火算法的sarsa(λ)数学模型,设置所述sarsa(λ)数学模型的学习率为第一预设值、折扣率为第二预设值、更新步频为第三预设值、初始化温度为第一预设值、退火参数为指数衰减,求解所述sarsa(λ)数学模型,得到一次布跨策略价值结果;第一循环判断单元,用于重复执行第一循环体到预设次数,得到第四信息,所述第四信息包括所述预设次数数目个的布跨方案结果;第一分析单元,用于根据所述第四信息,判断得到策略价值网络,所述策略价值网络为所述第四信息中所述累计奖励最高的一次布跨方案结果。
11.进一步地,所述跨分析单元包括:第一建立单元,用于根据所述第一信息,建立alphago数学模型的根节点,所述根节点为桥梁起始坐标信息;第三循环单元,用于构建第三循环体:基于所述策略价值网络、所述动作集和所述alphago数学模型建立节点扩展数学模型,求解所述节点扩展数学模型得到所述根节点下的最优布跨方式的一个子节点;第三循环判断单元,用于重复执行所述第三循环体,直到节点扩展数学模型已计算到桥梁终止,得到第四信息。
12.第三方面,本技术还提供了一种桥梁布跨设备,包括:
13.存储器,用于存储计算机程序;
14.处理器,用于执行所述计算机程序时实现所述桥梁布跨方法的步骤。
15.第四方面,本技术还提供了一种可读存储介质,所述可读存储介质上存储有计算
机程序,所述计算机程序被处理器执行时实现上述基于桥梁布跨方法的步骤。
16.本发明的有益效果为:
17.本发明通过经过sarsa(λ)算法优化输出策略价值网络,并将该策略价值网络加入到alphago算法之中,在alphago算法的模拟阶段,节点除了可以通过快速布跨策略获取以其为根节点的全局模拟所对应的累计奖励外,还可以直接在策略价值网络中找到与之对应的最大累计奖励,最后取两者中的最大者作为该节点模拟结束后的实际累计奖励,以此提升alphago算法最后的运算结果。
18.本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
19.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
20.图1为本发明实施例中所述的桥梁布跨方法流程示意图;
21.图2为本发明实施例中所述的动作集;
22.图3为本发明实施例中所述第一价值网络中的布跨优先等级表
23.图4为本发明实施例中所述第二价值网络中的布跨优先等级表
24.图5为本发明实施例中所述的桥梁布跨装置结构示意图;
25.图6为本发明实施例中所述的第一循环单元的结构示意图;
26.图7为本发明实施例中所述的布跨分析单元的结构示意图;
27.图8为本发明实施例中所述的桥梁布跨设备结构示意图。
具体实施方式
28.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
30.实施例1:
31.本实施例提供了一种桥梁布跨方法。
32.参见图1,图中示出了本方法包括步骤s100、步骤s200和步骤s300。
33.s100、获取线路地形图纸信息;
34.可以理解的是,在本步骤中即获取cad图纸材料,其中cad图纸材料中包含桥址平面图、线路纵断图、线路平面图。对于本领域技术人员也可以从建筑信息模型中获取线路地形信息,其中建筑信息模型包括路线模型、地形模型等。
35.s200、根据线路地形图纸信息,分析得到第一信息,第一信息包括桥墩高程信息、线路里程信息、桥梁起始坐标信息、桥梁终止坐标信息和跨越区域位置信息;
36.可以理解的是,在本步骤中对线路地形图纸信息或者建筑信息模型进行处理,具体而言,在本步骤是采用cad二次开发技术对图纸进行分析或者建筑信息模型技术进行处理。即从线路纵断图和线路平面图中获取到桥墩高程信息、线路里程信息、桥梁起始坐标信息、桥梁终止坐标信息和跨越地区位置信息。具体而言通过连续线段离散化的方法,在图纸上每隔一小段取一个点,将所有点的位置坐标得到然后通过公式转化为里程;桥址平面图与线路纵断图结合起来可以得到线路的三维坐标,由此可以确定线路上任意位置,并得到开始搭建桥梁的桥梁起始坐标信息、桥梁终止坐标信息。根据轨面高程线与地面高程线之差,可得桥墩高程信息。跨越区域红线信息为需跨越地区,禁止桥墩侵入。需要说明的是,上文中所提及的cad二次开发技术为现有技术,本技术中不再赘述。
37.s300、基于第一信息建立基于sarsa算法和alphago的桥梁布跨数学模型,求解桥梁布跨数学模型得到第二信息,第二信息包括桥梁的桥墩坐标和桥墩里程。
38.可以理解的是,在本步骤中桥梁布跨数学模型为针对alpha go算法中动作策略比较单一导致结果稳定性欠佳的情况,提出了使用sarsa算法对alpha go算法进行优化,提升桥梁布跨的准确性。
39.具体而言,本步骤中包括步骤s310、步骤s320、步骤s330、
40.s310、获取第三信息,第三信息包括动作集、第一价值网络信息、第二价值网络信息和动作集内桥梁的尺寸信息;
41.其中在本步骤中的动作集为7个桥梁布跨的选择。供智能体的选择的7个桥梁类型,具体请参见图2。
42.其中智能体即为人工智能算法。同时第一价值网络信息、第二价值网络信息亦为智能体的桥梁布跨奖赏函数设计内容,
43.其中在本实施例中第一价值网络信息为sarsa(λ)算法所用,第二价值网络由alphago算法所使用。
44.第一价值网络信息具体如下:
45.其中布跨优先等级表,参见图3。然后其价值函数包括:
46.(1)当在满足所有布跨条件的地区布置简支梁桥墩时
47.r1=a(1100

(0.4h p))
48.式中:p—桥梁基价;h—在当前位置布跨的桥墩的墩高;a—缩小系数,为了在q表训练是加快收敛速度。
49.(2)当在满足所有布跨条件的地区布置连续梁桥墩时
50.r2=a(1100

0.4(h1 h2 h3)

p)*w
51.式中:p—桥梁基价;h—在当前位置布跨的桥墩的墩高,w—连续梁布跨权重折减系数,对应动作集中五种连续梁分别取值0.5,0.4,0.3,0.2,0.1不仅满足优先选简支梁的
要求,同时满足小跨度连续梁优先使用的原则。
52.(3)当在满足跨越要求,但是地质条件不好(比如坡度比较陡)的地区布置桥墩时
53.r3=0.1
54.此时是为了告诉智能体,此处可以布置桥墩,但是得到的奖赏会很小,如果有其他更好的选择就去选择,如果没有当前位置也可以布置。
55.(4)当前布跨位置不满足跨越条件时(比如在既有道路或者地下管线位置布跨)
56.r4=

100
57.此时是为了告诉智能体此处绝对不可以布置桥墩,否则将得到很大的负奖赏。
58.(5)当连续梁在非必须地段使用时(比如此处没有需要跨越的既有建筑,可选用简支梁布跨)
59.r5=

50
60.此时是为了告诉智能体布跨选择的优先级为简支梁优于连续梁,为了减少不必要的工程量。
61.(6)当次要简支梁位置不在整条线路的起始点、终止点或者连续梁附近时
62.r6=

10
63.此时是为了告诉智能辅助简支梁的位置不能任意放置,要保证布跨的规则性。
64.第二价值网络如下:
65.alphago算法的以蒙特卡洛树搜索作为框架,所以桥梁布跨设计算法同样使用蒙特卡洛树搜索作为基本框架。桥梁布跨的实质是在规定的路线上找到合适的桥墩位置,所以蒙特卡洛树搜索里的每一个节点可被视为一个储存布跨相关信息的桥墩,树搜索的过程可以近似视作在规定的路线环境下寻找最优桥墩的过程。蒙特卡洛树搜索的节点实际上是信息存储包,除了需要记录的获胜次数与访问次数,本实施例中还在节点中加入了坐标信息、里程信息、动作信息、奖励信息、成本信息,坐标信息用于记录实时的桥墩位置,里程用于记录桥墩在跨越地区位置,以便判别算法是否结束;动作信息与奖励信息可以直观的看出每个动作对于全局的影响,同时方便加入限定条件后直接引用动作与奖励信息进行计算;成本信息用于记录每个动作所产生的成本,方便在计算结束后直接引用。
66.对于桥梁布跨来说,简洁高效是智能体布跨的优势所在,但传统的蒙特卡洛树搜索搜索时间比较长,并且在时间结束后并不能保证一定可以输出一份完整的布跨方案,所以结合上述两点,本实施例对蒙特卡洛树搜索的流程进行了改进,改进思路借鉴了alpha go在围棋中的设计思路:当根节点完成挑选、拓展、模拟、回溯并找到最优的子节点后,则把子节点设定为新的根节点,如此循环一直到搜索结束。
67.由于蒙特卡洛树搜索在布跨的形式上比较直观,子节点可以被视为一个储存相关信息的桥墩,所以在价值网络的设定上,除了成本最优的函数需要直观体现外,其余的布跨规则可以采用直接限定两个子节点位置的方式实现。价值网络应该按照布跨限定条件表内的顺序来设计,如图4所示。
68.(1)当在非跨越地区布置简支梁时,价值函数可以设定如下:
[0069][0070]
式中:α—调整系数,使算法更容易找到造价最低的选择;ds—桥梁长度;q2—桥梁
单价;q1—桥梁基准价;d2—简支梁桥墩单价;d1—桥墩基准价。
[0071]
(2)当在非跨越地区布置连续梁时,价值函数可以设定如下:
[0072][0073]
式中d2‑1、d2‑2、d2‑3为连续梁三个桥墩的单价,根据桥梁形式的不同和以及桥梁高度的不同,桥墩的单价也各有差异。
[0074]
(3)当桥梁不满足跨越条件时,不再额外设置价值函数,而是直接在蒙特卡罗树搜索的子节点拓展阶段进行限定。桥梁的长度有七种组合,具体如图2中的表格所示:
[0075]
当对一个节点进行拓展时,该节点下共有七种动作可以选择,此时可以先对七种动作进行模拟,如果不满足跨越条件直接删掉该子节点,对剩余子节点进行模拟流程。此种处理方式可以直接避免桥墩入侵跨越区域,导致桥梁不满足跨越条件,同时由于删除掉了多余的子节点,算法的计算速度与效率也将大大提升。
[0076]
(4)由于连续梁制造工艺比简支梁复杂,同时成本也比较高,所以在不必要地区,简支梁的优先级要高于连续梁,所以可以对蒙特卡洛树搜索的挑选阶段进行修改,当节点下的子节点有32m动作下产生的子节点的选项时,若不是最不利选项,则把该子节点设置为最优选择,通过这种设置可以保证在非必要位置,简支梁的优先级永远高于连续梁,同时不必借助经验的积累即可实现此功能。
[0077]
s320、建立基于sarsa(λ)算法的策略价值数学模型,将第一信息和第三信息作为策略价值数学模型的输入信息,求解策略价值数学模型得到策略价值网络,策略价值网络包括布跨方案和累计奖励信息,布跨方案包括桥梁的桥墩坐标和桥墩里程;
[0078]
具体而言,本步骤之中包括步骤s321、步骤s322、步骤s323、步骤s324和步骤s325。
[0079]
s321、获取预设循环次数;
[0080]
需要说明的是在本步骤中预设循环次为30次;
[0081]
s322、根据线路里程信息和预设状态长度,计算得到状态数m;
[0082]
需要说明的是,根据时速350km高速铁路双线圆端形实体桥墩设计施工图,3~35m桥墩截面宽度为3~3.5m。为了使地形信息更接近实际情况,离散化线段应小于桥墩宽度。并且由于在算法中一个状态只能对应一种布跨动作,当状态长度大于4m时,一个状态就可能对应两种布跨动作。综合考虑,取每3m为预设状态长度(即一个状态),认为每一段内地形高程是相同的,由此可将连续的地形条件离散化。此处将整条线路分成许多3m小段,每一段代表一种新的状态。即通过线路里程信息和预设状态长度相除计算得到状态数。
[0083]
s323、构建第一循环体:建立基于模拟退火算法的sarsa(λ)数学模型,设置sarsa(λ)数学模型的学习率为第一预设值、折扣率为第二预设值、更新步频为第三预设值、初始化温度为第一预设值、退火参数为指数衰减,求解sarsa(λ)数学模型,得到一次布跨策略价值结果;
[0084]
需要说明的是,在本步骤中所使用的sarsa(λ)数学模型优选使用模拟退火算法的动作策略,并为了加快收敛时间,在本步骤中学习率设置为0.3、折扣率设置为0.6、更新步频设置为0.6、初始化温度设置为100度以及退火参数为指数衰减,并且优选为下列公式进行衰减系数计算:
[0085]
β=τ
i
*t
[0086]
其中,τ为折减系数,i为退火算法中的循环次数,t为初始温度。
[0087]
具体而言在本步骤中包括步骤s3231、步骤s3232、步骤s3233、步骤s3234、步骤s3235和步骤s3236。
[0088]
s3231、根据桥梁起始坐标信息,转化为初始状态;
[0089]
s3232、根据桥梁终止坐标信息,转化为截止状态;
[0090]
s3233、根据状态数m,设定一个m
×
m的空矩阵作为初始化的状态

动作值函数矩阵—q表;
[0091]
s3234、产生随机值δ∈(0,1),根据metropolis接受准则对接受概率p进行计算,设s与a为当前状态与当前选择的动作,s

与a

为下一状态与下一选择的动作,若e
(q(s

,a

)

q(s,a))/t
>δ,则在动作集中随机选择一个动作作为s,反之则选择argmax q(s,a)作为s;
[0092]
s3235、构建第二循环体:建立基于安全指标的单次布跨数学模型,将初始化温度、退火参数、初始状态、当前状态、当前选择的动作、下一状态和下一选择的动作作为模拟退火数学模型的输入信息,求解模拟退火数学模型得到初始状态对应的布跨结果和反馈奖励;
[0093]
需要说明的是,在s323中s3231

s3234和s3235均为现有技术,本技术中不再赘述,而s3235中与现有技术的区别在于,在每个状态进行探索时,使用了安全指标去除去不能使用的动作。减少在跨越地区建造桥墩的错误探索结果。
[0094]
具体而言,本步骤中部包括s32351、s32352、s32353、s32354和s32355。
[0095]
s32351、执行当前选择的动作,当前状态转移到下一状态,获得反馈奖励,并将下一状态与当前状态转换为桥墩坐标;
[0096]
s32352、在下一状态下,根据预设公式集计算动作集中每个动作所对应的桥梁安全指标,安全指标包括墩顶横向位移量、梁体竖向挠度和桥面高程坡度,安全指标由第一信息和第三信息计算得到;
[0097]
需要说明的是,在本实施例中安全指标选用了墩顶横向位移量、梁体竖向挠度和桥面高程坡度。
[0098]
首先是桥面高程坡度,桥面高程坡度需要两个桥墩的位置,在sarsa(λ)算法中,在更新经验价值表之前,需要获取s与s

两个状态,这两个状态对应的就是桥墩的位置,所以可以将状态转化为桥墩的坐标,根据桥墩坐标找到对应的桥面高程,再进行计算即可;桥梁的横向挠度变形中,主要的影响因素是离心力,所以离心力的计算比较重要。在sarsa(λ)算法中,更新经验价值表需要获取s与s

两个状态,这两个状态对应的就是桥墩的位置,再加上上一次执行循环时获取的上一状态所对应的桥墩坐标,三个坐标点即可计算曲线段处的实时曲线半径,从而可以确定离心力与桥梁的横向挠度;最后一个安全指标是桥墩墩顶的横向位移,在sarsa(λ)算法中,更新经验价值表在获取s与s

两个状态的同时,也会得到a与a

两个动作,两个状态对应的是桥墩的位置,两个动作对应的是桥梁的长度。先将状态转化为桥墩坐标,取与之对应的地面高程与桥面高程相减得到桥墩的高度,再根据a与a

两个动作所对应的桥梁长度计算桥墩墩顶的最大位移限值,最后根据受力计算桥梁墩顶的实际位移。
[0099]
并且通过如下公式计算得到:
[0100]
由于桥墩高程在布设桥梁之前就已经给出,所以桥梁的高程坡度可在桥墩位置确定后直接确定对应的高程计算即可。现根据直接积分法分别对其余两个安全指标的计算公式进行推导,首先是墩顶横向位移,桥墩位移主要由以下几种荷载引起:列车横向摇摆力、列车脱轨荷载、风荷载、温度应力,通过直接积分法得到各种因素下桥墩位移:
[0101]
桥墩在水平力作用下产生的位移:
[0102][0103]
其中:
[0104][0105][0106][0107]
桥墩在力矩作用下产生的位移:
[0108][0109]
其中:
[0110][0111][0112][0113]
桥墩在风荷载作用下产生的位移:
[0114][0115]
其中:
[0116][0117][0118]
[0119]
桥墩在温度作用下产生的位移:
[0120][0121]
式中:p
y
—桥墩所受水平力的集合,m
y
—桥墩所受力矩的集合,—风荷载,b—矩形段截面宽度,k—墩身坡度,d
u
—墩底圆端形截面直径,d0—墩顶圆端形截面直径,r
u
——墩底圆端形截面半径,r0—墩顶圆端形截面半径。
[0122]
以上四种位移相加即为桥墩墩顶的横向位移。
[0123]
下面是桥梁横向挠度的推导公式:首先是简支梁水平挠度的计算公式:
[0124]
δ
限值
=δ
风荷载
δ
摇摆力
δ
离心力
[0125]
其中:
[0126][0127]
然后是连续梁边跨水平挠度的计算公式:
[0128]
δ
限值
=δ
风荷载
δ
摇摆力
δ
离心力
δ
温度
[0129]
其中:
[0130][0131][0132][0133]
最后是连续梁中跨的水平挠度计算公式:
[0134]
δ
限值
=δ
风荷载
δ
摇摆力
δ
离心力
δ
温度
[0135]
其中
[0136][0137][0138][0139]
式中:l—简支梁长度,l1—连续梁边跨长度,l2—连续梁中跨长度,h—桥梁截面高度,k—刚度系数,k1—单位风荷载作用下在边跨产生的位移,k2代表单位摇摆力与离心力的合力作用下在边跨产生的位移;k3代表单位力作用下在边跨产生的位移;k4代表单位温度变化下在边跨产生的位移;k5代表单位力作用下在主跨产生的位移;k6代表单位风荷载作用下主跨产生的位移;k7代表单位温度变化作用下主跨产生的位移;k8代表单位合力作用下主跨
产生的位移。
[0140]
s32353、判断桥梁安全指标是否符合预设设计规则,若不合规,则将不符合桥梁安全指标的动作在动作集中删去,预设设计规则为桥梁设计规范标准;
[0141]
需要说明的是,为了保证铁路运行的安全性,规范规定指的是:
[0142]
(1)设计行车速度处于200km/h到250km/h时,正线的最大坡度不得超过2%,设计行车速度处于250km/h到300km/h时,正线的最大坡度不宜超过2%,困难情况下不应超过3%。
[0143]
(2)基于对安全性的考虑,《铁路桥涵设计规范》规定梁体横向变形的限值应符合以下数值:列车在受到横向摇摆力、离心力、风力和温度等因素的影响下,梁体的水平挠度不应超过梁体计算跨度的1/4000。
[0144]
(3)《铁路桥涵设计规范》对桥梁的水平折角的最大值进行了规定,水平折角的最大值应符合下列规定:1、设计时速达200km/h及以上铁路梁端水平折角不应大于1.0rad;2、设计时速160km/h及以下铁路,跨度小于40m的梁端水平折角不应大于1.5

rad,跨度大于等于40m的梁端水平折角不应大于1.0

rad。
[0145]
s32354、根据预设更新函数关系,对q表与e表进行更新;
[0146]
s32355、更新当前状态为下一状态,更新当前选择的动作为下一选择的动作。
[0147]
需要说明的是在本步骤s32351、s32354以及s32355为现有技术,本实施中不再赘述。
[0148]
s3236、重复执行第二循环体,直到第二循环体内的下一状态为截止状态,得到一次布跨策略价值结果。
[0149]
s324、重复执行第一循环体到预设次数,得到第四信息,第四信息包括预设次数数目个的布跨方案结果;
[0150]
s325、根据第四信息,判断得到策略价值网络,策略价值网络为第四信息中累计奖励最高的一次布跨方案结果。
[0151]
需要说明的是,本步骤中即通过对sarsa算法的三十次运算,得到三十个第四信息,并充分利用sarsa算法的离线学习能力,在三十次计算中奖励最高的一种布跨方案结果。
[0152]
s330、建立基于alphago算法的布跨分析数学模型,将策略价值网络信息、第一信息和第三信息作为布跨分析数学模型的输入信息,求解布跨分析数学模型得到第四信息。
[0153]
需要说明的是,虽然由于桥梁布跨相对比较简单,但是为了更好的探索布跨可能性,在alphago算法中,本实施例中仍然在模拟阶段采用的随机布跨策略,但随机布跨策略会导致每一次运行结束后,算法输出结果的成本造价浮动比较大,所以为了在扩大搜索范围的同时可以减小成本的浮动性,所以本实施例考虑引入sarsa(λ)算法作为附加的策略网络,所有就有了s320这步骤,sarsa(λ)是一种相对保守的强化学习算法,更新经验表的动作与下一步采用的动作是一致的,所以可以把安全指标融入进算法中,在模拟结束后综合考虑模拟结果和sarsa(λ)算法提出的经验方案,从而得到更优的布跨策略。具体而言本步骤中,包括步骤s331、步骤s332和步骤s333。
[0154]
s331、根据第一信息,建立alphago数学模型的根节点,根节点为桥梁起始坐标信息;
[0155]
s332、构建第三循环体:基于策略价值网络、动作集和alphago数学模型建立节点扩展数学模型,求解节点扩展数学模型得到根节点下的最优布跨方式的一个子节点;
[0156]
需要说明的是,本实施例中为了将sarsa(λ)算法的结果以布跨策略表的方式加入到alpha go算法的模拟阶段,便于alpha go算法在更新节点信息时可以根据自身模拟和策略价值表信息获取最优动作。在本步骤中还包括步骤s3321、步骤s3322、步骤s3323、步骤s3324和步骤s3325。
[0157]
s3321、根据第一信息和第三信息,计算得到每个子节点对应的安全指标,安全指标包括墩顶横向位移量、梁体竖向挠度和桥面高程坡度;
[0158]
需要说明的是本步骤中所指的安全指标与步骤s32352中所提及的相同,本技术中不再赘述。
[0159]
s3322、判断每个子节点桥梁安全指标是否符合预设设计规则,若不合规,若不符合预设设计规则,则删除不符合预设设计规则的安全指标对应的子节点,预设设计规则为桥梁设计规范标准;
[0160]
需要说明的是本步骤与步骤s32353相同,本技术中不再赘述过程。
[0161]
通过s3321和s3322步骤,在alphago算法当对一个节点进行拓展时,该节点下共有七种动作可以选择,此时可以先对七种动作进行模拟,如果不满足跨越条件直接删掉该子节点,对剩余子节点进行模拟流程。此种处理方式可以直接避免桥墩入侵到禁止跨越的地区,导致桥梁不满足跨越条件,同时由于删除掉了多余的子节点,算法的计算速度与效率也将大大提升。
[0162]
s3323、若子节点的总数目为零,则返回至上一级的节点重新进行执行第三循环体;
[0163]
需要说明的是,有些节点向下进行蒙特卡洛树搜索时,由于下所有节点都其不满足安全指标,均被删除。所以本步骤是向上一级返回,更换上一级节点重新进行蒙特卡洛树搜索。
[0164]
s3324、对每个子节点,采用uct算法进行模拟计算,并得到uct算法选择出最优的一个子节点,最优的一个子节点内包含的一个桥墩坐标信息和桥墩里程信息;
[0165]
需要说明的是,在本步骤中,
[0166]
uct算法流程如下:
[0167]
(1)对当前节点下的七种布跨动作进行拓展与模拟阶段,获取7个子节点;
[0168]
(2)随机挑选一个子节点的模拟总奖励值作为标准值,对其余6个子节点的奖励值进行比较,获得奖励大于标准值即判别为胜利,否则为失败或平局,若获得胜利,则获胜次数加1;
[0169]
(3)继续执行树搜索的拓展与模拟阶段,获取每个子节点模拟后的奖励值,同样设定获得的奖励大于标准值即判别为胜利,否则为失败或平局,将结果反馈到对应子节点上,直到搜索结束;
[0170]
(4)根据ucb公式计算当前节点下所有子节点的得分并获得最优节点。
[0171]
其中为了解决如果较差的节点的总奖励值被设定为标准值,那么最优节点与一般节点的获胜次数是一致的,会导致智能体无法进一步分辨哪一个节点才是最优节点,所以还需要对ucb公式进行进一步改进,凸显每一个动作产生的节点的获胜优势有多大或者失
败的劣势有多大。基于上述问题,本文在ucb公式后面加入了收益浮动项,具体如下式所示:
[0172][0173]
上式收益浮动项中:r
i
—某个子节点下第次模拟所获得的总奖励值;r
标准
—被选中设定为标准值的子节点的总奖励值标准。
[0174]
公式的最后一项为收益浮动项,其中r
i
代表某个子节点下第i次模拟所获得的总奖励值,r
标准
代表被选中设定为标准值的子节点的总奖励值,通过设置收益浮动项可以对ucb值进行修正,获得奖励越大的子节点,收益浮动项的值越大,越容易被选中。
[0175]
本步骤中尚未提及的算法内容为本领域的公知常识,本技术中不再赘述。
[0176]
s3325、对比最优的一个子节点与策略价值网络中对应的桥墩坐标和桥墩里程,得到累计奖励最大的桥墩坐标和桥墩里程,并最优的一个子节点的内容为更新累计奖励最大的桥墩坐标和桥墩里程。
[0177]
需要说明的是,本步骤即为将策略价值数学模型输出的策略价值网络加入到蒙特卡洛树搜索的模拟阶段,在模拟阶段,节点除了可以通过快速布跨策略获取以其为根节点的全局模拟所对应的累计奖励外,还可以直接在布跨策略表中找到与之对应的最大累计奖励,最后取两者中的最大者作为该节点模拟结束后的实际累计奖励。以提升最后布跨优异结果。
[0178]
s333、重复执行第三循环体,直到节点扩展数学模型已计算到桥梁终止,得到第四信息。
[0179]
本实施例在根据桥梁布跨的背景以及布跨问题优化的需求,设计了alphago算法用于桥梁的布跨,其结合《铁路桥涵设计规范》,对桥面高程、桥墩墩顶横向位移、桥梁横向挠度三个安全指标的公式进行了推导。在此基础上将安全指标融入alphago算法的子节点拓展阶段起到“剪枝”作用,提高算法效率经过“剪枝”后的alphago算法,可以避免安全指标超出限定范围的情况出现;2)针对alphago算法中动作策略比较单一导致结果稳定性欠佳的情况,引入了sarsa(λ)算法进行改进,提出了一种基于sarsa(λ)算法的动作策略网络来对alphago算法进行优化。选出最优的参数配比,相比于最不利情况,算法收敛速度可以分别提升75%、25%、22%;4)通过经过sarsa(λ)算法优化输出策略价值网络,并将策略价值网络加入到alphago算法在蒙特卡洛树搜索的模拟阶段,在模拟阶段,节点除了可以通过快速布跨策略获取以其为根节点的全局模拟所对应的累计奖励外,还可以直接在策略价值网络中找到与之对应的最大累计奖励,最后取两者中的最大者作为该节点模拟结束后的实际累计奖励,依此提升alphago算法运算结果。
[0180]
实施例2:
[0181]
如图5所示,本实施例提供了一种桥梁布跨装置,参见图5到图7,装置包括:
[0182]
第一获取单元1,用于获取线路地形图纸信息;第一转化单元2,用于根据线路地形图纸信息,分析得到第一信息,第一信息包括桥墩高程信息、线路里程信息、桥梁起始坐标信息、桥梁终止坐标信息和跨越地区位置信息;桥梁布跨单元3,用于基于第一信息建立基于sarsa算法和alphago的桥梁布跨数学模型,求解桥梁布跨数学模型得到第二信息,第二信息包括桥梁的桥墩坐标和桥墩里程。
[0183]
在本公开的一种具体实施方式中,桥梁布跨单元3包括:
[0184]
第二获取单元31,用于获取第三信息,第三信息包括动作集、第一价值网络信息、第二价值网络信息和动作集内桥梁的尺寸信息;策略价值单元32,用于建立基于sarsa(λ)算法的策略价值数学模型,将第一信息和第三信息作为策略价值数学模型的输入信息,求解策略价值数学模型得到策略价值网络,策略价值网络包括布跨方案和累计奖励信息,布跨方案包括桥梁的桥墩坐标和桥墩里程;布跨分析单元5,用于建立基于alphago算法的布跨分析数学模型,将策略价值网络信息、第一信息和第三信息作为布跨分析数学模型的输入信息,求解布跨分析数学模型得到第四信息。
[0185]
在本公开的一种具体实施方式中,策略价值单元32包括:
[0186]
第三获取单元321,用于获取预设循环次数;第一子计算单元322,用于根据线路里程信息和预设状态长度,计算得到状态数m;第一循环单元323,用于构建第一循环体:建立基于模拟退火算法的sarsa(λ)数学模型,设置sarsa(λ)数学模型的学习率为第一预设值、折扣率为第二预设值、更新步频为第三预设值、初始化温度为第一预设值、退火参数为指数衰减,求解sarsa(λ)数学模型,得到一次布跨策略价值结果;第一循环判断单元4,用于重复执行第一循环体到预设次数,得到第四信息,第四信息包括预设次数数目个的布跨方案结果;第一分析单元325,用于根据第四信息,判断得到策略价值网络,策略价值网络为第四信息中累计奖励最高的一次布跨方案结果。
[0187]
在本公开的一种具体实施方式中,第一循环单元323包括:
[0188]
第二转化单元41,用于根据桥梁起始坐标信息,转化为初始状态;第三转化单元42,用于根据桥梁终止坐标信息,转化为截止状态;空表建立单元43,用于根据状态数m,设定一个m
×
m的空矩阵作为初始化的状态

动作值函数矩阵—q表;随机单元44,用于产生随机值δ∈(0,1),根据metropolis接受准则对接受概率p进行计算,设s与a为当前状态与当前选择的动作,s

与a

为下一状态与下一选择的动作,若e
(q(s

,a

)

q(s,a))/t
>δ,则在动作集中随机选择一个动作作为s,反之则选择argmax q(s,a)作为s;第二循环单元45,用于构建第二循环体:建立基于安全指标的单次布跨数学模型,将初始化温度、退火参数、初始状态、当前状态、当前选择的动作、下一状态和下一选择的动作作为模拟退火数学模型的输入信息,求解模拟退火数学模型得到初始状态对应的布跨结果和反馈奖励;第二循环判断单元46,用于重复执行第二循环体,直到第二循环体内的下一状态为截止状态,得到一次布跨策略价值结果。
[0189]
在本公开的一种具体实施方式中,第二循环单元45包括:
[0190]
第一执行单元451,用于执行当前选择的动作,当前状态转移到下一状态,获得反馈奖励,并将下一状态与当前状态转换为桥墩坐标;第二子计算单元452,用于在下一状态下,根据预设公式集计算动作集中每个动作所对应的桥梁安全指标,安全指标包括墩顶横向位移量、梁体竖向挠度和桥面高程坡度,安全指标由第一信息和第三信息计算得到;第一逻辑子判断单元453,用于判断桥梁安全指标是否符合预设设计规则,若不合规,则将不符合桥梁安全指标的动作在动作集中删去,预设设计规则为桥梁设计规范标准;第一更新单元454,用于根据预设更新函数关系,对q表与e表进行更新;第二更新单元455,用于更新当前状态为下一状态,更新当前选择的动作为下一选择的动作。
[0191]
在本公开的一种具体实施方式中,布跨分析单元5包括:
[0192]
第一建立单元51,用于根据第一信息,建立alphago数学模型的根节点,根节点为桥梁起始坐标信息;第三循环单元52,用于构建第三循环体:基于策略价值网络、动作集和alphago数学模型建立节点扩展数学模型,求解节点扩展数学模型得到根节点下的最优布跨方式的一个子节点;第三循环判断单元53,用于重复执行第三循环体,直到节点扩展数学模型已计算到桥梁终止,得到第四信息。
[0193]
在本公开的一种具体实施方式中,第三循环单元52包括:
[0194]
第三子计算单元531,用于根据第一信息和第三信息,计算得到每个子节点对应的安全指标,安全指标包括墩顶横向位移量、梁体竖向挠度和桥面高程坡度;第二逻辑子判断单元532,用于判断每个子节点桥梁安全指标是否符合预设设计规则,若不合规,若不符合预设设计规则,则删除不符合预设设计规则的安全指标对应的子节点,预设设计规则为桥梁设计规范标准;第三逻辑子判断单元533,用于若子节点的总数目为零,则返回至上一级的节点重新进行执行第三循环体;第四子计算单元534,用于对每个子节点,采用uct算法进行模拟计算,并得到uct算法选择出最优的一个子节点,最优的一个子节点内包含的一个桥墩坐标信息和桥墩里程信息;第四逻辑子判断单元535,用于对比最优的一个子节点与策略价值网络中对应的桥墩坐标和桥墩里程,得到累计奖励最大的桥墩坐标和桥墩里程,并最优的一个子节点的内容为更新累计奖励最大的桥墩坐标和桥墩里程。
[0195]
需要说明的是,关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0196]
实施例3:
[0197]
相应于上面的方法实施例,本实施例中还提供了一种桥梁布跨设备,下文描述的一种桥梁布跨设备与上文描述的一种桥梁布跨方法可相互对应参照。
[0198]
图8是根据示例性实施例示出的一种桥梁布跨设备800的框图。如图8所示,该桥梁布跨设备800可以包括:处理器801,存储器802。该桥梁布跨设备800还可以包括多媒体组件803,输入/输出(i/o)接口804,以及通信组件805中的一者或多者。
[0199]
其中,处理器801用于控制该桥梁布跨设备800的整体操作,以完成上述的桥梁布跨方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该桥梁布跨设备800的操作,这些数据例如可以包括用于在该桥梁布跨设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read

only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read

only memory,简称eprom),可编程只读存储器(programmable read

only memory,简称prom),只读存储器(read

only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该桥梁布跨设备800与
其他设备之间进行有线或无线通信。无线通信,例如wi

f i,蓝牙,近场通信(near fieldcommunication,简称nfc),2g、3g或4g,或它们中的一种或几种的组合,因此相应的该通信组件805可以包括:wi

fi模块,蓝牙模块,nfc模块。
[0200]
在一示例性实施例中,桥梁布跨设备800可以被一个或多个应用专用集成电路(application specific integrated circuit,简称asic)、数字信号处理器(digitalsignal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的桥梁布跨方法。
[0201]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的桥梁布跨方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器802,上述程序指令可由桥梁布跨设备800的处理器801执行以完成上述的桥梁布跨方法。
[0202]
实施例4:
[0203]
相应于上面的方法实施例,本实施例中还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种桥梁布跨方法可相互对应参照。
[0204]
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的桥梁布跨方法的步骤。
[0205]
该可读存储介质具体可以为u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
[0206]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0207]
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献