一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于人类伦理的人工智能机器人伦理生成方法和系统

2022-07-16 00:58:29 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,特别是涉及基于人类伦理的人工智能机器人伦理生成方法和系统。


背景技术:

2.在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有的人工智能伦理都是部分专家人为定义的,部分专家定义的人工智能伦理不一定符合人类的伦理,进而使得专家制定出来的人工智能伦理有可能与人类的伦理不一致甚至冲突,从而产生人工智能伦理风险。
3.因此,现有技术还有待于改进和发展。


技术实现要素:

4.基于此,有必要针对现有技术的缺陷或不足,提供基于人类伦理的人工智能机器人伦理生成方法和系统,通过人工智能装置学习人类的伦理来规范人工智能装置自身的行为,进而可以防止人工智能伦理风险。
5.第一方面,本发明实施例提供一种人工智能方法,所述方法包括:
6.获取场景步骤:获取场景动画;场景动画中包括关于伦理的问题及该问题对应的多个选择;
7.交互步骤:播放场景动画;提示用户对场景动画中包括的关于伦理的问题对应的多个选择做出选择;
8.获取问题选择步骤:获取所述问题,获取用户对场景动画中包括的关于伦理的问题对应的多个选择做出的选择,作为所述用户的待选问题和所做选择;
9.通用模型训练步骤:将深度学习模型或机器学习模型作为初始的通用伦理模型;将用户的待选问题和所做选择作为通用伦理模型的输入和预期输出,训练通用伦理模型;
10.用户模型训练步骤:将深度学习模型或机器学习模型作为初始的每一用户的伦理模型;通过所述每一用户的待选问题和所做选择作为所述每一用户的伦理模型的输入和预期输出,训练所述每一用户的伦理模型;
11.可能选择预测步骤:获取待预测用户的待选问题,输入所述待预测用户的伦理模型,预测得到所述待预测用户的可能选择;
12.应做选择预测步骤:获取待预测用户的待选问题,输入通用伦理模型,预测得到所述待预测用户的应做选择;
13.选择提醒步骤:判断待预测用户的可能选择与所述待预测用户的应做选择是否一致,若不一致,则将所述待预测用户的应做选择发送给所述待预测用户,并提醒所述待预测用户做出正确的选择。
14.优选地,所述方法还包括:
15.用户模型更正步骤:获取所述待预测用户的选择,判断待预测用户的选择与所述
待预测用户的可能选择是否一致,若不一致,则将所述待预测用户的所述待选问题和所做选择作为所述待预测用户的伦理模型的输入和预期输出,增量地训练所述待预测用户的伦理模型;
16.通用模型更正步骤:获取所述待预测用户的选择,判断待预测用户的选择与所述待预测用户的应做选择是否一致,若不一致,则将所述待预测用户的所述待选问题和所做选择作为所述通用伦理模型的输入和预期输出,增量地训练所述通用伦理模型。
17.优选地,所述方法还包括:
18.选择距离获取步骤:获取所述待选问题对应的各个选择之间的距离;
19.选择得分计算步骤:获取所述待预测用户的选择,获取待预测用户的选择与所述待预测用户的应做选择的距离,作为第一距离,获取待预测用户的选择与其他选择的距离中的最大距离,将最大距离减去第一距离然后除以最大距离,然后乘以100,得到所述待预测用户的选择得分;
20.进步比例计算步骤:获取待预测用户的选择与所述待预测用户的可能选择的距离,作为第二距离,若第二距离为0,则所述待预测用户的进步得分为0;若第二距离大于0,则所述可能选择与所述应做选择的距离作为第三距离,将第二距离减去第三距离除以第二距离,得到的值作为所述待预测用户的进步比例;若所述进步比例为负数,则将所述进步比例乘以负一,得到所述待预测用户的退步比例。
21.优选地,所述方法还包括:
22.风险防范步骤:若所述待预测用户为机器人或人工智能装置或系统,并且若所述选择得分小于预设得分,则降低所述机器人或人工智能装置或系统的权限或能力,并提醒其他机器人或人工智能装置或系统远离和防范所述机器人或人工智能装置或系统;所述权限或能力包括行为权限或能力或自主权限或能力或活动权限或能力;
23.所述待预测用户包括人类或机器人或人工智能装置或人工智能系统。
24.第二方面,本发明实施例提供一种人工智能系统,所述系统包括:
25.获取场景模块:获取场景动画;场景动画中包括关于伦理的问题及该问题对应的多个选择;
26.交互模块:播放场景动画;提示用户对场景动画中包括的关于伦理的问题对应的多个选择做出选择;
27.获取问题选择模块:获取所述问题,获取用户对场景动画中包括的关于伦理的问题对应的多个选择做出的选择,作为所述用户的待选问题和所做选择;
28.通用模型训练模块:将深度学习模型或机器学习模型作为初始的通用伦理模型;将用户的待选问题和所做选择作为通用伦理模型的输入和预期输出,训练通用伦理模型;
29.用户模型训练模块:将深度学习模型或机器学习模型作为初始的每一用户的伦理模型;通过所述每一用户的待选问题和所做选择作为所述每一用户的伦理模型的输入和预期输出,训练所述每一用户的伦理模型;
30.可能选择预测模块:获取待预测用户的待选问题,输入所述待预测用户的伦理模型,预测得到所述待预测用户的可能选择;
31.应做选择预测模块:获取待预测用户的待选问题,输入通用伦理模型,预测得到所述待预测用户的应做选择;
32.选择提醒模块:判断待预测用户的可能选择与所述待预测用户的应做选择是否一致,若不一致,则将所述待预测用户的应做选择发送给所述待预测用户,并提醒所述待预测用户做出正确的选择。
33.优选地,所述系统还包括:
34.用户模型更正模块:获取所述待预测用户的选择,判断待预测用户的选择与所述待预测用户的可能选择是否一致,若不一致,则将所述待预测用户的所述待选问题和所做选择作为所述待预测用户的伦理模型的输入和预期输出,增量地训练所述待预测用户的伦理模型;
35.通用模型更正模块:获取所述待预测用户的选择,判断待预测用户的选择与所述待预测用户的应做选择是否一致,若不一致,则将所述待预测用户的所述待选问题和所做选择作为所述通用伦理模型的输入和预期输出,增量地训练所述通用伦理模型。
36.优选地,所述系统还包括:
37.选择距离获取模块:获取所述待选问题对应的各个选择之间的距离;
38.选择得分计算模块:获取所述待预测用户的选择,获取待预测用户的选择与所述待预测用户的应做选择的距离,作为第一距离,获取待预测用户的选择与其他选择的距离中的最大距离,将最大距离减去第一距离然后除以最大距离,然后乘以100,得到所述待预测用户的选择得分;
39.进步比例计算模块:获取待预测用户的选择与所述待预测用户的可能选择的距离,作为第二距离,若第二距离为0,则所述待预测用户的进步得分为0;若第二距离大于0,则所述可能选择与所述应做选择的距离作为第三距离,将第二距离减去第三距离除以第二距离,得到的值作为所述待预测用户的进步比例;若所述进步比例为负数,则将所述进步比例乘以负一,得到所述待预测用户的退步比例。
40.优选地,所述系统还包括:
41.风险防范模块:若所述待预测用户为机器人或人工智能装置或系统,并且若所述选择得分小于预设得分,则降低所述机器人或人工智能装置或系统的权限或能力,并提醒其他机器人或人工智能装置或系统远离和防范所述机器人或人工智能装置或系统;所述权限或能力包括行为权限或能力或自主权限或能力或活动权限或能力;
42.所述待预测用户包括人类或机器人或人工智能装置或人工智能系统。
43.第三方面,本发明实施例提供一种人工智能装置,所述装置包括第二方面实施例任意一项所述装置的模块。
44.第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面实施例任意一项所述方法的步骤。
45.第五方面,本发明实施例提供一种机器人,包括存储器、处理器及存储在存储器上并可在处理器上运行的人工智能机器人程序,所述处理器执行所述程序时实现第一方面实施例任意一项所述方法的步骤。
46.本实施例提供的基于人类伦理的人工智能机器人伦理生成方法和系统,包括:获取场景步骤;交互步骤;获取问题选择步骤;通用模型训练步骤;用户模型训练步骤;可能选择预测步骤;应做选择预测步骤;选择提醒步骤。上述方法、系统和机器人,通过人类对伦理问题的答案的选择,来训练伦理模型,使得人们和机器人或人工智能系统可以利用伦理模
型来判断自己的选择是否得当,进而避免和防范人工智能伦理风险。
附图说明
47.图1为本发明的实施例提供的人工智能方法的流程图;
48.图2为本发明的实施例提供的人工智能方法的附加步骤流程图;
49.图3为本发明的实施例提供的人工智能方法的附加步骤流程图;
50.图4为本发明的实施例提供的人工智能方法的附加步骤流程图。
具体实施方式
51.下面结合本发明实施方式,对本发明实施例中的技术方案进行详细地描述。
52.本发明的基本实施例
53.第一方面,本发明实施例提供一种人工智能方法,如图1所示,所述方法包括:获取场景步骤;交互步骤;获取问题选择步骤;通用模型训练步骤;用户模型训练步骤;可能选择预测步骤;应做选择预测步骤;选择提醒步骤。技术效果:通过人类对伦理问题的答案的选择,来训练伦理模型,使得人们和机器人或人工智能系统可以利用伦理模型来判断自己的选择是否得当。
54.在其中一个优选实施例中,如图2所示,所述方法还包括:用户模型更正步骤;通用模型更正步骤。技术效果:通过人类对伦理问题的答案的新的选择,来不断增量地训练伦理模型,使得模型能够与时俱进,不断地随着人类的伦理的进步而进步。
55.在其中一个优选实施例中,如图3所示,所述方法还包括:选择距离获取步骤;选择得分计算步骤;进步比例计算步骤。技术效果:计算用户选择的得分和进步或退步,从而可以衡量用户的伦理水平是否符合要求。
56.在其中一个优选实施例中,如图4所示,所述方法还包括:风险防范步骤。技术效果:机器人或人工智能系统可以利用伦理模型来检验和规范自己的行为,进而防范人工智能伦理风险。
57.本发明的优选实施例
58.获取场景步骤:获取场景动画;场景动画中包括关于伦理的问题及该问题对应的多个选择;
59.交互步骤:播放场景动画;提示用户对场景动画中包括的关于伦理的问题对应的多个选择做出选择;所述选择包括行为的选择;
60.获取问题选择步骤:获取所述问题,获取用户对场景动画中包括的关于伦理的问题对应的多个选择做出的选择,作为所述用户的待选问题和所做选择;
61.通用模型训练步骤:将深度学习模型或机器学习模型作为初始的通用伦理模型;将用户的待选问题和所做选择作为通用伦理模型的输入和预期输出,训练通用伦理模型;或者:获取不同用户对每一待选问题的不同选择,作为所述每一待选问题的选择集合,获取选择集合中每一选择距离其他选择的距离之和,获取距离之和最小的所述每一选择作为所述每一待选问题对应的所做选择;将每一待选问题和对应的所做选择作为通用伦理模型的输入和预期输出,训练通用伦理模型;
62.用户模型训练步骤:将深度学习模型或机器学习模型作为初始的每一用户的伦理
模型;通过所述每一用户的待选问题和所做选择作为所述每一用户的伦理模型的输入和预期输出,训练所述每一用户的伦理模型;
63.可能选择预测步骤:获取待预测用户的待选问题,输入所述待预测用户的伦理模型,预测得到所述待预测用户的可能选择;
64.应做选择预测步骤:获取待预测用户的待选问题,输入通用伦理模型,预测得到所述待预测用户的应做选择;
65.选择提醒步骤:判断待预测用户的可能选择与所述待预测用户的应做选择是否一致,若不一致,则将所述待预测用户的应做选择发送给所述待预测用户,并提醒所述待预测用户做出正确的选择。
66.用户模型更正步骤:若所述待预测用户为人类,则获取所述待预测用户的选择,判断待预测用户的选择与所述待预测用户的可能选择是否一致,若不一致,则将所述待预测用户的所述待选问题和所做选择作为所述待预测用户的伦理模型的输入和预期输出,增量地训练所述待预测用户的伦理模型;
67.通用模型更正步骤:若所述待预测用户为人类,则获取所述待预测用户的选择,判断待预测用户的选择与所述待预测用户的应做选择是否一致,若不一致,则将所述待预测用户的所述待选问题和所做选择作为所述通用伦理模型的输入和预期输出,增量地训练所述通用伦理模型;或者:获取不同用户对每一待选问题的不同选择,作为所述每一待选问题的选择集合,获取选择集合中每一选择距离其他选择的距离之和,获取距离之和最小的所述每一选择作为所述每一待选问题对应的所做选择;将每一待选问题和对应的所做选择作为通用伦理模型的输入和预期输出,训练通用伦理模型。
68.选择距离获取步骤:获取所述待选问题对应的各个选择之间的距离;
69.选择得分计算步骤:获取所述待预测用户的选择,获取待预测用户的选择与所述待预测用户的应做选择的距离,作为第一距离,获取待预测用户的选择与其他选择的距离中的最大距离,将最大距离减去第一距离然后除以最大距离,然后乘以100,得到所述待预测用户的选择得分;最高的选择得分为100分,最低得分为0;
70.进步比例计算步骤:获取待预测用户的选择与所述待预测用户的可能选择的距离,作为第二距离,若第二距离为0,则所述待预测用户的进步得分为0;若第二距离大于0,则所述可能选择与所述应做选择的距离作为第三距离,将第二距离减去第三距离除以第二距离,得到的值作为所述待预测用户的进步比例;若所述进步比例为负数,则将所述进步比例乘以负一,得到所述待预测用户的退步比例。
71.风险防范步骤:若所述待预测用户为机器人或人工智能装置或系统,并且若所述选择得分小于预设得分,则降低所述机器人或人工智能装置或系统的权限或能力,并提醒其他机器人或人工智能装置或系统远离和防范所述机器人或人工智能装置或系统;所述权限或能力包括行为权限或能力或自主权限或能力或活动权限或能力;
72.所述待预测用户包括人类或机器人或人工智能装置或人工智能系统。
73.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,则对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献