多模型生成对抗网络人机互动图像描述系统的服务机器人的制作方法

2022-11-14 21:53:59 来源：中国专利 TAG：

1.本发明属于机器人的智能服务应用领域。

背景技术：

2.服务型机器人是未来市场中的一大趋势，在人力资源昂贵且匮乏的情况下，将机器人引进日常生活中便是能有效提升生活便利的一个方式。特别在于，社会存在着许多需要导盲帮助的弱势族群，由于科技进步，导盲机器人逐渐受到企业的高度关注。
3.传统的导盲机器人只能提供视障者周围是否有人的提醒，但无法判断来员是否与该视障者有所关联，而需由该来员主动对话，才能进行下一步沟通。
4.为此，要促进人机互动的最佳方式，乃是希望导盲机器人能通过口语的方式，主动提供该视障者有关该来员的信息，才是最符合人类直观的沟通方法。
5.由于人工智能的发展，利用机器学习来提高导盲机器人的能力，乃为业界发展的主要趋势，由于技术的逐渐成熟，对于环境的识别，已经迈向实用的阶段。
6.然而，目前的训练方法，只能令机器人发出模糊笼统的语句，并无法调整句子的变化性与自然性，故视障者并无法由导盲机器人发出的语句，判断来员的身份，或是前方人员的动作，而仍需由他人提供协助，无法满足需求。
7.为此，发明人改善训练方法，采用多模型分析以及生成对抗网络(gan,generative adversarial network)技术学习，得以更精确用自然语言来描述图像，提高语句的变化性与准确性，满足视障者的需求。

技术实现要素：

8.本发明的目的在于提供一种多模型生成对抗网络人机互动图像描述系统的服务机器人，其利用生成对抗网络结合多模型的学习，而能以自然语言准确与多变化的描述图像，为弱势族群提供有效的帮助。
9.为了达到以上目的，本发明采用的技术方案是：
10.一种多模型生成对抗网络人机互动图像描述系统的服务机器人，该机器人包括有：视觉单元，用来记录视觉图像；多模型图像信息模块(multi-model image caption module)，用来记录该图像内容所包含对象的各种模型信息；多模型信息描述模块(multi-model informative caption module)，用来提供该多模型图像信息模块的各种该模型信息的描述信息；计算单元，连接该视觉单元、该多模型图像信息模块与该多模型信息描述模块，通过生成对抗网络，自该视觉单元记录的该视觉图像中提取相关该模型信息放入该多模型图像信息模块中，再根据该模型信息产生相关的该描述信息放入该多模型信息描述模块中；语音单元，连接该计算单元，通过语音输出该描述信息。
附图说明
11.图1为本发明的系统架构图；以及
12.图2为本发明的方法示意图。
13.附图标记说明：100-机器人；110-视觉单元；120-多模型图像信息模块；130-多模型信息描述模块；140-计算单元；150-语音单元；160-生成对抗网络；200-图像；300-来员；310-脸部区域；311-身份识别；312-外观信息；320-肢体区域；321-动作识别；322-行为信息；400-视障者。
具体实施方式
14.参见附图1所示，本发明提供一种多模型生成对抗网络人机互动图像描述系统的服务机器人100，该机器人100包括有：
15.视觉单元110，用来记录视觉图像；
16.多模型图像信息模块120，用来记录该图像内容所包含对象的各种模型信息；
17.多模型信息描述模块130，用来提供该多模型图像信息模块120的各种该模型信息的描述信息；
18.计算单元140，连接该视觉单元110、该多模型图像信息模块120与该多模型信息描述模块130；
19.语音单元150，连接该计算单元140，通过语音输出该描述信息。
20.根据前述的系统，该计算单元140进一步连接生成对抗网络160，其首先由该视觉单元110拍摄当前的该视觉图像，然后自该视觉图像中提取相关该模型信息放入该多模型图像信息模块120中，再根据该模型信息产生相关的该描述信息放入该多模型信息描述模块130中，最后通过该语音单元150将该描述信息以语音输出。
21.如此，本发明可以针对该机器人100面对的人物，进行精确识别，提取足以描述该人物身份、动作的相关该描述信息，然后利用人类所能认知具有意义且信息丰富的句子。
22.为了提高作业效率，本发明的该多模型图像信息模块120，记录有新颖的对象标题、信息描述、光学字符识别和图像标题。
23.同样地，为使该机器人100得以用自然方法进行描述，该多模型信息描述模块130，整合身份识别、表情识别、年龄识别、图像描述、密集图像描述以及图像分割六种信息。
24.请参阅图2所示，本发明的多模型图像信息描述方法，当该机器人100拍摄当前的该图像200时，会以由下而上关注(bottom-up attention)的方式，首先针对该图像200中的主要区域，找出来员300位置，然后进一步撷取该来员300的细部特征，例如脸部区域310，根据五官面相、表情
…
等，进行身份识别311，例如而后转换为描述语句，让该机器人100以语音描述出该来员300的外观信息312，或该人员的健康、情绪
…
等；更进一步，可以撷取该来员300的肢体区域320，进行动作识别321，然后以语音描述出该来员的行为信息322，为视障者400或等弱势族群提供协助。
25.以上实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明精神实质所做的等效变化或修饰，都应涵盖在本发明的保护范围内。

技术特征：
1.一种多模型生成对抗网络人机互动图像描述系统的服务机器人，其特征在于，该机器人包括有：视觉单元，用来记录视觉图像；多模型图像信息模块，用来记录该图像内容所包含对象的各种模型信息；多模型信息描述模块，用来提供该多模型图像信息模块的各种该模型信息的描述信息；计算单元，连接该视觉单元、该多模型图像信息模块与该多模型信息描述模块，通过生成对抗网络，自该视觉单元记录的该视觉图像中提取相关该模型信息放入该多模型图像信息模块中，再根据该模型信息产生相关的该描述信息放入该多模型信息描述模块中；语音单元，连接该计算单元，通过语音输出该描述信息。2.如权利要求1所述的一种多模型生成对抗网络人机互动图像描述系统的服务机器人，其特征在于，该多模型图像信息模块，记录有新颖的对象标题、信息描述、光学字符识别和图像标题。3.如权利要求1所述的一种多模型生成对抗网络人机互动图像描述系统的服务机器人，其特征在于，该多模型信息描述模块，整合身份识别、表情识别、年龄识别、图像描述、密集图像描述以及图像分割六种信息。

技术总结
本发明是一种多模型生成对抗网络人机互动图像描述系统的服务机器人，该机器人包括有：视觉单元，用来记录视觉图像；多模型图像信息模块，用来记录该图像内容所包含对象的各种模型信息；多模型信息描述模块，用来提供该多模型图像信息模块的各种该模型信息的描述信息；计算单元，连接该视觉单元、该多模型图像信息模块与该多模型信息描述模块，通过生成对抗网络，自该视觉单元记录的该视觉图像中提取相关该模型信息放入该多模型图像信息模块中，再根据该模型信息产生相关的该描述信息放入该多模型信息描述模块中；语音单元，连接该计算单元，通过语音输出该描述信息。通过语音输出该描述信息。通过语音输出该描述信息。

技术研发人员：罗仁权颜炳郎
受保护的技术使用者：颜炳郎
技术研发日：2021.04.23
技术公布日：2022/11/10

再多了解一些

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于数据蒸馏的方法、电子设备和计算机程序产品与流程

多模型生成对抗网络人机互动图像描述系统的服务机器人的制作方法

相关文献

最热文献