一种绘本识别方法和装置与流程

2023-03-16 07:09:58 来源：中国专利 TAG：

1.本发明涉及智能机器人领域，尤其涉及一种绘本识别方法和装置。

背景技术：

2.绘本，英文称picture book，指一类以绘画为主，并附有少量文字的书籍。绘本不仅可用于讲故事、学知识，而且可以全面帮助孩子建构精神，培养多元智能。
3.现有技术中的绘本阅读方法是通过摄像头采集绘本照片，识别绘本照片，得到与绘本照片对应的绘本id并根据id获取音频访问地址，然后播放相应的音频文件。在绘本识别的环节上，如何准确获取当前用户的动作行为，如判断用户何时翻页，当前的技术方案会占用大量的计算资源和带宽，且反馈速度缓慢，降低用户体验。

技术实现要素：

4.本发明所要解决的技术问题之一是需要提供一种识别速度快，降低计算成本的绘本识别方法和装置。
5.为了解决上述技术问题，本技术的实施例首先提供了一种绘本识别方法，包括：按照预设的采集频率，采集当前正在展示的绘本内页的多幅图像；基于获取的图像信息，初步判断此时用户阅读该绘本的动作模式，所述动作模式包括翻页模式和指读模式；针对确定的动作模式，从所述多幅图像中删除无效图像，并识别该动作模式下的动作状态，所述动作状态用来指示用户在相应的动作模式下所对应的时间阶段。
6.优选地，通过如下步骤初步判断当前用户阅读该绘本的动作模式：判断采集到的多幅图像中是否存在前后两幅图像发生变化，若存在，则判定为翻页模式，否则，则判定为指读模式。
7.优选地，在所述翻页模式下，通过如下步骤识别该动作模式下的动作状态：从多幅图像中选取符合设定条件的连续两幅图像，获取对应翻页模式下的两个设定阈值；对这两幅图像进行数据处理计算，通过比对计算结果和这两个设定阈值来确定当前翻页模式下的动作状态，所述翻页模式下的动作状态包括翻页开始、翻页结束但未静止和翻页结束且静止。
8.优选地，在翻页模式下，对这两幅图像进行二值化处理，将二者进行差值运算；若计算结果大于第一阈值，则识别为翻页开始；若计算结果大于第二阈值且小于第一阈值，则识别为翻页结束但未静止；若计算结果小于第二阈值，则识别为翻页结束且静止，其中，所述第一阈值大于第二阈值。
9.优选地，在所述指读模式下，通过如下步骤识别该动作模式下的动作状态，从多幅图像中选取符合设定条件的连续两幅图像，获取对应指读模式下的两个设定阈值；对这两幅图像进行数据处理计算，通过比对计算结果和这两个设定阈值来确定当前指读模式下的动作状态，所述指读模式下的动作状态包括手指正在移动、手指移动结束但并未静止和手指移动静止。
10.优选地，在指读模式下，对这两幅图像进行二值化处理，将二者进行差值运算；若计算结果大于第一阈值，则识别为手指正在移动；若计算结果大于第二阈值且小于第一阈值，则识别为手指移动结束但并未静止；若计算结果小于第二阈值，则识别为手指移动静止，其中，所述第一阈值大于第二阈值。
11.优选地，本发明还提供了一种程序产品，其上存储有可执行方法步骤的程序代码。
12.另一方面，本发明还提供了一种绘本识别装置，该装置包括：采集设备，其按照预设的采集频率，采集当前正在展示的绘本内页的多幅图像；动作模式判断模块，其基于获取的图像信息，初步判断此时用户阅读该绘本的动作模式，所述动作模式包括翻页模式和指读模式；动作状态识别模块，其针对确定的动作模式，从所述多幅图像中删除无效图像，并识别该动作模式下的动作状态，所述动作状态用来指示用户在相应的动作模式下所对应的时间阶段。
13.优选地，所述动作模式判断模块，其判断采集到的多幅图像中是否存在前后两幅图像发生变化，若存在，则判定为翻页模式，否则，则判定为指读模式。
14.优选地，所述动作状态识别模块在所述翻页模式下，通过如下步骤识别该动作模式下的动作状态：从多幅图像中选取符合设定条件的连续两幅图像，获取对应翻页模式下的两个设定阈值；对这两幅图像进行数据处理计算，通过比对计算结果和这两个设定阈值来确定当前翻页模式下的动作状态，所述翻页模式下的动作状态包括翻页开始、翻页结束但未静止和翻页结束且静止。
15.优选地，所述动作状态识别模块，其对这两幅图像进行二值化处理，将二者进行差值运算；若计算结果大于第一阈值，则识别为翻页开始；若计算结果大于第二阈值且小于第一阈值，则识别为翻页结束但未静止；若计算结果小于第二阈值，则识别为翻页结束且静止，其中，所述第一阈值大于第二阈值。
16.优选地，所述动作状态识别模块在所述指读模式下，通过如下步骤识别该动作模式下的动作状态：从多幅图像中选取符合设定条件的连续两幅图像，获取对应指读模式下的两个设定阈值；对这两幅图像进行数据处理计算，通过比对计算结果和这两个设定阈值来确定当前指读模式下的动作状态，所述指读模式下的动作状态包括手指正在移动、手指移动结束但并未静止和手指移动静止。
17.优选地，所述动作状态识别模块，其对这两幅图像进行二值化处理，将二者进行差值运算；若计算结果大于第一阈值，则识别为手指正在移动；若计算结果大于第二阈值且小于第一阈值，则识别为手指移动结束但并未静止；若计算结果小于第二阈值，则识别为手指移动静止，其中，所述第一阈值大于第二阈值。
18.与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：
19.通过本技术实施例的绘本识别方法，按照预设的采集频率，采集当前正在展示的绘本内页的多幅图像；基于获取的图像信息，初步判断此时用户阅读该绘本的动作模式，所述动作模式包括翻页模式和指读模式；针对确定的动作模式，从所述多幅图像中删除无效图像，并识别该动作模式下的动作状态，所述动作状态用来指示用户在相应的动作模式下所对应的时间阶段。最终不仅确定用户何时翻页何时指读，还能够锁定具体阅读位置并同步输出对应的音频文件，使得绘本阅读的过程更为自然流畅。另外，在此过程中还降低了计
算成本。
20.本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。
附图说明
21.附图用来提供对本技术的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本技术实施例的附图与本技术的实施例一起用于解释本技术的技术方案，但并不构成对本技术技术方案的限制。
22.图1为本发明实施例的绘本识别方法的应用环境示意图。
23.图2为本技术实施例的绘本识别方法的步骤图。
24.图3为本技术实施例的绘本识别方法的具体流程图。
25.图4为本技术实施例的绘本识别方法中检测翻页模式下的动作状态的流程图示意图。
26.图5为本技术实施例的绘本识别方法中检测指读模式下的动作状态的流程图示意图。
27.图6为本技术实施例的绘本识别装置的模块框图。
具体实施方式
28.以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本技术实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。
29.同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。
30.另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
31.绘本，英文称picture book，指一类以绘画为主，并附有少量文字的书籍。绘本不仅可用于讲故事、学知识，而且可以全面帮助孩子建构精神，培养多元智能。
32.现有技术中的绘本阅读方法是通过摄像头采集绘本照片，识别绘本照片，得到与绘本照片对应的绘本id并根据id获取音频访问地址，然后播放相应的音频文件。在绘本识别的环节上，如何准确获取当前用户的动作行为，如判断用户何时翻页，当前的技术方案会占用大量的计算资源和带宽，且反馈速度缓慢，降低用户体验。
33.为了解决上述技术问题，本发明实施例提出了一种绘本识别方法和装置。该方法及装置是基于绘本阅读机器人多种功能中的绘本识别功能环境下实施的，能够通过采集到用户正在展示的绘本内页图像信息，并根据这些图像信息识别出用户当前的阅读模式，以及进一步准确识别出相应阅读模式下的具体动作状态。由此，本发明仅利用用户在绘本阅
读过程中正在指示的内页图像，结合图像处理技术，高效实现了翻页动作的精细化识别。不仅资源占用率低、识别速度快、准确率高，还能够识别翻页开始、翻页结束但未静止、翻页结束且静止、手指正在移动、手指移动结束但并未静止和手指移动静止等精细化绘本阅读动作，进而基于该精细化绘本阅读动作识别结果，确定当前时刻用户的绘本阅读页面以及该页面中的具体阅读位置，并同步输出具体阅读位置对应的音频文件，以达到自然流畅阅读绘本的目的。
34.为了更加清晰的表达，需要在实施例前进行如下说明：
35.本发明提到的绘本阅读机器人支持多模态人机交互，具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等ai能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验。
36.绘本阅读机器人获取来自用户的多模态输入数据，在云端大脑的能力支持下，对多模态数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策并输出与决策结果匹配的多模态输出数据的过程。
37.所提到的云端大脑为提供所述绘本阅读机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策所述绘本阅读机器人输出的多模态(输出)信息。
38.图1为本发明实施例的绘本识别方法的应用环境示意图。如图1所示，在绘本阅读机器人102启动后，绘本阅读机器人102采集用户101输入的多模态输入信息，并利用机器人102自身的决策能力对该输入信息进行分析，判断当前输入信息中是否含有绘本阅读需求。若含有绘本阅读需求，则启动绘本阅读机器人102的图片采集设备(例如：摄像头、扫描仪等设备)，并采集绘本103中的目标内页图像，利用云端服务器104对当前用户的翻页动作进行检测，而后将检测结果反馈至阅读机器人102，待阅读机器人102获取到阅读动作识别结果后，结合当前绘本资源内容库，确定并更新用户101当前正在阅读的内容，从而利用绘本阅读机器人102的输出设备将与当前用户阅读内容相匹配的多模态输出信息进行相应的展示并演绎。
39.举例来说，当前用户101想要正在阅读或听读绘本103中“三只小熊”的故事的第5页内容时，绘本阅读机器人102实时采集用户正在展示的故事内页图像，并利用云端服务器104对当前用户的阅读动作进行检测，从而将检测结果反馈给绘本阅读机器人102。绘本阅读机器人102接收到当前的阅读动作识别结果后，如果当前动作为翻页结束且静止，那么绘本阅读机器人102立即向用户101展示故事书中第6页的内容并演绎相应的绘本内容。再比如，如果绘本阅读机器人102接收到当前的阅读动作识别结果后，确定当前动作为手指正在移动，那么绘本阅读机器人102向用户101展示并演绎与当前手指移动动作所指示的图像相匹配的故事内容。
40.这样，通过上述方式完成了绘本内页图像的采集和阅读动作检测后，向用户101展示了相对应的绘本演绎结果。
41.图2为本发明实施例的绘本识别方法的步骤图。如图2所示，上述绘本识别方法包括如下步骤。首先，步骤s210按照预设的采集频率，采集当前正在展示的绘本内页的多幅图像。而后，步骤s220基于获取的多幅图像信息，初步判断当前用户阅读该绘本的动作模式。其中，动作模式包括：翻页模式和指读模式。最后，步骤s230针对当前动作模式，从步骤s210
获得的多幅图像中删除无效图像，并根据筛选出的有效图像，识别当前动作模式下的动作状态。其中，动作状态用来指示用户在相应的动作模式下所对应的时间阶段。为了提高故事内容播放节点与用户阅读位置的匹配度，本发明实施例会将每种动作模式划分为不同的时间阶段，每个时间阶段对应有相应的动作状态。也就是说，动作状态用来指示当前(阅读)时刻在相应动作模式下所对应的时间阶段。
42.具体地，将用户在阅读绘本过程中相应动作模式下的动作状态进行精细化划分，得到三个具体动作状态。按照每个具体动作状态在当前(阅读)时刻相应动作模式下所对应的时间阶段出现的先后顺序，将这三个具体动作状态分别标记为第一状态、第二状态和第三状态。其中，在翻页模式下，第一状态表征翻页开始动作状态、第二状态表征翻页结束但未静止动作状态、第三状态表征翻页结束且静止动作状态；在指读模式下，第一状态表征手指正在移动动作状态、第二状态表征手指移动结束但并未静止动作状态、第三状态表征手指移动静止动作状态。
43.图3为本技术实施例的绘本识别方法的具体流程图。下面结合图2和图3，对上述绘本识别方法的流程进行具体说明。
44.步骤s301在用户101具有阅读需求并正在阅读过程中，利用绘本阅读机器人102的图片采集设备按照预设的采集频率，连续采集当前用户101在阅读过程中正在展示的绘本内页的多幅图像。在步骤s301中，当绘本阅读机器人102获得多幅含有用户当前阅读动作信息的待检测图像后，会将采集到的多幅待检测图像发送至云端服务器104，以由云端服务器对用户当前的阅读动作模式及相应模式下的具体动作状态进行检测。
45.步骤s302，云端服务器104在获得步骤s301采集到的多幅待检测图像后，进行图像信息读取，并根据读取到的图像信息判断当前用户在绘本阅读过程中的动作模式。具体地，在步骤s302中，在获得多幅待检测图像后，先根据每幅图像的采集时间，按照采集时间对这些图像进行编号，判断采集到的多幅图像中是否存在相邻两幅图像发生变化的情况。如果在多幅图像中，存在任意相邻图像发生变化的情况，那么判定当前用户的动作模式为翻页模式；否则，判定当前用户的动作模式为指读模式。
46.在完成动作模式确定步骤后，进入到步骤s303中。步骤s303判断当前动作模式是否为翻页模式。在步骤s303中，在当前动作模式为翻页模式时，从步骤s303转入步骤304中。步骤s304启动翻页模式动作状态检测流程，并在翻页模式动作状态检测流程结束后，由步骤s305获得翻页模式动作状态检测结果，并将当前翻页模式动作状态检测结果反馈至绘本阅读机器人102，从而进入到步骤s308。另外，在步骤s303中，在当前动作模式为指读模式时，从步骤s303转入步骤306中。步骤s306启动指读模式动作状态检测流程，并在指读模式动作状态检测流程结束后，由步骤s307获得指读模式动作状态检测结果，并将当前指读模式动作状态检测结果反馈至绘本阅读机器人102，从而进入到步骤s308。步骤s308绘本阅读机器人102接收并识别从云端服务器104发送的翻页模式动作状态检测结果或指读模式动作状态检测结果，获得相应动作模式下的具体动作状态信息，即阅读动作识别结果(阅读动作检测结果)。
47.图4为本技术实施例的绘本识别方法中检测翻页模式下的动作状态的流程图示意图。下面参考图4对上述翻页模式动作状态检测流程的实施过程进行说明。首先，步骤s401获取用来对翻页模式下的细节化动作状态进行区分的第一类配置信息。其中，第一类配置
信息包括：翻页模式第一阈值和翻页模式第二阈值。其中，翻页模式第一阈值大于翻页模式第二阈值。
48.需要说明的是，本发明实施例对第一类配置信息的存储位置不作具体限定，可以存储于云端服务器104中，也可以存储于绘本阅读机器人102的操作系统配置文件中，还可以存储于绘本阅读机器人102的本地存储器内，本领域技术人员可根据实际需求进行配置。另外，上述翻页模式第一阈值和翻页模式第二阈值是用来区分翻页模式下不同动作状态的两幅灰度图像的差值阈值，本发明对这两个阈值参数不作具体限定，本领域技术人员可根据实际需求设定这两个阈值的大小。
49.其次，步骤s402从步骤s302获得的多幅待检测图像中，选取符合第一类设定条件的连续两幅图像。在步骤s402中，需要计算每幅待检测图像的亮度值，根据每幅待检测图像的亮度值，计算相邻两幅图像的亮度值之和，基于此，筛选出亮度值之和最大的相邻图像。在选取出满足第一类设定条件的连续两幅图像后，进入到步骤s403中。
50.步骤s403对步骤s402选取的两幅图像进行数据处理，步骤s404通过比对这两幅图像的计算结果和这两个设定阈值，来确定当前翻页模式下的动作状态。优选地，在步骤s403中先对步骤s402选取的两幅图像进行编号处理，得到第一待计算图像和第二待计算图像，而后，将这两幅待计算图像分别进行二值化处理，得到二值化的第一待计算图像和二值化的第二待计算图像，从而进入到步骤s404中。
51.在步骤s404中，首先将步骤s403得到的这两幅二值化待计算图像进行差值计算，得到相应的差值计算结果，而后，将当前差值计算结果与上述翻页模式第一阈值和翻页模式第二阈值进行对比，从而根据对比结果确定当前翻页模式下的动作状态。其中，翻页模式下的动作状态包括：翻页开始、翻页结束但未静止和翻页结束且静止。
52.更进一步地说，在步骤s404中，在第一个示例中，若当前差值计算结果大于上述翻页模式第一阈值，则步骤s405将当前翻页模式下的动作状态识别为翻页开始，而后进入到步骤s408中。在步骤s404中，在第二个示例中，若当前差值计算结果大于翻页模式第二阈值且小于翻页模式第一阈值，则步骤s406将当前翻页模式下的动作状态识别为翻页结束但未静止，而后进入到步骤s408中。在步骤s404中，在第三个示例中，若当前差值计算结果小于翻页模式第二阈值，则步骤s407将当前翻页模式下的动作状态识别为翻页结束且静止，而后进入到步骤s408中。
53.在绘本阅读过程中，主要通过摄像头采集绘本照片，识别绘本照片，并利用相应的输出设备根据识别结果播放对应的音频文件。由此，准确识别翻页模式下具体的动作状态，不仅能够精确定位当前时刻绘本阅读的具体页面，还进一步在该具体页面中识别出具体阅读位置，并在识别出具体阅读位置的同时，同步输出与该具体阅读位置相匹配的音频文件，以使绘本阅读的过程更为自然流畅。
54.当识别到翻页模式下的动作状态为翻页开始动作状态时，结合翻页前后绘本页面的识别结果，对当前(阅读)时刻在翻页模式下所对应的时间阶段出现的完整翻页过程进行分析，最终根据分析结果对音频文件的输出进行调度。其中，一个完整的翻页过程由翻页开始、翻页结束但未静止和翻页结束且静止三个具体的动作状态构成。按照各个具体的动作状态出现的先后顺序，单独对每个具体的动作状态进行分析，再根据分析结果确定当前时刻绘本阅读的具体页面，并在输出设备中准备与其所对应的全部音频文件。其中，具体页面
所对应的全部音频文件是该页面中文字部分各个段落对应的音频文件的集合，每个音频文件中都具有与其所对应段落相同的标记信息，以在确定了具体阅读位置时准确匹配并同步输出对应的音频文件，从而实现翻页模式下绘本的流畅阅读。需要说明的是，标记信息根据绘本页面中文字部分各个段落的分布情况进行配置，可以按照从上到下或者从左到右的方式进行标记，本发明实施例对标记信息的配置方式不作具体限定，本领域技术人员可以根据实际需要识别的绘本类型进行设计。
55.举例来说，在翻页模式下的绘本阅读过程中，将用户当前翻到的具体绘本页面标记为第一页面，将识别到翻页开始动作状态时正在展示的具体绘本页面(翻页之前的绘本页面)标记为第二页面。由于在翻页过程中可能存在误翻页等情况(第一页面与第二页面实际上是同一具体绘本页面)。优选地，本技术实施例在确认完成了整个翻页过程后，在输出设备中同时准备第一页面和第二页面所对应的全部音频文件，直到确定最终绘本阅读的具体页面(第一页面或者第二页面)之后，删除无关的音频文件，仅保留最终绘本阅读的具体页面对应的全部音频文件作为待输出音频文件。接着，在最终绘本阅读的具体页面中确定当前具体阅读位置并根据标记信息实时同步输出相应的音频文件。由此，不但实现了绘本的流畅阅读，同时也实现了音频文件的准确输出。例如，用户正在阅读绘本《格林童话》，当前翻到的页面为“小红帽”页面，翻页动作开始时正在展示的页面为“青蛙王子”页面，此时输出设备中准备“小红帽”与“青蛙王子”页面对应的全部音频文件。当识别到翻页结束但未静止动作时，判断此时翻到的页面是“小红帽”页面还是“青蛙王子”页面。若识别到此时翻到的页面为“小红帽”页面，则保留待输出音频文件为“小红帽”页面的全部音频文件。接着，确定当前用户的具体阅读位置并根据标记信息定位相应的音频文件进行同步音频输出。若识别到此时翻到的页面为“青蛙王子”页面，则保留待输出音频文件为“青蛙王子”页面的全部音频文件，并根据当前用户的具体阅读位置定位相应的音频文件进行同步音频输出。
56.步骤s408生成表示当前翻页模式下的动作状态识别结果的识别码，由此得到翻页模式下的阅读动作检测结果，此时，翻页模式动作状态检测流程结束。在本发明实施例中，针对不同的动作状态，利用不同的code码来进行表示并区分。
57.图5为本技术实施例的绘本识别方法中检测指读模式下的动作状态的流程图示意图。下面参考图5对上述指读模式动作状态检测流程的实施过程进行说明。首先，步骤s501获取用来对指读模式下的细节化动作状态进行区分的第二类配置信息。其中，第二类配置信息包括：指读模式第一阈值和指读模式第二阈值。其中，指读模式第一阈值大于指读模式第二阈值。
58.需要说明的是，本发明实施例对第二类配置信息的存储位置不作具体限定，可以存储于云端服务器104中，也可以存储于绘本阅读机器人102的操作系统配置文件中，还可以存储于绘本阅读机器人102的本地存储器内，本领域技术人员可根据实际需求进行配置。另外，上述指读模式第一阈值和指读模式第二阈值是用来区分指读模式下不同动作状态的两幅灰度图像的差值阈值，本发明对这两个阈值参数不作具体限定，本领域技术人员可根据实际需求设定这两个阈值的大小。
59.其次，步骤s502从步骤s302获得的多幅待检测图像中，选取符合第二类设定条件的连续两幅图像。在步骤s502中，需要计算每幅待检测图像的亮度值，根据每幅待检测图像的亮度值，计算相邻两幅图像的亮度值之和，基于此，筛选出亮度值之和最大的相邻图像。
在选取出满足第一类设定条件的连续两幅图像后，进入到步骤s503中。
60.步骤s503对步骤s502选取的两幅图像进行数据处理，步骤s504通过比对这两幅图像的计算结果和这两个设定阈值，来确定当前指读模式下的动作状态。优选地，在步骤s503中先对步骤s502选取的两幅图像进行编号处理，得到第三待计算图像和第四待计算图像，而后，将这两幅待计算图像分别进行二值化处理，从而得到二值化的第三待计算图像和二值化的第四待计算图像，从而进入到步骤s504中。
61.在步骤s504中，首先将步骤s503得到的这两幅二值化待计算图像进行差值计算，得到相应的差值计算结果，而后，将当前差值计算结果与上述指读模式第一阈值和指读模式第二阈值进行对比，从而根据对比结果确定当前指读模式下的动作状态。其中，指读模式下的动作状态包括：手指正在移动、手指移动结束但并未静止和手指移动静止。
62.更进一步地说，在步骤s504中，在第一个示例中，若当前差值计算结果大于上述指读模式第一阈值，则步骤s505将当前指读模式下的动作状态识别为手指正在移动，而后进入到步骤s509中。在步骤s504中，在第二个示例中，若当前差值计算结果大于指读模式第二阈值且小于指读模式第一阈值，则步骤s506将当前指读模式下的动作状态识别为手指移动结束但并未静止，而后进入到步骤s509中。在步骤s507中，在第三个示例中，若当前差值计算结果小于指读模式第二阈值，则步骤s508将当前指读模式下的动作状态识别为手指移动静止，而后进入到步骤s509中。
63.在同一绘本页面中，当识别到指读模式下的动作状态为手指正在移动动作状态时，结合手指移动前后绘本指读位置的识别结果，对当前(阅读)时刻在指读模式下所对应的时间阶段出现的完整指读过程进行分析，最终根据分析结果对音频文件的输出进行调度。其中，一个完整的指读过程由手指正在移动、手指移动结束但并未静止和手指移动静止三个具体的动作状态构成。按照各个具体的动作状态出现的先后顺序，单独对每个具体的动作状态进行分析，再根据分析结果确定当前时刻绘本阅读的具体指读位置并输出相应的音频文件，由此实现指读模式下绘本的流畅阅读。其中，当前绘本页面中文字部分各个段落以及与其所对应的音频文件按照上述翻页模式中的方法进行标记。
64.举例来说，在指读模式下的绘本阅读过程中，将用户当前所指的具体指读位置标记为第一位置，将识别到手指正在移动动作状态时用户所指的具体指读位置标记为第二位置。由于在指读过程中可能存在误指等情况(第一位置与第二位置实际上是同一位置)。优选地，本技术实施例在确认完成了整个指读过程后，在输出设备中同时准备第一位置和第二位置对应的音频文件，直到确定用户所指的最终指读位置(第一位置或第二位置)之后，删除无关的音频文件，仅保留用户所指的最终指读位置的音频文件作为待输出音频文件并进行音频输出。由此，便实现了指读模式下绘本的流畅阅读以及音频文件的准确输出。例如，用户正在阅读绘本《格林童话》，当前翻到的页面为“小红帽”页面，用户当前所指位置为第一自然段，在识别到手指正在移动动作状态结束之前用户手指所指位置为第二自然段，此时输出设备中准备第一自然段和第二自然段所对应的音频文件。当识别到手指移动结束但未静止动作时，判断此时所指位置是第一自然段还是第二自然段。若识别到此时所指位置为第一自然段，则保留待输出音频文件为第一自然段音频文件，并在识别到手指移动静止动作时同步输出第一自然段音频文件；若识别到此时所指位置为第二自然段(与手指移动之前的段落一致)，则保留待输出音频文件为第二自然段音频文件，并在识别到手指移动
静止动作时同步输出第二自然段音频文件。由此，便实现了指读模式下绘本的流畅阅读。
65.步骤s509生成表示当前指读模式下的动作状态识别结果的识别码，由此得到指读模式下的阅读动作检测结果，此时，指读模式动作状态检测流程结束。在本发明实施例中，针对不同的动作状态，利用不同的code码来进行表示并区分。
66.由此，本发明实施例利用上述翻页模式动作状态检测流程和指读模式动作状态检测流程在动作状态检测过程中，对图像数据进行重复页删除操作，通过删除无效图像来降低整个在线检测过程的成本，大大提高了阅读动作在检测效率。在保障检测准确率的情况下，不仅提高了动作检测过程的检测效率，减少了现有翻页动作检测过程对云端服务器的计算资源占有率和所占带宽，从而提高了用户体现，还能够对翻页模式和指读模式都进行更为精细化的动作状态识别，扩展了阅读动作的可识别类型。
67.另外，基于上述绘本识别方法，本发明还提出了一种绘本识别装置。图6为本技术实施例的绘本识别装置的模块框图。如图6所示，采集设备61、动作模式判断模块62和动作状态识别模块63。其中，采集设备61，其按照上述步骤s210所述的方法执行，配置为按照预设的采集频率，采集当前正在展示的绘本内页的多幅图像。动作模式判断模块62，其按照上述步骤s220所述的方法执行，配置为基于获取的图像信息，初步判断此时用户阅读该绘本的动作模式，其中，动作模式包括翻页模式和指读模式。动作状态识别模块63，其按照上述步骤s230执行，配置为针对确定的动作模式，从多幅图像中删除无效图像，并识别该动作模式下的动作状态，动作状态用来指示用户在相应的动作模式下所对应的时间阶段。
68.进一步，动作模式判断模块62，其进一步用于判断采集到的多幅图像中是否存在前后两幅图像发生变化，若存在，则判定为翻页模式，否则，则判定为指读模式。
69.进一步，动作状态识别模块63在翻页模式下，通过如下步骤识别该动作模式下的动作状态：从多幅图像中选取符合设定条件的连续两幅图像，获取对应翻页模式下的两个设定阈值；对这两幅图像进行数据处理计算，通过比对计算结果和这两个设定阈值来确定当前翻页模式下的动作状态。其中，翻页模式下的动作状态包括：翻页开始、翻页结束但未静止和翻页结束且静止。更具体地说，动作状态识别模块63其还对这两幅图像进行二值化处理，将二者进行差值运算。若计算结果大于第一阈值，则识别为翻页开始；若计算结果大于第二阈值且小于第一阈值，则识别为翻页结束但未静止；若计算结果小于第二阈值，则识别为翻页结束且静止。其中，翻页模式第一阈值大于翻页模式第二阈值。
70.进一步，动作状态识别模块63在指读模式下，通过如下步骤识别该动作模式下的动作状态：从多幅图像中选取符合设定条件的连续两幅图像，获取对应指读模式下的两个设定阈值；对这两幅图像进行数据处理计算，通过比对计算结果和这两个设定阈值来确定当前指读模式下的动作状态。其中，指读模式下的动作状态包括手指正在移动、手指移动结束但并未静止和手指移动静止。更具体地说，动作状态识别模块63其还对这两幅图像进行二值化处理，将二者进行差值运算。若计算结果大于第一阈值，则识别为手指正在移动；若计算结果大于第二阈值且小于第一阈值，则识别为手指移动结束但并未静止；若计算结果小于第二阈值，则识别为手指移动静止。其中，指读模式第一阈值大于指读模式第二阈值。
71.本发明还提供了一种绘本阅读机器人，该绘本阅读机器人用于执行上述基于绘本识别的绘本识别方法步骤的一系列指令。具体地，该绘本阅读机器人是一种程序产品，其上存储有程序代码，该代码被操作系统执行时能够实现如上所述的绘本识别方法。
72.本发明提供的绘本识别方法及装置，通过采集正在展示的多幅连续图像并进行无效图像的删减，优选出两幅待计算图像用来识别动作模式及相应模式下的精细化阅读动作。这样，本发明不仅能够减轻动作识别计算的资源占用率，大幅提高动作识别速度，提升用户体现，还能够识别出更为细节化和多样化的相关阅读动作，拓展了动作识别结果的种类范围。
73.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器rom、随机存取存储器ram、磁碟或光盘等各种可以存储程序代码的介质。
74.由于本发明描述的方法是在计算机系统中实现的。该计算机系统可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人操作系统中的cpu来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(fpga)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。
75.应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。
76.说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
77.虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：处理方法、服务器、家用电器及存储介质与流程

一种绘本识别方法和装置与流程

相关文献

最热文献