一种基于虚拟现实播放点读物的方法、设备及存储介质与流程

2021-10-23 04:07:00 来源：中国专利 TAG：虚拟现实人工智能读物放点实施

1.本技术实施例涉及人工智能技术领域，尤其涉及一种基于虚拟现实播放点读物的方法、设备及存储介质。

背景技术：

2.在基于点读绘本进行点读学习领域，一般是在该点读绘本中采用磁性辅助设备或者配套使用点读笔，需要预先将点读绘本中的各个文字或图案与对应的数字内容进行绑定，才能在点读笔点到某些文字或图案时，将绑定的数字内容进行播放。
3.但是，目前的点读方式只能依赖于预先设置的固定设备和固定的数字内容，即只能针对固定的内容进行点读，并不能扩展到任意知识的数字内容，存在较大局限性和依赖性，并不能实现智能化的学习，仅仅为简单的点读交互。因此，目前的点读方式单一且无法扩展数字内容。

技术实现要素：

4.本技术实施例提供了一种基于虚拟现实播放点读物的方法、设备及存储介质，能够结合人工智能技术准确的识别用户的点读意图，且无需绑定固定的数字内容，也不需要配备专用设备实现点读，通用性较高，还能不断的优化学习，提供更多的点读场景。
5.第一方面中，本技术实施例提供一种基于虚拟现实播放点读物的方法，所述方法由点读设备执行，所述方法包括：
6.当确定触摸对象在所述点读物上的移动状态为静止状态时，获取所述触摸对象在所述点读物上触摸点的第一位置；
7.若确定所述第一位置所在区域中包括目标对象，则获取所述触摸对象映射到所述点读物的目标区域；
8.获取所述触摸对象对应所述目标区域内的多个关键点；
9.根据所述多个关键点确定所述触摸点的目标位置；
10.确定所述目标位置对应所述点读物的点读目标，播放与所述点读目标对应的数字内容。
11.一些实施方式中，所述数字内容来自所述服务器或者其他点读设备。
12.第二方面中，本技术实施例提供一种点读设备，具有实现对应于上述第一方面提供的基于虚拟现实播放点读物的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。
13.一种可能的设计中，所述点读设备包括获取模块、处理模块和播放模块；
14.所述获取模块，用于当所述处理模块确定触摸对象在点读物上的移动状态为静止状态时，获取所述触摸对象在所述点读物上触摸点的第一位置；
15.所述获取模块还用于若确定所述第一位置所在区域中包括目标对象，则获取所述
触摸对象映射到所述点读物的目标区域；获取所述触摸对象对应所述目标区域内的多个关键点；
16.所述处理模块，用于根据所述获取模块获取的所述多个关键点确定所述触摸点的目标位置；确定所述目标位置对应所述点读物的点读目标；
17.所述播放模块，用于播放与所述点读目标对应的数字内容。
18.本技术实施例又一方面提供了一种基于虚拟现实播放点读物的装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中的计算机程序来执行上述第一方面所述的方法。
19.本技术实施例又一方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。
20.根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面中提供的方法。
21.相较于现有技术，本技术实施例提供的方案中，先获取所述触摸对象在所述点读物上触摸点的第一位置；若确定所述第一位置所在区域中包括目标对象，则获取所述触摸对象映射到点读物的目标区域；获取所述触摸对象对应所述目标区域内的多个关键点，以明确以及缩小所述触摸点的实际位置的范围。由于目标位置是根据多个关键点确定，可见，该目标位置的准确性较高，能够有效的代表用户真实的用户点读意图。因此，在基于该目标位置确定的点读目标更加准确，进而播放正确的数字内容。此外，本方案无需绑定固定的数字内容，不需要配备专用设备实现点读，通用性较高，不断的优化学习，提供更多的点读场景。
附图说明
22.图1a为本技术实施例中点读设备的一种应用场景示意图；
23.图1b为本技术实施例中智能台灯的一种示意图；
24.图1c为本技术实施例中基于智能台灯对书本中的印刷字进行点读操作的一种示意图；
25.图2为本技术实施例中基于虚拟现实播放点读物的方法的流程示意图；
26.图3为本技术实施例中手指在点读物上从起始点移动至停止移动点的过程示意图；
27.图4a为本技术实施例中确定点读笔对应的当前帧为一次有效交互点的一种流程示意图；
28.图4b为本技术实施例中连续的相邻两帧的一种示意图；
29.图4c为本技术实施例中对连续的相邻两帧进行二值化的像素差异图；
30.图5为本技术实施例中框选点读目标的一种界面示意图；
31.图6a为本技术实施例中手型定位模型的一种模型结构示意图；
32.图6b为本技术实施例中回归模型的一种模型结构示意图；
33.图7a为本技术实施例中heatmap为高斯热力图的一种示意图；
的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
44.机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
45.云技术是指基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。
46.云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。
47.目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(id，id entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
48.存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(raid，redundant array of independent disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。数字内容可存储于该存储系统或者通过云存储。
49.一些实施方式中，当本方案应用于点读设备基于出版物内容播放出版物内容对应的数字内容时，涉及的点读设备可参考如图1a所示的一种架构示意图。
50.图1a中，点读设备包括至少一个播放设备、至少一个拍摄装置。一些实施方式中，
点读设备还可以包括点读笔，点读笔也可用手指代替，本技术实施例不对此作限定。另一些实施方式中，点读设备也还可以包括至少一个点读物。
51.其中，点读物为展示可阅读内容的实物，点读物可包括文字、图形、符号等至少一项。一些实施方式中，点读物中展示的可阅读内容可为任意内容，不必预先绑定数字内容。另一些实施方式中，点读物中展示的可阅读内容均可存在预先绑定的数字内容，该数字内容可通过云存储，或者存储与播放设备本地，本技术实施例不对此作限定。点读物可为纸质、塑料、金属、磁性材料等任意材料制成的印刷物，点读物也可为非触摸交互显示屏，也就是该点读物可为展示可阅读内容的显示屏，但并无交互功能，例如广告展示屏、某报社的宣传栏、某站点的宣传栏等。
52.拍摄装置用于拍摄点读笔或手指在点读物上的移动轨迹，将移动轨迹传输给播放设备，以抓取点读笔或手指在点读物上停留的位置。
53.播放设备用于基于拍摄装置拍摄到的点读笔或手指在点读物上的移动轨迹抓取点读笔或手指在点读物上停留的位置，对移动轨迹进行分析后，可直接播放本地存储的对应的数字内容，或者，可以向服务器请求发送请求消息，在获取该数字内容后，在线播放该数字内容，本技术实施例不对此作限定。播放设备可为音频设备、视频设备或者音视频设备。播放设备可为仅有播放音频或视频功能的单一显示屏，或者，播放设备中也可集成对该点读笔或手指在点读物上的移动轨迹进行定位分析的分析装置，分析装置也可与播放设备独立部署，本技术实施例不对此作限定。
54.其中，播放设备和拍摄装置可集成或分离设置，一些实施方式中，点读物也可与播放设备和拍摄装置集成。
55.本技术实施例中，点读设备可为智能台灯、智能点读笔等设备。智能台灯可包括光源、显示屏和摄像头。智能点读笔可包括音频器和摄像头，也可包括光源，用于辅助摄像头更清晰的捕捉智能点读笔在点读物上的位置。如图1b为智能台灯的一种示意图，该智能台灯上设置摄像头、显示屏。该摄像头、点读物与显示屏为一套点读设备，或者，该摄像头与显示屏为一套点读设备。或者，该智能台灯、摄像头、点读物与显示屏为一套点读设备。智能台灯、摄像头、点读物、点读笔(可有可无，图1b中未标示出)与显示屏之间可独立出售，也可绑定出售，具体本技术实施例均不作限定。该摄像头和显示屏可为固定连接或者可拆卸连接，本技术实施例不对此作限定。
56.例如图1c所示，以智能台灯集成了摄像头与显示屏为例，同时以点读笔点读任意点读物，例如书本为例，对书本中的任意印刷内容进行内容识别。具体来说，智能台灯上的摄像头对视角范围内的画面进行拍摄，当在视角范围内出现点读物，例如书本时，用户用点读笔或者手指(图1c以用点读笔为例)点该书本上的“熊”这个印刷字且停留时间超过3秒，那么，可将本次对“熊”的点读操作视为一次有效点读。随后，将采集到的对“熊”的点读操作的图像a传入显示屏或者云服务器。图1c以将图像a传入云服务器为例时，云服务器对该图像a进行分析，得出点读对象为“熊”，那么将与该“熊”相关介绍的数字内容下发给显示屏，并在显示屏上显示。图1c以将图像a传入具备图像分析处理功能的显示屏(例如平板电脑)为例时，该显示屏对该图像a进行分析，得出点读对象为“熊”，如果本地保存有与该“熊”相关介绍的数字内容，那么将与该“熊”相关介绍的数字内容在显示屏上显示。如果本地未保存与该“熊”相关介绍的数字内容，那么可从云服务器获取与该“熊”相关介绍的数字内容
后，再在显示屏上显示该数字内容。
57.其中，需要特别说明的是，本技术实施例涉及的点读设备，还可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务(英文全称：personal communication service，英文简称：pcs)电话、无绳电话、会话发起协议(sip)话机、无线本地环路(wireless local loop，英文简称：wll)站、个人数字助理(英文全称：personal digital assistant，英文简称：pda)等设备。
58.参照图2，以下介绍本技术实施例所提供的一种基于虚拟现实播放点读物的方法，该方法可由点读设备执行。本技术实施例包括：
59.201、当确定触摸对象在点读物上的移动状态为静止状态时，获取所述触摸对象在所述点读物上触摸点的第一位置。
60.其中，触摸对象是指针对点读物进行相对移动的第三方对象，例如，触摸对象可为手指、点读笔、激光设备照射在点读物上的激光点等，本技术实施例不对此作限定。
61.另一些实施方式中，触摸对象与点读物之间相对移动时，触摸对象与点读物可通过接触式(例如针对点读物的外力作用)实现，也可以通过非接触式实现，例如，通过红外线(例如点读物内部嵌入红外线传感器，用于检测在点读物一定距离内的任意对象)、磁吸(例如点读物和点读笔内部均嵌入磁性物体，点读物内的磁性物体能够与点读笔内部的磁性物体之间产生相互吸引，例如，可在点读物中对应了数字内容的目标位置设置磁性物体，以增加点读笔选中正确的且对应了数字内容的目标位置的准确性)等方式，本技术实施例不对此作限定。
62.移动状态是指触摸对象在点读物上的移动状态，例如，点读笔或者手指在点读物上的移动状态，可为点、滑动等操作，本技术实施例不对此作限定。
63.第一位置为所述移动状态为静止状态时所述触摸对象在所述点读物上触摸点的位置，也就是用户意图选择播放对象的触摸点，该第一位置为粗粒度的定位用户意图。例如，当手指在点读物由移动状态变化为停止移动时，第一位置为手指相对于点读物停止移动时手指映射到点读物上的位置。如图3中，显示了手指在点读物上从起始点移动至停止移动点的过程。
64.一些实施方式中，当用户选择点读物上的点读目标时，触摸对象(例如手指或点读笔等)会静止于该点读目标上，因此，为了避免误判用户选中了点读目标即为提高识别第一位置的精准度，还可以基于连续多帧的状态累计判断触摸对象的触摸状态是否为静止状态。具体来说，在获取所述触摸对象映射到所述点读物的目标区域之前，所述方法还包括：
65.1、确定目标时间窗口内的多个帧图像。
66.其中，每个帧图像都有一个对应的播放起始时刻和播放结束时刻。一个帧图像的播放起始时刻到播放结束时刻的时间可看作一个播放时间单元。
67.所述目标时间窗口的结束时刻为所述当前帧的起始播放时刻。
68.2、获取所述多个帧图像中每两个在时域上相邻的帧图像之间的像素差值；
69.3、若每个像素差值均小于预设阈值，则确定所述触摸对象在所述目标时间窗口内
的移动状态为静止状态；
70.4、确定所述当前帧为所述触摸对象在所述点读物上的一次有效交互点。
71.其中，有效交互点是指触摸对象触摸点读物中的点读目标时，该点读目标所在的位置。例如，有效交互点为指尖点击到点读物中的大象时，该大象在该点读物中的位置即可视为用户本次与点读物指尖的一次有效点读操作的位置。
72.该有效交互点为上述第一位置，也就是触摸对象相对于点读物停止移动的位置。
73.若所述帧间差异图像中的非零像素数量大于所述第一阈值，则确定所述触摸对象在所述相邻两张帧图像的时间窗口内的移动状态为运动状态；确定所述触摸对象对应的当前帧为一次交互起始点。
74.一些实施方式中，当目标时间窗口为一个播放时间单元时，在该目标时间窗口内可包括两张帧图像。对于触摸对象在每两个相邻的连续帧之间的触摸状态科技与下述方式来判断：
75.获取所述触摸对象在所述点读物上移动时的第一帧图像和第二帧图像，所述第二帧图像与所述第二帧图像在时域上相邻且连续；
76.计算所述第一帧图像与所述第二帧图像之间的像素差值；
77.根据所述像素差值生成灰度对比图像；
78.根据所述灰度对比图像得到帧间差异图像；
79.若所述帧间差异图像中的非零像素数量不大于所述预设阈值，则确定所述触摸对象在相邻的所述第一帧图像与所述第二帧图像的时间窗口内的触摸状态为静止状态。
80.举例来说，如下图4a-图4c所示，可通过连续帧内容差异和滑动窗口来判断用户是否停止在当前目标上。图4a为确定点读笔对应的当前帧为一次有效交互点的一种流程示意图。图4a采用了帧差法(backgroundimage,currenti mage,foreground，absdiff)来计算相邻两帧之间的像素差值。图4b中的fig1为从摄像头获取的连续帧中的上一帧，图4b中的fig2为从摄像头获取的连续帧中的当前帧。通过absdiff计算fig1和fig2所示的两个连续帧之间的像素差值，例如通过帧差法计算帧n-1与帧n之间的像素差值，其它连续的相邻两帧之间的像素差值同理，不作赘述。然后，将像素差值与预设的第一阈值进行比较，若像素差异大于第一阈值，则设为1，即表示点读笔在该两个连续帧之间为非静止状态；若否，则设置为0，且生成二值化的像素差异图(如图4c所示的二值化图片)。然后，通过中值滤波过滤噪声获得最终的帧间差异二值图，统计非零像素量n，当n大于预设的第二阈值时，则可确定图4b中的fig1和fig2所示的两帧之间内容有差异；否则可确定图4b中的fig1和fig2所示的两帧没有变化，即处于静止状态。
81.当用户选择目标时，手指会静止在目标上，而对于静止态的判断需要连续多帧的状态累积。由于上述多帧图片为按照时域增序先后排列(以图4a为例)，因此，可通过滑动时间窗口的机制来判断当前的移动状态，若从当前帧为结束点往前推n时间长度的时间窗口内absdiff都为静止状态，则当前帧为一次用户交互点，若当前absdiff为运动状态，则以时域增序的方向将时间窗口滑动到当前帧，将该当前帧作为下一个有效交互点的起点，即新开始一次点读操作。
82.202、若确定所述第一位置所在区域中包括目标对象，则获取所述触摸对象映射到所述点读物的目标区域。
83.其中，目标对象为所述点读物中对应数字内容的可阅读内容。例如，目标对象为儿童读物中的一句英文“where’s teddy？”。
84.目标区域则为所述点读物中对应数字内容的可阅读内容所占据的区域。例如，图5所示，目标对象为儿童读物中的一句英文“where’s teddy？”时，矩形框所形成的区域则为目标区域。该目标区域当前所占据的区域对应到点读笔当前所指的区域，也就是用户当前选中的可阅读内容所占据的区域。针对该目标区域的点击、非接触式选中等方式的操作时，都可视为触摸对象针对该目标对象的一次选择操作，也就是在该目标区域内的操作，都视为选中该目标区域内目标对象所对应的数字内容的播放操作，也就是用户当前意图点读的可阅读内容所处的位置。
85.203、获取所述触摸对象对应所述目标区域内的多个关键点。
86.其中，关键点是指所述触摸点在点读物上可能映射的目标点，每个关键点都有可能为触摸点映射在点读物上的位置，也就是，每个关键点都可能为用户实际想要点读的目标所在的位置。
87.多个关键点可为触摸点对应点读物上的实际位置的概率分布。多个关键点可以概率分布图的方式呈现，例如可以在该帧图像上显示各个关键点的标记，以便于更直观的分析用户点读意图。
88.204、根据所述多个关键点确定所述触摸点的目标位置。
89.其中，目标位置是指为触摸对象在点读物上停留的位置，例如,目标位置为用户的指尖在点读物上停留的位置，也就是用户想要点读的目标所在的位置。
90.一些实施方式中，为提高识别目标位置的精准度，可通过神经网络模型确定目标位置。具体来说，所述获取所述触摸对象对应所述目标区域内的多个关键点；根据所述多个关键点确定所述触摸点的目标位置，包括：
91.(1)提取所述目标区域内的多个关键点的第一特征和第二特征。
92.第一特征和第二特征均为卷积特征。
93.(2)将所述第一特征按照所述第二特征的尺寸进行调整(例如放大)，得到第三特征，将所述第二特征和所述第三特征融合，以得到目标特征图。
94.例如，通过反卷积操作将第一特征的尺寸扩大到与第二特征相同的尺寸，并和原始的第二特征进行融合，生成一个特征图(即步骤(3)中的候选图)。
95.一些实施方式中，可基于回归模型对第一特征的尺寸进行调整，以使第一特征的尺寸能够放大至于第二特征相同。
96.本技术不对融合第二特征和第三特征的方式作限定。
97.(3)对所述目标特征图进行有限次反卷积操作，以得到候选图，所述候选图包括用于定位所述触摸点的坐标的多个预测关键点。
98.该有限次可为至少两次，本技术实施例不对此作限定。
99.具体来说，对目标特征图进行有限次反卷积操作，以得到关键点分布图，所述关键点分布图为用于定位所述触摸点的坐标的多个预测关键点的分布图。
100.如果是在训练阶段，则是以这些预测关键点作为回归模型的训练数据，即将所述关键点分布图输入回归模型，预测得到所述候选图中权重最大的目标关键点，即将所述候选图中权重最大的目标关键点作为所述触摸点。
101.(4)将所述多个预测关键点中确定目标关键点。
102.例如，可从多个预测关键点中权重高于预设权重的预测关键点中选择至少一个预测关键点作为目标关键点，相应的，该目标关键点在点读物的位置则作为所述触摸点的目标位置，即目标关键点可等同于所述触摸点映射在点读物上的点。
103.例如，可将所述多个预测关键点中权重最大的目标关键点的位置作为所述触摸点的目标位置。
104.另一些实施方式中，由于权重高于预设权重的预测关键点数量可能为至少两个，那么，为了进一步提高目标位置的准确度，还可以计算各目标关键点的置信度，然后将所述目标关键点与手型定位模型结合，在目标帧图像上显示所述目标关键点的目标位置。
105.一些实施方式中，目标位置可基于神经网络模型实现。例如以触摸对象为手指为例，可预先建立一个手型定位模型、以及一个回归模型。在基于拍摄装置拍摄的图片检测到用户的手指触摸点读物后，可基于手型定位模型和回归模型，共同获取该指尖的指尖坐标。一些实施方式中，手型定位模型和回归模型可融合为一个神经网络模型，在获取训练数据后，对训练数据进行打标，然后基于这些打标后的训练数据对该融合了手型定位模型和回归模型了这两种模型的功能的神经网络模型进行多任务联合训练。
106.一些实施方式中，手型定位模型可采用单阶段的ssd框架，并通过对backbone的调整使其适应移动终端的性能要求，基于ssd框架的手型定位模型的一种模型结构如图6a所示。回归模型可采用heatmap关键点预测的方式获取指尖的精确位置，回归模型的一种模型结构可参考图6b所示。回归模型中可报考矩形卷积特征提取模块、反卷积模块(用于提升特征尺寸)，为1*1卷积用于调整通道数，为通道求和操作。
107.下面介绍基于手型定位模型和回归模型共同获取目标位置的实施例，即获取该指尖的指尖坐标。该实施例可包括下属步骤(1)-步骤(5)：
108.(1)基于backbone网络提取各帧图像中的特征(包括第一特征和第二特征)，通过反卷积操作将第一特征c1的尺寸扩大到与第二特征c2相同的尺寸，并将扩大尺寸后得到的特征c3和原始的第二特征c2的特征进行融合，生成一个特征图。
109.其中，backbone为resnet框架的卷积神经网络(此处使用mobilenetv2)，抽象为不同size的特征层，层之间按size/2的大小进行卷积操作，最后一层特征最抽象，尺度最小。为了提高训练指尖的精度，这里通过反卷积融合底层和高层的特征信息，同时兼顾语义特征(c5越往下特征越抽象)和空间特征(c4越往上size越大空间信息越清楚)<指尖位置回归需要比较好的空间信息>。
110.(2)对上述特征图进行三次反卷积操作，以扩大特征尺度，最终生成一个heatmap，该heatmap为预测关键点的分布图，该heatmap为对于一张输入图片经过网络后输出一张特征图。该heatmap用于定位所述触摸点的实际位置(即前述目标位置)，例如用于定位手指指尖在点读物上的实际坐标。图7a为heatmap的一种示意图。一些实施方式中，手指之间的尺寸可为原始图尺寸的1/4。如下图7b中的指尖坐标所示。
111.(3)在训练阶段，指尖标注点的位置通过高斯热力图的形式在其标注位置生成一张featuremap图，用于训练的目标。
112.通过反卷积模块对回归模型进行训练，训练后的回归模型中，可发现，对于目标点所在的位置，在heatmap中权重接近1(也就是说，权重越接近1，则越有可能成为目标位置)，
其他位置的权重则为0(即越不可能成为目标位置)。例如，featuremap图采用高斯热力图时，高斯热力图即按二维高斯分布的值，中心点值为1<目标点的坐标位置，只是有目标>，向四周衰减，>，其他值为0表示没有目标。如图7a中所示的heatmap为高斯热力图的一种示意图。
113.(4)在预测阶段，可通过最大值自变量点集(arguments of the maxima，argmax)找到heatmap中权重最大的预测关键点的位置(即为指尖可能的位置)，可分别为这些预测关键点设置对应的置信度，示例如图7b。
114.(5)在步骤(4)上和手型定位模型坐标结合，即可还原出原始帧上的指尖坐标，一般来说，选取置信度最高的位置作为该指尖坐标。
115.205、确定所述目标位置对应所述点读物的点读目标，播放与所述点读目标对应的数字内容。
116.其中，点读目标是指一个点读物中用户实际想要了解详情的对象，即用户点读意图下的点读对象。
117.数字内容是指可播放的音视频数据，数字内容与点读目标对应。例如，儿童读物上有个大象的图标，那么，当用户手指停留在该大象的图标处时，通过分析后确定了该用户手指指尖实际映射到该儿童读物上的点读目标为大象，如果该大象设置了对应的数字内容，例如关于大象的详细介绍，就可以播放该大象的详细介绍。
118.一些实施方式中，该数字内容可为预先设置的与点读目标对应的数字内容，也就是预先绑定好的内容。或者，该数字内容也可为服务器实时获取的数字内容，该数字内容不预先绑定特定点读物中的特定点读目标。
119.一些实施方式中，若所述数字内容为非预先绑定或非预先关联的内容，则基于所述数字内容对所述神经网络模型进行训练更新，以不断的学习，提高回归模型的准确度。通过对神经网络模型进行训练更新，可以增加神经网络模型的学习范围，即丰富作为训练数据的数字内容，使得其能够识别更多的点读目标，进而为提供更全面的数字内容。这样在用户使用该点读设备进行自主学习时，能够更快的获取更全面的数字内容。
120.该数字内容可来自服务器，也可来自其他点读设备。当分析装置内置于点读设备中时，点读设备之间的训练数据可共享。当分析装置部署于服务器时，可由服务器收集至少两个点读设备的训练数据，然后实现点读共享，使得训练数据更加丰富和全面，因此，进一步拓宽点读设备的可阅读领域。
121.本技术实施例中，先获取所述触摸对象在所述点读物上触摸点的第一位置；若确定所述第一位置所在区域中包括目标对象，则获取所述触摸对象映射到点读物的目标区域；获取所述触摸对象对应所述目标区域内的多个关键点，以明确以及缩小所述触摸点的实际位置的范围。由于目标位置是根据多个关键点确定，可见，该目标位置的准确性较高，能够有效的代表用户真实的用户点读意图。因此，在基于该目标位置确定的点读目标更加准确，进而播放正确的数字内容。本方案能够准确的识别用户的点读意图，且无需绑定固定的数字内容，打通任意状态下的实物内容(例如点读物中的点读目标)和数字内容之间的桥梁，不需要配备专用设备实现点读，通用性较高，不断的优化学习，提供更多的点读场景。例如，点读设备可配合ocr识别、绘本识别、作业批改等能力，当用户手势处于静止状态，且检测到手和预设手势，则完成一次用户点读意图的判断，通过语音交互的场景指令，将用户指
选的目标上传云端的服务器，通过云端的服务器的ai能力完成用户点读意图的处理，例如朗读用户指示的英文单词、朗读当前页绘本内容等，进而以实现一个无障碍、随时随地、且自然的交互方式。
122.图1a至图7b中任一项所对应的实施例中所提及的任一技术特征也同样适用于本技术实施例中的图8至图10所对应的实施例，后续类似之处不再赘述。
123.以上对本技术实施例中一种基于虚拟现实播放点读物的方法进行说明，以下对执行上述基于虚拟现实播放点读物的方法的点读设备进行介绍。
124.参阅图8，如图8所示的一种所述点读设备的结构示意图，其可应用于虚拟现实的交互场景，例如应用于基于点读物点读数字内容的场景。本技术实施例中的所述点读设备能够实现对应于上述图1a-图7b中任一项所对应的实施例中所执行的基于虚拟现实播放点读物的方法的步骤。所述点读设备实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述点读设备可包括获取模块、处理模块和播放模块，所述获取模块、所述处理模块和所述播放模块的功能实现可参考图1a-图7b中任一项所对应的实施例中所执行的操作，此处不作赘述。
125.一些实施方式中，所述获取模块，用于当所述处理模块确定触摸对象在点读物上的移动状态为静止状态时，获取所述触摸对象在所述点读物上触摸点的第一位置；
126.所述获取模块还用于若确定所述第一位置所在区域中包括目标对象，则获取所述触摸对象映射到所述点读物的目标区域；获取所述触摸对象对应所述目标区域内的多个关键点；
127.所述处理模块，用于根据所述获取模块获取的所述多个关键点确定所述触摸点的目标位置；确定所述目标位置对应所述点读物的点读目标；
128.所述播放模块，用于播放与所述点读目标对应的数字内容。
129.一些实施方式中，所述方法通过神经网络模型实现时，所述获取所述触摸对象对应所述目标区域内的多个关键点；根据所述多个关键点确定所述触摸点的目标位置，包括：
130.提取所述目标区域内的多个关键点的第一特征和第二特征；
131.将所述第一特征按照所述第二特征的尺寸进行放大，得到第三特征；
132.将所述第二特征和所述第三特征融合，以得到目标特征图；
133.对所述目标特征图进行有限次反卷积操作，得到多个预测关键点；
134.将所述多个预测关键点中权重最大的目标关键点的位置作为所述触摸点的目标位置。
135.一些实施方式中，所述点读设备还包括收发模块(图8中未标识出)，所述处理模块801确定所述目标位置对应所述点读物的点读目标之后，在所述播放模块803播放与所述点读目标对应的数字内容之前，所述收发模块还用于：
136.向服务器发送请求消息，所述请求消息用于请求获取与所述点读目标对应的数字内容；
137.从所述服务器获取与所述点读目标对应的数字内容。
138.一些实施方式中，所述处理模块801在所述获取模块802获取所述触摸对象映射到所述点读物的目标区域之前，还用于：
139.确定目标时间窗口内的多个帧图像，所述目标时间窗口的结束时刻为所述当前帧的起始播放时刻；
140.通过所述获取模块802获取所述多个帧图像中每两个在时域上相邻的帧图像之间的像素差值；
141.若每个像素差值均小于预设阈值，则确定所述触摸对象在所述目标时间窗口内的移动状态为静止状态；
142.则确定所述当前帧为所述触摸对象在所述点读物上的一次有效交互点。
143.一些实施方式中，所述处理模块801具体用于：
144.获取所述触摸对象在所述点读物上移动时的第一帧图像和第二帧图像，所述第二帧图像与所述第二帧图像在时域上相邻且连续；
145.计算所述第一帧图像与所述第二帧图像之间的像素差值；
146.根据所述像素差值生成灰度对比图像；
147.根据所述灰度对比图像得到帧间差异图像；
148.若所述帧间差异图像中的非零像素数量不大于所述预设阈值，则确定所述触摸对象在相邻的所述第一帧图像与所述第二帧图像的时间窗口内的触摸状态为静止状态。
149.一些实施方式中，所述多张帧图像包括当前帧，所述将所述多个预测关键点中权重最大的目标关键点的位置作为所述触摸点的目标位置之后，所述处理模块801还可用于：
150.根据所述目标位置和手型定位模型，确定所述触摸点在所述当前帧上的触摸点坐标；
151.在所述当前帧上显示所述触摸点坐标。
152.一些实施方式中，所述处理模块801还可用于：
153.若所述数字内容为非预先绑定的内容，则基于所述数字内容对所述神经网络模型进行训练更新。
154.上面从模块化功能实体的角度对本技术实施例中的点读设备进行了描述，下面从硬件处理的角度分别对本技术实施例中的执行基于虚拟现实播放点读物的方法的服务器进行描述。需要说明的是，在本技术实施例图8所示的实施例中的获取模块802对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输出接口等，处理模块801对应的实体设备可以为处理器，播放模块803对应的实体设备可以为显示器。图8所示的装置80可以具有如图9所示的结构，当图8所示的装置80具有如图9所示的结构时，图9中的处理器和输入输出单元能够实现前述对应该装置的装置实施例提供的处理模块801、获取模块802和播放模块803相同或相似的功能，图9中的存储器存储处理器执行上述基于虚拟现实播放点读物的方法时需要调用的计算机程序。
155.本技术实施例还提供了另一种终端，如图10所示，为了便于说明，仅示出了与本技术实施例相关的部分，具体技术细节未揭示的，请参照本技术实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：personal digital assistant，英文简称：pda)、销售终端(英文全称：point of sales，英文简称：pos)、车载电脑等任意终端，以终端为手机为例：
156.图10示出的是与本技术实施例提供的终端相关的手机的部分结构的框图。参考图10，手机包括：射频(英文全称：radio frequency，英文简称：rf)电路99、存储器920、输入单
元930、显示单元940、传感器950、音频电路960、无线保真(英文全称：wireless fidelity，英文简称：wi-fi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
157.下面结合图10对手机的各个构成部件进行具体的介绍：
158.rf电路99可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，rf电路99包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：low noise amplifier，英文简称：lna)、双工器等。此外，rf电路99还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：global system of mobile communication，英文简称：gsm)、通用分组无线服务(英文全称：general packet radio service，英文简称：gprs)、码分多址(英文全称：code division multiple access，英文简称：cdma)、宽带码分多址(英文全称：wideband code division multiple access,英文简称：wcdma)、长期演进(英文全称：long term evolution，英文简称：lte)、电子邮件、短消息服务(英文全称：short messaging service，英文简称：sms)等。
159.存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理，例如存储器920可用于存储上述目标视频、目标表情等信息。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
160.输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触摸点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
161.显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单，例如显示上述第一互动信息。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(英文全称：liquid crystal display，英文简称：lcd)、有机发光二极管(英文全称：organic light-emitting diode,英文简称：oled)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，
传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。
162.手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
163.音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经rf电路99以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。
164.wi-fi属于短距离无线传输技术，手机通过wi-fi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了wi-fi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。
165.处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。
166.手机还包括给各个部件供电的电源990(比如电池)，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
167.尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。
168.在本技术实施例中，该手机所包括的处理器980具有控制点读设备80中各模块的所执行的步骤的功能。例如，所述处理器822通过调用存储器832中的指令，执行以下操作：
169.当所述处理模块确定触摸对象在点读物上的移动状态为静止状态时，获取所述触摸对象在所述点读物上触摸点的第一位置；
170.若确定所述第一位置所在区域中包括目标对象，则获取所述触摸对象映射到所述点读物的目标区域；获取所述触摸对象对应所述目标区域内的多个关键点；
171.根据所述获取模块获取的所述多个关键点确定所述触摸点的目标位置；确定所述目标位置对应所述点读物的点读目标；
172.控制所述显示单元940、扬声器961播放与所述点读目标对应的数字内容。
173.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部
分，可以参见其他实施例的相关描述。
174.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
175.在本技术实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
176.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
177.另外，在本技术实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。
178.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。
179.所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
180.以上对本技术实施例所提供的技术方案进行了详细介绍，本技术实施例中应用了具体个例对本技术实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术实施例的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于虚拟现实播放点读物的方法、设备及存储介质与流程

相关文献

最热文献