语音指令执行时间的识别方法、装置及电子设备与流程

2022-11-16 09:58:22 来源：中国专利 TAG：

1.本技术涉及计算机领域，具体而言，涉及一种语音指令执行时间的识别方法、装置及电子设备。

背景技术：

2.相关技术中通常将语音指令执行时间作为衡量语音识别质量关键指标之一，语音指令执行时间可以指语音指令识被别出来到显示对应的目标页面的时间间隔，可以通过被识别出的语音指令对应的尾字符的时刻到语音指令对应的目标页面在电子设备的屏幕显示的时刻来作为语音指令执行时间。目前，当需要对语音指令执行时间进行对比分析时，通常需要录制多个视频，然后对上述视频通过人工逐帧分析，并记录语音指令对应的尾字符和目标页面对应的时间点的方式来分析响应速度。然而，上述方式会导致语音指令执行时间的识别效率较低。
3.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

4.本技术实施例提供了一种语音指令执行时间的识别方法、装置及电子设备，以至少解决相关技术中的语音指令执行时间的识别效率较低的技术问题。
5.根据本技术实施例的一个方面，提供了一种语音指令执行时间的识别方法，包括：获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，并确定上述第一帧图像对应的第一时间戳，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，上述第一信息与第二信息相同，上述第二信息为上述目标语音指令所表示的信息；根据上述目标视频中位于上述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，其中，上述第二时间戳表示上述目标设备响应于上述目标语音指令加载目标页面的完成时间，上述第二帧图像是上述目标视频中首次显示上述目标页面的帧图像。
6.根据本技术实施例的另一方面，还提供了一种语音指令执行时间的识别装置，包括：获取单元，用于获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；识别单元，用于对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，并确定上述第一帧图像对应的第一时间戳，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，上述第一信息与第二信息相同，上述第二信息为上述目标语音指令所表示的信息；确定单元，用于根据上述目标视频中位于上述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，其中，上述第二时间戳表示上述目标设备响应于上述目标语音指令加载目标页面的
完成时间，上述第二帧图像是上述目标视频中首次显示上述目标页面的帧图像。
7.根据本技术实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述的语音指令执行时间的识别方法。
8.根据本技术实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的语音指令执行时间的识别方法。
9.在本技术实施例中，通过对目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，将目标视频中首次显示上述目标页面的帧图像作为第二帧图像，根据第一帧图像和第二帧图像对应的时间戳来确定出目标设备的语音指令执行时间。从而避免了人工参与语音指令执行时间的确认，大大提高目标设备的语音指令执行时间的识别效率，节省了识别时间，解决了相关技术中的语音指令执行时间的识别效率较低的技术问题。
附图说明
10.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
11.图1是根据本技术实施例的一种可选的语音指令执行时间的识别方法的应用环境的示意图；
12.图2是根据本技术实施例的另一种可选的语音指令执行时间的识别方法的应用环境的示意图；
13.图3是根据本技术实施例的一种可选的语音指令执行时间的识别方法的流程图；
14.图4a是根据相关技术中的一种可选的语音指令执行时间的识别方法的图像显示示意图；
15.图4b是根据相关技术中的另一种可选的语音指令执行时间的识别方法的图像显示示意图；
16.图5是根据相关技术中的另一种可选的语音指令执行时间的识别方法的界面显示示意图；
17.图6是根据本技术实施例的一种可选的语音指令执行时间的识别方法的流程示意图；
18.图7是根据本技术实施例的另一种可选的语音指令执行时间的识别方法的流程示意图；
19.图8是根据相关技术中的又一种可选的语音指令执行时间的识别方法的界面显示示意图；
20.图9是根据相关技术中的又一种可选的语音指令执行时间的识别方法的界面显示示意图；
21.图10是根据相关技术中的又一种可选的语音指令执行时间的识别方法的界面显示示意图；
22.图11是根据相关技术中的又一种可选的语音指令执行时间的识别方法的界面显
示示意图；
23.图12是根据相关技术中的又一种可选的语音指令执行时间的识别方法的界面显示示意图；
24.图13是根据本技术实施例的又一种可选的语音指令执行时间的识别方法的流程图；
25.图14是根据本技术实施例的另一种可选的语音指令执行时间的识别方法的流程图；
26.图15是根据本技术实施例的又一种可选的语音指令执行时间的识别方法的流程图；
27.图16是根据本技术实施例的又一种可选的语音指令执行时间的识别方法的流程图；
28.图17是根据本技术实施例的一种可选的音响应时间的识别装置的结构示意图；
29.图18是根据本技术实施例的一种可选的电子设备的结构示意图。
具体实施方式
30.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
31.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
32.根据本技术实施例的一个方面，提供了一种语音指令执行时间的识别方法，可选地，作为一种可选的实施方式，上述一种语音指令执行时间的识别可以但不限于应用于如图1所示的环境中。该应用环境中包括：与用户进行人机交互的终端设备102、网络104、服务器106，终端设备102可以包括但不限于车载电子设备、手持终端、可穿戴设备、便携式设备等。用户108与终端设备102之间可以进行人机交互，终端设备102中运行有语音指令执行时间的识别应用客户端。上述终端设备102中包括人机交互屏幕1022，处理器1024及存储器1026。人机交互屏幕1022用于显示对目标设备的显示屏幕进行录制所得到的画面。处理器1024用于获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，并确定上述第一帧图像对应的第一时间戳，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，上述第一信息与第二信息相
同，上述第二信息为上述目标语音指令所表示的信息；根据上述目标视频中位于上述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，其中，上述第二时间戳表示上述目标设备响应于上述目标语音指令加载目标页面的完成时间，上述第二帧图像是上述目标视频中首次显示上述目标页面的帧图像；存储器1026用于存储上述目标视频，以及存储包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面。
33.具体过程如以下步骤：假设如图1所示终端设备102中运行有语音指令执行时间的识别应用客户端，用户108操作人机交互屏幕1022对虚拟角色进行管理和操作，如步骤s102，获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面。然后执行步骤s104，将上述目标视频通过网络104发送给服务器106。服务器106接收到该请求后，执行步骤s106和s108，对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，并确定上述第一帧图像对应的第一时间戳，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，上述第一信息与第二信息相同，上述第二信息为上述目标语音指令所表示的信息；根据上述目标视频中位于上述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，其中，上述第二时间戳表示上述目标设备响应于上述目标语音指令加载目标页面的完成时间，上述第二帧图像是上述目标视频中首次显示上述目标页面的帧图像。并如步骤s110，通过网络104通知终端设备102，返回确定出的语音指令执行时间。
34.作为另一种可选的实施方式，本技术上述语音指令执行时间的识别方法可以应用于图2所示的应用环境中。如图2所示，用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206和处理器208。本实施例中用户设备204可以但不限于参考执行上述终端设备102所执行的操作，以获取目标设备的语音指令执行时间。
35.可选地，在本实施例中，上述终端设备102和用户设备204可以包括但不限于以下至少之一：手机(如android手机、ios手机等)、笔记本电脑、平板电脑、掌上电脑、mid(mobile internet devices，移动互联网设备)、pad、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络104可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、wifi及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。
36.可选地，作为一种可选的实施方式，如图3所示，上述语音指令执行时间的识别方法包括：
37.s302，获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；
38.s304，对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，并确定上述第一帧图像对应的第一时间戳，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，上述第一信息与第二信息相同，上述第二信息为上述目标语音指令所表示的信息；
39.可以理解，在一些示例中，目标设备对目标语音指令进行识别的起止时间点准确，
则当目标设备对目标语音指令的内容识别准确时，目标设备所识别得到的目标信息即为第二信息，此时第一信息可以是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的全部信息。如图4a所示，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的全部的文本信息，如语音指令显示框402中显示的文本信息，即第二信息(“我想看xxx的电影”)。
40.在另一些示例中，目标设备对目标语音指令进行识别的起止时间点可能不准确，可能识别的起始时间点过早(此时，在识别到与第二信息的首字符相同的字符前，目标设备可能还识别到了其他字符)，也可能识别的终止时间点过晚(此时，在识别到的字符包括第二信息后，目标设备可能还识别到了其他字符)，如图4b所示，在目标设备400对上述目标语音指令进行识别所得到的，显示在显示屏幕上的全部信息为“这时我想看xxx的电影”。则，当目标设备对目标语音指令的内容识别准确时，目标设备所识别得到的目标信息在包括第二信息的同时，还包括了其他信息(“这时”)，此时，第一信息仅为上述目标设备400对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分信息。如图4b所示，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的部分的文本信息，如语音指令显示框402中显示的部分文本信息，即第二信息(“我想看xxx的电影”)。
41.s306，根据所述目标视频中位于所述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，其中，所述第二时间戳表示所述目标设备响应于所述目标语音指令加载目标页面的完成时间，所述第二帧图像是所述目标视频中首次显示所述目标页面的帧图像。
42.在步骤s302中，实际应用时，可以包括但不限于通过手机、笔记本电脑、平板电脑、掌上电脑、mid(mobile internet devices，移动互联网设备)、pad、台式电脑等设备对目标设备的显示屏幕进行录制。目标设备可以包括电视，手机，笔记本电脑等电子设备，在此不做限定。在本实施例中，例如，如图4a或图4b所示，可以通过移动设备404录制目标设备400的显示屏幕得到目标视频。上述目标视频包括对目标设备400输入语音指令(语音指令显示框402中的文本我想看xxx的电影)时显示屏幕上显示的画面。
43.可选的，在一实施例中，目标设备可以为多个电子设备；例如，如图5所示，通过移动设备500录制第一目标设备502和第二目标设备504的显示屏幕得到目标视频，目标视频中包括第一目标设备502的显示屏幕和第二目标设备504二者的显示屏幕。
44.在步骤s304中，实际应用时，对目标视频中的帧图像进行字符识别，可以包括但不限于对帧图像通过光学字符识别(optical character recognition，ocr)来识别帧图像中的文本字符。如图4a所示，在本实施例中，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的文本信息，如语音指令显示框402中显示的文本信息(如“我想看xxx的电影”)。如图6所示，将目标视频中的多帧图像通过ocr识别后，可以得到每帧图像中包含的字符，并记录下首字符，将尾字符出现的帧图像作为第一帧图像，在图6中第一帧图像为目标视频中的第6s对应的帧图像，该图像中包括第一信息的尾字符“影”。可以得到，第一帧图像对应的时间戳为6s。
45.在步骤s306中，实际应用时，第二时间戳表示上述目标设备响应于上述目标语音指令加载目标页面的完成时间，第二帧图像是上述目标视频中首次显示上述目标页面的帧
图像。例如，如图7所示，在目标设备700中的屏幕中，语音指令显示框702显示有语音指令信息“我想看xxx的电影”，响应于上述语音指令，在目标设备700的屏幕中显示目标页面704，在目标页面704中显示有xxx的电影窗口。这时，第二帧图像可以是目标视频中首次出现该目标页面的帧图像。如图8所示，在目标设备800中的屏幕中，语音指令显示框802显示有语音指令信息“今天天气如何”，响应于上述语音指令，在目标设备800的屏幕中显示目标页面804为天气应用的界面，显示有当天天气信息。在一个或多个实施例中，目标页面可以为多个应用的显示页面，在此不做限定；
46.在一个或多个实施例中，如图6所示，上述语音指令执行时间的识别方法包括：将目标视频中的多帧图像通过ocr识别后，获取到每一帧图像中的文本信息展示区域，以及每帧图像对应的时间戳，将包含有帧序号，帧时间戳和每帧图像中文本信息展示区域对应的字符记录到预设的表格中。
47.在本技术实施例中，通过对目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，将目标视频中首次显示上述目标页面的帧图像作为第二帧图像，根据第一帧图像和第二帧图像对应的时间戳来确定出目标设备的语音指令执行时间。从而避免了人工参与语音指令执行时间的确认，大大提高目标设备的语音指令执行时间的识别效率，节省了识别时间，解决了相关技术中的语音指令执行时间的识别效率较低的技术问题。
48.在一个或多个实施例中，步骤s306，根据上述目标视频中位于上述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，包括：在位于上述第一帧图像之后的当前帧图像与上一帧图像不同、且上述当前帧图像与上述当前帧图像之后的预设时长内的帧图像均相同时，将上述当前帧图像确定为上述第二帧图像，并确定上述第二帧图像对应的上述第二时间戳。
49.如图9所示，位于上述第一帧图像之后的当前帧图像(目标设备900中第2.5秒显示的画面)与上一帧图像(第2秒显示的画面)不同、且上述当前帧图像与上述当前帧图像之后的5秒内的帧图像均相同时，将上述第2.5秒对应的帧图像确定为上述第二帧图像，确定上述第二帧图像对应的上述第二时间戳为2.5秒。
50.在一个或多个实施例中，目标页面可以为语音指令的响应页面，即目标设备接收到语音指令后进行分析识别，显示与语音指令对应的画面。例如，对目标设备700发出语音指令信息“我想看xxx的电影”，响应于上述语音指令，在目标设备700的屏幕中显示目标页面704，在目标页面704中显示有xxx的电影窗口。如图8所示，对目标设备800发出语音指令信息“今天天气如何”，响应于上述语音指令，在目标设备800的屏幕中显示目标页面804为天气应用的界面。
51.通过本技术提供的一个或多个实施例，通过在位于上述第一帧图像之后的当前帧图像与上一帧图像不同、且上述当前帧图像与上述当前帧图像之后的预设时长内的帧图像均相同时，将上述当前帧图像确定为上述第二帧图像，可以精准识别到语音指令的响应页面的加载完成的帧图像和时间，进一步提升了语音指令执行时间识别的效率。
52.在一个或多个实施例中，步骤s306，根据上述目标视频中位于上述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，包括：从上述第一帧图像的下一个帧图像开始，重复执行以下识别步骤，其中，上述下一个帧图像为当前帧图像：
53.s1，保存上述当前帧图像对应的时间戳；
54.s2，比较上述当前帧图像与上述当前帧图像的下一帧图像是否相同；
55.s3，在上述当前帧图像与上述当前帧图像的下一帧图像不同时，将上述当前帧图像的下一帧图像设置为上述当前帧图像；
56.s4，在所述当前帧图像与所述当前帧图像的下一帧图像相同时，若所述当前帧图像与所述当前帧图像之后的预设时长内的帧图像均相同，则将所述当前帧图像确定为所述第二帧图像，并将所述当前帧图像对应的时间戳确定为所述第二时间戳，结束执行所述识别步骤。
57.如图9所示，保存当前帧图像对应的时间戳，例如第一帧对应的时间戳为1s，当前帧图像(第一个帧图像)与当前帧图像的下一帧图(第2秒对应的第二个帧图像)像不同时，将第2秒对应的第二个帧图像设置为上述当前帧图像。
58.在当前帧图像(第2.5秒对应的帧图像)与上述当前帧图像的下一帧图像(图中未示出)相同时，确定上述当前帧图像与上述当前帧图像之后的预设时长(这里设置为5秒)内的帧图像是否均相同；在上述当前帧图像与上述当前帧图像之后的预设时长内的帧图像均相同时，将第2.5秒对应的帧图像确定为上述第二帧图像，并将2.5秒确定为上述第二时间戳，结束执行上述识别步骤。
59.通过本技术提供的一个或多个实施例，可以精准识别到语音指令的响应页面的加载完成的帧图像和时间，进一步提升了语音指令文本信息响应时间识别的效率。
60.在一个或多个实施例中，上述从上述第一帧图像的下一个帧图像开始，重复执行上述识别步骤，还包括：在上述当前帧图像与上述当前帧图像之后的预设时长内的第三帧图像不同、且上述当前帧图像与上述第三帧图像之前的帧图像相同时，将上述第三帧图像设置为上述当前帧图像。
61.如图9所示，在上述当前帧图像(如第2.5秒对应的帧图像)与之后的预设时长内的第三帧图像(第5秒对应的帧图像)不同、且上述当前帧图像与上述第三帧图像之前的帧图像(第5秒之前和第2.5秒之后的多帧图像)相同时，将第5秒对应的帧图像设置为上述当前帧图像。
62.在一个或多个实施例中，步骤s304，对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，包括：对所述目标视频中的帧图像中预设的目标展示区域进行字符识别，识别到所述尾字符，并确定所述尾字符出现的所述第一帧图像，其中，所述目标展示区域为展示所述第一信息的区域。
63.在本实施例中，如图4a所示，目标展示区域可以包括但不限于语音指令显示框402对对应的区域。在目标展示区域中展示有第一信息(我想看xxx的电影)。识别到上述尾字符“影”，并确定所述尾字符“影”出现的所述第一帧图像。
64.通过本技术提供的一个或多个实施例，通过对上述目标视频中的帧图像中预设的目标展示区域进行字符识别，分别识别到上述尾字符，并确定上述尾字符出现的上述第一帧图像，无需对目标视频的帧图像中的整个画面的全屏进行字符识别，缩小了字符识别的范围，进一步提升了语音指令文本信息识别的效率。
65.在一个或多个实施例中，上述对目标视频中的帧图像中预设的目标展示区域进行字符识别，识别到上述尾字符，并确定上述尾字符出现的上述第一帧图像之前还包括：确定
上述目标设备中的预设区域，其中，上述预设区域用于显示上述目标设备对输入的语音指令进行语音识别得到的信息；将上述预设区域确定为上述目标展示区域。
66.例如，获取上述目标视频中的帧图像的图像尺寸；根据上述图像尺寸确定出上述帧图像中的预设区域，并对上述预设区域范围进行标记，例如加入矩形或椭圆形的边框；将上述预设区域确定为上述目标展示区域。
67.本技术通过确定出显示上述目标设备对输入的语音指令进行语音识别得到的信息的预设区域，可以精准的获取到语音指令在目标设备上显示的字符，提升语音指令文本信息识别的效率。
68.在一个或多个实施例中，上述对上述目标视频中的帧图像中预设的目标展示区域进行字符识别，识别到上述尾字符，并确定上述尾字符出现的上述第一帧图像，包括：在上述目标视频中的连续n个帧图像中的上述目标展示区域中识别到的字符均相同、且在上述第一信息与第二信息包含的字符相同时，将在上述连续n个帧图像中的一个帧图像中所识别到的最后一个字符确定为上述尾字符，并将上述尾字符首次出现的帧图像确定为上述第一帧图像；其中，上述第二信息为上述目标语音指令所表示的信息，n为大于或等于2的自然数。
69.在本实施例中，如图6所示，在目标视频中的第17帧到第20帧中的目标展示区域中识别到的字符均相同，如均为“我想看xxx的电影”时，可以将将在上述连续4个帧图像中的一个帧图像中所识别到的最后一个字符确定为上述尾字符(如字符“影”)，并将上述尾字符首次出现的帧图像，即第20帧对应的图像确定为第一帧图像。
70.通过本技术提供的一个或多个实施例，通过判断多个连续的帧图像中所识别到的字符没有发生变化时，将第一次出现尾字符的帧图像作为第一帧图像，可以精准的获取到目标展示区域中的语音指令的尾字符，并可以获取到尾字符对应的帧图像，无需通过人工进行标注，进一步提升了语音指令文本信息识别的效率。
71.在一个或多个实施例中，上述对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，包括：在上述识别到的字符包括上述第二信息、且上述当前帧图像之前的帧图像中未识别到上述第二信息中的尾字符时，将上述识别到的字符中与上述第二信息中的尾字符相同的字符确定为上述第一信息中的尾字符，并将上述当前帧图像确定为上述第一帧图像。
72.在本实施例中，如图6所示，当前帧图像(如第20帧图像)中识别到的字符包括上述第二信息(我想看xxx的电影)，上述第20帧图像之前的帧图像(第29帧图像)中未识别到上述第二信息中的尾字符(字符“影”)时，将上述识别到的字符中与上述第二信息中的尾字符相同的字符确定为上述第一信息中的尾字符，即将字符“影”确定为上述第一信息中的尾字符，并将第20帧图像确定为第一帧图像。
73.通过本技术提供的一个或多个实施例，在识别到的字符包括上述第二信息、且上述当前帧图像之前的帧图像中未识别到上述第二信息中的尾字符时获取尾字符和第一帧图像，可以精准的获取到目标展示区域中的语音指令的尾字符，并可以获取到尾字符对应的帧图像，无需通过人工进行标注，进一步提升了语音指令文本信息识别的效率。
74.在一个或多个实施例中，在上述目标视频为单个视频时，将上述目标设备的语音指令执行时间确定为包括：上述第一时间戳和上述第二时间戳，或者，上述第一时间戳与上
述第二时间戳之间的时间间隔；
75.在上述目标视频为多个视频时，将上述目标设备的语音指令执行时间确定为包括：基于上述多个视频确定出的多个上述第一时间戳的平均值和基于上述多个视频确定出的多个上述第二时间戳的平均值、或者、基于上述多个视频确定出的上述第一时间戳与上述第二时间戳之间的时间间隔的平均值。
76.通过本技术提供的一个或多个实施例，通过上述技术手段，可以灵活便捷地获取到从语音指令发出到语音指令在目标设备上完成响应的时间，提升语音指令执行时间的识别效率。
77.在一个或多个实施例中，根据上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，确定上述目标设备的语音指令执行时间，包括：在上述目标视频包括多个视频时，将每个视频中获取到的上述第一时间戳和上述第二时间戳之间的时间间隔，确定为上述每个视频对应的候选语音指令执行时间；将上述每个视频对应的候选语音指令执行时间的平均值确定为上述目标设备的语音指令执行时间。
78.在本实施例中，如图4a所示，当目标视频包括多个视频，也就是说，对目标设备400进行多次视频录制，并每个视频对应的候选语音指令执行时间的平均值确定为上述目标设备的语音指令执行时间，例如目标视频包括5个视频，每个视频对于的候选语音指令执行时间的平均值为5s，那么就可以将该平均值作为该目标设备400的语音指令执行时间。
79.通过本技术提供的一个或多个实施例，将每个视频对应的候选语音指令执行时间的平均值确定为上述目标设备的语音指令执行时间。可以避免因单次识别造成误差的情况，可以精准的获取到语音指令在目标设备上显示的时间，提升语音指令文本信息识别的效率。
80.在一个或多个实施例中，如图10所示，通过ocr识别后，获取到第20帧的图像中的文本信息展示区域1002，显示文本信息为空后，记录下第20帧的图像的帧序号，帧时间戳6s，和对应的文本信息“我想看xxx的电影”。此时，第一帧图像为第20帧图像，对应的时间戳为6s。
81.在一个或多个实施例中，如图11所示，可以包括但不限于通过ocr识别目标设备中帧图像中的文本信息展示区域1102，得到语音指令对应显示文本信息的位置。
82.在一个或多个实施例中，如图12所示，上述语音指令执行时间的识别方法包括：对不同的目标设备同时进行语音指令执行时间的识别，目标设备1102的文本信息展示区域1202a，目标设备1104的文本信息展示区域1402a，目标设备1402的文本信息展示区域1402a，均显示有语音指令“我想看xxx的电影”对应显示文本信息。其中，目标设备1202中显示为目标应用的显示画面，目标设备1204和目标设备1206中显示有电视界面的显示画面。
83.在一个或多个实施例中，上述语音指令执行时间的识别方法还包括：将获取到的目标视频通过视频处理工具进行时间戳标记，这里，视频处理工具包括但不限于，opencv或ffmpeg等视频工具。通过本技术提供上述技术手段，可以精准的获取到语音指令在目标设备上对应的图像的时间标记，提升语音指令文本信息识别的效率。
84.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知
悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
85.根据本技术实施例的另一个方面，上述语音指令执行时间的识别方法包括如图13所示的步骤：步骤s1302，通过手机录制批量视频；步骤s1304，通过视频处理工具找到目标设备文本识别展示区域；步骤s1306，处理获取到的视频，并通过视频处理工具加入时间戳；步骤s1308，依次输入多个视频的文字识别展示区域，通过ocr算法记录识别文字识别展示区域的结尾的时间点以及语言指令执行完成的时间点，然后得到语音指令执行时间。
86.在一个或多个实施例中，如图14所示，上述语音指令执行时间的识别方法还包括如下步骤：步骤s1402，处理目标视频加入时间戳，即检测各个设备文字区域、通过视频工具处理在录制的视频上增加时间戳；然后确定出目标视频中的文字展示区域。步骤s1404，通过opencv或ffmpeg等软件将视频进行分帧。步骤s1406，对分帧图片中的文字上屏幕区域进行文字识别处理；即通过文字识别模块对分帧图片中的字符进行识别。步骤s1408，分别记录各个目标设备的分帧图片中尾字符出现的时间点。步骤s1410，从尾字符识别完成时间点开始图片识别，记录语言指令执行完成时间点。在步骤s1410中，对尾字符出现的帧图像之后的图像进行图片相似度的比较，如果检测到页面5s后无变化，则表示语音指令对应的页面加载完成，记录加载完成的页面对应时间点，并将该时间点作为语音指令响应执行动作的结束时间点。
87.可选地，在一实施例中，还可以通过上述步骤s1402至步骤s1410对多个目标设备进行检测，并可以将各个设备的识别数据进行汇总，计算出各个设备尾字符识别、执行结束平均时间点。根据尾字识别、执行结束时间点平均值比较出设备执行时间。
88.在一个或多个实施例中，上述步骤s1404，具体包括以下过程：步骤s1502，对分帧图像进行图片的预处理，预处理包括图像平滑、版面分析、倾斜度校正等方法；步骤s1504，对处理后的图像中的文字区域进行检测，即找出包含字符的文字区域；步骤s1506，对上述文字区域进行图像二值化处理；步骤s1508，对二值化处理后的文字区域或者文字行进行字符分割，分割出单个的字符。步骤s1510，将输入的字符点阵图像转化为文本文字，以便文本处理；在文本处理过程中，比较识别文字与整条语音指令是否一致，如果一致则记录该时间点为尾字符识别时间点。
89.在一个或多个实施例中，如图16所示，上述语音指令执行时间的识别方法还包括如下步骤：
90.s1602，将文字识别结束时间点视频帧设置为当前帧图像，保存当前帧图像的当前时间点t；重置定时器为空；
91.s1604，比较当前帧图像的后一帧图像与当前图像是否相同，如果相同则执行步骤s1606；否则进入步骤s1608；
92.s1606，比较当前帧图像和之后5秒内的帧图像是否均相同，如果均相同，则进入步骤s1610，如果不同，则进入步骤s1612；
93.s1608，将与当前帧图像不同的帧图像作为当前帧图像，然后转入步骤s1602；
94.s1610，记录之前保存的时间点t为执行结束时间点；
95.s1612，将与当前帧图像不同的帧图像作为当前帧图像，然后转入步骤s1602。
96.在本技术实施例中，通过对目标视频中的帧图像进行字符识别，得到第一信息中
的尾字符出现的第一帧图像，将目标视频中首次显示上述目标页面的帧图像作为第二帧图像，根据第一帧图像和第二帧图像对应的时间戳来确定出目标设备的语音指令执行时间。从而避免了人工参与语音指令执行时间的确认，大大提高目标设备的语音指令执行时间的识别效率，节省了识别时间，解决了相关技术中的语音指令执行时间的识别效率较低的技术问题。
97.根据本技术实施例的另一个方面，还提供了一种用于实施上述语音指令执行时间的识别方法的语音指令执行时间的识别装置1700。如图17所示，该装置包括：
98.获取单元1702，用于获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，所述目标视频包括对所述目标设备输入目标语音指令时所述显示屏幕上显示的画面；
99.识别单元1704，用于对所述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，并确定上述第一帧图像对应的第一时间戳，其中，上述第一信息是所述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，上述第一信息与第二信息相同，上述第二信息为上述目标语音指令所表示的信息；
100.确定单元1706，用于根据所述第一帧图像对应的第一时间戳和所述第二帧图像对应的第二时间戳，确定所述目标设备的语音指令执行时间。
101.可以理解，在一些示例中，目标设备对目标语音指令进行识别的起止时间点准确，则当目标设备对目标语音指令的内容识别准确时，目标设备所识别得到的目标信息即为第二信息，此时第一信息可以是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的全部信息。如图4a所示，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的全部的文本信息，如语音指令显示框402中显示的文本信息，即第二信息(“我想看xxx的电影”)。
102.在另一些示例中，目标设备对目标语音指令进行识别的起止时间点可能不准确，可能识别的起始时间点过早(此时，在识别到与第二信息的首字符相同的字符前，目标设备可能还识别到了其他字符)，也可能识别的终止时间点过晚(此时，在识别到的字符包括第二信息后，目标设备可能还识别到了其他字符)，如图4b所示，在目标设备400对上述目标语音指令进行识别所得到的，显示在显示屏幕上的全部信息为“这时我想看xxx的电影”。则，当目标设备对目标语音指令的内容识别准确时，目标设备所识别得到的目标信息在包括第二信息的同时，还包括了其他信息(“这时”)，此时，第一信息仅为上述目标设备400对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分信息。如图4b所示，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的部分的文本信息，如语音指令显示框402中显示的部分文本信息，即第二信息(“我想看xxx的电影”)。
103.在一个或多个实施例中，可以包括但不限于通过手机、笔记本电脑、平板电脑、掌上电脑、mid(mobile internet devices，移动互联网设备)、pad、台式电脑等设备对目标设备的显示屏幕进行录制。目标设备可以包括电视，手机，笔记本电脑等电子设备，在此不做限定。在本实施例中，例如，如图4a或图4b所示，可以通过移动设备404录制目标设备400的显示屏幕得到目标视频。上述目标视频包括对目标设备400输入语音指令(语音指令显示框402中的文本我想看xxx的电影)时显示屏幕上显示的画面。
104.可选的，在一实施例中，目标设备可以为多个电子设备；例如，如图5所示，通过移动设备500录制第一目标设备502和第二目标设备504的显示屏幕得到目标视频，目标视频中包括第一目标设备502的显示屏幕和第二目标设备504二者的显示屏幕。
105.在一个或多个实施例中，对目标视频中的帧图像进行字符识别，可以包括但不限于对帧图像通过光学字符识别(optical character recognition，ocr)来识别帧图像中的文本字符。如图4a所示，在本实施例中，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的文本信息，如语音指令显示框402中显示的文本信息(如“我想看xxx的电影”)。如图6所示，将目标视频中的多帧图像通过ocr识别后，可以得到每帧图像中包含的字符，并记录下首字符，将尾字符出现的帧图像作为第一帧图像，在图6中第一帧图像为目标视频中的第6s对应的帧图像，该图像中包括第一信息的尾字符“影”。可以得到，第一帧图像对应的时间戳为6s。
106.在一个或多个实施例中，第二时间戳表示上述目标设备响应于上述目标语音指令加载目标页面的完成时间，第二帧图像是上述目标视频中首次显示上述目标页面的帧图像。例如，如图7所示，在目标设备700中的屏幕中，语音指令显示框702显示有语音指令信息“我想看xxx的电影”，响应于上述语音指令，在目标设备700的屏幕中显示目标页面704，在目标页面704中显示有xxx的电影窗口。这时，第二帧图像可以是目标视频中首次出现该目标页面的帧图像。如图8所示，在目标设备800中的屏幕中，语音指令显示框802显示有语音指令信息“今天天气如何”，响应于上述语音指令，在目标设备800的屏幕中显示目标页面804为天气应用的界面，显示有当天天气信息。在一个或多个实施例中，目标页面可以为多个应用的显示页面，在此不做限定；
107.在一个或多个实施例中，如图6所示，上述语音指令执行时间的识别装置1700可以将目标视频中的多帧图像通过ocr识别后，获取到每一帧图像中的文本信息展示区域，以及每帧图像对应的时间戳，将包含有帧序号，帧时间戳和每帧图像中文本信息展示区域对应的字符记录到预设的表格中。
108.在本技术实施例中，通过对目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，将目标视频中首次显示上述目标页面的帧图像作为第二帧图像，根据第一帧图像和第二帧图像对应的时间戳来确定出目标设备的语音指令执行时间。从而避免了人工参与语音指令执行时间的确认，大大提高目标设备的语音指令执行时间的识别效率，节省了识别时间，解决了相关技术中的语音指令执行时间的识别效率较低的技术问题。
109.根据本技术实施例的又一个方面，还提供了一种用于实施上述语音指令执行时间的识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图18所示，该电子设备包括存储器1802和处理器1804，该存储器1802中存储有计算机程序，该处理器1804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
110.可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
111.可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
112.s1，获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频
包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；
113.s2，对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，并确定上述第一帧图像对应的第一时间戳，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，上述第一信息与第二信息相同，上述第二信息为上述目标语音指令所表示的信息；
114.s3，根据上述目标视频中位于上述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，其中，上述第二时间戳表示上述目标设备响应于上述目标语音指令加载目标页面的完成时间，上述第二帧图像是上述目标视频中首次显示上述目标页面的帧图像。
115.可选地，本领域普通技术人员可以理解，图18所示的结构仅为示意，电子装置电子设备也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图18其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图18中所示更多或者更少的组件(如网络接口等)，或者具有与图18所示不同的配置。
116.其中，存储器1802可用于存储软件程序以及模块，如本技术实施例中的语音指令执行时间的识别方法和装置对应的程序指令/模块，处理器1804通过运行存储在存储器1802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音指令执行时间的识别方法。存储器1802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1802可进一步包括相对于处理器1804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1802具体可以但不限于用于目标视频等信息。作为一种示例，如图18所示，上述存储器1802中可以但不限于包括上述语音指令执行时间的识别装置1700中的获取单元1702、识别单元1704、及确定单元1706。此外，还可以包括但不限于上述语音指令执行时间的识别装置中的其他模块单元，本示例中不再赘述。
117.可选地，上述的传输装置1806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1806包括一个网络适配器(network interface controller，nic)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1806为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
118.此外，上述电子设备还包括：显示器1808，用于显示上述目标视频；和连接总线1810，用于连接上述电子设备中的各个模块部件。
119.在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(p2p，peer to peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
120.在一个或多个实施例中，本技术还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质
中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述语音指令执行时间的识别方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
121.可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：
122.s1，获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；
123.s2，对上述目标视频中的帧图像进行字符识别，得到第一信息中的尾字符出现的第一帧图像，并确定上述第一帧图像对应的第一时间戳，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，上述第一信息与第二信息相同，上述第二信息为上述目标语音指令所表示的信息；
124.s3，根据上述目标视频中位于上述第一帧图像之后的帧图像，确定第二帧图像对应的第二时间戳，其中，上述第二时间戳表示上述目标设备响应于上述目标语音指令加载目标页面的完成时间，上述第二帧图像是上述目标视频中首次显示上述目标页面的帧图像。
125.可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
126.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。
127.在本技术的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
128.在本技术所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
129.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
130.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以
是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
131.以上所述仅是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种带负载多子线1553B总线耦合器的制作方法

语音指令执行时间的识别方法、装置及电子设备与流程

相关文献

最热文献