语音响应时间的识别方法及装置与流程

2022-11-16 10:49:02 来源：中国专利 TAG：

1.本发明涉及计算机领域，具体而言，涉及一种语音响应时间的识别方法及装置。

背景技术：

2.相关技术中通常将语音响应时间作为衡量语音识别质量关键指标之一，语音响应时间通常是指发出语音指令到语音指令识别出来的时长，可以通过被识别出的语音指令对应的首字符和尾字符在电子设备的屏幕显示的时刻来确定语音响应时间。目前，当需要对语音响应时间进行对比分析时，通常需要录制多个视频，然后对上述视频通过人工逐帧分析，并记录语音指令对应的首字符和尾字符对应的时间点的方式来分析响应速度。然而，上述方式会导致语音响应时间的识别效率较低。
3.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

4.本发明实施例提供了一种语音响应时间的识别方法及装置，以至少解决相关技术中的语音响应时间的识别效率较低的技术问题。
5.根据本发明实施例的一个方面，提供了一种语音响应时间的识别方法，包括：获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息；上述第一信息与第二信息相同，上述第二信息为所述目标语音指令所表示的信息；确定上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，其中，所述第一时间戳和所述第二时间戳用于确定上述目标设备的语音响应时间。
6.根据本发明实施例的另一方面，还提供了一种语音响应时间的识别装置，包括：获取单元，用于获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；识别单元，用于对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息；确定单元，用于确定上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，其中，上述第一时间戳和上述第二时间戳用于确定上述目标设备的语音响应时间。
7.根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述的语音响应时间的识别方法。
8.根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上
述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的语音响应时间的识别方法。
9.在本技术实施例中，通过对目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及所述第一信息中的尾字符出现的第二帧图像，根据第一帧图像和第二帧图像对应的时间戳来确定出目标设备的语音响应时间。从而避免了人工参与语音响应时间的确认，大大提高目标设备的语音响应时间的识别效率，节省了识别时间，解决了相关技术中的语音响应时间的识别效率较低的技术问题。
附图说明
10.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
11.图1是根据本技术实施例的一种可选的语音响应时间的识别方法的应用环境的示意图；
12.图2是根据本技术实施例的另一种可选的语音响应时间的识别方法的应用环境的示意图；
13.图3是根据本技术实施例的一种可选的语音响应时间的识别方法的流程图；
14.图4a是根据本技术实施例的另一种可选的语音响应时间的识别方法的图像显示示意图；
15.图4b是根据本技术实施例的一种可选的语音响应时间的识别方法的图像显示示意图；
16.图5是根据本技术实例的另一种可选的语音响应时间的识别方法的界面显示示意图；
17.图6是根据本技术实施例的一种可选的语音响应时间的识别方法的流程示意图；
18.图7是根据本技术实施例的另一种可选的语音响应时间的识别方法的流程示意图；
19.图8是根据本技术实施例的又一种可选的语音响应时间的识别方法的流程示意图；
20.图9是根据本技术实施例的另一种可选的语音响应时间的识别方法的流程示意图；
21.图10是根据本技术实施例的再一种可选的语音响应时间的识别方法的流程示意图；
22.图11是根据本技术实施例的又一种可选的语音响应时间的识别方法的界面显示示意图；
23.图12是根据本技术实施例的又一种可选的语音响应时间的识别方法的界面显示示意图；
24.图13是根据本技术实施例的又一种可选的语音响应时间的识别方法的流程图；
25.图14是根据本技术实施例的另一种可选的语音响应时间的识别方法的流程图；
26.图15是根据本技术实施例的又一种可选的语音响应时间的识别方法的流程图；
27.图16是根据本技术实施例的一种可选的音响应时间的识别装置的结构示意图；
28.图17是根据本技术实施例的一种可选的电子设备的结构示意图。
具体实施方式
29.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
30.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.根据本技术实施例的一个方面，提供了一种语音响应时间的识别方法，可选地，作为一种可选的实施方式，上述一种语音响应时间的识别可以但不限于应用于如图1所示的环境中。该应用环境中包括：与用户进行人机交互的终端设备102、网络104、服务器106，终端设备102可以包括但不限于车载电子设备、手持终端、可穿戴设备、便携式设备等。用户108与终端设备102之间可以进行人机交互，终端设备102中运行有语音响应时间的识别应用客户端。上述终端设备102中包括人机交互屏幕1022，处理器1024及存储器1026。人机交互屏幕1022用于显示对目标设备的显示屏幕进行录制所得到的画面。处理器1024用于获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的全部或部分信息；根据上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，确定上述目标设备的语音响应时间时间；存储器1026用于存储上述目标视频，以及存储包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面。
32.具体过程如以下步骤：假设如图1所示终端设备102中运行有语音响应时间的识别应用客户端，用户108操作人机交互屏幕1022对虚拟角色进行管理和操作，如步骤s102，获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面。然后执行步骤s104，将上述目标视频通过网络104发送给服务器106。服务器106接收到该请求后，执行步骤s106和s108，对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的全部或部分信息；确定上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，其中，上述第
一时间戳和上述第二时间戳用于确定上述目标设备的语音响应时间。并如步骤s110，通过网络104通知终端设备102，返回确定出的语音响应时间。
33.作为另一种可选的实施方式，本技术上述语音响应时间的识别方法可以应用于图2所示的应用环境中。如图2所示，用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206和处理器208。本实施例中用户设备204可以但不限于参考执行上述终端设备102所执行的操作，以获取目标设备的语音响应时间。
34.可选地，在本实施例中，上述终端设备102和用户设备204可以包括但不限于以下至少之一：手机(如android手机、ios手机等)、笔记本电脑、平板电脑、掌上电脑、mid(mobile internet devices，移动互联网设备)、pad、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络104可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、wifi及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。
35.可选地，作为一种可选的实施方式，如图3所示，上述语音响应时间的识别方法包括：
36.s302，获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；
37.s304，对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分或全部信息，所述第一信息与第二信息相同，所述第二信息为所述目标语音指令所表示的信息；
38.可以理解，在一些示例中，目标设备对目标语音指令进行识别的起止时间点准确，则当目标设备对目标语音指令的内容识别准确时，目标设备所识别得到的目标信息即为第二信息，此时第一信息可以是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的全部信息。如图4a所示，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的全部的文本信息，如语音指令显示框402中显示的文本信息，即第二信息(“我想看xxx的电影”)。
39.在另一些示例中，目标设备对目标语音指令进行识别的起止时间点可能不准确，可能识别的起始时间点过早(此时，在识别到与第二信息的首字符相同的字符前，目标设备可能还识别到了其他字符)，也可能识别的终止时间点过晚(此时，在识别到的字符包括第二信息后，目标设备可能还识别到了其他字符)，如图4b所示，在目标设备400对上述目标语音指令进行识别所得到的，显示在显示屏幕上的全部信息为“这时我想看xxx的电影”。则，当目标设备对目标语音指令的内容识别准确时，目标设备所识别得到的目标信息在包括第二信息的同时，还包括了其他信息(“这时”)，此时，第一信息仅为上述目标设备400对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的部分信息。如图4b所示，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的部分的文本信息，如语音指令显示框402中显示的部分文本信息，即第二信息(“我
想看xxx的电影”)。
40.s306，确定所述第一帧图像对应的第一时间戳和所述第二帧图像对应的第二时间戳，其中，所述第一时间戳和所述第二时间戳用于确定所述目标设备的语音响应时间。
41.在步骤s302中，实际应用时，可以包括但不限于通过手机、笔记本电脑、平板电脑、掌上电脑、mid(mobile internet devices，移动互联网设备)、pad、台式电脑等设备对目标设备的显示屏幕进行录制。目标设备可以包括电视，手机，笔记本电脑等电子设备，在此不做限定。在本实施例中，例如，如图4a所示，可以通过移动设备404录制目标设备400的显示屏幕得到目标视频。上述目标视频包括对目标设备400输入语音指令(语音指令显示框402中的文本我想看xxx的电影)时显示屏幕上显示的画面。
42.可选的，在一实施例中，目标设备可以为多个电子设备；例如，如图5所示，通过移动设备500录制第一目标设备502和第二目标设备504的显示屏幕得到目标视频，目标视频中包括第一目标设备502的显示屏幕和第二目标设备504二者的显示屏幕。
43.在步骤s304中，实际应用时，对目标视频中的帧图像进行字符识别，可以包括但不限于对帧图像通过光学字符识别(optical character recognition，ocr)来识别帧图像中的文本字符。如图4a所示，在本实施例中，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的文本信息，如语音指令显示框402中显示的文本信息(如“我想看xxx的电影”)。如图6所示，将目标视频中的多帧图像通过ocr识别后，可以得到每帧图像中包含的字符，并记录下首字符出现帧图像作为第一帧图像，尾字符出现的帧图像作为第二帧图像，在图6中，第一帧图像为目标视频中的1.2s对应的帧图像，该图像中包括第一信息的首字符“我”；第二帧图像为目标视频中的第6s对应的帧图像，该图像中包括第一信息的尾字符“影”。
44.在步骤s306中，实际应用时，根据第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，确定上述目标设备的语音响应时间如图6所示，第一帧图像对应的时间戳为1.2s，第一帧图像对应的时间戳为6s，通过上述两个时间戳直接的时间差可以得出目标设备的语音响应时间；例如，在本实施例中，“我想看xxx的电影”的语音指令包含9个字符，上述字符在目标设备的屏幕显示的响应时间为4.8s，那么可以得到一个字符响应输出的时间为0.53s。
45.在一个或多个实施例中，如图6所示，上述语音响应时间的识别方法包括：将目标视频中的多帧图像通过ocr识别后，获取到每一帧图像中的文本信息展示区域，以及每帧图像对应的时间戳，将包含有帧序号，帧时间戳和每帧图像中文本信息展示区域对应的字符记录到预设的表格中。
46.如图7所示，通过ocr识别后，获取到第1帧的图像中的文本信息展示区域702，显示文本信息为空后，记录下第1帧的图像的帧序号，帧时间戳0.1s，和对应的文本信息。
47.如图8所示，通过ocr识别后，获取到第2帧的图像中的文本信息展示区域802，显示文本信息为空后，记录下第2帧的图像的帧序号，帧时间戳1.2s，和对应的文本信息“我”。
48.如图9所示，通过ocr识别后，获取到第12帧的图像中的文本信息展示区域902，显示文本信息为空后，记录下第12帧的图像的帧序号，帧时间戳2s，和对应的文本信息“我想”。
49.如图10所示，通过ocr识别后，获取到第20帧的图像中的文本信息展示区域1002，
显示文本信息为空后，记录下第12帧的图像的帧序号，帧时间戳6s，和对应的文本信息“我想看xxx的电影”。
50.在一个或多个实施例中，如图11所示，可以包括但不限于通过ocr识别目标设备中帧图像中的文本信息展示区域1102，得到语音指令对应显示文本信息的位置。
51.在一个或多个实施例中，如图12所示，上述语音响应时间的识别方法包括：对不同的目标设备同时进行语音响应时间的识别，目标设备1102的文本信息展示区域1202a，目标设备1204的文本信息展示区域1204a，目标设备1206的文本信息展示区域1206a，均显示有语音指令“我想看xxx的电影”对应显示文本信息。其中，目标设备1202中显示为目标应用的显示画面，目标设备1204和目标设备1206中显示有电视画面的显示画面。
52.本技术实施例中，通过对目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及所述第一信息中的尾字符出现的第二帧图像，根据第一帧图像和第二帧图像对应的时间戳来确定出目标设备的语音响应时间。从而避免了人工参与语音响应时间的确认，大大提高了目标设备的语音响应时间的识别效率，节省了识别时间，解决了相关技术中的语音响应时间的识别效率较低的技术问题。
53.在一个或多个实施例中，步骤s304，对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，包括：对上述目标视频中的帧图像中预设的目标展示区域进行字符识别，分别识别到上述首字符和上述尾字符并确定上述首字符出现的上述第一帧图像以及上述尾字符出现的上述第二帧图像，其中，上述目标展示区域为展示上述第一信息的区域。
54.在本实施例中，如图4a所示，目标展示区域可以包括但不限于语音指令显示框402对对应的区域。在目标展示区域中展示有第一信息(我想看xxx的电影)。
55.通过本技术提供的一个或多个实施例，通过对上述目标视频中的帧图像中预设的目标展示区域进行字符识别，分别识别到上述首字符和上述尾字符，并确定上述首字符出现的上述第一帧图像以及上述尾字符出现的上述第二帧图像，无需对目标视频的帧图像中的整个画面的全屏进行字符识别，缩小了字符识别的范围，进一步提升了语音指令文本信息识别的效率。
56.在一个或多个实施例中，上述对目标视频中的帧图像中预设的目标展示区域进行字符识别，分别识别到上述首字符和上述尾字符，并确定上述首字符出现的上述第一帧图像以及上述尾字符出现的上述第二帧图像之前还包括：确定上述目标设备中的预设区域，其中，上述预设区域用于显示上述目标设备对输入的语音指令进行语音识别得到的信息；将上述预设区域确定为上述目标展示区域。
57.例如，获取上述目标视频中的帧图像的图像尺寸；根据上述图像尺寸确定出上述帧图像中的预设区域，并对上述预设区域范围进行标记，例如加入矩形或椭圆形的边框；将上述预设区域确定为上述目标展示区域。
58.本技术通过确定出显示上述目标设备对输入的语音指令进行语音识别得到的信息的预设区域，可以精准的获取到语音指令在目标设备上显示的字符，提升语音指令文本信息识别的效率。
59.在一个或多个实施例中，上述对目标视频中的帧图像中预设的目标展示区域进行字符识别，识别到上述首字符，并确定上述首字符出现的上述第一帧图像，包括：确定当前
帧图像中识别到的字符是否包括上述第二信息中的首字符，其中，上述目标视频中的帧图像包括上述当前帧图像；在上述识别到的字符包括第二信息中的首字符、且上述当前帧图像之前的帧图像中未识别到上述第二信息中的首字符时，将上述识别到的字符中与上述第二信息中的首字符相同的字符确定为上述第一信息中的首字符，并将上述当前帧图像确定为上述第一帧图像。
60.在本实施例中，如图6所示，如目标视频中的当前帧为第一帧对应的帧图像，第一帧对应的帧图像中目标展示区域602没有识别到字符，在第一帧的图像的下一帧图像，即第二帧对应的图像的目标展示区域604识别到字符(字符“我”)时，就可以将目标视频中的第二帧对应的图像上述识别到的字符的第一个字符(字符“我”)确定为首字符(字符“我”)，并将目标视频中的第二帧对应的图像确定为第一帧图像。
61.通过本技术提供的一个或多个实施例，在识别到的字符包括第二信息中的首字符、且上述当前帧图像之前的帧图像中未识别到上述第二信息中的首字符时，将上述识别到的字符中与上述第二信息中的首字符相同的字符确定为上述第一信息中的首字符，以及将上述当前帧图像确定为上述第一帧图像，可以精准的获取到目标展示区域中的语音指令的首字符，并可以获取到首字符对应的帧图像，无需通过人工进行标注，进一步提升了语音指令文本信息识别的效率。
62.在一个或多个实施例中，上述对上述目标视频中的帧图像中预设的目标展示区域进行字符识别，识别到上述尾字符，并确定上述尾字符出现的上述第二帧图像，包括：在上述目标视频中的连续n个帧图像中的上述目标展示区域中识别到的字符均相同、且在上述第一信息与第二信息包含的字符相同时，将在上述连续n个帧图像中的一个帧图像中所识别到的最后一个字符确定为上述尾字符，并将上述尾字符首次出现的帧图像确定为上述第二帧图像；其中，上述第二信息为上述目标语音指令所表示的信息，n为大于或等于2的自然数。
63.在本实施例中，如图6所示，在目标视频中的第30帧到第33帧中的目标展示区域中识别到的字符均相同，如均为“我想看xxx的电影”时，可以将将在上述连续4个帧图像中的一个帧图像中所识别到的最后一个字符确定为上述尾字符(如字符“影”)，并将上述尾字符首次出现的帧图像，即第30帧对应的图像确定为第二帧图像。
64.通过本技术提供的一个或多个实施例，通过判断多个连续的帧图像中所识别到的字符没有发生变化时，将第一次出现尾字符的帧图像作为第一帧图像，可以精准的获取到目标展示区域中的语音指令的尾字符，并可以获取到尾字符对应的帧图像，无需通过人工进行标注，进一步提升了语音指令文本信息识别的效率。
65.在一个或多个实施例中，上述对上述目标视频中的帧图像中预设的目标展示区域进行字符识别，识别到上述尾字符，并确定上述尾字符出现的上述第二帧图像，包括：确定当前帧图像中识别到的字符是否包括上述第二信息，其中，上述目标视频中的帧图像包括上述当前帧图像；在上述识别到的字符包括上述第二信息、且上述当前帧图像之前的帧图像中未识别到上述第二信息中的尾字符时，将上述识别到的字符中与上述第二信息中的尾字符相同的字符确定为上述第一信息中的尾字符，并将上述当前帧图像确定为上述第二帧图像。
66.在本实施例中，如图6所示，当前帧图像(如第30帧图像)中识别到的字符包括上述
第二信息(我想看xxx的电影)，上述第30帧图像之前的帧图像(第29帧图像)中未识别到上述第二信息中的尾字符(字符“影”)时，将上述识别到的字符中与上述第二信息中的尾字符相同的字符确定为上述第一信息中的尾字符，即将字符“影”确定为上述第一信息中的尾字符，并将第30帧图像确定为第二帧图像。
67.通过本技术提供的一个或多个实施例，在识别到的字符包括上述第二信息、且上述当前帧图像之前的帧图像中未识别到上述第二信息中的尾字符时获取尾字符和第二帧图像，可以精准的获取到目标展示区域中的语音指令的尾字符，并可以获取到尾字符对应的帧图像，无需通过人工进行标注，进一步提升了语音指令文本信息识别的效率。在一个或多个实施例中，上述语音响应时间的识别方法还包括：在上述目标视频中识别到的上述首字符与第二信息中的首字符相同时，获取上述第一帧图像对应的第一时间戳，其中，上述第二信息为上述目标语音指令所表示的真实信息，即如果目标设备识别到与第二信息完全相同的信息时，则目标设备对该目标语音指令的识别是准确的；在上述目标视频中识别到了上述尾字符、且上述第一信息与上述第二信息相同时，获取上述第二帧图像对应的第二时间戳。
68.在本实施例中，如图6所示，在目标视频中通过ocr识别到的首字符(如字符“我”)与第二信息(我想看xxx的电影)中的首字符相同时，获取到第一帧图像对应的时间戳为1.2s；在目标视频中通过ocr识别到了尾字符(如字符“影”)，且在目标识别的第n帧出现的第一信息，以及目标语音指令包含的字符均为“我想看xxx的电影”时，获取上述第n帧图像对应的第二时间戳为6s。
69.通过本技术提供的一个或多个实施例，通过在上述目标视频中识别到的上述首字符与第二信息中的首字符相同时，获取上述第一帧图像对应的第一时间戳；在上述目标视频中识别到了上述尾字符、且上述第一信息与上述第二信息相同时，获取上述第二帧图像对应的第二时间戳，可以精准的获取到首字符对应的第一时间戳和尾字符对应的第二时间戳，进一步提升了语音指令文本信息识别的效率。
70.在一个或多个实施例中，上述语音响应时间的识别方法还包括：在上述当前帧中识别到的第一个字符与第二信息中的首字符不同、且上述当前帧图像之前的帧图像中未识别到字符时，停止对上述目标视频中的帧图像进行字符识别；其中，上述目标视频中的帧图像包括上述当前帧图像。例如，第二信息中的首字符为“我”，目标视频中当前帧识别到的首字符为“罗”时，停止对上述目标视频中的帧图像进行字符识别。
71.通过本技术提供的一个或多个实施例，在上述目标视频中识别到的上述首字符与第二信息中的首字符不同时，停止对上述目标视频中的帧图像进行字符识别，可以节省系统计算资源，提升语音指令文本信息识别的效率。
72.在一个或多个实施例中，在步骤s306之后，上述语音响应时间的识别方法还包括：基于上述第一时间戳，确定基于上述目标视频测得的上述目标设备的开始响应时间；记录上述目标视频对应的上述第一时间戳和上述第二时间戳之间的时间间隔、以及上述目标视频对应的上述开始响应时间，其中，上述语音响应时间包括上述时间间隔以及上述开始响应时间。
73.在实际的检测语音响应时间的过程中，由于目标设备在接收语音指令后会经过处理器的识别和计算，因此在目标设备接收到语音指令到出现语音指令的首字符，通常会有
时间差；在本技术中，如图6所示，例如在开始录制后，目标设备接收到语音指令后，在0.1s时，目标视频中的第一帧图像并没有显示出语音指令对应的字符信息，在1.2s时的第二帧才显示语音指令对应的首字符，上述目标设备的开始响应时间可以为0.1s，上述语音响应时间包括第一时间戳和第二时间戳之间的时间间隔(即4.8s)以及上述开始响应时间0.1s，上述语音响应时间为5.9s。
74.通过本技术提供的一个或多个实施例，语音响应时间可由目标视频对应的第一时间戳和第二时间戳之间的时间间隔、以及该目标视频对应的开始响应时间确定，例如，在一种实施方式中，可以记录上述目标视频对应的上述第一时间戳和上述第二时间戳之间的时间间隔、以及上述目标视频对应的上述开始响应时间，将该时间间隔和该开始响应时间之和确定为目标设备对该目标视频的语音响应时间。从而可以自动化地、且较为精准地获取到从语音指令发出到语音指令在目标设备上完成响应的时间，提升语音响应时间的识别效率。
75.另外，在一些实施例中，语音响应时间可仅由开始响应时间确定，例如，在一种实施方式中，在识别到的字符包括第二信息、且当前帧图像之前的帧图像中未识别到第二信息中的尾字符时，可以获取开始响应时间作为语音响应时间，用以表征从语音指令发出到目标设备开始响应的速度。从而可以自动化地、且较为精准地获取到从语音指令发出到语音指令在目标设备上开始响应的速度。
76.在一个或多个实施例中，上述基于上述第一时间戳，确定基于上述目标视频测得的上述目标设备的开始响应时间，包括：基于上述第一时间戳与对上述目标设备输入上述目标语音指令的目标时间，确定基于上述目标视频测得的上述目标设备的上述开始响应时间；或者将上述第一时间戳确定为上述开始响应时间语音响应时间。如图6所示，例如在开始录制目标视频后，目标设备接收到语音指令后，在0.1s时，目标视频中的第一帧图像并没有显示出语音指令对应的字符信息，在1.2s时的第二帧才显示语音指令对应的首字符，上述目标设备的开始响应时间可以为0.1s。此外，为了提示语音识别时间的检测效率，可以将上述第一时间戳1.2确定为上述开始响应时间语音响应时间。
77.在一个或多个实施例中，根据上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，确定上述目标设备的语音响应时间，包括：将上述语音响应时间确定为上述第一时间戳和上述第二时间戳之间的时间间隔；如图6所示，将第一时间戳即第二帧的图像对应的时间1.2s与第二时间戳即第n帧的图像对应的时间6s之间的时间间隔4.8s确定为语音响应的时间。
78.可选地，在一实施例中，确定上述第一信息与第二信息是否相同，其中，上述第二信息为上述目标语音指令所表示的信息；在上述第一信息与上述第二信息相同时，将上述语音响应时间确定为上述第一时间戳和上述第二时间戳之间的时间间隔。例如，确定第一信息和第二信息包含的文本均为“我想看xxx的电影”时，将第一时间戳(首字符出现的时间)和第二时间戳(尾字符出现的时间)之间的时间间隔确定为语音响应时间。
79.通过本技术提供的一个或多个实施例，在将上述语音响应时间确定为上述第一时间戳和上述第二时间戳之间的时间间隔；或者确定上述第一信息与第二信息是否相同，在上述第一信息与上述第二信息相同时，将上述语音响应时间确定为上述第一时间戳和上述第二时间戳之间的时间间隔。可以精准的获取到语音指令在目标设备上显示的时间，提升
语音指令文本信息识别的效率。
80.在一个或多个实施例中，根据上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，确定上述目标设备的语音响应时间，包括：在上述目标视频包括多个视频时，将每个视频中获取到的上述第一时间戳和上述第二时间戳之间的时间间隔，确定为上述每个视频对应的候选语音响应时间；将上述每个视频对应的候选语音响应时间的平均值确定为上述目标设备的语音响应时间。
81.在本实施例中，如图4a所示，当目标视频包括多个视频，也就是说，对目标设备400进行多次视频录制，并每个视频对应的候选语音响应时间的平均值确定为上述目标设备的语音响应时间，例如目标视频包括5个视频，每个视频对于的候选语音响应时间的平均值为5s，那么就可以将该平均值作为该目标设备400的语音响应时间。
82.通过本技术提供的一个或多个实施例，将每个视频对应的候选语音响应时间的平均值确定为上述目标设备的语音响应时间。可以避免因单次识别造成误差的情况，可以精准的获取到语音指令在目标设备上显示的时间，提升语音指令文本信息识别的效率。
83.在一个或多个实施例中，上述语音响应时间的识别方法还包括：将获取到的目标视频通过视频处理工具进行时间戳标记，这里，视频处理工具包括但不限于，opencv或ffmpeg等视频工具。通过本技术提供上述技术手段，可以精准的获取到语音指令在目标设备上对应的图像的时间标记，提升语音指令文本信息识别的效率。
84.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
85.根据本发明实施例的另一个方面，上述语音响应时间的识别方法包括如图13所示的步骤：步骤s1302，通过手机录制批量视频；步骤s1304，通过视频处理工具找到目标设备文本识别展示区域；步骤s1306，处理获取到的视频，并通过视频处理工具加入时间戳；步骤s1308，依次输入多个视频的文字识别展示区域，通过ocr算法记录识别文字识别展示区域的开始点和结尾的时间点，然后得到语音速度。
86.在一个或多个实施例中，如图14所示，上述语音响应时间的识别方法还包括如下步骤：步骤s1402，处理目标视频加入时间戳，即检测各个设备文字区域、通过视频工具处理在录制的视频上增加时间戳；然后确定出目标视频中的文字展示区域。步骤s1404，通过opencv或ffmpeg等软件将视频进行分帧。步骤s1406，对分帧图片中的文字上屏幕区域进行文字识别处理；即通过文字识别模块对分帧图片中的字符进行识别。步骤s1408，分别记录分帧图片中首字符和尾字符出现的时间点。
87.可选地，在一实施例中，还可以通过上述步骤s1402至步骤s1408对多个目标设备进行检测，并可以将各个设备的识别数据进行汇总，计算出各个设备首字、尾字识别平均时间点。根据首字、尾字时间点平均值比较出各个设备识别响应速度。
88.在一个或多个实施例中，上述步骤s1404，具体包括以下过程：步骤s1502，对分帧图像进行图片的预处理，预处理包括图像平滑、版面分析、倾斜度校正等方法；步骤s1504，对处理后的图像中的文字区域进行检测，即找出包含字符的文字区域；步骤s1506，对上述
文字区域进行图像二值化处理；步骤s1508，对二值化处理后的文字区域或者文字行进行字符分割，分割出单个的字符。步骤s1510，将输入的字符点阵图像转化为文本文字，以便文本处理；在文本处理过程中，先比较语音指令的首字符与该识别字符是否一致，如果一致则记录首字符识别时间点；然后比较识别文字与整条语音指令是否一致，如果一致则记录该时间点为尾字识别时间点。
89.在本发明实施例中，通过对目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及所述第一信息中的尾字符出现的第二帧图像，根据第一帧图像和第二帧图像对应的时间戳来确定出目标设备的语音响应时间。从而避免了人工参与语音响应时间的确认，大大提高目标设备的语音响应时间的识别效率，节省了识别时间，解决了相关技术中的语音响应时间的识别效率较低的技术问题。
90.根据本发明实施例的另一个方面，还提供了一种用于实施上述语音响应时间的识别方法的语音响应时间的识别装置。如图16所示，该装置包括：
91.获取单元1602，用于获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，所述目标视频包括对所述目标设备输入目标语音指令时所述显示屏幕上显示的画面；
92.识别单元1604，用于对所述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及所述第一信息中的尾字符出现的第二帧图像，其中，所述第一信息是所述目标设备对所述目标语音指令进行语音识别所得到的、且显示在所述显示屏幕上的信息；
93.确定单元1606，用于根据所述第一帧图像对应的第一时间戳和所述第二帧图像对应的第二时间戳，确定所述目标设备的语音响应时间。
94.在步骤s302中，实际应用时，可以包括但不限于通过手机、笔记本电脑、平板电脑、掌上电脑、mid(mobile internet devices，移动互联网设备)、pad、台式电脑等设备对目标设备的显示屏幕进行录制。目标设备可以包括电视，手机，笔记本电脑等电子设备，在此不做限定。在本实施例中，例如，如图4a或图4b所示，可以通过移动设备404录制目标设备400的显示屏幕得到目标视频。上述目标视频包括对目标设备400输入语音指令(语音指令显示框402中的文本我想看xxx的电影)时显示屏幕上显示的画面。
95.在一个或多个实施例中，目标设备可以为多个电子设备；例如，如图5所示，通过移动设备500录制第一目标设备502和第二目标设备504的显示屏幕得到目标视频，目标视频中包括第一目标设备502的显示屏幕和第二目标设备504二者的显示屏幕。
96.在一个或多个实施例中，对目标视频中的帧图像进行字符识别，可以包括对帧图像通过光学字符识别(optical character recognition，ocr)来识别帧图像中的文本字符。如图4a所示，在本实施例中，第一信息可以为目标设备400对目标语音指令进行语音识别所得到，且显示在目标设备400屏幕上的文本信息(如我想看xxx的电影)，如语音指令显示框402中显示的文本信息。如图6所示，将目标视频中的多帧图像通过ocr识别后，可以得到每帧图像中包含的字符，并记录下首字符出现帧图像作为第一帧图像，尾字符出现的帧图像作为第二帧图像，在图6中，第一帧图像为目标视频中的1.2s对应的帧图像，该图像中包括第一信息的首字符“我”；第二帧图像为目标视频中的第6s对应的帧图像，该图像中包括第一信息的尾字符“影”。
97.在一个或多个实施例中，根据第一帧图像对应的第一时间戳和上述第二帧图像对
应的第二时间戳，确定上述目标设备的语音响应时间；如图6所示，第一帧图像对应的时间戳为1.2s，第一帧图像对应的时间戳为6s，通过上述两个时间戳直接的时间差可以得出目标设备的语音响应时间；例如，在本实施例中，“我想看xxx的电影”的语音指令包含9个字符，上述字符在目标设备的屏幕显示的响应时间为4.8s，那么可以得到每秒钟可以响应输出1.875个字符。
98.本技术实施例中，通过对目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及所述第一信息中的尾字符出现的第二帧图像，根据第一帧图像和第二帧图像对应的时间戳来确定出目标设备的语音响应时间。从而避免了人工参与语音响应时间的确认，大大提高目标设备的语音响应时间的识别效率，节省了识别时间，解决了相关技术中的语音响应时间的识别效率较低的技术问题。
99.根据本发明实施例的又一个方面，还提供了一种用于实施上述语音响应时间的识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图17所示，该电子设备包括存储器1702和处理器1704，该存储器1702中存储有计算机程序，该处理器1704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
100.可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
101.可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
102.s1，获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；
103.s2，对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的信息；
104.s3，根据上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，确定上述目标设备的语音响应时间。
105.可选地，本领域普通技术人员可以理解，图17所示的结构仅为示意，电子装置电子设备也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图17其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图17中所示更多或者更少的组件(如网络接口等)，或者具有与图17所示不同的配置。
106.其中，存储器1702可用于存储软件程序以及模块，如本发明实施例中的语音响应时间的识别方法和装置对应的程序指令/模块，处理器1704通过运行存储在存储器1702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音响应时间的识别方法。存储器1702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1702可进一步包括相对于处理器1704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1702具体可以但不限于用于目标视频等信息。作为一种示例，如图17所示，上述存储器1702中可以但不限于包括上述语音响应时间的识别装置中的获取单元1602、识别单
元1604、及确定单元1606。此外，还可以包括但不限于上述语音响应时间的识别装置中的其他模块单元，本示例中不再赘述。
107.可选地，上述的传输装置1706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1706包括一个网络适配器(network interface controller，nic)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1706为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
108.此外，上述电子设备还包括：显示器1708，用于显示上述目标视频；和连接总线1710，用于连接上述电子设备中的各个模块部件。
109.在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(p2p，peer to peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
110.在一个或多个实施例中，本技术还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述语音响应时间的识别方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
111.可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：
112.s1，获取对目标设备的显示屏幕进行录制所得到的目标视频，其中，上述目标视频包括对上述目标设备输入目标语音指令时上述显示屏幕上显示的画面；
113.s2，对上述目标视频中的帧图像进行字符识别，得到第一信息中的首字符出现的第一帧图像，以及上述第一信息中的尾字符出现的第二帧图像，其中，上述第一信息是上述目标设备对上述目标语音指令进行语音识别所得到的、且显示在上述显示屏幕上的信息；
114.s3，根据上述第一帧图像对应的第一时间戳和上述第二帧图像对应的第二时间戳，确定上述目标设备的语音响应时间。
115.可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
116.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
117.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
118.在本技术所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
119.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
120.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
121.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

语音响应时间的识别方法及装置与流程

相关文献

最热文献