基于视频的信息查询方法、装置、设备及存储介质与流程

2021-10-23 02:54:00 来源：中国专利 TAG：信息查询图像处理装置实施智能

1.本技术实施例涉及图像处理技术领域，尤其涉及一种基于视频的信息查询方法、装置、设备及存储介质，可用于智能搜索技术领域。

背景技术：

2.在日常生活中，用户通过手机、平板电脑等终端设备观看视频的过程中，可能会对正在播放的视频中的某些文字(例如，路标、广告牌、书籍名称、字幕等)感兴趣，这时，为了了解感兴趣文字的相关知识，通常需要借助于搜索引擎查询该文字的相关信息。
3.现有技术中，对于视频中文字的查询，主要方法是：用户记住感兴趣的待搜索文字，然后控制终端设备从视频播放器页面切换到搜索页面后，在搜索页面中输入上述待搜索文字，进而获取待搜索文字的相关信息，最后再切换回视频播放器页面。
4.然而，上述方案需要用户控制终端设备执行页面切换和跳转，操作过程繁琐，而且，待搜索文字需要用户手动输入，存在用户搜索效率低和体验差的问题。

技术实现要素：

5.本技术实施例提供了一种基于视频的信息查询方法、装置、设备及存储介质，用于解决现有视频文字的搜索查询存在的用户搜索效率低的问题。
6.第一方面，本技术实施例提供了一种视频的信息查询方法，包括：
7.获取目标视频画面；
8.确定所述目标视频画面的文本识别结果，所述文本识别结果包括：所述目标视频画面中的文本信息；
9.基于所述文本识别结果，获取所述文本信息对应的信息查询结果；
10.显示所述信息查询结果。
11.第二方面，本技术实施例提供了一种视频的信息查询方法，包括：
12.从终端设备接收文本查询请求，所述文本查询请求包括：文本信息，所述文本信息是对目标视频画面进行文本识别得到的文本；
13.获取所述文本信息对应的信息查询结果；
14.向所述终端设备发送所述信息查询结果。
15.第三方面，本技术实施例提供一种基于视频的信息查询装置，包括：获取模块、处理模块和显示模块；
16.所述获取模块，用于获取目标视频画面；
17.所述处理模块，用于确定所述目标视频画面的文本识别结果，所述文本识别结果包括：所述目标视频画面中的文本信息，以及基于所述文本识别结果，获取所述文本信息对应的信息查询结果；
18.所述显示模块，用于显示所述信息查询结果。
19.第四方面，本技术实施例提供一种基于视频的信息查询装置，包括：接收模块、处
理模块和发送模块；
20.所述接收模块，用于从终端设备接收文本查询请求，所述文本查询请求包括：文本信息，所述文本信息是对目标视频画面进行文本识别得到的文本；
21.所述处理模块，用于获取所述文本信息对应的信息查询结果；
22.所述发送模块，用于向所述终端设备发送所述信息查询结果。
23.第五方面，本技术实施例提供一种终端设备，包括：
24.至少一个处理器；以及
25.与所述至少一个处理器通信连接的存储器；其中，
26.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。
27.第六方面，本技术实施例提供一种服务器，包括：
28.至少一个处理器；以及
29.与所述至少一个处理器通信连接的存储器；其中，
30.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第二方面所述的方法。
31.第七方面，本技术实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面所述的方法。
32.第八方面，本技术实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面所述的方法。
33.第九方面，本技术实施例提供一种基于视频的信息查询方法，包括：
34.获取目标视频画面的文本识别结果，所述文本识别结果包括：所述目标视频画面中的文本信息；
35.基于所述文本识别结果，确定所述文本信息对应的信息查询结果。
36.本技术实施例提供的基于视频的信息查询方法、装置、设备及存储介质，通过获取目标视频画面，确定该目标视频画面的文本识别结果，该文本识别结果包括：目标视频画面中的文本信息，最后基于该文本识别结果，获取文本信息对应的信息查询结果，并将其进行显示。该技术方案中，基于目标视频画面的文本识别结果查询待查询文本对应的信息查询结果，无需用户切换终端界面，也不需要用户手动输入待查询文本，提高了视频文本的查询效率和用户体验。
37.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
38.附图用于更好地理解本方案，不构成对本技术的限定。其中：
39.图1是本技术提供的基于视频的信息查询方法的应用场景示意图；
40.图2是本技术第一实施例提供的基于视频的信息查询方法的流程示意图；
41.图3是本技术第二实施例提供的基于视频的信息查询方法的交互示意图；
42.图4是本技术实施例中终端设备通过当前播放界面呈现目标视频画面的示意图；
43.图5是本技术第三实施例提供的基于视频的信息查询方法的交互示意图；
44.图6是本技术实施例中通过终端设备的显示界面呈现处理后的目标视频画面的示意图；
45.图7是终端设备基于用户的文本选中指示选中待查询文本的示意图；
46.图8是本技术第四实施例提供的基于视频的信息查询方法的流程示意图；
47.图9是本技术实施例中以弹窗形式展示信息查询结果的界面示意图；
48.图10是本技术实施例提供的基于视频的信息查询方法的信息交互框图；
49.图11是本技术第一实施例提供的基于视频的信息查询装置的结构示意图；
50.图12是本技术第二实施例提供的基于视频的信息查询装置的结构示意图；
51.图13是用来实现本技术实施例提供的基于视频的信息查询方法的终端设备的框图；
52.图14是用来实现本技术实施例提供的基于视频的信息查询方法的服务器的框图。
具体实施方式
53.以下结合附图对本技术的示范性实施例做出说明，其中包括本技术实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本技术的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
54.在介绍本技术的技术方案之前，首先对本技术实施例中涉及到的术语进行解释：
55.ocr文字识别
56.光学字符识别(optical character recognition，ocr)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。也即，将图像中的文字进行识别，并以文本的形式返回。典型的ocr技术方案可分为两部分：文字检测和文字识别。文字检测即检测图像中文本所在的位置、范围及其布局，通常也包括版面分析和文字行检测等。文字检测主要确定图像的哪些位置有文字，文字的范围有多大。文本识别是在文本检测的基础上，对文本内容进行识别，将图像中的文本信息转化为文本信息。文字识别主要确定出文字检测出的每个文字是什么。
57.搜索引擎
58.所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。
59.本技术主要利用上述ocr文字识别和搜索引擎技术实现目标视频中文字的查询任务，对其具体实现原理不作限定。
60.在介绍本技术的技术方案之前，再对本技术实施例的应用场景进行简单介绍：
61.随着终端设备的发展，视频的应用领域越来越广泛。当用户在终端设备上观看视频时，有时会对视频中出现的文字(路标、广告牌、书籍名称、字幕中的一些文字等)感兴趣，如果想要深入了解相关的信息，则需要到搜索引擎搜索与这些文字相关的内容。
62.针对现有技术中的视频文本查询方法，用户记住待搜索的文本，然后控制终端设
备从视频播放器页面切换到搜索app或者搜索引擎网站页面，再在搜索app或者搜索引擎网站页面中输入待搜索的文本，进而获取相关的信息。然而，该方法需要用户操作终端设备从视频播页面跳转到搜索引擎app或者搜索引擎网站页面，并需要手动输入相关的文字进行搜索，操作过程繁琐，而且，当待搜索的词组较为生僻时，用户输入不方便，会影响用户搜索的效率和体验。因而，为了方便用户，本技术实施例提供了一种方案，能够识别视频中出现的文字，进而再接跳转到搜索app或者网页进行搜索展示，方便用户对信息的获取。
63.本技术提供的基于视频的信息查询方法，典型应用场景是基于视频播放画面中的文字进行相关内容搜索的场景。整体思路是：当需要识别视频中的文字时，终端设备将携带该文字的视频画面发送至服务器端进行ocr文字识别，并基于ocr文字识别结果包括的识别文本进行信息的查询。其中，终端设备还可以在视频界面的该视频画面的对应位置呈现文本，获取已选中的待搜索词组，接收到用户的搜索指示后，将选中的待搜索词组发往搜索引擎，得到搜索结果，并在视频界面上叠加弹窗进行展示；最后，基于用户的弹窗关闭指示，关闭该弹窗，回到视频播放页面继续播放视频。
64.示例性的，图1是本技术提供的基于视频的信息查询方法的应用场景示意图。如图1所示，该应用场景可以包括：至少一个终端设备(图1示出了三个终端设备，分别为终端设备111、终端设备112、终端设备113)、网络12和服务器13。其中，每个终端设备与服务器13均可以通过网络12进行通信。
65.示例性的，在图1所示的应用场景中，服务器13可以通过网络12接收用户通过终端设备发出的文本识别请求，对该文本识别请求中包括的目标视频画面进行处理，并将得到的文本识别结果通过网络12返回给终端设备。
66.服务器13还可以通过网络12接收用户通过终端设备发出的文本查询请求，对该文本查询请求携带的待查询文本进行搜索，得到待查询文本对应的信息查询结果，并将其通过网络12返回给终端设备。
67.需要说明的是，附图1仅是本技术实施例提供的一种应用场景的示意图，本技术实施例不对图1中包括的设备进行限定，也不对图1中设备之间的位置关系进行限定，其可以根据实际需求设定。
68.在实际应用中，终端设备是经由通信设施向计算机输入程序和数据或接收计算机输出处理结果的设备，通常设置在能利用通信设施与远处计算机联接工作的方便场所，它主要由通信接口控制装置与专用或选定的输入输出装置组合而成。示例性的，本技术实施例的终端设备是具有显示屏，且能够通过显示器执行视频播放的终端，例如，手机、平板电脑、智能电视等设备。
69.服务器是云端服务器，在网络中为其它客户机(如pc机、智能手机、atm等终端甚至是火车系统等大型设备)提供计算或者应用服务。在本技术的实施例中，该服务器具有图像文字识别功能，而且能够通过具有的搜索引擎查询相关内容。
70.可以理解的是，本技术实施例不对终端设备和服务器的具体实现和功能进行限定，其可以根据实际需求确定，此处不再赘述。
71.下面，通过具体实施例对本技术的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。
72.图2是本技术第一实施例提供的基于视频的信息查询方法的流程示意图。示例性的，本技术实施例以执行主体为终端设备进行解释说明。如图2所示，该方法可以包括如下步骤：
73.s201、获取目标视频画面。
74.视频文本是由图像组成的，每个视频画面都是一帧图像。在实际应用中，当用户通过终端设备观看目标视频时，如果当前视频界面上有用户感兴趣的文本，这时，用户可以操作终端设备，使得该终端设备获取该当前视频界面，即目标视频画面。
75.在本技术的实施例中，终端设备获取目标视频画面的方式有多种，例如，一种方式为：在视频暂停播放后，后台获取暂停界面上的当前视频界面，将其作为目标视频画面；另一种方式为：基于用户的截图指示获取当前视频界面对应的目标视频画面。本技术实施例并不对获取目标视频画面的方式进行限定，其可以根据实际需求确定，此处不再赘述。
76.作为一种示例，该s201具体可以通过如下步骤实现：
77.根据用户的视频暂停请求，暂停播放目标视频；获取当前播放界面显示的该目标视频对应的目标视频画面。
78.作为另一种示例，该s201具体可以通过如下步骤实现：
79.根据用户的视频截图指示，获取目标视频画面，该目标视频画面是终端设备当前播放视频的画面。
80.s202、确定目标视频画面的文本识别结果，该文本识别结果包括：目标视频画面中的文本信息。
81.在本技术的实施例中，终端设备获取到目标视频画面后，需要对目标视频画面进行文字识别，确定出该目标视频画面的文本识别结果。
82.在本技术的一种可能设计中，若终端设备具备文字识别的能力，终端设备可以对目标视频画面中的文字进行识别，从而获得该目标视频画面中的文本信息。
83.在本技术的另一种可能设计中，若终端设备不具有文字识别的能力，这时，终端设备可以将该目标视频画面发送至服务器，由服务器对目标视频画面中的文字进行识别，在获得该目标视频画面中的文本信息后，再将传输给终端设备。
84.可选的，在本技术的上述各可能设计中，终端设备或服务器通常采用ocr文字识别技术对目标视频画面进行文字识别，其还可以采用其他的方式，本技术实施例不对文本识别的方式进行限定，其可以根据实际需求进行选择，此处不再赘述。
85.s203、基于上述文本识别结果，获取上述文本信息对应的信息查询结果。
86.在本技术的实施例中，终端设备获取到上述文本识别结果后，在一种可能设计中，终端设备可以直接根据该文本识别结果中的文本信息进行信息检索。在另一种可能设计中，终端设备可以首先将其显示在终端设备的显示界面上，以供用户对其进行操作，示例性的，终端设备可以接收用户根据上述文本识别结果发出的文本选中指令；其次再基于该文本选中指令选中上述文本信息中的待查询文本，最后再对待查询文本进行信息检索。
87.可选的，对信息检索可以理解为通过搜索引擎对文本信息或待查询文本进行查询，进而获取文本信息或待查询文本对应信息查询结果的过程。
88.通常情况下，为了获得全面的查询信息，终端设备通常将文本信息或待查询文本发送至服务器，由服务器在整个网络的词库中查询文本信息或待查询文本的相关信息，在
得到对应的信息查询结果后，将其发送至终端设备。
89.s204、显示上述信息查询结果。
90.在本技术的实施例中，终端设备获取到上述信息查询结果后，将其在终端设备的显示界面上进行显示，例如，在不切换视频播放界面的基础上，终端设备可以通过弹窗页面的形式显示信息查询结果，从而使得用户可以了解到目标视频画面中文本对应的相关查询信息。
91.本技术实施例提供的基于视频的信息查询方法，通过获取目标视频画面，确定该目标视频画面的文本识别结果，该文本识别结果包括：目标视频画面中的文本信息，最后基于该文本识别结果，获取文本信息对应的信息查询结果，并进行显示。该技术方案中，基于目标视频画面的文本识别结果查询文本信息对应的信息查询结果，无需用户切换终端界面，也不需要用户手动输入待查询文本，提高了视频文本的查询效率和用户体验。
92.在上述实施例的基础上，图3是本技术第二实施例提供的基于视频的信息查询方法的交互示意图。本技术实施例以终端设备和服务器之间的信息交互进行说明。参照图3所示，在本实施例中，上述s202可以通过如下步骤实现：
93.s301、终端设备向服务器发送文本识别请求，该文本识别请求携带目标视频画面。
94.在本技术的实施例中，终端设备获取到目标视频画面后，可以将其传输到服务器进行文本识别。示例性的，终端设备的当前播放界面上设置有进行文本识别的标识，终端设备在接收到用户对该标识的点击操作时，其可以将携带有目标视频画面的文本识别请求传输至服务器进行文本识别。
95.示例性的，图4是本技术实施例中终端设备通过当前播放界面呈现目标视频画面的示意图。若终端设备当前播放的目标视频主要讲述“美丽山河”，视频背景是为“a湖”。因而，参照图4所示，目标视频画面上具有文字信息“美丽山河”和“a湖”，同时，终端设备的播放显示界面上具有“文字识别”的标识(或按钮)和搜索的标识(或按钮)。
96.示例性的，终端设备根据用户的暂停指示，在终端设备的视频app上暂停视频的播放，此时，终端设备的播放界面停止在用户想要搜索视频中文字的画面上，即目标视频画面，如图4所示。此时，若用户点击了当前播放界面上的“识别文字”按钮，终端设备会通过视频app将当前界面对于的目标视频画面的截图发往服务器，具体的，发送给ocr文字识别云服务。
97.s302、服务器对接收到的目标视频画面进行文本识别，得到文本识别结果，该文本识别结果包括：目标视频画面中的文本信息。
98.在本实施例中，服务器从终端设备接收到携带目标视频画面的文本识别请求后，通过ocr文字识别方法对目标视频画面进行文字识别，确定出目标视频画面中的文本信息，得到文本识别结果。
99.可选的，该文本识别结果可以除了包括目标视频画面中的文本信息，还可以包括文本信息的位置信息。
100.示例性的，服务器上的ocr文字识别云服务在接收到目标视频画面时，可以对目标视频画面中的文字进行识别，并确定文字所在的位置信息，即识别出的某段文字在目标视频画面中的坐标信息。
101.s303、服务器向终端设备发送该目标视频画面的文本识别结果。
102.可选的，服务器得到目标视频画面的文本识别结果后，可以将该文本识别结果传输给终端设备，以使终端设备对其进行显示。
103.在本技术的实施例中，利用服务器对目标视频画面进行文字识别，并把文本识别结果反馈给终端设备，不仅实现了图像文字的识别，而且提高了文本识别的效率，为后续对目标视频画面中待查询文本的自动查询奠定了基础。
104.关于服务器对目标视频画面中的文本进行识别的具体实现可以根据实际需求确定，此处不再赘述。
105.本技术实施例提供的基于视频的信息查询方法，终端设备向服务器发送携带目标视频画面的文本识别请求，服务器对接收到的目标视频画面进行文本识别，得到文本识别结果，并将其反馈至终端设备，即服务器实现了图像文字的识别，识别效率高，为目标视频画面中待查询文本的自动查询奠定了基础。
106.示例性的，在上述各实施例的基础上，图5是本技术第三实施例提供的基于视频的信息查询方法的交互示意图。本技术实施例以终端设备和服务器之间的信息交互进行说明。在本技术的实施例中，文本识别结果还包括：文本信息的位置信息，因而，终端设备确定目标视频画面的文本识别结果之后，还可以对其进行显示。示例性的，参照图5所示，该方法还可以包括如下步骤：
107.s501、终端设备根据文本信息的位置信息，将上述文本信息叠加在目标视频画面的对应位置上，得到处理后的目标视频画面。
108.在本技术的实施例中，终端设备从服务器接收目标视频画面的文本识别结果后，为了提高用户的视觉体验，终端设备可以按照文本识别结果中文字信息的位置信息，将上述文本信息叠加在目标视频画面的对应位置上，即将目标视频画面中每个位置的文本信息叠加在目标视频画面的对应位置上，得到处理后的目标视频画面。
109.s502、在终端设备的显示界面上呈现处理后的目标视频画面。
110.示例性的，终端设备通过对文本识别结果进行处理，得到处理后的目标视频画面后，可以将其呈现在终端设备的显示界面上，以便用户对其进行处理。
111.通过将文本信息叠加在目标视频画面的对应位置上，并在显示界面上显示，能够使得用户准确、清楚地区分文本识别结果包括的不同文字信息，为后续用户选择不同位置的文本信息提供了实现可能。
112.示例性的，图6是本技术实施例中通过终端设备的显示界面呈现处理后的目标视频画面的示意图。该图6是在上述图4的基础实现的，参照图6所示，在本实施例中，目标视频画面上具有的文字信息“美丽山河”和“a湖”分别层叠在目标视频画面的对应位置上，而且该“美丽山河”和“a湖”均是能够被选中的文本。
113.示例性的，终端设备的视频app获取到目标视频画面中每个位置的文本信息，即确定目标视频画面中的文字信息以及文字信息对应的坐标信息之后，将其显示在视频app的界面上，如图6所示。
114.可以理解的是，在本技术的实施例中，文字信息的坐标信息是以目标视频画面的像素为单位，以左上角为坐标系为原点确定的。在显示时，文本识别结果可以对应到目标视频画面中文字的大概位置。
115.终端设备将该文本识别结果中文本信息叠加在目标视频画面的对应位置上，得到
处理后的目标视频画面，并在终端设备的显示界面上呈现处理后的目标视频画面，可以使得用户准确、清楚地区分文本识别结果包括的不同文字信息，为后续用户选择不同位置的文本信息提供了实现可能。
116.进一步的，在本技术的实施例中，参照图5所示，该方法还可以包括如下步骤：
117.s503、终端设备获取用户根据该文本识别结果发出的文本选中指示。
118.其中，该文本选中指示用于指示选中文本信息中的待查询文本。
119.在本技术的实施例中，终端设备将获取到的文本识别结果呈现在显示界面上后，用户可以该文本识别结果，确定出自己感兴趣的文本(本实施例中称为待查询文本)，并发出文本选中指示，以指示终端设备将其选中。
120.可以理解的是，用户可以通过多种方式选中待查询文本，例如，通过触摸或点击显示界面上显示的某些文本发出文本选中指示，还可以通过语音方式发出文本选中指示。本技术实施例并不限定用户发出文本选中指示以选中待查询文本的具体方式，其可以根据实际场景确定，此处不再赘述。
121.进一步的，在本技术的实施例中，参照图5所示，上述s203可以通过如下步骤实现：
122.s504、终端设备根据上述文本选中指示，在上述文本识别结果中，选中待查询文本。
123.在本技术的实施例中，终端设备获取到用户的文本选中指示后，便可以执行待查询文本的选中操作，即基于该文本选中指示选中用户指示的待查询文本。
124.示例性的，图7是终端设备基于用户的文本选中指示选中待查询文本的示意图。参照图7所示，假设用户对目标视频画面中的“a湖”感兴趣，这时，a湖被选中，并通过深色阴影进行标示。
125.s505、终端设备获取用户的文本搜索指示，并根据该文本搜索指示，生成文本查询请求，该文本查询请求携带选中的待查询文本。
126.在本技术的实施例中，终端设备可以实时检测用户的操作，并基于用户的操作执行相应的操作。例如，终端设备在选中待查询文本后，用户通过点击显示界面上的搜索标识或通过语音方式等发出文本搜索指示时，终端设备可以获取到用户的该文本搜索指示，进而根据选中的待查询文本生成文本查询请求。
127.s506、终端设备向服务器发送文本查询请求。
128.在本技术的实施例中，由于网络上收录的内容比较全，服务器可以在网络通过搜索引擎提供查询服务，其处理能力比较强，可查询的范围比较广，因而，终端设备将该文本查询请求发送给服务器，使得服务器执行查询操作。
129.示例性的，参照上述图7所示，用户如果想对某段文字进行检索，需要选中相关的文字，即选中待查询文本，在当用户选中待查询文本后，可以点击当前显示界面上的搜索标识，从而将文本查询请求发送至服务器，也即，视频app会将待查询文本发给搜索引擎的接口。
130.s507、服务器根据接收到的文本查询请求，获取上述文本信息对应的信息查询结果。
131.在本技术的实施例中，服务器接收到文本查询请求后，可以根据文本查询请求中的文本信息，在网络中进行查询，得到文本信息对应的信息查询结果。可以理解的是，文本
信息是对目标视频画面进行文本识别得到的文本，还可以是终端设备根据用户的文本选中结果选中的文本。
132.示例性的，服务器通过搜索引擎对待查询文本进行信息的查询和检索，得到信息查询结果。具体的，搜索引擎根据文本查询请求中的待查询文本，进行相关内容的检索，得到信息查询结果。
133.s508、服务器向终端设备发送该信息查询结果。
134.在本实施例中，服务器获取到待查询文本对应的信息查询结果后，可以将其发送给终端设备，以便终端设备对获取到的信息查询结果进行显示等操作。
135.本技术实施例提供的基于视频的信息查询方法，终端设备获取用户根据该文本识别结果发出的文本选中指示，并根据该文本选中指示，在文本识别结果中选中待查询文本，以及获取用户的文本搜索指示，并根据该文本搜索指示，生成文本查询请求，并将其发送给服务器，服务器根据接收到的文本查询请求，获取待查询文本对应的信息查询结果，并反馈给终端设备，在终端设备不切换显示页面的情况下，实现了信息查询的目的，提高了用户搜索效率和用户体验。
136.示例性的，在上述各实施例的基础上，图8是本技术第四实施例提供的基于视频的信息查询方法的流程示意图。本技术实施例以终端设备为执行主体进行说明。参照图8所示，在本实施例中，上述s204可以通过如下步骤实现：
137.s801、将该信息查询结果以弹窗形式展示在终端设备的显示界面上。
138.在本技术的实施例中，终端设备显示信息查询结果的一种实现方式为以弹窗形式进行展示，其呈现方式与用户在搜索页面进行目标查询得到的结果呈现方式类似，方便用户对其进行操作。
139.进一步的，在本技术的实施例中，参照图8所示，该方法还可以包括如下步骤：
140.s802、根据用户的弹窗操作指示，对上述信息查询结果进行处理。
141.其中，该弹窗操作指示包括如下操作中的至少一种：弹窗关闭指示、弹窗翻页指示、页面下滑指示。
142.示例性的，终端设备通过弹窗方式在终端设备的显示界面上展示信息查询结果时，用户可以在弹窗页面中对信息查询结果执行一些处理操作，例如，终端设备根据用户操作对弹窗页面进行例如下滑和翻页等操作，以实现信息的浏览和搜索结果的点击。当用户获取信息之后，用户还可以发出弹窗关闭指示，以去除弹窗页面，回到视频播放页面继续播放视频。
143.例如，弹窗操作指示为弹窗关闭指示时，终端设备可以根据用户的弹窗关闭指示，关闭展示信息查询结果的弹窗，从而控制终端设备继续在显示界面上播放被暂停的目标视频。
144.示例性的，图9是本技术实施例中以弹窗形式展示信息查询结果的界面示意图。参照图9所示，终端设备的视频app在接收到信息查询结果后，通过弹窗方式进行结果的展示，用户可以对其进行下滑或者翻页等操作，还可以继续与搜索引擎交互，获取下一页的内容。
145.关于用户对上述信息查询结果进行处理的具体操作可以根据实际需求确定，此处不再赘述。
146.本技术实施例提供的基于视频的信息查询方法，终端设备在得到待查询文本的信
息查询结果后，可以将该信息查询结果以弹窗形式展示在终端设备的显示界面上，再根据用户的弹窗操作指示，对上述信息查询结果进行处理。该技术方案，无需用户切换终端设备的显示页面，也可以实现目标视频中文本的查询操作，简化了查询操作的流程，提高了视频文本查询效率。
147.由上述各实施例可知，图10是本技术实施例提供的基于视频的信息查询方法的信息交互框图。如图10所示，本技术的技术方案主要是：对于终端设备的移动应用中播放的视频，当视频画面中出现用户感兴趣的文字(包括字幕)时，用户可以暂停视频的播放(或截图)，点击快速搜索的按钮，此时视频app会将获取到的目标视频画面发往服务器的云端ocr文字识别服务，使其识别视频中的文字及其位置，得到文本识别结果(每个位置的文字信息)，然后再反馈给终端设备，使得终端设备在目标视频画面的对应位置显示文本。在终端设备的显示界面显示文本识别结果的过程中，用户长按文字，即会出现选择文本的光标，可以在左右移动开始和起始位置，之后点击显示界面上的搜索按钮，终端设备通过视频app将会将待查询文本(选中的文本)发往服务器的搜索引擎进行信息查询，得到信息查询结果后将其反馈至终端设备，并通过弹窗进行展示。
148.在本技术的实施例中，用户发起搜索的操作更快更便捷，不需要记忆要搜索的关键字，也不需要手动输入文字，在搜索过程中，停留在当前视频app的当前界面就可以完成搜索结果的获取，不需要切换到其它app或者打开浏览器进行搜索，进一步的，在获得搜索结果后，可以关掉弹出页面，继续观看视频，体验更为流畅。
149.上述介绍了本技术实施例提到的数据处理方法的具体实现，下述为本技术装置实施例，可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节，请参照本技术方法实施例。
150.图11是本技术第一实施例提供的基于视频的信息查询装置的结构示意图。该装置可以集成终端设备中，也可以通过终端设备实现。如图11所示，在本实施例中，该基于视频的信息查询装置110可以包括：获取模块1101、处理模块1102和显示模块1103。
151.其中，该获取模块1101，用于获取目标视频画面；
152.该处理模块1102，用于确定所述目标视频画面的文本识别结果，所述文本识别结果包括：所述目标视频画面中的文本信息，以及基于所述文本识别结果，获取所述文本信息对应的信息查询结果；
153.该显示模块1103，用于显示所述信息查询结果。
154.可选的，如图11所示，在本技术的实施例中，所述装置还包括：发送模块1104和接收模块1105。
155.可选的，在本技术的一种可能设计中，处理模块1102，用于确定所述目标视频画面的文本识别结果，具体为：
156.处理模块1102，具体用于通过发送模块1104向服务器发送文本识别请求，所述文本识别请求携带所述目标视频画面，并通过所述接收模块1105从所述服务器接收所述目标视频画面的文本识别结果。
157.在本技术的另一种可能设计中，所述文本识别结果还包括：所述文本信息的位置信息；处理模块1102，还用于根据所述文本信息的位置信息，将所述文本信息叠加在所述目标视频画面的对应位置上，得到处理后的目标视频画面；
158.显示模块1103，还用于在终端设备的显示界面上呈现所述处理后的目标视频画面。
159.可选的，在本技术的再一种可能设计中，获取模块1101，还用于获取用户根据所述文本识别结果发出的文本选中指示，所述文本选中指示用于指示选中所述文本信息中的待查询文本；
160.相应的，处理模块1102，用于基于所述文本识别结果，获取所述文本信息对应的信息查询结果，具体为：
161.处理模块1102，具体用于：
162.根据所述文本选中指示，在所述文本识别结果中，选中所述待查询文本；
163.获取用户的文本搜索指示，并根据所述文本搜索指示，生成文本查询请求，所述文本查询请求携带选中的所述待查询文本；
164.通过所述发送模块1104向服务器发送所述文本查询请求，通过所述接收模块1105从所述服务器接收所述待查询文本对应的信息查询结果。
165.可选的，在本技术的再一种可能设计中，显示模块1103，具体用于将所述信息查询结果以弹窗形式展示在终端设备的显示界面上。
166.示例性的，在本技术的实施例中，处理模块1102，还用于根据用户的弹窗操作指示，对所述信息查询结果进行处理，所述弹窗操作指示包括如下操作中的至少一种：弹窗关闭指示、弹窗翻页指示、页面下滑指示。
167.可选的，在本技术的又一种可能设计中，所述获取模块1101，具体用于根据用户的视频暂停请求，暂停播放目标视频，获取当前播放界面显示的所述目标视频对应的目标视频画面。
168.可选的，在本技术的又一种可能设计中，所述获取模块1101，具体用于根据用户的视频截图指示，获取所述目标视频画面，所述目标视频画面是终端设备当前播放视频的画面。
169.本技术实施例提供的装置，可用于执行前述任一方法实施例中终端设备的方案，其实现原理和技术效果类似，在此不再赘述。
170.图12是本技术第二实施例提供的基于视频的信息查询装置的结构示意图。该装置可以集成服务器中，也可以通过服务器实现。如图12所示，在本实施例中，该基于视频的信息查询装置120可以包括：接收模块1201、处理模块1202和发送模块1203。
171.其中，该接收模块1201，用于从终端设备接收文本查询请求，所述文本查询请求包括：文本信息，所述文本信息是对目标视频画面进行文本识别得到的文本；
172.该处理模块1202，用于获取所述待查询文本对应的信息查询结果；
173.该发送模块1203，用于向所述终端设备发送所述信息查询结果。
174.在本技术的一种实施例中，接收模块1201，还用于在从终端设备接收文本查询请求之前，从终端设备接收文本识别请求，所述文本识别请求携带所述目标视频画面；
175.处理模块1202，还用于对所述目标视频画面进行文本识别，得到文本识别结果，所述文本识别结果包括：所述目标视频画面中的文本信息；
176.该发送模块1203，还用于向所述终端设备发送所述文本识别结果。
177.本技术实施例提供的装置，可用于执行前述任一方法实施例中服务器的方案，其
实现原理和技术效果类似，在此不再赘述。
178.需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
179.进一步的，根据本技术的实施例，本技术还提供了一种终端设备、服务器和一种计算机可读存储介质。
180.图13是用来实现本技术实施例提供的基于视频的信息查询方法的终端设备的框图。在本技术的实施例中，终端设备可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置，其是具有视频播放能力的终端。
181.示例性的，如图13所示，该终端设备可以包括：至少一个处理器1301、与至少一个处理器通信连接的存储器1302；其中，存储器1302存储有可被至少一个处理器1301执行的指令，该指令被至少一个处理器1301执行，以使所述至少一个处理器1301能够执行上述图2至图10所示实施例中终端设备的方案。
182.可选的，在本技术的实施例中，终端设备还可以包括：输入装置1303和输出装置1304。处理器1301、存储器1302、输入装置1303和输出装置1304可以通过总线或者其他方式连接，图13中以通过总线连接为例。
183.进一步的，在本技术的实施例中，该终端设备还包括显示器1305，该显示器1305用于显示播放的视频，以及显示文本信息对应的信息查询结果。
184.图14是用来实现本技术实施例提供的基于视频的信息查询方法的服务器的框图。在本技术的实施例中，服务器旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。
185.示例性的，如图14所示，该服务器可以包括：至少一个处理器1401、与至少一个处理器通信连接的存储器1402；其中，存储器1402存储有可被至少一个处理器1401执行的指令，该指令被至少一个处理器1401执行，以使所述至少一个处理器1401能够执行上述图2至图10所示实施例中服务器的方案。
186.可选的，在本技术的实施例中，服务器还可以包括：输入装置1403和输出装置1404。处理器1401、存储器1402、输入装置1403和输出装置1404可以通过总线或者其他方式连接，图14中以通过总线连接为例。
187.可以理解的是，上述图13和图14所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本技术的实现。
188.在上述图13和图14所示的示意图，终端设备和服务器均还可以包括用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装
在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。
189.在上述图13和图14所示的示意图，存储器即为本技术所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本技术所提供的方法。本技术的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本技术所提供的方法。
190.存储器作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本技术实施例中的基于视频的信息查询方法对应的程序指令/模块(例如，存储器1302对应附图11所示的获取模块1101、处理模块1102、显示模块1103、发送模块1104和接收模块1105；存储器1402对应附图12所示的接收模块1201、处理模块1202和发送模块1203)。处理器通过运行存储在存储器中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。
191.存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据终端设备和/或服务器的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端设备和/或服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
192.输入装置可接收输入的数字或字符信息，以及产生与终端设备和/或服务器的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。
193.此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
194.这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光
盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
195.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
196.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
197.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
198.进一步的，本技术实施例还提供一种基于视频的信息查询方法，包括：
199.获取目标视频画面的文本识别结果，所述文本识别结果包括：所述目标视频画面中的文本信息；
200.基于所述文本识别结果，确定所述文本信息对应的信息查询结果。
201.根据本技术实施例的技术方案，通过确定目标视频画面的文本识别结果，该文本识别结果包括：目标视频画面中的文本信息，并基于该文本识别结果，获取文本信息对应的信息查询结果。该技术方案中，基于目标视频画面的文本识别结果查询待查询文本对应的信息查询结果，无需用户切换终端界面，也不需要用户手动输入待查询文本，提高了视频文本的查询效率和用户体验。
202.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本技术中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本技术公开的技术方案所期望的结果，本文在此不进行限制。
203.上述具体实施方式，并不构成对本技术保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等，均应包含在本技术保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于视频的信息查询方法、装置、设备及存储介质与流程

相关文献

最热文献