音视频字幕处理方法、装置、电子设备及存储介质与流程

2022-11-23 22:05:26 来源：中国专利 TAG：

1.本发明实施例涉及数据处理技术领域，特别是涉及一种音视频字幕处理方法、装置、电子设备及存储介质。

背景技术：

2.随着信息技术的高速发展，音视频数据已经融合在生活的方方面面，大到国家重要会议或演讲，小到公司级多人会议或演讲，让身处在不同地方的人们，都可以通过不同的终端参与进来，拉进了人们之间的距离，提高了工作效率。字幕显示是目前在播放音视频时所具备的一项功能，通过字幕显示，人们可以更好的理解音视频的内容，例如在会议或者演讲时，更好的理解音视频中发言人想要表达的内容。
3.目前字幕显示，主要是通过asr(automatic speech recognition，语音识别技术)，自动将音视频中的语音转换为字幕文本，以供相关用户观看。
4.然而，目前通过语音识别技术识别出的字幕文本，会有比较高的概率出现语音识别错误的情况，若在重要的场景下出现音视频的字幕错误的问题，会影响到用户的理解，导致用户体验效果不好。

技术实现要素：

5.鉴于上述问题，提出了本发明实施例的一种音视频字幕处理方法、装置、电子设备及存储介质，以解决音视频的字幕存在错误的问题。
6.为了解决上述问题，本发明实施例公开了一种音视频字幕处理方法，所述方法包括：
7.获取音视频对应的信息文件，从所述信息文件中提取音视频关键词，并保存为关键词汇表；
8.根据所述关键词汇表对所述音视频对应的字幕进行匹配，将匹配后的所述字幕发送至参与所述音视频播放的终端中。
9.可选地，所述根据所述关键词汇表对所述音视频对应的字幕进行匹配，将匹配后的所述字幕发送至参与所述音视频播放的终端中，包括：
10.当所述字幕与所述关键词汇表中的所述音视频关键词不匹配时，根据所述关键词汇表对所述字幕进行纠错，并将纠错后的所述字幕发送至参与所述音视频播放的终端中。
11.可选地，所述据所述关键词汇表对所述音视频对应的字幕进行纠错，包括：
12.确定所述字幕中与所述关键词汇表中的目标音视频关键词不匹配的目标字幕词汇；
13.将所述字幕中的所述目标字幕词汇替换为对应的所述目标音视频关键词。
14.可选地，所述从所述信息文件中提取音视频关键词，包括：
15.根据所述信息文件生成字幕信息表；
16.从所述字幕信息表中提取一个或者多个词汇，作为音视频关键词；
17.所述根据所述关键词汇表对所述音视频对应的字幕进行匹配，将匹配后的所述字幕发送至参与所述音视频播放的终端中，包括：
18.当所述字幕与所述字幕信息表一致时，将所述字幕发送至参与所述音视频播放的终端中；
19.当所述字幕与所述字幕信息表不一致时，对所述字幕和所述字幕信息表进行语义分析，若语义分析结果为相同或者相似，则将所述字幕发送至参与所述音视频播放的终端中；若语义分析结果为不相似，则采用其他纠错方式对所述字幕进行纠错，并将纠错后的所述字幕发送至参与所述音视频播放的终端中。
20.本发明实施例还提供了一种音视频字幕处理装置，所述装置包括：
21.关键词生成模块，用于获取音视频对应的信息文件，从所述信息文件中提取音视频关键词，并保存为关键词汇表；
22.字幕匹配模块，用于根据所述关键词汇表对所述音视频对应的字幕进行匹配，将匹配后的所述字幕发送至参与所述音视频播放的终端中。
23.可选地，所述字幕匹配模块，具体用于：
24.当所述字幕与所述关键词汇表中的所述音视频关键词不匹配时，根据所述关键词汇表对所述字幕进行纠错，并将纠错后的所述字幕发送至参与所述音视频播放的终端中。
25.可选地，所述字幕匹配模块，具体用于：
26.确定所述字幕中与所述关键词汇表中的目标音视频关键词不匹配的目标字幕词汇；
27.将所述字幕中的所述目标字幕词汇替换为对应的所述目标音视频关键词。
28.可选地，所述关键词生成模块，具体用于：
29.根据所述信息文件生成字幕信息表；
30.从所述字幕信息表中提取一个或者多个词汇，作为音视频关键词。
31.所述字幕匹配模块，具体用于：
32.当所述字幕与所述字幕信息表一致时，将所述字幕发送至参与所述音视频播放的终端中；
33.当所述字幕与所述字幕信息表不一致时，对所述字幕和所述字幕信息表进行语义分析，若语义分析结果为相同或者相似，则将所述字幕发送至参与所述音视频播放的终端中；若语义分析结果为不相似，则采用其他纠错方式对所述字幕进行纠错，并将纠错后的所述字幕发送至参与所述音视频播放的终端中。
34.本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如本发明实施例所述的音视频字幕处理方法的步骤。
35.本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的音视频字幕处理方法中的步骤。
36.本发明实施例包括以下优点：
37.本发明实施例中，获取音视频对应的信息文件，从信息文件中提取音视频关键词并保存为关键词汇表，然后，可以根据关键词汇表对音视频对应的字幕进行匹配，将匹配后
的字幕发送至参与音视频播放的终端中。本发明实施例是基于音视频对应的信息文件生成的关键词汇表，来对音视频对应的字幕进行匹配，进而根据匹配结果来确定是否对字幕进行纠错，因此可以准确对字幕进行纠错，保证了字幕的精确性，使得相关用户可以基于字幕更精确理解音视频的内容，避免产生歧义，保证了用户体验。
附图说明
38.图1是本发明实施例提供的一种音视频字幕处理方法的步骤流程图；
39.图2是本发明实施例提供的另一种音视频字幕处理方法的步骤流程图；
40.图3是本发明实施例提供的一种视频会议系统的结构框图；
41.图4是本发明实施例提供的一种音视频字幕处理装置的结构框图。
具体实施方式
42.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
43.参考图1，示出了本发明实施例提供的一种音视频字幕处理方法的步骤流程图，具体包括以下步骤：
44.步骤101：获取音视频对应的信息文件，从所述信息文件中提取音视频关键词，并保存为关键词汇表。
45.其中，音视频可以是音频、视频、或者音频和视频。需要注意的是，音视频可以是实时产生的也可以是非实时产生的，本发明实施例对此并不需要加以限制。
46.其中，信息文件是与音视频对应的相关文件，信息文件中可以包括有与音视频中播放的文本内容。以视频会议为例，音视频可以是视频会议的过程中产生的音视频，信息文件则可以是视频会议时的参会人员，例如发言人，针对视频会议所准备的演讲文稿或是会议议程，亦或是针对已有视频生成的文稿，具体可以ppt、word、excel、txt、pdf等类型的文件，在视频会议前，参会人员可以通过终端，将该视频会议对应的信息文件发送至服务器，使得服务器可以从信息文件中提取音视频关键词，并保存为关键词汇表，举例来说，假设音视频是视频会议时产生的音视频，则对该音视频对应的信息文件提取音视频关键词，可以包括有“职务”、“奖金”、“制定”和“经理”等等，然后可以将这些音视频关键词汇集形成关键词汇表，并保存。本发明实施例通过从音视频对应的信息文件中提取音视频关键词，来形成关键词汇表，由于信息文件是与音视频关联已有文件，因此易于获取，并且，将基于信息文件生成的关键词汇表后续用于对音视频对应的字幕进行匹配，进而根据匹配结果来确定是否对字幕进行纠错，纠错准确率将非常高。
47.步骤102：根据所述关键词汇表对所述音视频对应的字幕进行匹配，将匹配后的所述字幕发送至参与所述音视频播放的终端中。
48.其中，音视频可以具有其对应的字幕，字幕可以是该音视频本身具有的字幕，也可以是通过对音视频中的语音信号进行语音识别得到的字幕。
49.在本发明实施例中，可以根据得到的关键词汇表对音视频对应的字幕进行匹配，然后，将匹配后的字幕发送至参与音视频播放的终端中，使得参与音视频播放的终端上显示的字幕是准确的。其中，参与音视频播放的终端可以是一个，也可以是多个。
50.继续以视频会议为例，在视频会议时，视频会议的终端可以通过麦克风实时采集发言人的讲话内容，形成音视频中的语音信号，将该语音信号发送至服务器，服务器则可以通过语音识别技术，将该语音信号转换为文本的字幕，然后，可以利用关键词汇表对字幕进行匹配，以根据匹配结果来确定是否对字幕进行纠错。示例性地，如果与关键词汇表不匹配，则可以根据匹配结果纠正字幕中语音识别错误一个或者几个的词汇，使得纠正后的字幕能够精确表达发言人的真实意思表示。
51.在具体实现中，在对字幕匹配完成后，服务器可以将字幕发送至参与该音视频播放的终端，终端在接收到字幕后，可以将该字幕显示在终端的屏幕中播放的音视频中，例如，显示在屏幕的下方位置，或者屏幕中靠近发出语音信号的对象(例如视频会议中的发言人的侧边位置处)，使得相关用户可以通过终端能够看到匹配后的字幕，从而基于字幕更精确理解音视频的内容。通过上述方式，基于预先获取的信息文件，可以快速纠正通过语音识别得到的字幕信息，在各终端精准显示字幕。
52.需要说明的是，本技术实施例音视频字幕处理方法可以适用于多种网络的环境中，例如互联网、以太网、ip网或视联网，或者混合多种网络的混合网络等等，本发明实施例对此无需加以限制。此外，本技术实施例的服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
53.本发明实施例中，获取音视频对应的信息文件，从信息文件中提取音视频关键词并保存为关键词汇表，然后，可以根据关键词汇表对音视频对应的字幕进行匹配，将匹配后的字幕发送至参与音视频播放的终端中。本发明实施例是基于音视频对应的信息文件生成的关键词汇表，来对音视频对应的字幕进行匹配，进而根据匹配结果来确定是否对字幕进行纠错，因此可以准确对字幕进行纠错，保证了字幕的精确性，使得相关用户可以基于字幕更精确理解音视频的内容，避免产生歧义，保证了用户体验。
54.参考图2，示出了本发明实施例提供的另一种音视频字幕处理方法的步骤流程图，具体包括以下步骤：
55.步骤201：获取音视频对应的信息文件，从所述信息文件中提取音视频关键词，并保存为关键词汇表。
56.步骤202：当所述字幕与所述关键词汇表中的所述音视频关键词匹配时，将所述字幕发送至参与所述音视频播放的终端中；当所述字幕与所述关键词汇表中的所述音视频关键词不匹配时，根据所述关键词汇表对所述字幕进行纠错，并将纠错后的所述字幕发送至参与所述音视频播放的终端中。
57.在具体实现中，如果确定音视频的字幕与关键词汇表中的音视频关键词均匹配，则可以说明音视频的字幕准确，则可以无需对该字幕进行纠正，直接将字幕发送至参与音视频播放的终端中即可。而如果确定字幕与关键词汇表中的音视频关键词不匹配，则可以说明音视频的字幕不够准确，则可以根据关键词汇表对该字幕进行纠正，再将纠正后的字幕发送至参与音视频播放的终端中。
58.在本发明的一种可选实施例中，所述步骤202：根据所述关键词汇表对所述音视频对应的字幕进行纠错，可以包括如下步骤：
59.确定所述字幕中与所述关键词汇表中的目标音视频关键词不匹配的目标字幕词汇；
60.将所述字幕中的所述目标字幕词汇替换为对应的所述目标音视频关键词。
61.在本发明实施例中，如果确定字幕与关键词汇表中的音视频关键词不匹配，可以将确定字幕中与关键词汇表中的目标音视频关键词不匹配的目标字幕词汇，然后，将字幕中的目标字幕词汇，替换为与该目标字幕词汇对应的目标音视频关键词。
62.举例来说，假设基于音视频的信息文件生成的关键词汇集中包括有“职务”、“奖金”、“制定”和“经理”等会议关键词汇，而通过将音视频中的语音信号转换得到的字幕为“我的植物是为企业施肥，让企业茁壮成长，让能够为企业风险的人越来越多”，可以确定字幕与关键词汇表中的音视频关键词不匹配，此时可以获取字幕中不匹配的目标字幕词汇，以及关键词汇表中目标字幕词汇对应的目标音视频关键词有：【“植物”和“职务”】、【“风险”和“奉献”】，通过将字幕中的目标字幕词汇替换为对应的目标音视频关键词汇，可以得到纠正后的字幕“我的职务是为企业施肥，让企业茁壮成长，让能够为企业奉献的人越来越多”。
63.在上述方式中，通过将字幕中与关键词汇集中不匹配的目标音视频关键词，替换为对应的目标音视频关键词，即可完成对字幕纠错，处理方式简单，处理效率高。其中，在应用于视频会议的音视频时，有利于实现视频会议中发言人的演讲和字幕同步。
64.在本发明的一种可选实施例中，所述从所述信息文件中提取音视频关键词，包括：
65.根据所述信息文件生成字幕信息表；
66.从所述字幕信息表中提取一个或者多个词汇，作为音视频关键词。
67.在本发明实施例中，服务器可以保存信息文件的整个内容，生成字幕信息表，并对字幕信息表进行信息整理，再从中提取出一个或者多个词汇，作为音视频关键词，用于组成关键词汇集。具体地，如果信息文件是一个ppt，可以将该ppt中的所有文本作为字幕信息表，如果信息文件是一个音频文件，可以将该音频文件转换为文本，再将该文本作为字幕信息表，如果信息文件是一个图像文件，可以识别处图像文件中的文本，再将该文本作为字幕信息表。
68.作为一个可选实施例，音视频对应的关键词汇表中音视频关键词的数量可以根据实际精确度需求进行设置，例如，如果对精确度要求较高，则可以从信息文件中获取较多的音视频关键词，甚至信息文件全部的词汇都可以作为音视频关键词，如果精确度要求较低，则可以从信息文件中获取较少的音视频关键词，比如信息文件中只有一个或者几个词汇会作为音视频关键词。
69.在本发明的一种可选实施例中，所述根据所述关键词汇表对所述音视频对应的字幕进行匹配，将匹配后的所述字幕发送至参与所述音视频播放的终端中，可以包括如下步骤：
70.当所述字幕与所述字幕信息表一致时，将所述字幕发送至参与所述音视频播放的终端中；
71.当所述字幕与所述字幕信息表不一致时，对所述字幕和所述字幕信息表进行语义分析，若语义分析结果为相同或者相似，则将所述字幕发送至参与所述音视频播放的中；若语义分析结果为不相似，则采用其他纠错方式对所述字幕进行纠错，并将纠错后的所述字幕发送至参与所述音视频播放的终端中。
72.其中，语义分析是指的通过机器对人的句子进行理解。
73.在本发明实施例中，在确定字幕与关键词汇表中的音视频关键词匹配时，可以进
一步确定字幕与字幕信息表是否一致，当字幕与字幕信息表一致时，可以将字幕直接发送至参与音视频播放的终端中，此时已经可以说明字幕的语音识别结果是非常精确的。
74.而当字幕与字幕信息表不一致时，可以对字幕和字幕信息表进行语义分析，以确定字幕和字幕信息表的语义是否相同或者相似，若语义分析结果为相同或者相似，则说明字幕的语音识别结果与字幕信息表存在一点差异，但是语音识别结果仍然是精确的，无需修改，此时也可以将字幕直接发送至参与音视频播放的终端中；若语义分析结果为不相似，则说明字幕语音识别的结果不够精确，可能仍然存在错误，此时采用其他纠错方式对字幕进行纠错，再将纠错后的字幕发送至参与音视频播放的终端中。其中，其他纠错方式包括但不限于重新进行语音识别、人工翻译等等。
75.在相关的音视频字幕处理方案中，会存在字幕有误的情况，这样会产生歧义，容易对用户造成误导。本发明实施例通过生成关键词汇表对音视频的字幕进行纠错，使得提供给用户的字幕是精确的，用户可以更精确理解音视频的内容，保证用户体验。
76.需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。
77.参照图3，示出了本发明实施例提供的一种视频会议系统的结构框图，该系统可以包括：多点控制设备、终端和服务器，其中，音视频为视频会议时实时产生的音视频：
78.所述多点控制设备，用于获取所述终端提交的音视频对应的信息文件，并将所述信息文件发送至所述服务器；
79.所述服务器，用于从所述信息文件中提取音视频关键词，并保存为关键词汇表；
80.所述多点控制设备，用于获取所述终端提交的视频会议时产生的音视频，其中，所述音视频中包括语音信号，并将所述语音信号发送至服务器；
81.所述服务器，用于将所述语音信号转换为字幕，并根据所述关键词汇表对所述字幕进行匹配，将匹配后的所述字幕通过所述多点控制设备发送至参与音视频播放的终端中。
82.其中，多点控制设备是指的mcu，mcu的英文全称是multi control unit，中文名称还可以是多点控制单元。在实际应用中，为了实现多点会议视频系统需要设置多点控制设备。
83.具体地，多点控制设备实质上是一台多媒体信息交换机，进行多点呼叫和连接，实现视频广播、视频选择、音频混合、数据广播等功能，完成各终端信号的汇接与切换。多点控制设备与现行交换机不同之处在于，现行交换机完成的是信号的点对点连接，而多点控制设备则要完成多点对多点的切换、汇接或广播。多点控制设备的作用包括：对输入的多路会议视频信号进行切换，但是由于会议视频信号中包含图像、语音及数据等多类不同的信号，因此，多点控制设备的切换作用并不仅仅是类似电话等通信设备，只是简单地将语音信号进行转接，多点控制设备需要对多类的信号进行不同的处理。具体来说，多点控制设备对语音信号采取多路混合的方式(当然也可采用切换方式)传送，对视频信号采取直接分配的方式传送，对于数据信号采取广播方式或mlp(mobile location protocol，移动定位协议)方
式传送。此外，多点控制设备还要完成对通信控制信号、网络接口信号等处理。
84.在本发明的一种可选实施例中，所述服务器可以为多个，并且每个服务器具有其对应的功能，具体地，服务器可以包括多点控制服务器、文件上传服务器、语音智能识别服务器和智能存储服务器，其中：
85.所述文件上传服务器，用于通过所述多点控制服务器接收所述多点控制设备发送的所述信息文件，并保存；
86.所述智能存储服务器，用于接收所述文件上传服务器发送的所述信息文件，从所述信息文件中提取音视频关键词，并保存为关键词汇表；
87.所述语音智能识别服务器，用于通过所述多点控制服务器接收所述多点控制设备获取的所述终端提交的视频会议时产生的音视频中的语音信号，并根据所述关键词汇表对所述字幕进行纠错，将纠错后的所述字幕通过所述多点控制设备发送至参与播放所述音视频的终端中。
88.在本发明实施例中，可以将文件上传服务器、多点控制服务器(xmcu服务器，是具备多点控制单元相同或者相似功能的视频会议产品)、语音智能识别服务器、智能存储服务器部署到视频会议系统中。视频会议开始前，多点控制设备获取终端提交的信息文件，文件上传服务器可以通过多点控制服务器，获取多点控制设备上传信息文件后保存，随后，将信息文件发送智能存储服务器，智能存储服务器保存信息文件的整个内容，生成字幕信息表，将字幕信息表中的音视频关键词进行信息整理，生成关键词汇表。在视频会议开始时，多点控制设备将视频会议中终端采集音视频中的语音信号，实时通过多点控制服务器提供给语音智能识别服务器，语音智能识别服务器将语音信号实时识别成为文字字符串(文本)的字幕，并且将字幕与智能存储服务器中的关键词汇表进行匹配，如果字幕与智能存储服务器中的关键词汇表匹配成功，则进一步确定该字幕与字幕信息表的内容是否一致，如果一致直接将该字幕返回至多点控制设备，然后由多点控制设备回传到终端；如果不一致，则智能分析字幕与字幕信息表的语义是否一致，一致则返回至多点控制设备，然后由多点控制设备回传到终端；如果字幕与智能存储服务器中的关键词汇表匹配失败，则启用视频会议系统的纠错功能，将字幕中不匹配的目标字幕词汇替换为关键词汇表中对应的目标音视频关键词。
89.通过上述方式，在视频会议过程中，可以采集音视频中关于发言人的语音信号，并将发言人的语音信号转换为精确的字幕在终端中展示出来，使得参会人员可以更精确理解视频会议的内容，提升了参会人员的会议体验。
90.参照图4，示出了本发明实施例提供的一种音视频字幕处理装置的结构框图，所述装置包括：
91.关键词生成模块401，用于获取音视频对应的信息文件，从所述信息文件中提取音视频关键词，并保存为关键词汇表；
92.字幕匹配模块402，用于根据所述关键词汇表对所述音视频对应的字幕进行匹配，将匹配后的所述字幕发送至参与所述音视频播放的终端中。
93.在本发明的一种可选实施例中，所述字幕匹配模块402，具体用于：
94.当所述字幕与所述关键词汇表中的所述音视频关键词不匹配时，根据所述关键词汇表对所述字幕进行纠错，并将纠错后的所述字幕发送至参与所述音视频播放的终端中。
95.在本发明的一种可选实施例中，所述字幕匹配模块402，具体用于：
96.确定所述字幕中与所述关键词汇表中的目标音视频关键词不匹配的目标字幕词汇；
97.将所述字幕中的所述目标字幕词汇替换为对应的所述目标音视频关键词。
98.在本发明的一种可选实施例中，所述关键词生成模块401，具体用于：
99.根据所述信息文件生成字幕信息表；
100.从所述字幕信息表中提取一个或者多个词汇，作为音视频关键词。
101.在本发明的一种可选实施例中，所述字幕匹配模块402，具体用于：
102.当所述字幕与所述字幕信息表一致时，将所述字幕发送至参与所述音视频播放的终端中；
103.当所述字幕与所述字幕信息表不一致时，对所述字幕和所述字幕信息表进行语义分析，若语义分析结果为相同或者相似，则将所述字幕发送至参与所述音视频播放的终端中；若语义分析结果为不相似，则采用其他纠错方式对所述字幕进行纠错，并将纠错后的所述字幕发送至参与所述音视频播放的终端中。
104.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
105.本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
106.存储器，用于存放计算机程序；
107.处理器，用于执行存储器上所存放的程序时，实现上述任一实施例所述的音视频字幕处理方法的步骤。
108.本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的音视频字幕处理方法中的步骤。
109.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
110.本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
111.本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
112.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包
括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
113.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
114.尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
115.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
116.以上对本发明所提供的一种音视频字幕处理方法，一种数据获取装置，电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

音视频字幕处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献