视频字幕的生成方法及电子设备与流程

2022-07-30 15:39:46 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，特别涉及一种视频字幕的生成方法及电子设备。

背景技术：

2.为了便于用户获知视频的内容，终端在播放视频的过程中，可以同步显示该视频的字幕。
3.相关技术中，终端可以对视频进行语音识别，并基于识别结果生成字幕。但是，该方法生成的字幕的准确性较低。

技术实现要素：

4.本技术提供了一种视频字幕的生成方法及电子设备，可以解决相关技术的生成的视频的字幕的准确性较低的问题。所述技术方案如下：
5.一方面，提供了一种电子设备，所述电子设备包括：处理器；所述处理器用于：
6.获取目标视频的评价信息，所述目标视频的评价信息包括下述信息中的至少一种：评论信息、弹幕信息和提问信息；
7.从所述评价信息中提取出目标关键词；
8.将所述目标关键词添加至所述目标视频的词汇集；
9.基于所述词汇集，对所述目标视频的音频进行语音识别，得到所述目标视频的字幕。
10.另一方面，提供了一种视频字幕的生成方法，应用于电子设备；所述方法包括：
11.获取目标视频的评价信息，所述目标视频的评价信息包括下述信息中的至少一种：评论信息、弹幕信息和提问信息；
12.从所述评价信息中提取出目标关键词；
13.将所述目标关键词添加至所述目标视频的词汇集；
14.基于所述词汇集，对所述目标视频的音频进行语音识别，得到所述目标视频的字幕。
15.可选的，所述从所述评价信息中提取出目标关键词，包括：
16.从所述评价信息中提取出多个备选关键词；
17.确定所述多个备选关键词中每个备选关键词与所述目标视频的关联度，所述关联度与所述备选关键词的逆文档频率，以及所述备选关键词在所述评价信息中的词频均正相关；
18.将所述多个备选关键词中关联度大于关联度阈值的备选关键词确定为目标关键词。
19.可选的，每个所述备选关键词的关联度k满足：k＝n
×
f；
20.其中，n为所述备选关键词的逆文档频率，f为所述备选关键词在所述评价信息中的词频。
21.可选的，每个所述备选关键词的逆文档频率n满足：
[0022][0023]
每个所述备选关键词在所述评价信息中的词频f满足：
[0024][0025]
其中，ωc为所述评论信息的权重，ωd为所述弹幕信息的权重，ωq为所述提问信息的权重；d为所述目标视频所属的视频集合中各个视频的评论信息的总数，d为所述各个视频的评论信息中包括所述备选关键词的评论信息的总数，e为所述各个视频的弹幕信息的总数，e为所述各个视频的弹幕信息中包括所述备选关键词的弹幕信息的总数，g为所述各个视频的提问信息的总数，g为所述各个视频的提问信息中包括所述备选关键词的提问信息的总数；
[0026]
r为所述目标视频的评论信息中包括所述备选关键词的评论信息的总数，r为所述目标视频的评论信息的总数，s为所述目标视频的弹幕信息中包括所述备选关键词的弹幕信息的总数，s为所述目标视频的弹幕信息的总数，t为所述目标视频的提问信息中包括所述备选关键词的提问信息的总数，t为所述目标视频的提问信息的总数。
[0027]
可选的，所述方法还包括：
[0028]
获取所述目标视频的至少一个参考关键词；
[0029]
基于所述至少一个参考关键词，从多个备选视频中确定至少一个参考视频，每个所述参考视频的词汇集与所述至少一个参考关键词存在交集，且所述交集包括的关键词的数量大于第一数量阈值；
[0030]
将所述至少一个参考视频的词汇集添加至所述目标视频的词汇集中。
[0031]
可选的，所述方法还包括：
[0032]
若接收到的针对所述词汇集中的第一关键词的修订请求的数量大于第二数量阈值，且所述修订请求指示将所述第一关键词修订为第二关键词，则采用所述第二关键词替换所述词汇集中的所述第一关键词。
[0033]
可选的，所述电子设备为显示设备；在所述得到所述目标视频的字幕之后，所述方法还包括：
[0034]
根据获取到的检索关键词，从所述目标视频的字幕中获取包括所述检索关键词的多个文本段；
[0035]
显示与所述多个文本段的播放时刻一一对应的多个选项；
[0036]
若接收到针对所述多个选项中目标选项的选择操作，则从所述目标选项对应的播放时刻开始播放所述目标视频。
[0037]
可选的，所述电子设备为服务器；在所述得到所述目标视频的字幕之后，所述方法还包括：
[0038]
若接收到终端发送的针对所述目标视频的播放请求，则向所述终端发送所述目标视频和所述目标视频的字幕，所述字幕用于供所述终端在播放所述目标视频的过程中显示。
[0039]
又一方面，提供了一种电子设备，所述电子设备包括：存储器，处理器及存储在所
述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方面所述的视频字幕的生成方法。
[0040]
再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的视频字幕的生成方法。
[0041]
再一方面，提供了一种包含指令的计算机程序产品，当所述计算机程序产品在所述计算机上运行时，使得所述计算机执行上述方面所述的视频字幕的生成方法。
[0042]
本技术提供的技术方案带来的有益效果至少包括：
[0043]
本技术提供了一种视频字幕的生成方法及电子设备，电子设备能够从目标视频的评价信息提取出的目标关键词，并将该目标关键词添加至词汇集中，继而基于添加有该目标关键词的词汇集对目标视频的音频进行语音识别，得到目标视频的字幕。由于视频的评价信息中通常会包括与视频的内容关联较强的关键词，因此本技术实施例提供的方法可以确保目标视频的词汇集中的关键词与目标视频的关联性较强，从而可以确保基于该词汇集生成的字幕的准确性较高。
附图说明
[0044]
为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0045]
图1是本技术实施例提供的一种视频字幕的生成方法的流程图；
[0046]
图2是本技术实施例提供的一种视频字幕的生成方法所涉及的实施环境的结果示意图；
[0047]
图3是本技术实施例提供的另一种视频字幕的生成方法的流程图；
[0048]
图4是本技术实施例提供的一种采用检索关键词进行检索的的示意图；
[0049]
图5是本技术实施例提供的一种与包括检索关键词的多个文本段的播放时刻一一对应的多个选项的示意图；
[0050]
图6是本技术实施例提供的一种选择目标选项后目标视频跳转播放的示意图；
[0051]
图7是本技术实施例提供的一种电子设备的结构示意图；
[0052]
图8是本技术实施例提供的一种电子设备的软件结构框图。
具体实施方式
[0053]
为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
[0054]
本技术实施例提供了一种视频字幕的生成方法，该方法可以应用于电子设备。可选的，该电子设备可以为终端或服务器。该终端可以是手机、平板电脑或笔记本电脑。该服务器可以是一台服务器，或者可以是由若干台服务器组成的服务器集群，又或者可以是一个云计算服务中心。参见图1，该方法包括：
[0055]
步骤101、获取目标视频的评价信息。
[0056]
其中，目标视频的评价信息包括下述信息中的至少一种：评论信息、弹幕信息和提问信息。例如，目标视频的评价信息包括：目标视频的评论信息、弹幕信息和提问信息。
[0057]
步骤102、从目标视频的评价信息中提取出目标关键词。
[0058]
在本技术实施例中，电子设备可以采用快速自动提取关键字(rapid automatic keyword extraction，rake)算法，或者可以采用(term frequency
–
inverse document frequency，tf-idf)算法从目标视频的评价信息中提取出目标关键词。例如，电子设备可以采用tf-idf算法提取目标关键词。
[0059]
步骤103、将目标关键词添加至目标视频的词汇集。
[0060]
电子设备从多个备选关键词中筛选得到目标关键词后，即可将目标关键词添加至目标视频的词汇集(也可以称为专有字典)。
[0061]
步骤104、基于目标视频的词汇集，对目标视频的音频进行语音识别，得到目标视频的字幕。
[0062]
电子设备得到目标视频的词汇集后，对于音频包括的多个发音单位中的每个发音单位，电子设备可以从目标视频的词汇集中查找出发音与该音频的发音单位相同的至少一个识别结果，并基于多个发音单位的识别结果，得到目标视频的字幕。其中，每个发音单位可以是一个音节，或一个音素。每个发音单位的识别结果可以为字词或单词。
[0063]
例如，电子设备可以将目标视频的音频输入至声学模型中。对于该音频中的每个发音单位，声学模型可以从目标视频的词汇集和通用词汇的集合(也可以称为通用字典)中，确定发音与该发音单位相同的至少一个识别结果，并将该至少一个识别结果发送至语言模型。语言模型继而可以对多个发音单位的识别结果进行语法和语义的纠正，从而得到目标视频的字幕。其中，在语音识别的过程中，目标视频的词汇集的优先级高于通用字典的优先级。例如，若声学模型基于该音频中的一发音单位得到两个识别结果，该两个识别结果中一个识别结果属于词汇集，另一个识别结果属于通用字典，则声学模型可以将属于词汇集的识别结果发送至语音模型。
[0064]
综上所述，本技术实施例提供了一种视频字幕的生成方法，电子设备能够从目标视频的评价信息提取出的目标关键词，并将该目标关键词添加至词汇集中，继而基于添加有该目标关键词的词汇集对目标视频的音频进行语音识别，得到目标视频的字幕。由于视频的评价信息中通常会包括与视频的内容关联较强的关键词，因此本技术实施例提供的方法可以确保目标视频的词汇集中的关键词与目标视频的关联性较强，从而可以确保基于该词汇集生成的字幕的准确性较高。
[0065]
图2是本技术实施例提供的视频字幕的生成方法所涉及的实施环境的结构示意图。参见图2，该实施环境可以包括电子设备110，第一终端120和第二终端120。该电子设备110可以分别与第一终端120和第二终端130建立有通信连接。其中，电子设备110可以为语音识别服务器，第一终端120可以为目标视频的上传者的终端，第二终端130可以为目标视频的观看者的终端。
[0066]
本技术实施例以电子设备为服务器(例如图2所示的语音识别服务器110)为例，对本技术实施例提供的视频字幕的生成方法进行示例性的说明。参见图3，该方法可以包括：
[0067]
步骤201、第一终端向电子设备发送目标视频的至少一个参考关键词。
[0068]
在本技术实施例中，第一终端可以获取目标视频的至少一个参考关键词，并可以
将该至少一个参考关键词上传至电子设备。相应的，电子设备即可获取该至少一个参考关键词。其中，每个参考关键词可以为目标视频中的专业词汇。该专业名词可以为新词汇。
[0069]
可选的，至少一个参考关键词可以是第一终端响应于用户的输入操作获取的，或者可以是其他设备发送至第一终端的。第一终端可以在将目标视频上传至电子设备的过程中，向电子设备发送该至少一个参考关键词。
[0070]
步骤202、电子设备基于至少一个参考关键词，从多个备选视频中确定至少一个参考视频。
[0071]
其中，每个参考视频的词汇集与目标视频的至少一个参考关键词存在交集，且该交集包括的关键词的数量大于第一数量阈值。该第一数量阈值可以是电子设备预先存储的，或者可以是电子设备基于多个备选视频中每个备选视频的词汇集与至少一个参考关键词的交集所包括的关键词的数量灵活确定的。
[0072]
在本技术实施例中，电子设备可以获取多个备选视频中每个备选视频的词汇集。然后，对于每个备选视频，电子设备可以确定该备选视频的词汇集与至少一个参考关键词的交集所包括的关键词的数量。之后，电子设备可以检测该数量是否大于第一数量阈值。若电子设备确定该数量大于第一数量阈值，则可以将该备选视频确定为参考视频。
[0073]
可以理解的是，对于第一数量阈值是电子设备灵活确定的场景，电子设备在得到多个备选视频中每个备选视频的词汇集与至少一个参考关键词的交集所包括的关键词的数量后，可以按照从大到小的顺序对多个备选视频进行排序。若电子设备需要将排序后的前m个备选视频确定为参考视频，则可以将第m 1个备选视频与至少一个参考关键词的交集所包括的关键词的数量确定为第一数量阈值。m为大于等于1，且小于多个备选视频的总数的整数。
[0074]
可选的，电子设备可以确定多个备选视频中每个备选视频与目标视频的相似度。之后，电子设备可以将相似度高于相似度阈值的视频确定为参考视频。
[0075]
其中，目标视频与任一备选视频的相似度sim可以满足下述公式：
[0076][0077]
公式(1)中，a为目标视频的至少一个参考关键词与该任一备选视频的词汇集的交集所包括的关键词的总数，b为至少一个参考关键词的总数。
[0078]
步骤203、电子设备将至少一个参考视频中每个参考视频的词汇集添加至目标视频的词汇集中。
[0079]
电子设备得到至少一个参考视频后，可以将该至少一个参考视频中每个参考视频的词汇集，添加至目标视频的词汇集中。如此，可以使得目标视频的词汇集中与目标视频关联性较高的词汇较为完善，从而可以确保基于该词汇集得到的目标视频的字幕的准确性较高。
[0080]
在本技术实施例中，电子设备得到目标视频的至少一个参考关键词后，可以将该至少一个参考关键词添加至目标视频的词汇集中，以进一步完善目标视频的词汇集。且由于每个参考关键词均为目标视频的专业词汇，因此可以确保基于词汇集能够较为准确识别出目标视频中的专业词汇，从而进一步确保得到的目标音频的字幕的准确性较高。
[0081]
步骤204、电子设备获取目标视频的评价信息。
[0082]
目标视频的观看者通过视频播放终端在观看目标视频的过程中，或是在观看完成目标视频后，可以通过该视频播放终端向电子设备发送目标视频的评价信息。该目标视频的评价信息包括下述信息中的至少一种：评论信息、弹幕信息和提问信息。例如，目标视频的评价信息包括：目标视频的评论信息、弹幕信息和提问信息。
[0083]
可以理解的是，目标视频的观看者在观看目标视频的过程中，视频播放终端还可以显示目标视频的字幕，该字幕可以是电子设备基于添加有至少一个参考视频的词汇集和至少一个参考关键词的词汇集生成。
[0084]
步骤205、电子设备从目标视频的评价信息中提取出目标关键词。
[0085]
电子设备可以采用rake算法，或者可以采用tf-idf算法从目标视频的评价信息中提取出目标关键词。其中，tf-idf算法的原理是：某一词汇在目标视频的评价信息中出现的频率较高，且在其他视频的评价信息中出现的频率较低，则说明该词汇为目标视频的关键词。
[0086]
本技术实施例以电子设备采用tf-idf算法提取目标关键词，目标视频的评价信息包括：目标视频的评论信息、弹幕信息和提问信息为例，对电子设备从目标视频的评价信息中提取出目标关键词进行示例性的说明。
[0087]
电子设备可以从目标视频的评价信息中提取出多个备选关键词，并计算多个备选关键词中每个备选关键词与目标视频的关联度。之后，电子设备可以将多个备选关键词中关联度大于关联度阈值的备选关键词确定为目标关键词。其中，每个备选关键词的关联度与该备选关键词的逆文档频率和该备选关键词在目标视频的评价信息中的词频均正相关。
[0088]
其中，关联度阈值可以是电子设备预先存储的。每个备选关键词的关联度k可以满足下述公式：
[0089]
k＝n
×
f公式(2)
[0090]
其中，n为该备选关键词的逆文档频率，f为该备选关键词在目标视频的评价信息中的词频。
[0091]
每个备选关键词的逆文档频率n可以满足下述公式：
[0092][0093]
公式(3)中，ωc为评论信息的权重，ωd为弹幕信息的权重，ωq为提问信息的权重。d为目标视频所属的视频集合中各个视频的评论信息的总数，d为该各个视频的评论信息中包括该备选关键词的评论信息的总数。e为该各个视频的弹幕信息的总数，e为该各个视频的弹幕信息中包括该备选关键词的弹幕信息的总数。g为该各个视频的提问信息的总数，g为该各个视频的提问信息中包括该备选关键词的提问信息的总数。ωc、ωd和ωq均可以是电子设备中预先存储的，ωc、ωd和ωq的和值可以为固定值，例如1。
[0094]
每个备选关键词在目标视频的评价信息中的词频f可以满足下述公式：
[0095][0096]
公式(4)中，r为目标视频的评论信息中包括该备选关键词的评论信息的总数，r为目标视频的评论信息的总数。s为目标视频的弹幕信息中包括该备选关键词的弹幕信息的总数。s为目标视频的弹幕信息的总数，t为目标视频的提问信息中包括该备选关键词的提
问信息的总数，t为目标视频的提问信息的总数。
[0097]
步骤206、电子设备将目标关键词添加至目标视频的词汇集。
[0098]
电子设备从多个备选关键词中筛选得到目标关键词后，即可将目标关键词添加至目标视频的词汇集。
[0099]
步骤207、电子设备基于目标视频的词汇集，对目标视频的音频进行语音识别，得到目标视频的字幕。
[0100]
电子设备得到目标视频的词汇集后，即可基于该词汇集，对目标视频的音频进行语音识别，从而得到目标视频的字幕。例如，电子设备可以将目标视频的音频输入至声学模型中，以使声学模型基于该词汇集确定该音频包括的多个发音单位中每个发音单位的识别结果。之后，电子设备可以将多个发音单位的识别结果输入至语言模型中，以便语言模型对多个识别结果进行语法和语义的纠正，从而得到目标视频的字幕。
[0101]
其中，每个发音单位可以是一个音节，或一个音素。每个发音单位的识别结果可以为字词或单词。该音频即为目标视频中讲话人的语音数据。
[0102]
可选的，声学模型可以基于目标视频的词汇集和通用字典，确定该音频包括的多个发音单位中每个发音单位的识别结果。且在识别过程中，目标视频的词汇集中的词汇优先级高于通用词汇。
[0103]
可以理解的是，对于电子设备在得到目标关键词之前，已经基于至少一个参考视频的词汇集和至少一个参考关键词生成目标视频的字幕的场景，电子设备在基于添加有目标关键词的词汇集得到字幕后，可以采用该字幕覆盖之前的字幕。如此，可以确保目标视频的字幕的准确性。
[0104]
步骤208、第二终端向电子设备发送针对目标视频的播放请求。
[0105]
第二终端若接收到目标视频的播放指令，则可以响应于该播放指令，向电子设备发送目标视频的播放请求。
[0106]
其中，该播放指令可以由针对目标视频的播放控件的触控操作触发。
[0107]
步骤209、电子设备响应于播放请求，向第二终端发送目标视频和目标视频的字幕。
[0108]
电子设备接收到目标视频的播放请求后，即可向第二终端发送目标视频和目标视频的字幕。
[0109]
步骤210、第二终端播放目标视频，并在播放目标视频的过程中显示目标视频的字幕。
[0110]
第二终端接收到目标视频和目标视频的字幕后，即可播放目标视频，并可以在播放目标视频的过程中显示目标视频的字幕，以便目标视频的观看者较为准确的获知目标视频中的内容。
[0111]
在本技术实施例中，第二终端根据目标视频的字幕，还可以为目标视频的观看者提供内容检索服务。例如，目标视频的观看者需要查询目标视频的讲解人在何时讲解某一内容时，可以在第二终端中输入需要检索的该内容。之后，第二终端可以显示该内容的所有播放时刻，并可以响应于该观看者针对目标播放时刻的选择操作，直接跳转至该目标播放时刻。基于此，第二终端还可以执行下述步骤。
[0112]
步骤211、第二终端根据获取到的检索关键词，从目标视频的字幕中获取包括该检
索关键词的多个文本段。
[0113]
第二终端在获取到检索关键词后，可以以该检索关键词为搜索关键词，从目标视频的字幕中获取该检索关键词的多个文本段。其中，该检索关键词可以是第二终端响应于用户的输入操作获取到的。或者，可以是其他设备发送至第二终端的。
[0114]
可选的，如图4所示，第二终端的显示屏中可以显示有关键词输入控件01、搜索控件02和播放进度条03。目标视频的观看者可以在关键词输入控件01中输入检索关键词“xx”。相应的，第二终端可以响应于该观看者的关键词输入操作，获取检索关键词“xx”。
[0115]
之后，目标视频的观看者可以触控该搜索控件02。第二终端可以响应于该观看者针对该搜索控件02的触控操作，获取包括检索关键词“xx”的多个文本段。该多个文本段分别为：“xx的基本原则”，“今天讲的内容是xx”，“xx总共分为以下：”，以及“对xx的理解应该是”。
[0116]
从图4还可以看出，目标视频的观看者在关键词输入控件01中输入检索关键词的过程中，第二终端可以暂停播放目标视频，以避免该观看者漏看部分视频片段，用户体验较好。
[0117]
步骤212、第二终端显示与多个文本段的播放时刻一一对应的多个选项。
[0118]
第二终端获取到包括检索关键词的多个文本段后，还可以获取多个文本段中每个文本段的播放时刻，并可以显示与该多个文本段的播放时刻一一对应的多个选项。
[0119]
示例的，假设包括检索关键词“xx”的多个文本段分别为：“xx的基本原则”，“今天讲的内容是xx”，“xx总共分为以下：”，以及“对xx的理解应该是”，且该四个文本段的播放时刻依次为：05:35(即5分35秒)，10:26，15:02和26:26。则参见图5，第二终端可以显示选项04至选项07等四个选项。
[0120]
并且，每个选项可以显示有对应的文本段，以及该文本段的播放时刻，以便目标视频的观看者获知该文本段，以及该文本段的播放时刻。
[0121]
步骤213、第二终端若接收到针对多个选项中目标选项的选择操作，则从该目标选项的播放时刻开始播放目标视频。
[0122]
目标视频的观看者可以从多个选项中选择目标选项。相应的，第二终端可以响应于该观看者针对目标选项的选择操作，从目标选项的播放时刻开始播放目标视频。即第二终端可以直接跳转至该目标选项对应的播放时刻，并从该播放时刻开始播放目标视频。
[0123]
示例的，参见图6，目标视频的观看者选择了选项04至选项07中的选项06，则参见图6，第二终端直接跳转到播放时刻15:02。
[0124]
在本技术实施例中，目标视频的观看者若发现字幕中存在翻译不准确的词汇，还可以通过第二终端反馈至电子设备。例如，第二终端可以向电子设备发送针对词汇集中的第一关键词的修订请求，该修订请求指示电子设备将该第一关键词修订为第二关键词。第一关键词可以为目标视频的词汇集中的任一关键词。
[0125]
电子设备接收到该修订请求后，若确定接收到该修订请求的数量大于第二数量阈值，则可以采用第二关键词替换第一关键词。例如，电子设备可以将第二关键词添加至目标视频的词汇集中，并将该第一关键词从该词汇集中删除。
[0126]
由此可见，本技术实施例提供的方法允许目标视频的观看者通过第二终端向电子设备上报错误词汇，且能够在该错误词汇的上报次数大于数值阈值后，才对错误词汇进行
修正，如此可以确保修正的可靠性较高。
[0127]
在本技术实施例中，电子设备还可以向第二终端发送基于目标视频的字幕摘要，以供第二终端显示，从而便于观看者大致了解目标视频的内容。其中，该字幕摘要可以包括目标视频的字幕前几个语句。此外，电子设备可以响应于针对目标视频的字幕导出请求，向接收设备(例如打印设备)发送目标视频的字幕。由此可见，本技术实施例提供的电子设备还具有字幕导出功能和内容预览功能。
[0128]
需要说明的是，本技术实施例提供的视频字幕的生成方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减。例如，步骤201可以在步骤206之后执行；或者步骤207至步骤213可以根据情况删除。任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本技术的保护范围之内，因此不再赘述。
[0129]
综上所述，本技术实施例提供了一种视频字幕的生成方法，电子设备能够从目标视频的评价信息提取出的目标关键词，并将该目标关键词添加至词汇集中，继而基于添加有该目标关键词的词汇集对目标视频的音频进行语音识别，得到目标视频的字幕。由于视频的评价信息中通常会包括与视频的内容关联较强的关键词，因此本技术实施例提供的方法可以确保目标视频的词汇集中的关键词与目标视频的关联性较强，从而可以确保基于该词汇集生成的字幕的准确性较高。
[0130]
本技术实施例提供了一种电子设备，该电子设备可以用于执行上述方法实施例提供的视频字幕的生成方法。参见图7，该电子设备110包括：处理器1101。该处理器1101用于：
[0131]
获取目标视频的评价信息，目标视频的评价信息包括下述信息中的至少一种：评论信息、弹幕信息和提问信息；
[0132]
从评价信息中提取出目标关键词；
[0133]
将目标关键词添加至目标视频的词汇集；
[0134]
基于词汇集，对目标视频的音频进行语音识别，得到目标视频的字幕。
[0135]
可选的，该处理器1101可以用于：
[0136]
从评价信息中提取出多个备选关键词；
[0137]
确定多个备选关键词中每个备选关键词与目标视频的关联度，关联度与备选关键词的逆文档频率，以及备选关键词在评价信息中的词频均正相关；
[0138]
将多个备选关键词中关联度大于关联度阈值的备选关键词确定为目标关键词。
[0139]
可选的，每个备选关键词的关联度k满足：k＝n
×
f；
[0140]
其中，n为备选关键词的逆文档频率，f为备选关键词在评价信息中的词频。
[0141]
可选的，每个备选关键词的逆文档频率n满足：
[0142][0143]
每个备选关键词在评价信息中的词频f满足：
[0144][0145]
其中，ωc为评论信息的权重，ωd为弹幕信息的权重，ωq为提问信息的权重；d为目标视频所属的视频集合中各个视频的评论信息的总数，d为各个视频的评论信息中包括备
选关键词的评论信息的总数，e为各个视频的弹幕信息的总数，e为各个视频的弹幕信息中包括备选关键词的弹幕信息的总数，g为各个视频的提问信息的总数，g为各个视频的提问信息中包括备选关键词的提问信息的总数；
[0146]
r为目标视频的评论信息中包括备选关键词的评论信息的总数，r为目标视频的评论信息的总数，s为目标视频的弹幕信息中包括备选关键词的弹幕信息的总数，s为目标视频的弹幕信息的总数，t为目标视频的提问信息中包括备选关键词的提问信息的总数，t为目标视频的提问信息的总数。
[0147]
可选的，该处理器1101还可以用于：
[0148]
获取目标视频的至少一个参考关键词；
[0149]
基于至少一个参考关键词，从多个备选视频中确定至少一个参考视频，每个参考视频的词汇集与至少一个参考关键词存在交集，且交集包括的关键词的数量大于第一数量阈值；
[0150]
将至少一个参考视频的词汇集添加至目标视频的词汇集中。
[0151]
可选的，该处理器1101还可以用于：
[0152]
若接收到的针对词汇集中的第一关键词的修订请求的数量大于第二数量阈值，且修订请求指示将第一关键词修订为第二关键词，则采用第二关键词替换词汇集中的第一关键词。
[0153]
可选的，该电子设备110为显示设备。该处理器1101还可以用于：
[0154]
根据获取到的检索关键词，从目标视频的字幕中获取包括检索关键词的多个文本段；
[0155]
显示与多个文本段的播放时刻一一对应的多个选项；
[0156]
若接收到针对多个选项中目标选项的选择操作，则从目标选项对应的播放时刻开始播放目标视频。
[0157]
可选的，该电子设备110为服务器。该处理器1101还可以用于：
[0158]
若接收到终端发送的针对目标视频的播放请求，则向终端发送目标视频和目标视频的字幕，字幕用于供终端在播放目标视频的过程中显示。
[0159]
综上所述，本技术实施例提供了一种视频字幕的生成方法，电子设备能够从目标视频的评价信息提取出的目标关键词，并将该目标关键词添加至词汇集中，继而基于添加有该目标关键词的词汇集对目标视频的音频进行语音识别，得到目标视频的字幕。由于视频的评价信息中通常会包括与视频的内容关联较强的关键词，因此本技术实施例提供的电子设备可以确保目标视频的词汇集中的关键词与目标视频的关联性较强，从而可以确保基于该词汇集生成的字幕的准确性较高。
[0160]
参见图7，本技术实施例提供的电子设备110还可以包括：显示单元130、射频(radio frequency，rf)电路150、音频电路160、无线保真(wireless fidelity，wi-fi)模块170、蓝牙模块180、电源190和摄像头121等部件。
[0161]
其中，摄像头121可用于捕获静态图片或视频。物体通过镜头生成光学图片投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，cmos)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1101转换成数字图片信号。
[0162]
处理器1101是电子设备110的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器140内的软件程序，以及调用存储在存储器140内的数据，执行电子设备110的各种功能和处理数据。在一些实施例中，处理器1101可包括一个或多个处理单元；处理器1101还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1101中。本技术中处理器1101可以运行操作系统和应用程序，可以控制用户界面显示，并可以实现本技术实施例提供的视频字幕的生成方法。另外，处理器1101与输入单元和显示单元130耦接。
[0163]
显示单元130可用于接收输入的数字或字符信息，产生与电子设备110的用户设置以及功能控制有关的信号输入，可选的，显示单元130还可以用于显示由用户输入的信息或提供给用户的信息以及电子设备110的各种菜单的图形用户界面(graphical userinterface，gui)。显示单元130可以包括设置在电子设备110正面的显示屏131。其中，显示屏131可以采用液晶显示器、发光二极管等形式来配置。显示单元130可以用于显示本技术中所述的各种图形用户界面。
[0164]
显示单元130包括：显示屏131和设置在电子设备110正面的触摸屏132。该显示屏131可以用于显示预览图片。触摸屏132可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。其中，触摸屏132可以覆盖在显示屏131之上，也可以将触摸屏132与显示屏131集成而实现电子设备110的输入和输出功能，集成后可以简称触摸显示屏。
[0165]
存储器140可用于存储软件程序及数据。处理器1101通过运行存储在存储器140的软件程序或数据，从而执行电子设备110的各种功能以及数据处理。存储器140可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器140存储有使得电子设备110能运行的操作系统。本技术中存储器140可以存储操作系统及各种应用程序，还可以存储执行本技术实施例提供的视频字幕的生成方法的代码。
[0166]
rf电路150可用于在收发信息或通话过程中信号的接收和发送，可以接收基站的下行数据后交给处理器1101处理；可以将上行数据发送给基站。通常，rf电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。
[0167]
音频电路160、扬声器161、麦克风162可提供用户与电子设备110之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出。电子设备110还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出至rf电路150以发送给比如另一终端，或者将音频数据输出至存储器140以便进一步处理。本技术中麦克风162可以获取用户的语音。
[0168]
wi-fi属于短距离无线传输技术，电子设备110可以通过wi-fi模块170帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。
[0169]
蓝牙模块180，用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，电子设备110可以通过蓝牙模块180与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。
[0170]
电子设备110还包括给各个部件供电的电源190(比如电池)。电源可以通过电源管
理系统与处理器1101逻辑相连，从而通过电源管理系统实现管理充电、放电以及功耗等功能。电子设备110还可配置有电源按钮，用于终端的开机和关机，以及锁屏等功能。
[0171]
电子设备110可以包括至少一种传感器1110，比如运动传感器11101、距离传感器11102和温度传感器11103。电子设备110还可配置有陀螺仪、气压计、湿度计、温度计和红外线传感器等其他传感器。
[0172]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备和各器件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0173]
图8是本技术实施例提供的电子设备的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行环境(android runtime，art)和系统库，以及内核层。
[0174]
应用程序层可以包括一系列应用程序包。如图8所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，wlan，蓝牙，音乐，视频，短信息等应用程序。应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，api)和编程框架。应用程序框架层包括一些预先定义的函数。
[0175]
如图8所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。
[0176]
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。
[0177]
内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图片，音频，拨打和接听的电话，浏览历史和书签，电话簿等。
[0178]
视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。
[0179]
电话管理器用于提供电子设备110的通信功能。例如通话状态的管理(包括接通，挂断等)。
[0180]
资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。
[0181]
通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，通信终端振动，指示灯闪烁等。
[0182]
androidruntime包括核心库和虚拟机。androidruntime负责安卓系统的调度和管理。
[0183]
核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。
[0184]
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线
程管理，安全和异常的管理，以及垃圾回收等功能。
[0185]
系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(media libraries)，三维图形处理库(例如：opengl es)，2d图形引擎(例如：sgl)等。
[0186]
表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2d和3d图层的融合。
[0187]
媒体库支持多种常用的音频，视频格式回放和录制，以及静态图片文件等。媒体库可以支持多种音视频编码格式，例如：mpeg4，h.264，mp3，aac，amr，jpg，png等。
[0188]
三维图形处理库用于实现三维图形绘图，图片渲染，合成，和图层处理等。
[0189]
2d图形引擎是2d绘图的绘图引擎。
[0190]
内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。
[0191]
本技术实施例提供了一种电子设备，该电子设备可以包括存储器，处理器及存储在该存储器上并可在该处理器上运行的计算机程序，该处理器执行该计算机程序时实现如上述实施例提供的视频字幕的生成方法，例如图1所示的方法，或者图3中电子设备所执行的方法。
[0192]
本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序由处理器加载并执行以上述实施例提供的视频字幕的生成方法，例如图1所示的方法，或者图3中电子设备所执行的方法。
[0193]
本技术实施例还提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述方法实施例提供的视频字幕的生成方法，例如图1所示的方法，或者图3中电子设备所执行的方法。
[0194]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0195]
应当理解的是，在本文中提及的“和/或”，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。并且，本技术中术语“至少一个”的含义是指一个或多个，本技术中术语“多个”的含义是指两个或两个以上。
[0196]
本技术中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。例如，在不脱离各种所述示例的范围的情况下，第一关键词可以被称为第二关键词，并且类似地，第二关键词可以被称为第一关键词。
[0197]
以上所述仅为本技术的示例性实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

视频字幕的生成方法及电子设备与流程

相关文献

最热文献