关键词提取方法、装置及电子设备与流程

2021-11-03 12:52:00 来源：中国专利 TAG：

1.本公开涉及信号处理领域，尤其涉及一种关键词提取方法、装置及电子设备。

背景技术：

2.随着移动互联网的高速发展，越来越多的人通过短视频平台来获取资讯、分享生活、在线社交。短视频的关键词提取对于视频分发、推荐、检索等业务有着至关重要的作用。短视频由于其制作的简易性和分享的便利性，使得新的短视频的日均增量会远远高于长视频，同时短视频创作者可能仅会甚至不会为短视频添加简短的说明文本。因此，适用于长视频的额外人工标注方法、基于视频自带的说明性文本段落的语义分析方法将很难直接应用于短视频的关键词提取。
3.目前，在短视频的关键词提取领域中，常用的技术是基于视频自带的文本、音频、图像等形式上多源异构、语义上相互关联的数据进行关键词挖掘。例如，通过应用自然语言处理的方法从短视频创作者添加的文本、视频中分离的音频提取视频所表征的语义信息的技术；基于视频关键帧提取的图像，通过应用计算机视觉的方法来识别视频所包含的个体或字幕然后进行语义关联分析以提取短视频的关键词的技术；以及基于视频自带的信息(例如视频说明文本、音频转化的文本、图像字幕识别的文本等)，通过对得到的文本进行分词并应用监督学习或无监督学习的方法来产生关键词从而达到提取视频关键词的技术。
4.然而，目前基于自然语言处理或计算机视觉等的方法进行视频内容理解与识别以提取视频关键词的方法存在着覆盖率和精细度的问题。相较于长视频，平均时长仅有十几秒的短视频所展现的内容信息有限。对于大量无上传说明、所关联音频为纯音乐或歌曲、展现内容无明显独有特征的短视频来说，上述方法很难识别出与短视频内容有关的文本。此外，即便对于有字幕的短视频，现有方法也有较大的局限性。由于文本仅仅从短视频内容自身提取，较难通过语义关联来扩展关键词，从而无法对短视频所表征的内容进行更细粒度的描述。
5.另外，基于监督学习的文本语义分析方法需要预先准备包含正负样本数据的训练集进行模型训练，相比于基于无监督学习的文本语义分析方法有着更高的训练成本。基于无监督学习的文本语义分析方法不需要样本数据即可建立模型将数据聚类，其中最普遍使用的是k
‑
均值聚类方法。该方法能够将文本基于文本间距离生成k个聚类簇，每个聚类簇内的元素距离相近。k
‑
均值聚类方法需要提前指定所生成聚类簇的数量，该参数对聚类结果有很大的影响。然而在短视频场景中，各个短视频的关键词所表征的语义数量并不是恒定的。因此，为所有短视频的关键词提取设置同一个k值效果必定不理想，并且为每个短视频设置不同的k值也缺乏灵活性。

技术实现要素：

6.本公开提供一种短视频的关键词提取方法、装置和电子设备，以至少解决上述相关技术中的问题，也可不解决任何上述问题。
7.根据本公开实施例的第一方面，一种短视频的关键词提取方法包括：对搜索请求字符串进行策略筛选来获得表征用户搜索意图的搜索文本；将所述搜索文本与对应短视频进行连接来获得所述对应短视频的关键词集合；从所述关键词集合确定所述对应短视频的最终关键词。
8.可选地，所述对搜索请求字符串进行策略筛选来获得表征用户搜索意图的搜索文本的步骤包括：通过利用预设时间区间内的搜索日志数据来获得所述搜索请求字符串；通过对所述搜索请求字符串进行初筛来获得能够表征用户搜索意图的普通搜索文本和过滤文本字符；对所述过滤文本字符进行再次筛选，并对再次筛选获得的文本字符进行标准化来获得话题文本；通过合并所述普通搜索文本和所述话题文本来获得所述搜索文本。
9.可选地，所述将所述搜索文本与对应短视频进行连接来获得所述对应短视频的关键词集合的步骤包括：从所述搜索文本确定文本搜索量大于或等于第一阈值的搜索文本；通过利用短视频累计消费数据确定与所述文本搜索量大于或等于第一阈值的搜索文本关联的短视频；将所述文本搜索量大于或等于第一阈值的搜索文本与所述短视频中的展现量大于或等于第二阈值的短视频进行连接来获得所述对应短视频的关键词集合。
10.可选地，在从所述搜索文本确定文本搜索量大于或等于第一阈值的搜索文本之前，所述方法还包括：去除所述搜索日志数据中的无效数据，在通过利用短视频累计消费数据确定与所述文本搜索量大于或等于第一阈值的搜索文本关联的短视频之前，所述方法还包括：去除所述短视频累计消费数据中的无效数据。
11.可选地，所述从所述关键词集合确定所述对应短视频的最终关键词的步骤包括：确定所述关键词集合中的与所述对应短视频的作者名不相似的关键词；利用确定的与所述对应短视频的作者名不相似的关键词来形成所述对应短视频的关键词候选集合；从所述关键词候选集合中确定所述对应短视频的最终关键词。
12.可选地，所述确定所述关键词集合中的与所述对应短视频的作者名不相似的关键词的步骤包括：计算所述对应短视频的作者名的词向量与所述关键词集合中的每一个关键词的词向量之间的余弦距离；将所述关键词集合中的所述余弦距离小于或等于第三阈值的关键词确定为与所述对应短视频的作者名不相似的关键词。
13.可选地，所述从所述关键词候选集合中确定所述对应短视频的最终关键词的步骤包括：计算所述关键词候选集合中的每个关键词对的相似度来生成所述关键词候选集合的相似度距离矩阵；基于所述相似度距离矩阵对所述关键词候选集合中的词义相近的关键词进行聚类以形成至少一个关键词聚类簇；从所述至少一个关键词聚类簇确定所述对应短视频的最终关键词。
14.可选地，所述计算所述关键词候选集合中的每个关键词对的相似度的步骤包括：将所述关键词候选集合中的每个关键词进行向量化来获得每个关键词的词向量；计算每个关键词对的词向量之间的向量余弦距离和字符编辑距离；对所述向量余弦距离和所述字符编辑距离进行加权求和来获得每个关键词对的相似度。
15.可选地，所述基于所述相似度距离矩阵对所述关键词候选集合中的词义相近的关键词进行聚类以形成至少一个关键词聚类簇的步骤包括：第一步：将所述关键词候选集合中的每个词语的访问标识符isvisted设置为第一值；第二步：从所述关键词候选集合中随机选择一个isvisted为第一值的词语来生成一个临时聚类簇；第三步：随机选择所述临时
聚类簇中的isvisted为第一值的任意一个词语，并将所述任意一个词语的isvisted设置为第二值；第四步：基于所述相似度距离矩阵在所述关键词候选集合中查找与所述任意一个词语之间的相似度大于第四阈值的其它词语；第五步：将所述其它词语中没有被包括在所述临时聚类簇中的词语添加到所述临时聚类簇中；第六步：如果所述临时聚类簇中还存在isvisted为第一值的词语，则从第三步开始执行直到所述临时聚类簇中不存在isvisted为第一值的词语为止；如果所述临时聚类簇中的所有词语的isvisted均为第二值，则将所述临时聚类簇输出为聚类簇，并且如果所述关键词候选集合中还存在isvisted为第一值的词语，执行第二步直到所述关键词候选集合中不存在isvisted均第一值的词语为止。
16.可选地，所述从所述至少一个关键词聚类簇确定所述对应短视频的最终关键词的步骤包括：基于多维信息对所述至少一个关键词聚类簇中的所有关键词进行排序并选择全局最优的关键词；基于多维信息对所述至少一个关键词聚类簇中的每个关键词聚类簇中的关键词进行排序并选择局部最优的关键词；将所述全局最优的关键词和所述局部最优的关键词进行合并和去重来获得所述对应短视频的最终关键词。
17.根据本公开实施例的第二方面，一种短视频的关键词提取装置包括：策略筛选模块，被配置为对搜索请求字符串进行策略筛选来获得表征用户搜索意图的搜索文本；关联模块，被配置为将所述搜索文本与对应短视频进行连接来获得所述对应短视频的关键词集合；关键词确定模块，被配置为从所述关键词集合确定所述对应短视频的最终关键词。
18.可选地，策略筛选模块被配置为通过以下操作来获得表征用户搜索意图的搜索文本：通过利用预设时间区间内的搜索日志数据来获得所述搜索请求字符串；通过对所述搜索请求字符串进行初筛来获得能够表征用户搜索意图的普通搜索文本和过滤文本字符；对所述过滤文本字符进行再次筛选，并对再次筛选获得的文本字符进行标准化来获得话题文本；通过合并所述普通搜索文本和所述话题文本来获得所述搜索文本。
19.可选地，关联模块被配置为通过以下操作来获得所述对应短视频的关键词集合：从所述搜索文本确定文本搜索量大于或等于第一阈值的搜索文本；通过利用短视频累计消费数据确定与所述文本搜索量大于或等于第一阈值的搜索文本关联的短视频；将所述文本搜索量大于或等于第一阈值的搜索文本与所述短视频中的展现量大于或等于第二阈值的短视频进行连接来获得所述对应短视频的关键词集合。
20.可选地，关联模块还被配置为：在从所述搜索文本确定文本搜索量大于或等于第一阈值的搜索文本之前，去除所述搜索日志数据中的无效数据；以及在通过利用短视频累计消费数据确定与所述文本搜索量大于或等于第一阈值的搜索文本关联的短视频之前，去除所述短视频累计消费数据中的无效数据。
21.可选地，关键词确定模块包括：文本相似性检测子模块，被配置为：确定所述关键词集合中的与所述对应短视频的作者名不相似的关键词；以及利用确定的与所述对应短视频的作者名不相似的关键词来形成所述对应短视频的关键词候选集合，其中，关键词确定模块被配置为从所述关键词候选集合中确定所述对应短视频的最终关键词。
22.可选地，文本相似性检测子模块被配置为通过以下操作来确定所述关键词集合中的与所述对应短视频的作者名不相似的关键词：计算所述对应短视频的作者名的词向量与所述关键词集合中的每一个关键词的词向量之间的余弦距离；将所述关键词集合中的所述余弦距离小于或等于第三阈值的关键词确定为与所述对应短视频的作者名不相似的关键
词。
23.可选地，关键词确定模块还包括：关键词聚合子模块，被配置为计算所述关键词候选集合中的每个关键词对的相似度来生成所述关键词候选集合的相似度距离矩阵，并且基于所述相似度距离矩阵对所述关键词候选集合中的词义相近的关键词进行聚类以形成至少一个关键词聚类簇；关键词提取子模块，被配置为从所述至少一个关键词聚类簇确定所述对应短视频的最终关键词。
24.可选地，关键词聚合子模块被配置为通过以下操作来计算所述关键词候选集合中的每个关键词对的相似度：将所述关键词候选集合中的每个关键词进行向量化来获得每个关键词的词向量；计算每个关键词对的词向量之间的向量余弦距离和字符编辑距离；对所述向量余弦距离和所述字符编辑距离进行加权求和来获得每个关键词对的相似度。
25.可选地，关键词聚合子模块被配置为通过以下操作来形成至少一个关键词聚类簇：第一步：将所述关键词候选集合中的每个词语的访问标识符isvisted设置为第一值；第二步：从所述关键词候选集合中随机选择一个isvisted为第一值的词语来生成一个临时聚类簇；第三步：随机选择所述临时聚类簇中的isvisted为第一值的任意一个词语，并将所述任意一个词语的isvisted设置为第二值；第四步：基于所述相似度距离矩阵在所述关键词候选集合中查找与所述任意一个词语之间的相似度大于第四阈值的其它词语；第五步：将所述其它词语中没有被包括在所述临时聚类簇中的词语添加到所述临时聚类簇中；第六步：如果所述临时聚类簇中还存在isvisted为第一值的词语，则从第三步开始执行直到所述临时聚类簇中不存在isvisted为第一值的词语为止；如果所述临时聚类簇中的所有词语的isvisted均为第二值，则将所述临时聚类簇输出为聚类簇，并且如果所述关键词候选集合中还存在isvisted为第一值的词语，执行第二步直到所述关键词候选集合中不存在isvisted均第一值的词语为止。
26.可选地，关键词提取子模块被配置为通过以下操作来确定所述对应短视频的最终关键词：基于多维信息对所述至少一个关键词聚类簇中的所有关键词进行排序并选择全局最优的关键词；基于多维信息对所述至少一个关键词聚类簇中的每个关键词聚类簇中的关键词进行排序并选择局部最优的关键词；将所述全局最优的关键词和所述局部最优的关键词进行合并和去重来获得所述对应短视频的最终关键词。
27.根据本公开实施例的第三方面，一种电子设备包括：处理器；用于存储所述处理器可执行指令的存储器，其中，所述处理器被配置为执行所述指令，以实现根据本公开的短视频的关键词提取方法。
28.根据本公开实施例的第四方面，一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得装置能够执行根据本公开的短视频的关键词提取方法。
29.根据本公开实施例的第五方面，一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现根据本公开的短视频的关键词提取方法。
30.本公开的实施例提供的技术方案至少带来以下有益效果：
31.通过将搜索请求中能表征用户搜索意图的搜索文本与短视频展现相关联，以获得短视频关键词候选集合，相较于现有方法，基于策略算法筛选的关键词候选集合能较大幅度地提高短视频关键词的覆盖率和精细度。另外，本公开基于余弦距离和编辑距离加权所
提出的一种搜索文本语义相似度衡量函数可平衡字符重合度和字符次序对于关键词相似性计算的影响。此外，本公开基于文本相似度提供的文本聚类的方法能够在无需提前指定聚类簇数量的前提下基于文本的相似度距离分布来生成不同数量的聚类簇，即，将关键词划分至不同聚类簇中，同一聚类簇内关键词语义相近，拥有更强灵活性，使得提取的关键词具有覆盖面全、准确率高、词义粒度细等特点。
32.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
33.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
34.图1是示出根据本公开的短视频的关键词提取方法和装置的应用场景图。
35.图2是示出根据本公开的示例性实施例的短视频的关键词提取方法的总流程图。
36.图3是示出根据本公开的示例性实施例的对搜索请求字符串进行策略筛选来获得表征用户搜索意图的搜索文本的过程的流程图。
37.图4是示出根据本公开的示例性实施例的基于策略筛选获得表征用户搜索意图的搜索文本的示意框图。
38.图5是示出根据本公开的示例性实施例的确定关键词候选集合的过程的流程图。
39.图6是示出根据本公开的示例性实施例的基于相似度距离矩阵对关键词候选集合中的词义相近的关键词进行聚类以形成至少一个关键词聚类簇的过程的流程图。
40.图7是示出根据本公开的示例性实施例的短视频的关键词提取装置的框图。
41.图8是根据本公开实施例的一种电子设备的框图。
具体实施方式
42.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
43.应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
44.在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况：(1)包括a；(2)包括b；(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。
45.如本公开背景技术中所提及的，在相关技术中，基于自然语言处理或计算机视觉等的方法进行视频内容理解与识别以提取视频关键词的方法存在着覆盖率和精细度的问题，基于监督学习的文本语义分析方法需要预先准备包含正负样本数据的训练集进行模型训练，相比于基于无监督学习的文本语义分析方法有着更高的训练成本，而基于无监督学
习的文本语义分析方法虽然不需要样本数据即可建立模型将数据聚类，但是为所有短视频的关键词提取设置同一个k值效果必定不理想，并且为每个短视频设置不同的k值也缺乏灵活性。针对此，本公开通过将搜索请求中能表征用户搜索意图的搜索文本与短视频展现相关联，以获得短视频关键词候选集合，相较于现有方法，基于策略算法筛选的关键词候选集合能较大幅度地提高短视频关键词的覆盖率和精细度。另外，本公开基于余弦距离和编辑距离加权提出了一种搜索文本语义相似度衡量函数来平衡字符重合度和字符次序对于关键词相似性计算的影响。此外，本公开基于文本相似度设计了一种文本聚类的方法，该方法能够在无需提前指定聚类簇数量的前提下基于文本的相似度距离分布来生成不同数量的聚类簇，同时保证聚类簇内文本语义相近，拥有更强灵活性。下面，将参照图1至图8来详细描述短视频的关键词提取方法和装置。
46.图1示出了根据本公开的短视频的关键词提取方法和装置的应用场景图。
47.如图1所示，本公开所提供的关键词提取方法和装置，可以应用于如图1所示的应用环境中。系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息(例如短视频数据上传请求、短视频数据获取请求、短视频数据搜索请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如音频播放类应用、视频和音频编辑类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且能够进行音视频的播放、录制和编辑的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。
48.终端设备101、102、103可以安装有视频采集装置(例如摄像头)以采集视频数据。此外，终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬声器)以播放声音，并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如，麦克风)以采集声音。
49.终端设备101、102、103可以利用安装于其上的视频采集装置进行视频数据的采集，利用安装于其上的音频采集装置进行音频数据的采集，然后利用安装的音视频编辑软件对采集的视频数据和音频数据进行编辑并上传给服务器。
50.服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上所安装的音视频编辑类应用等提供支持的后台服务器。后台服务器可以上传的音视频数据进行解析、语音合成(tts)服务、存储等处理，并且还可以接收终端设备101、102、103所发送的视频搜索服务请求(例如短视频搜索服务请求)，并将根据用户输入搜索到的视频反馈至终端设备101、102、103。
51.需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。
52.需要说明的是，本技术实施例所提供的短视频的关键词提取方法一般由服务器105执行，相应地，短视频的关键词提取装置一般设置于服务器105中。
53.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本公开对此并无限制。
54.图2是根据本公开的示例性实施例的短视频的关键词提取方法的总流程图。
55.在步骤s201，对搜索请求字符串进行策略筛选来获得表征用户搜索意图的搜索文本。在步骤s201之前，关键词提取方法还可包括设置关键词提取所需的各种阈值和参数，具体地讲，阈值和参数包括关键词所属编码区间ecd、关键词搜索量pv、关键词关联的视频展示次数show_count、作者名相似度中余弦距离阈值w0、相似度中余弦距离权重w1、相似度中编辑距离权重w2、聚类算法中相似度阈值r，这些阈值和参数可根据不同场景的需求通过自定义设置，例如，ecd可以是unicode编码范围在[u4e00,u9fa5]区间的所有字符，参数pv和show_count可基于实际情况而设置，参数w0、w1、w2和r的值可分别为0.8、0.8、0.2和0.85。下面参照图3对步骤s201进行详细描述。
[0056]
图3是示出根据本公开的示例性实施例的对搜索请求字符串进行策略筛选来获得表征用户搜索意图的搜索文本的过程的流程图。
[0057]
如图3中所示，在步骤s301，通过利用预设时间区间内的搜索日志数据来获得搜索请求字符串。具体地讲，可通过读取预设时间区间内的搜索日志数据来获得该预设时间区间内的搜索请求字符串search_text，此外，还可同时获得与搜索请求字符串search_text关联的文本搜索量search_pv和展现的视频标识video_id。其中，预设时间区间可以是距当前一年、一个月或一周内的时间段，本技术对此不作特别限制，预设时间区间可以是任何可提供大量搜索日志数据的时间区间。
[0058]
在步骤s302，通过对搜索请求字符串进行初筛来获得能够表征用户搜索意图的普通搜索文本和过滤文本字符。具体地讲，在搜索请求字符串search_text中，有各种类型的字符串可以连接对应的短视频，但是这些字符串并非全部能够表征用户搜索意图。在进行初筛时采用初筛策略，其中，初筛策略的要求如下：
[0059]
a)必须以所属编码区间ecd的字符、小写字母、大写字母或阿拉伯数字其中的0项或1项为起始；
[0060]
b)必须包含至少1项所属编码区间ecd的字符；
[0061]
c)必须以所属编码区间ecd的字符、小写字母、大写字母或阿拉伯数字其中的0项或1项为结尾。
[0062]
满足以上要求的字符串即为能够表达用户搜索意图的普通搜索文本。例如，图4中的左侧第二列共示出了6种字符串401
‑
406，本方法可根据以上的初筛策略对搜索请求字符串search_text进行基于规则的筛选(即进行初筛)，进而可将6种字符串401
‑
406划分为能够表达用户搜索意图的普通搜索文本(即第6种字符串406)以及过滤文本字符(即字符串401
‑
405)。
[0063]
在步骤s303，对所述过滤文本字符进行再次筛选，并对再次筛选获得的文本字符进行标准化来获得话题文本。再次筛选策略的要求如下：
[0064]
a)必须以’#’字符为起始；
[0065]
b)可以含有0项或1项空白字符接于起始字符后；
[0066]
c)可以包含所属编码区间ecd的字符、小写字母、大写字母或阿拉伯数字其中的0项或多项，且至少包含1项所属编码区间ecd的字符；
[0067]
d)必须以空白字符、’#’字符、所属编码区间ecd的字符、小写字母、大写字母或阿拉伯数字其中的1项为结尾。
[0068]
通过再次筛选策略对过滤文本字符进行再次筛选，可过滤掉不需要的字符。如图4中所示，可对得到的过滤文本字符(即字符串401
‑
405)进行再次筛选(即进行话题标签检测)，过滤掉不需要的字符，例如，可以过滤掉图4中的6种字符串401
‑
405中的第1种至第4种字符串401
‑
404，得到第5种字符串405，即得到话题标签字符串，然后，对第5种字符串405进行标准化进而得到话题文本407，其中，对字符串标准化表示从字符串中去除话题标签(例如#)和空白字符来获得能够表征用户搜索意图的文本，例如，图3中通过对第5种字符串405进行标准化得到话题文本407，即“贴春联”、“电影解说”、“广场舞”和“健身动作”。
[0069]
在步骤s304，通过合并所述普通搜索文本和所述话题文本来获得所述搜索文本。如图4中所示，最后得到的搜索文本是将话题文本407和普通搜索文本406合并得到的。
[0070]
返回参照图2，在步骤s202，将所述搜索文本与对应短视频进行连接来获得所述对应短视频的关键词集合，即，将所述搜索文本与对应短视频的短视频标识符video_id进行连接来获得所述对应短视频的关键词集合。由于一个短视频可以连接多个搜索文本，而同一个搜索文本亦可以同时被多个短视频连接，因此需要将对过滤掉不满足阈值条件的弱视频文本连接。具体地讲，将所述搜索文本与对应短视频进行连接来获得所述对应短视频的关键词集合的步骤可包括：从所述搜索文本确定文本搜索量大于或等于第一阈值的搜索文本；通过利用短视频累计消费数据确定与所述文本搜索量大于或等于第一阈值的搜索文本关联的短视频；将所述文本搜索量大于或等于第一阈值的搜索文本与所述短视频中的展现量大于或等于第二阈值的短视频进行连接来获得所述对应短视频的关键词集合。即，对搜索量不小于阈值pv(即第一阈值)的搜索文本和与该文本关联的短视频展现量不小于阈值show_count(即第二阈值)的短视频进行连接，通过这样的操作就可以获得每个短视频的关键词集合kw_raw，其中，关键词集合kw_raw是一个包含了至少一个搜索文本的集合[kw1,kw2,
…
,k
wn
]。
[0071]
此外，在从搜索文本确定文本搜索量大于或等于第一阈值的搜索文本之前，所述方法还可包括去除所述搜索日志数据中的无效数据，并且在通过利用短视频累计消费数据确定与所述文本搜索量大于或等于第一阈值的搜索文本关联的短视频之前，所述方法还可包括去除所述短视频累计消费数据中的无效数据。具体地讲，所述方法在获得了搜索日志数据以及短视频累计消费数据之后，需要对搜索日志数据以及短视频累计消费数据进行脏数据清洗，即过滤掉文本内容、文本搜索量search_pv、展现的短视频标识符video_id、短视频展现次数show_count、短视频播放次数play_count等信息缺失或异常的无效数据，从而既可以减少数据处理量也可以保证准确性。
[0072]
在步骤s203，从所述关键词集合确定所述对应短视频的最终关键词。
[0073]
具体地讲，在步骤s202获得的所述对应短视频的关键词集合是一个初始关键词集合kw_raw，该初始关键词集合kw_raw中包括了与作者名相似的关键词以及与作者名不相似的关键词。通常，当搜索一名作者的名称时，会展现若干该作者发布的视频，然而，此类搜索文本并不能很好地表征视频内容，另外，由于作者名称可能会出现频繁小幅度变化，或者含
有特殊字符，这使得搜索文本一般不会与作者名称完全匹配，因此，为了提高后续确定短视频的最终关键词的准确性，需要从初始关键词集合kw_raw中选出与作者名不相似的关键词以形成关键词候选集合kw_org，然后从形成的关键词候选集合kw_org中确定对应短视频的最终关键词。具体地讲，从所述关键词集合确定所述对应短视频的最终关键词的步骤可包括：确定所述关键词集合中的与所述对应短视频的作者名不相似的关键词；利用确定的与所述对应短视频的作者名不相似的关键词来形成所述对应短视频的关键词候选集合kw_org；从所述关键词候选集合kw_org中确定所述对应短视频的最终关键词。下面参照图5来描述如何确定与所述对应短视频的作者名不相似的关键词。
[0074]
如图5中所示，在步骤s501，计算所述对应短视频的作者名的词向量与所述关键词集合kw_raw中的每一个关键词的词向量之间的余弦距离。具体地讲，基于词袋模型生成短视频的作者名author_name的词向量以及关键词集合kw_raw中的每一个关键词的词向量，然后基于下面的等式(1)来计算作者名author_name的词向量与每一个关键词的词向量之间的余弦距离。
[0075][0076]
其中，a和b分别表示作者名的词向量a和一个关键词的词向量b，distance
cos
(a,b)表示词向量a与词向量之间的余弦距离。
[0077]
在步骤s502，将所述关键词集合kw_raw中的所述余弦距离小于或等于第三阈值的关键词确定为与所述对应短视频的作者名不相似的关键词。具体地讲，将作者名author_name的词向量与每一个关键词的词向量之间的余弦距离与阈值w0进行比较，如果余弦距离小于或等于阈值w0，则表明当前关键词是与对应短视频的作者名不相似的关键词，因此将当前关键词添加到关键词候选集合kw_org中。
[0078]
在确定出对应短视频的关键词候选集合kw_org之后，接下来需要在关键词候选集kw_org中确定对应短视频的最终关键词。
[0079]
具体地讲，所述从所述关键词候选集合kw_org中确定所述对应短视频的最终关键词的步骤可包括：计算所述关键词候选集合kw_org中的每个关键词对的相似度来生成所述关键词候选集合kw_org的相似度距离矩阵similarity_matrix；基于所述相似度距离矩阵similarity_matrix对所述关键词候选集合kw_org中的词义相近的关键词进行聚类以形成至少一个关键词聚类簇；从所述至少一个关键词聚类簇确定所述对应短视频的最终关键词。其中，相似度距离矩阵similarity_matrix可以是一个大小为n
×
n的二维矩阵，其中，n表示关键词候选集合kw_org中关键词的个数，simiarity_matrix[i][j]表示关键词候选集合kw_org中的第i个关键词与第j个关键词之间的相似度。
[0080]
所述计算所述关键词候选集合中的每个关键词对的相似度的步骤包括：将所述关键词候选集合中的每个关键词进行向量化来获得每个关键词的词向量；计算每个关键词对的词向量之间的向量余弦距离和字符编辑距离；对所述向量余弦距离和所述字符编辑距离进行加权求和来获得每个关键词对的相似度。具体地讲，为了适应搜索关键词与短视频内容匹配场景的相似度计算，本技术采用的搜索文本相似度衡量标准考虑了字符的重合程度以及字符的连接次序对字符相似性的影响，按照以下等式(2)和(3)基于词向量之间的余弦
距离以及字符编辑距离进行加权计算得出：
[0081][0082]
similarity(a，b)＝w1·
distance
cos
(a，b) w2·
(1
‑
distanceedit(a，b))
ꢀꢀꢀ
(3)
[0083]
其中，a和b分别表示字符串a和b的长度。a[1：]表示以a的第二个字符为起始的字符串，例如a为“相似度计算”，则a[1：]表示“似度计算”，且b[1：]的含义与a[1：]的含义相同。w1和w2分别为向量余弦距离和字符编辑距离的加权因子。相似度是一个取值范围在0至1之间的衡量标准，如果两个词的相似度为1，则表示这两个词完全相同。如果两个词的相似度为0，则表示这两个词完全不相似。
[0084]
下面参照图6具体描述如何基于所述相似度距离矩阵对所述关键词候选集合中的词义相近的关键词进行聚类以形成至少一个关键词聚类簇的过程。
[0085]
如图6中所示，在步骤s601，将所述关键词候选集合kw_org中的每个词语的访问标识符isvisted设置为第一值(例如0)，即对所述关键词候选集合kw_org中的每个词语的访问标识符isvisted进行初始化。
[0086]
在步骤s602，从所述关键词候选集合kw_org中随机选择一个isvisted[kw
k
]为第一值的词语kw
k
来生成一个临时聚类簇tcluster。
[0087]
在步骤s603，随机选择所述临时聚类簇tcluster中的isvisted[kw
i
]为第一值的任意一个词语kw
i
，并将所述任意一个词语的isvisted[kw
i
]设置为第二值(例如1)。
[0088]
在步骤s604，基于所述相似度距离矩阵在所述关键词候选集合kw_org中查找与所述任意一个词语kw
i
之间的相似度大于预定阈值的其它词语。
[0089]
在步骤s605，将所述其它词语中没有被包括在所述临时聚类簇tcluster中的词语添加到所述临时聚类簇tcluster中。
[0090]
在步骤s606，确定所述临时聚类簇tcluster中是否还存在isvisted为第一值的词语，如果所述临时聚类簇tcluster中还存在isvisted为第一值的词语，则返回到步骤s603继续进行操作，直到所述临时聚类簇tcluster中不存在isvisted为第一值的词语为止。
[0091]
如果所述临时聚类簇tcluster中的所有词语的isvisted均为第二值，则进行到步骤s607，将所述临时聚类簇tcluster输出为聚类簇，此后，执行步骤s608，确定所述关键词候选集合kw_org中是否还存在isvisted为第一值的词语，如果所述关键词候选集合kw_org中还存在isvisted为第一值的词语，则返回步骤s602继续进行操作，直到所述关键词候选集合kw_org中不存在isvisted均第一值的词语为止，然后在步骤s609输出至少一个关键词聚类簇。
[0092]
通过以上操作可获得一个短视频的至少一个关键词聚类簇。在此基础上，需要从所述至少一个关键词聚类簇确定所述对应短视频的最终关键词。下面对此进行详细描述。
[0093]
所述从所述至少一个关键词聚类簇确定所述对应短视频的最终关键词的步骤包括：基于多维信息对所述至少一个关键词聚类簇中的所有关键词进行排序并选择全局最优的关键词；基于多维信息对所述至少一个关键词聚类簇中的每个关键词聚类簇中的关键词进行排序并选择局部最优的关键词；将所述全局最优的关键词和所述局部最优的关键词进
行合并和去重来获得所述对应短视频的最终关键词。其中，多维信息可包括关键词搜索量、关键词关联短视频播放量、关键词关联短视频展现量。
[0094]
在基于多维信息对所述至少一个关键词聚类簇中的所有关键词进行排序并选择全局最优的关键词时，可对所述至少一个关键词聚类簇中的所有关键词按照关键词搜索量pv、短视频播放次数play_count、短视频展现次数show_count等多维信息中的至少一项进行排序，并从排序后的所述所有关键词中选择高于预定阈值的至少一个关键词，即，选择出全局最优的关键词。在基于多维信息对所述至少一个关键词聚类簇中的每个关键词聚类簇中的关键词进行排序并选择局部最优的关键词时，可从所述至少一个关键词聚类簇中的每一个关键词聚类簇中确定短视频播放次数play_count的关键词和短视频展现次数show_count最高的关键词。此后，可将所述至少一个关键词以及从每一个关键词聚类簇中确定的短视频播放次数play_count最高的关键词和短视频展现次数show_count最高的关键词进行合并和去重来获得所述对应短视频的最终关键词。
[0095]
以上描述的过程是针对一个短视频进行的处理，可以按照相同的处理对所有短视频进行处理。此外，可在下一个预设时间区间的搜索日志数据生成后，重新开始确定每个短视频的最终关键词。
[0096]
图7是示出根据本公开的示例性实施例的短视频的关键词提取装置700的框图。
[0097]
关键词提取装置700可包括策略筛选模块710、关联模块720和关键词确定模块730。
[0098]
策略筛选模块710可被配置为对搜索请求字符串进行策略筛选来获得表征用户搜索意图的搜索文本。
[0099]
具体地讲，策略筛选模块710可被配置为通过以下操作来获得表征用户搜索意图的搜索文本：通过利用预设时间区间内的搜索日志数据来获得所述搜索请求字符串；通过对所述搜索请求字符串进行初筛来获得能够表征用户搜索意图的普通搜索文本和过滤文本字符；对所述过滤文本字符进行再次筛选，并对再次筛选获得的文本字符进行标准化来获得话题文本；通过合并所述普通搜索文本和所述话题文本来获得所述搜索文本。由于以上已参照图2对此进行了详细描述，因此此处不再赘述。
[0100]
关联模块720被配置为将所述搜索文本与对应短视频进行连接来获得所述对应短视频的关键词集合。
[0101]
具体地讲，关联模块720可被配置为通过以下操作来获得所述对应短视频的关键词集合：从所述搜索文本确定文本搜索量大于或等于第一阈值的搜索文本；通过利用短视频累计消费数据确定与所述文本搜索量大于或等于第一阈值的搜索文本关联的短视频；将所述文本搜索量大于或等于第一阈值的搜索文本与所述短视频中的展现量大于或等于第二阈值的短视频进行连接来获得所述对应短视频的关键词集合。
[0102]
关联模块720还可被配置为在从所述搜索文本确定文本搜索量大于或等于第一阈值的搜索文本之前，去除所述搜索日志数据中的无效数据，并且在通过利用短视频累计消费数据确定与所述文本搜索量大于或等于第一阈值的搜索文本关联的短视频之前，去除所述短视频累计消费数据中的无效数据。
[0103]
关键词确定模块730被配置为从所述关键词集合确定所述对应短视频的最终关键词。
[0104]
具体地讲，关键词确定模块730可包括文本相似性检测子模块731，其中，文本相似性检测子模块731可被配置为确定所述关键词集合中的与所述对应短视频的作者名不相似的关键词，并利用确定的与所述对应短视频的作者名不相似的关键词来形成所述对应短视频的关键词候选集合，其中，关键词确定模块730被配置为从所述关键词候选集合中确定所述对应短视频的最终关键词。
[0105]
具体地讲，文本相似性检测子模块731可被配置为通过以下操作来确定所述关键词集合中的与所述对应短视频的作者名不相似的关键词：计算所述对应短视频的作者名的词向量与所述关键词集合中的每一个关键词的词向量之间的余弦距离；将所述关键词集合中的所述余弦距离小于或等于第三阈值的关键词确定为与所述对应短视频的作者名不相似的关键词。
[0106]
此外，关键词确定模块730还可包括关键词聚合子模块732和关键词提取子模块733，其中，关键词聚合子模块732可被配置为计算所述关键词候选集合中的每个关键词对的相似度来生成所述关键词候选集合的相似度距离矩阵，并且基于所述相似度距离矩阵对所述关键词候选集合中的词义相近的关键词进行聚类以形成至少一个关键词聚类簇。关键词提取子模块733可被配置为从所述至少一个关键词聚类簇确定所述对应短视频的最终关键词。
[0107]
关键词聚合子模块732可被配置为通过以下操作来计算所述关键词候选集合中的每个关键词对的相似度：将所述关键词候选集合中的每个关键词进行向量化来获得每个关键词的词向量；计算每个关键词对的词向量之间的向量余弦距离和字符编辑距离；对所述向量余弦距离和所述字符编辑距离进行加权求和来获得每个关键词对的相似度。
[0108]
具体地讲，关键词聚合子模块732可被配置为通过以下操作来形成至少一个关键词聚类簇：第一步：将所述关键词候选集合中的每个词语的访问标识符isvisted设置为第一值；第二步：从所述关键词候选集合中随机选择一个isvisted为第一值的词语来生成一个临时聚类簇；第三步：随机选择所述临时聚类簇中的isvisted为第一值的任意一个词语，并将所述任意一个词语的isvisted设置为第二值；第四步：基于所述相似度距离矩阵在所述关键词候选集合中查找与所述任意一个词语之间的相似度大于第四阈值的其它词语；第五步：将所述其它词语中没有被包括在所述临时聚类簇中的词语添加到所述临时聚类簇中；第六步：如果所述临时聚类簇中还存在isvisted为第一值的词语，则从第三步开始执行直到所述临时聚类簇中不存在isvisted为第一值的词语为止；如果所述临时聚类簇中的所有词语的isvisted均为第二值，则将所述临时聚类簇输出为聚类簇，并且如果所述关键词候选集合中还存在isvisted为第一值的词语，执行第二步直到所述关键词候选集合中不存在isvisted均第一值的词语为止。
[0109]
关键词提取子模块733可被配置为通过以下操作来确定所述对应短视频的最终关键词：基于多维信息对所述至少一个关键词聚类簇中的所有关键词进行排序并选择全局最优的关键词；基于多维信息对所述至少一个关键词聚类簇中的每个关键词聚类簇中的关键词进行排序并选择局部最优的关键词；将所述全局最优的关键词和所述局部最优的关键词进行合并和去重来获得所述对应短视频的最终关键词。
[0110]
根据本公开的实施例，可提供一种电子设备。图8是根据本公开实施例的电子设备800的框图，该电子设备800可包括存储器802和处理器801，存储器802存储处理器801可执
行指令，处理器801被配置为执行所述指令，以实现根据本公开的训练方法或确定相似旋律的方法。
[0111]
处理器801可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器801还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
[0112]
作为一种存储介质的存储器802可包括操作系统(例如mac操作系统)、数据存储模块、网络通信模块、用户接口模块、视频编辑程序、模型训练程序以及数据库。
[0113]
存储器802可与处理器801集成为一体，例如，可将ram或闪存布置在集成电路微处理器等之内。此外，存储器802可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器802和处理器801可在操作上进行耦合，或者可例如通过i/o端口、网络连接等互相通信，使得处理器801能够读取存储在存储器802中的文件。
[0114]
此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。
[0115]
作为示例，电子设备800可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。
[0116]
本领域技术人员可理解，图8中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0117]
根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行根据本公开的训练方法或者确定相似旋律的方法。这里的计算机可读存储介质的示例包括：只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd
‑
rom、cd
‑
r、cd r、cd
‑
rw、cd rw、dvd
‑
rom、dvd
‑
r、dvd r、dvd
‑
rw、dvd rw、dvd
‑
ram、bd
‑
rom、bd
‑
r、bd
‑
r lth、bd
‑
re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如，多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
[0118]
根据本公开的实施例中，还可提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现根据本公开的训练方法或者确定相似旋律的方法。
[0119]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0120]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用户身份识别方法、装置、电子设备及存储介质与流程

关键词提取方法、装置及电子设备与流程

相关文献

最热文献