歌曲评论的生成方法、系统、终端设备及存储介质与流程

2022-06-30 00:02:39 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种歌曲评论的生成方法、系统、终端设备及存储介质。

背景技术：

2.音乐平台在发布一首新歌往往会面临冷启动的问题，尤其是比较冷门小众的歌曲，如果能在发布音乐的第一时间根据歌曲的特点自动生成个性化评论，能在一定程度上和用户达到情感的共鸣，从而提高歌曲的互动性和传播性，同时增加音乐平台的用户粘性。但目前自动生成评论的技术大多是针对新闻、文章和视频等领域，为歌曲自动生成评论的技术方案较少。另外，考虑到歌曲评论信息来源较广，评价角度较多，因此，为歌曲自动生成评论的难度也较高。

技术实现要素：

3.本发明实施例的主要目的在于提供一种歌曲评论的生成方法、系统、终端设备及存储介质，通过评论生成器生成待评论歌曲的歌曲评论，其中，歌曲评论可从歌手角度、歌词角度、心情角度及时事热点角度自动生成，使得评论多样化，提高了用户体验。
4.为实现上述目的，本发明实施例提供一种歌曲评论的生成方法，所述歌曲评论的生成方法包括：
5.获取待评论歌曲；
6.通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。
7.可选地，所述通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论的步骤之前包括：
8.训练所述评论生成器；
9.其中，所述训练所述评论生成器的步骤包括：
10.获取训练数据集；
11.提取所述训练数据集的特征，得到特征总集，其中，所述特征总集包括歌手信息特征集、歌词信息特征集、心情类别特征集、时事热点特征集；
12.对所述特征总集进行处理，得到所述评论生成器。
13.可选地，所述提取所述训练数据集的特征，得到特征总集的步骤包括：
14.对所述训练数据集中歌手信息数据集的信息进行分类，得到第一信息数据集、第二信息数据集；
15.基于所述第一信息数据集，生成歌手信息知识图谱，以基于所述歌手信息知识图谱生成歌曲评论；
16.提取所述第二信息数据集的特征，得到所述特征总集的歌手信息特征集。
17.可选地，所述提取所述训练数据集的特征，得到特征总集的步骤包括：
18.提取所述训练数据集中歌曲数据集的核心歌词；
19.基于所述训练数据集的歌曲数据集，构造回归模型；
20.通过所述回归模型筛选所述歌曲数据集的歌词，得到预设类型歌词；
21.基于所述预设类型歌词，获取所述预设类型歌词的关联数据；
22.基于所述关联数据，确定所述歌曲数据集的附加特征；
23.基于所述核心歌词、所述预设类型歌词、所述附件特征，构造所述特征总集的歌词信息特征集。
24.可选地，所述提取所述训练数据集的特征，得到特征总集的步骤包括：
25.获取所述训练数据集中歌曲数据集的图片特征；
26.对所述训练数据集中歌曲数据集的语句进行分割，得到词语集；
27.基于所述训练数据集中歌曲数据集的标签、所述词语集，提取所述训练数据集中歌曲数据集的文本特征；
28.融合所述图片特征、所述文本特征，得到所述特征总集的心情类别特征集。
29.可选地，所述提取所述训练数据集的特征，得到特征总集的步骤包括：
30.基于所述训练数据集的歌曲数据集、所述训练数据集的时事热点数据集，得到歌词相关度集；
31.基于所述训练数据集的歌手信息数据集、所述时事热点数据集，得到歌手相关度集；
32.基于所述歌曲数据集的心情标签、所述时事热点数据集，得到心情相关度集；
33.基于所述歌词相关度集、所述歌手相关度集、所述心情相关度集，得到歌曲时事相关度集，作为所述特征总集的时事热点特征集。
34.可选地，所述对所述特征总集进行处理，得到所述评论生成器的步骤包括：
35.通过xgboost分类器对所述特征总集的特征进行分类，得到第一分类；
36.基于所述第一分类，计算所述特征总集中每个特征的权重，得到第一权重；
37.通过lr分类器对所述特征总集的特征进行分类，得到第二分类；
38.基于所述第二分类，计算所述特征总集中每个特征的权重，得到第二权重；
39.基于所述第一权重、所述第二权重，通过stacking模型融合所述特征总集的特征，得到所述评论生成器。
40.此外，为实现上述目的，本发明还提供一种歌曲评论的生成系统，所述系统包括：
41.获取模块，用于获取待评论歌曲；
42.评论生成模块，用于通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。
43.此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的歌曲评论的生成方法，所述歌曲评论的生成的程序被所述处理器执行时实现如上所述的歌曲评论的生成方法的步骤。
44.此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有歌曲评论的生成的程序，所述歌曲评论的生成的程序被处理器执行时实现如上所述的歌曲评论的生成方法的步骤。
45.本发明实施例提出的歌曲评论的生成方法、系统、终端设备及存储介质，通过获取
待评论歌曲；通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。通过上述方式，本发明解决了新歌曲发布时冷启动的问题，基于歌手信息、歌曲创作背景、歌词信息、歌曲类别等多维度多标签文本信息，生成歌曲评论，可提高评论的多样性，提升用户体验。
附图说明
46.图1为本发明歌曲评论的生成装置所属终端设备的功能模块示意图；
47.图2为本发明歌曲评论的生成方法第一实施例的流程示意图；
48.图3为本发明歌曲评论的生成方法第二实施例的流程示意图；
49.图4为本发明歌曲评论的生成方法第二实施例涉及的第一架构示意图；
50.图5为本发明歌曲评论的生成方法第二实施例涉及的第一场景的示意图；
51.图6为本发明歌曲评论的生成方法第二实施例涉及的第二场景的示意图；
52.图7为本发明歌曲评论的生成方法第二实施例涉及的第三场景的示意图；
53.图8为本发明歌曲评论的生成方法第三实施例的流程示意图；
54.图9为本发明歌曲评论的生成方法第三实施例涉及的算法流程示意图；
55.图10为本发明歌曲评论的生成方法第四实施例的流程示意图；
56.图11为本发明歌曲评论的生成方法第四实施例涉及的模型结构示意图；
57.图12为本发明歌曲评论的生成系统的功能模块示意图。
58.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
59.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
60.本发明实施例的主要解决方案是：获取待评论歌曲；通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。
61.本发明实施例涉及的技术术语：
62.word2vec：word2vec是用来产生词向量的相关模型。这些模型为浅而双层的神经网络用来训练，以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。
63.tf-idf：(term frequency
–
inverse document frequency，词频-逆文本频率指数)，是一种用于信息检索与数据挖掘的常用加权技术。tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。
64.textrank：textrank通过词之间的相邻关系构建网络，然后用pagerank迭代计算每个节点的rank值，排序rank值即可得到关键词。
65.bm25：bm25是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率
检索模型提出的算法，bm25公式中包含3个自由调节参数，除了调节因子b外，还有针对词频的调节因子k1和k2。k1的作用是对查询词在文档中的词频进行调节，如果将k1设定为0，则第二部分计算因子成了整数1，即不考虑词频的因素，退化成了二元独立模型。如果将k1设定为较大值，则第二部分计算因子基本和词频fi保持线性增长，即放大了词频的权值。
66.resnet：随着网络的加深，出现了训练集准确率下降的现象，可以确定这不是由于overfit过拟合造成的(过拟合的情况训练集应该准确率很高)；所以针对这个问题提出了一种全新的网络，叫resnet深度残差网络，它允许网络尽可能的加深，引入了全新的结构。
67.avg：avg函数指返回表达式中所有数值的平均值，空值将被忽略。
68.max：max函数指返回组内的最大值。
69.softmax：softmax函数，又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。
70.embedding：embedding是一个将离散变量转为连续向量表示的一个方式。在神经网络中，embedding不仅可以减少离散变量的空间维数，同时还可以有意义的表示该变量。
71.bert：(bidirectional encoder representation from transformers，预训练的语言表征模型)，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model(mlm)，生成深度的双向语言表征。
72.fine-tuning：由于数据集不够大，很少有人从头开始训练网络。常见的做法是使用预训练的网络(例如在imagenet上训练的分类1000类的网络)来重新fine-tuning(也叫微调)。
73.xgboost：xgboost是一个优化的分布式梯度增强库，它在gradient boosting框架下实现机器学习算法。xgboost提供并行树提升(也称为gbdt，gbm)，可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(hadoop，sge，mpi)上运行，并且可以解决数十亿个示例之外的问题。
74.lr：(logistic regression classifier，lr分类器)，目的就是从训练数据特征学习出一个0/1分类模型
‑‑
这个模型以样本特征的线性组合作为自变量，使用logistic函数将自变量映射到(0,1)上。
75.loss：loss又称损失函数，用来评价模型的预测值和真实值不一样程度的函数，通常损失函数越好，模型的性能越好。不同的模型用的损失函数一般也不一样。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是指经验风险损失函数加上正则项。
76.stacking：当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。stacking的基础层通常包括不同的学习算法，因此stacking ensemble往往是异构的。
77.音乐平台在发布一首新歌往往会面临冷启动的问题，尤其是比较冷门小众的歌曲，如果能在发布音乐的第一时间根据歌曲的特点自动生成个性化评论，能在一定程度上和用户达到情感的共鸣，从而提高歌曲的互动性和传播性，同时增加音乐平台的用户粘性。但目前自动生成评论的技术大多是针对新闻、文章和视频等领域，为歌曲自动生成评论的技术方案较少。另外，考虑到歌曲评论信息来源较广，评价角度较多，因此，为歌曲自动生成
评论的难度也较高。
78.本发明提供一种解决方案，通过评论生成器生成待评论歌曲的歌曲评论，其中，歌曲评论可从歌手角度、歌词角度、心情角度及时事热点角度自动生成，使得评论多样化，提高了用户体验。
79.具体地，参照图1，图1是本发明歌曲评论的生成装置所属终端设备的功能模块示意图。该歌曲评论的生成装置可以为独立于终端设备的、能够进行图片处理、网络模型训练的装置，其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端，还可以为具有数据处理功能的固定终端设备或服务器等。
80.在本实施例中，该歌曲评论的生成装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
81.存储器130中存储有操作方法以及歌曲评论的生成程序；输出模块110可为显示屏等。通信模块140可以包括wifi模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。
82.其中，存储器130中的歌曲评论的生成程序被处理器执行时实现以下步骤：
83.获取待评论歌曲；
84.通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。
85.进一步地，存储器130中的歌曲评论的生成程序被处理器执行时还实现以下步骤：
86.训练所述评论生成器；
87.其中，所述训练所述评论生成器的步骤包括：
88.获取训练数据集；
89.提取所述训练数据集的特征，得到特征总集，其中，所述特征总集包括歌手信息特征集、歌词信息特征集、心情类别特征集、时事热点特征集；
90.对所述特征总集进行处理，得到所述评论生成器。
91.进一步地，存储器130中的歌曲评论的生成程序被处理器执行时还实现以下步骤：
92.对所述训练数据集中歌手信息数据集的信息进行分类，得到第一信息数据集、第二信息数据集；
93.基于所述第一信息数据集，生成歌手信息知识图谱，以基于所述歌手信息知识图谱生成歌曲评论；
94.提取所述第二信息数据集的特征，得到所述特征总集的歌手信息特征集。
95.进一步地，存储器130中的歌曲评论的生成程序被处理器执行时还实现以下步骤：
96.提取所述训练数据集中歌曲数据集的核心歌词；
97.基于所述训练数据集的歌曲数据集，构造回归模型；
98.通过所述回归模型筛选所述歌曲数据集的歌词，得到预设类型歌词；
99.基于所述预设类型歌词，获取所述预设类型歌词的关联数据；
100.基于所述关联数据，确定所述歌曲数据集的附加特征；
101.基于所述核心歌词、所述预设类型歌词、所述附件特征，构造所述特征总集的歌词信息特征集。
102.进一步地，存储器130中的歌曲评论的生成程序被处理器执行时还实现以下步骤：
103.获取所述训练数据集中歌曲数据集的图片特征；
104.对所述训练数据集中歌曲数据集的语句进行分割，得到词语集；
105.基于所述训练数据集中歌曲数据集的标签、所述词语集，提取所述训练数据集中歌曲数据集的文本特征；
106.融合所述图片特征、所述文本特征，得到所述特征总集的心情类别特征集。
107.进一步地，存储器130中的歌曲评论的生成程序被处理器执行时还实现以下步骤：
108.基于所述训练数据集的歌曲数据集、所述训练数据集的时事热点数据集，得到歌词相关度集；
109.基于所述训练数据集的歌手信息数据集、所述时事热点数据集，得到歌手相关度集；
110.基于所述歌曲数据集的心情标签、所述时事热点数据集，得到心情相关度集；
111.基于所述歌词相关度集、所述歌手相关度集、所述心情相关度集，得到歌曲时事相关度集，作为所述特征总集的时事热点特征集。
112.进一步地，存储器130中的歌曲评论的生成程序被处理器执行时还实现以下步骤：
113.通过xgboost分类器对所述特征总集的特征进行分类，得到第一分类；
114.基于所述第一分类，计算所述特征总集中每个特征的权重，得到第一权重；
115.通过lr分类器对所述特征总集的特征进行分类，得到第二分类；
116.基于所述第二分类，计算所述特征总集中每个特征的权重，得到第二权重；
117.基于所述第一权重、所述第二权重，通过stacking模型融合所述特征总集的特征，得到所述评论生成器。
118.本实施例通过上述方案，通过获取待评论歌曲；通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。本发明通过评论生成器生成待评论歌曲的歌曲评论，其中，歌曲评论可从歌手角度、歌词角度、心情角度及时事热点角度自动生成，使得评论多样化，提高了用户体验。
119.基于上述终端设备架构但不限于上述架构，提出本发明方法实施例。
120.参照图2，图2为本发明歌曲评论的生成方法第一实施例的流程示意图。所述歌曲评论的生成方法包括：
121.步骤s101，获取待评论歌曲。
122.步骤s102，通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。
123.本实施例方法的执行主体可以是一种歌曲评论的生成装置，也可以是一种歌曲评论的生成终端设备或服务器，本实施例以歌曲评论的生成装置进行举例，该歌曲评论的生成装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。
124.为了解决新歌曲发布时冷启动的问题，首先，获取待评论歌曲，其中，待评论歌曲可以是新发布的歌曲，也可以是发布已久的老歌，待评论歌曲携带歌曲的歌词、旋律、歌手等信息。
125.进一步地，将待评论歌曲输入预先创建的评论生成器，评论生成器会根据待评论歌曲的类型、歌手、歌词等信息，确定待评论歌曲的至少一种评论角度，不同歌曲的评论角
度并不完全相同，以此确保评论多样性和个性化的特点。其中，评论生成器可以从歌手角度、歌词角度、心情、时事热点中，确定待评论歌曲的至少一种评论角度，并生成对应的歌曲评论。
126.若评论生成器确定从歌手角度进行评论，则评论生成器基于歌手信息生成歌曲评论，例如：基于歌手创作歌曲的背景生成歌曲评论，基于歌手的人物评价生成歌曲评论，基于歌手人物事件生成歌曲评论。
127.若评论生成器确定从歌词角度进行评论，则评论生成器基于歌词生成歌曲评论；例如：根据歌词的内容生成歌曲评论，根据歌词包含的人物/角色生成歌曲评论。
128.若评论生成器确定从心情进行评论，则评论生成器基于心情生成歌曲评论，例如：伤感的歌曲生成伤感的歌曲评论，情歌生成甜蜜的歌曲评论，由此，使得歌曲评论具有情感特征。
129.若评论生成器确定从时事热点进行评论，则评论生成器基于时事热点生成歌曲评论，例如：根据与歌曲有关的热点新闻生成相关评论。
130.由此，通过将待评论歌曲输入预先创建的评论生成器，根据待评论歌曲的类型、歌手、歌词等信息，生成歌曲评论，有效解决新歌曲发布时的冷启动问题，并且，从多个角度进行评论具备较强的灵活性，使生成的评论具有多样化的特点，能在一定程度上和用户达到情感的共鸣，从而提高歌曲的互动性和传播性，增加音乐平台的用户粘性。
131.本实施例通过上述方案，通过获取待评论歌曲；通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。本发明旨在解决新歌曲发布时冷启动的问题，提高评论的多样化，在一定程度上和用户达到情感的共鸣，从而提高歌曲的互动性和传播性，增加音乐平台的用户粘性。
132.参照图3，图3为本发明歌曲评论的生成方法第二实施例的流程示意图。基于上述图2所示的实施例，在本实施例中，步骤s102：通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论之前包括：
133.步骤s103，获取训练数据集。
134.作为一种实施方式，在本实施例中，采集音乐平台的歌曲评论，并对歌曲评论进行筛选，得到筛选结果集；对筛选结果集里的结果赋予相应的类别标签，并对筛选结果集进行划分，得到训练集、验证集、测试集。
135.具体地，采集至少一个音乐平台的歌曲评论，每首歌曲选择点赞量top3的评论，清洗评论中包含的敏感词后，随机选择其中一条，并打上对应类别标签，并将数据划分为训练集、验证集和测试集；其中，类别标签包括歌手角度的标签、歌词角度的标签、心情角度的标签、时事热点角度的标签。
136.进一步地，基于训练集，采集百度百科上歌手的结构化数据，对网络中歌手相关文章的非结构化数据进行信息收取，得到歌手信息数据集；并构造歌手个人信息的知识图谱，主要包含歌手个人基本信息、人物关系、最新新闻、人物评价、人物事件、歌手标签、热度排名等信息。
137.基于训练集，根据歌曲类别采集音乐平台的歌曲歌词、图片和音频数据，作为歌曲数据集，歌曲类别按照心情、流派和主题划分；其中，心情包括：伤感、快乐、安静、励志、治愈、思念、甜蜜、寂寞和宣泄；流派包括：流行、电子、轻音乐、民谣、说唱、摇滚、爵士、古典、古
风、中国风、乡村和金属；主题包括：ktv金曲、网络歌曲、背景音乐、经典老歌、情歌、儿歌、影视、综艺、戏曲、dj神曲、mc喊麦和佛教音乐。
138.同时需要收集和歌曲热度相关的数据，比如发布时间、评论数、点赞数和收藏数、播放量等。
139.基于训练集，按照反映社会生活内容的分类，采集当前时事热点新闻数据，作为时事热点数据集；其中，时事热点数据集具体包括新闻标题、新闻内容、发布时间、评论数、转发数和热度值，并对新闻评论进行情感分析，给新闻评论打上情感标签。
140.步骤s104，提取所述训练数据集的特征，得到特征总集，其中，所述特征总集包括歌手信息特征集、歌词信息特征集、心情类别特征集、时事热点特征集。
141.步骤s105，对所述特征总集进行处理，得到所述评论生成器。
142.(1)构造歌手信息特征集
143.在本实施例中，对训练数据集中歌手信息数据集的信息进行分类，得到第一信息数据集、第二信息数据集；基于第一信息数据集，生成歌手信息知识图谱；提取所述第二信息数据集的特征，得到特征总集的歌手信息特征集。具体地，提取歌手信息数据集的歌手姓名、年龄、歌手标签、热度排名信息，并将其拼接在一起，作为第一信息数据集，将歌手其他信息作为第二信息数据集。使用word2vec获得第一信息数据集中歌手信息的特征向量，作为上述歌手信息特征集；基于第二信息数据集构建知识图谱，作为评论的生成来源，由于歌手信息知识图谱包括歌曲评论的相关信息，因此，歌手信息知识图谱可作为一种歌曲评论的补充方式，例如，可根据待检测歌曲的歌手信息在歌手信息知识图谱内查询相应的歌曲评论。
144.由此，根据歌手姓名、年龄、歌手标签、热度排名等信息构造歌手信息特征集，提供基于歌手信息生成歌曲评论的判断依据。
145.(2)构造歌词信息特征集
146.提取训练数据集中歌曲数据集的核心歌词；基于训练数据集的歌曲数据集，构造回归模型；通过回归模型筛选歌曲数据集的歌词，得到预设类型歌词；基于预设类型歌词，获取预设类型歌词的关联数据；基于关联数据，确定歌曲数据集的附加特征；基于核心歌词、预设类型歌词、附件特征，构造特征集的歌词信息特征集。
147.具体地，首先，提取核心歌词：根据训练数据集中歌曲数据集包含的歌名，分别从单词中使用tf-idf召回关键歌词，使用textrank召回关键句子，然后使用bm25计算句子相似度。基于关键歌词、关键句子、句子相似度，排序得出核心歌词句，作为上述核心歌词。提取训练数据集中歌曲数据集中歌曲的过零率、光谱质心、光谱衰减、梅尔频率倒谱系数、色度频率等音频特征，识别歌曲高潮部分。由此，将音频特征识别的高潮部分作为监督信息，对基于文本歌词提取的核心歌词进行监督学习，提高得到的核心歌词的准确率；其中，核心歌词为歌曲高潮部分的歌词。
148.其次，识别预设类型歌词：由于很多歌曲除了高潮句子旋律优美，也有其他部分歌词很优美，表现在在文字上具有很强的文学性，因此，可以通过分析提取训练数据集的歌曲数据集中歌曲非高潮预设类型歌词的词性分布、各词性频率、词频、是否包含成语、是否押韵等，构造回归模型；基于回归模型，计算得到每句歌词的优美程度得分；若优美程度得分高过设定阈值，则该词句可以作为优美句子的候选歌词，若优美程度得分不高过设定阈值，
则该词句不可以作为优美句子的候选歌词；其中，设定阈值可根据实际情况进行设置，预设类型歌词为优美歌词，例如包含成语的歌词、押韵的歌词、在文字上具有很强的文学性的歌词。
149.再次，识别附加特征：在识别到训练数据集的歌曲数据集中歌曲的优美音频以及预设类型歌词后，根据优美音频以及预设类型歌词来搜索网络平台上以该优美音频或预设类型歌词作为背景的视频、图片以及文章等，并对搜索到的视频、图片以及文章中所涉及的人物角色以及人物角色的扮演者进行识别，得到当前网络平台上与歌曲中的优美音频或预设类型歌词对应的关联人物，其中，优美音频为具有一定频率的音频，会引起听众共鸣的音频。
150.由于当前许多演员与歌手的工作部分存在重叠，为了明确优美音频或优美歌词关联的主要是人物角色还是对应的扮演者，需要获取以优美音频或优美歌词为背景的所有多媒体内容的主题标签以及评论内容，并根据主题标签以及评论内容中出现人物角色或者扮演者的次数来确定人物角色以及扮演者对应的权重，然后，根据人物角色以及扮演者，以及两者对应的权重来确定附加特征。
151.此外，若同一优美音频或优美歌词关联了过多的人物角色或者演员，且每个人物角色或演员的关联次数都不多，则说明该优美音频或优美歌词为普适性较强的音频或歌词，此时，可以获取优美音频或者优美歌词作为背景的多媒体内容发布的平台，并将该平台作为附加特征。由此，结合目前应用较广的短视频来获取对应的评论，使得后续根据评论生成器生成的评论内容贴合互联网潮流风格，从而提高互动性，提升用户体验。此外，还可以根据高潮歌词、优美歌词以及上述确定的附加特征来构造歌曲的个性化歌词特征。
152.基于从文本、歌词和音频特征3种角度提取的核心歌词、使用模型识别的预设类型歌词，识别得到的附加特征，作为歌词特征，构造上述歌词信息特征集。
153.在构造歌词特征时，通过优美音频来确定预设类型歌词，根据优美音频、预设类型歌词以及以预设类型歌词或优美音频作为背景的多媒体内容确定附加特征，并通过预设类型歌词以及附加特征来构造歌词特征，由此，通过多维度信息确定歌词特征，提高了歌词特征的多样性，使得基于歌词信息特征集得到的评论生成器具有高准确率，生成多样性评论。
154.(3)构造心情类别特征集
155.获取训练数据集中歌曲数据集的图片特征；对训练数据集中歌曲数据集的语句进行分割，得到词语集；基于训练数据集中歌曲数据集的标签、词语集，提取训练数据集中歌曲数据集的文本特征；融合图片特征、文本特征，得到特征总集的心情类别特征集。
156.首先，获取图片特征：使用resnet预训练模型获得训练数据集中歌曲数据集的图片特征，得到图片向量；其中，图片为音乐平台上的与歌曲相关的封面，如歌曲对应的电视剧剧照、对应的电影剧照、对应的歌手写真等。
157.其次，获取文本特征：
158.由于渐变窗口大小滑动特征：不仅考虑句子的特征，也要考虑词语之间的交互特征，因此，需要用滑动窗口的方法将训练数据集中歌曲数据集的句子分割成词语和短语的组合，做为上述词语集。考虑到每句歌词的重要性不同，越接近高潮核心句子的信息量越多、重要性越大的特点，因此，由歌词开头和结尾两端到核心歌词的距离越近，滑动窗口大小需要越小，两端的滑动窗口越大，呈现出由核心歌词到开头结尾，滑动窗口由小变大的渐
变特征。
159.进一步地，获取文本特征(类型标签相关度特征)：将训练数据集中歌曲数据集的歌曲歌词做word embedding词向量，利用歌曲心情标签label信息，使用歌词与label的相似度来加权聚合歌词词向量。将类别进行embedding向量化，与输入的歌词word embedding矩阵相乘，对其结果进行softmax最大值运算，对注意力分数attention score与输入的word embedding相乘的结果求平均或者取最大。
160.例如：输入embedding(假设9*300)与标签embedding(假设30*300)进行矩阵乘法,得到(9*5)的矩阵。然后使用avg、max、softmax等聚合方法消去标签的维度,其结果与输入embedding进行点乘,并对得到加权后的结果聚合，得到文本特征。具体架构示意图如图4所示。
161.进一步地，融合文本特征和图片特征:一般使用预训练模型bert对上述得到的文本特征进行分类，并结合上述歌曲的图片特征，其中，bert预训练模型的输入是文本的token特征、position位置和segment分割，在本实施例中，同时输入图像特征，经过fine-tuning得到心情类别特征集。如图5所示。
162.在构建心情特征时，通过渐变窗口的大小滑动特征、类型标签相关度特征等改进的歌词特征采集方法来采集得到重要歌词特征，并根据重要歌词特征、歌曲的心情标签，以及图片特征得到心情类别特征集。使得基于心情类别特征集得到的评论生成器可结合歌曲表达的情绪来生成评论，能够更大概率地引发用户情绪上的共鸣，提升用户体验。
163.(4)构造时事热点特征集
164.基于训练数据集的歌曲数据集、训练数据集的时事热点数据集，得到歌词相关度集；基于训练数据集的歌手信息数据集、时事热点数据集，得到歌手相关度集；基于歌曲数据集的心情标签、时事热点数据集，得到心情相关度集；基于歌词相关度集、歌手相关度集、心情相关度集，得到歌曲时事相关度集，作为特征集的时事热点特征集。
165.具体地，在本实施例中，计算歌曲时事热度需要从歌曲本身热度、歌曲与时事新闻相关度、新闻时事热度三者加权平均得到。歌曲本身热度：歌曲的发布时间、评论数、点赞数、收藏数、播放量、转发量等。歌曲与时事新闻相关度可以从歌手信息与时事新闻相关度、歌词主题和时事新闻相关度、歌曲心情类别和时事新闻相关度三个角度加权平均得到。如图6所示。
166.首先，计算歌词相关度集(歌词主题和时事新闻相关度)：预先标注收集的训练数据集的歌曲数据集的歌词主题类别和新闻主题类别，歌词主题和新闻主题存在对应关系，例如“校园主题”对应“文教类新闻”、“旅行主题”对应“旅游类新闻”，“运动主题”对应“体育类新闻”，“游戏主题”对应“游戏类新闻”，“综艺主题”对应“综艺类新闻”，“影视主题”对应“影视类新闻”，“儿歌主题”对应“幼儿类新闻”，“学习工作主题”对应“校园职场类新闻
”……
分别对歌词和新闻数据做embedding输入，分别经过不同大小卷积核的卷积层，然后经过池化层和全连接层得到特征表征，分别拼接歌词主题和新闻主题向量化特征，通过余弦相似度计算相似度计算歌词主题和时事新闻相关度。如图7所示。
167.其次，计算歌手相关度集(歌手信息与时事新闻相关度)：由于歌手信息包含歌手年龄、人物关系、最新新闻、人物事件，热度排名等数据，不同年代歌手的流行热度不等，因此，通过人物关系可以判断时事新闻主角和歌手的关系，歌手最新新闻和人物事件，判断和
时事新闻的相关性，歌手热度排名越高和歌手相关的新闻也就越多。
168.再次，计算心情相关度集(歌曲心情类别和时事新闻相关度)：预先标注收集歌曲数据集的的歌词心情标签类别和新闻情感类别，主要有伤感、快乐、安静、励志、治愈、思念、甜蜜、寂寞、宣泄等。根据歌词心情标签类别和时事热点数据集的新闻情感类别做相关度计算。
169.进一步地，新闻时事热度：根据新闻的发布时间、转发数、评论数、评论总点赞数、top3最热评论点赞数和跟评数计算新闻时事热度。
170.基于歌词相关度集、歌手相关度集、心情相关度集，加权得到平均歌曲与时事新闻相关度，基于平均歌曲与时事新闻相关度、歌曲热度、新闻时事热度，加权计算得到上述时事热点特征集。
171.在构造时事热度特征时，根据歌曲本身热度、歌曲与时事新闻相关度、新闻时事热度来进行构造，其中，歌曲与时事新闻相关度是通过歌手信息与时事新闻相关度、歌词主题和时事新闻相关度、歌曲心情类别和时事新闻相关度得到的。由此，使得基于时事热点特征集得到的评论生成器可结合当前热度和热点事件来生成评论，使评论具有实时性和新闻性，能够提升传播性，提升用户体验。
172.进一步地，将歌手信息特征集、歌词信息特征集、心情类别特征集、时事热点特征集作为特征总集。对特征总集进行处理，得到评论生成器。通过训练数据集的测试集、验证集，检验评论生成器的准确性，当评论生成器的准确性满足预设要求时，认为评论生成器训练完成；其中，预设要求可根据实际情况进行设置。由此，可通过评论生成器从歌手角度、歌词角度、心情角度以及时事热点角度来为歌曲自动生成多样性评论。
173.本实施例通过上述方案，通过获取待评论歌曲；通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。本发明通过评论生成器从歌手角度、歌词角度、心情角度以及时事热点角度来为歌曲自动生成多样性评论，提高了用户体验。
174.参照图8，图8为本发明歌曲评论的生成方法第三实施例的流程示意图。基于上述图3所示的实施例，在本实施例中，步骤s105，对所述特征总集进行处理，得到所述评论生成器包括：
175.步骤s1051，通过xgboost分类器对所述特征总集的特征进行分类，得到第一分类。
176.步骤s1052，基于所述第一分类，计算所述特征总集中每个特征的权重，得到第一权重。
177.步骤s1053，通过lr分类器对所述特征总集的特征进行分类，得到第二分类。
178.步骤s1054，基于所述第二分类，计算所述特征总集中每个特征的权重，得到第二权重。
179.步骤s1055，基于所述第一权重、所述第二权重，通过stacking模型融合所述特征总集的特征，得到所述评论生成器。
180.在本实施例中，为了让自动生成的评论具有多样性，上述特征总集的特征来源较广，因此特征对应的特征向量会比较大且稀疏，使用xgboost分类器对各维度特征进行分类，得到第一分类结果，在得到第一分类结果的同时，可以计算每个特征的权重分数值，作为第一权重。
181.使用lr分类器对各维度特征进行分类，得到第二分类结果；由于各维度特征对分类结果影响大小不一样，需要对不同特征赋予不同权重，作为第二权重。改进的交叉熵损失函数要求每个特征乘以权重分数值，损失函数loss如下：
[0182][0183]
其中k代表各个特征，w代表权重分数值，y和^y代表真实标签和预测预测为1的值。
[0184]
最后，使用stacking模型融合xgboost和lr的处理结果，其中，在融合分类器时，非线性分类器的特征重要度作为改进的线性分类器的损失函数权重；stacking是一种组合多个模型的方法，xgboost是将boosting看做是一个将样本进行非线性变换的方法，lr是线性分类器，将2种不同的分类器进行融合，算法流程如图9所示。最后，基于分类器得到上述评论生成器。
[0185]
由此，使用stacking模型融合xgboost和lr的处理结果，得到分类器，分类器的结果决定评论的角度，不同的歌曲评论的角度不一样，以确保评论多样性和个性化的特点。
[0186]
本实施例通过上述方案，通过获取待评论歌曲；通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。本发明通过评论生成器生成待评论歌曲的歌曲评论，其中，歌曲评论可从歌手角度、歌词角度、心情角度及时事热点角度自动生成，使得评论多样化，提高了用户体验。
[0187]
参照图10，图10为本发明歌曲评论的生成方法第四实施例的流程示意图，基于图3、图8所示的实施例，在本实施例中，方法包括：
[0188]
首先，通过评论生成器的特征构造器构造特征，并将构造得到的特征输入评论生成器的评论分类器。
[0189]
具体地，通过评论生成器的特征构造器采集音乐平台的歌曲评论，并对歌曲评论进行筛选，得到筛选结果集；对筛选结果集里的结果赋予相应的类别标签，并对筛选结果集进行划分，得到训练集。
[0190]
基于训练集，采集百度百科上歌手的结构化数据，对网络中歌手相关文章的非结构化数据进行信息收取，得到歌手信息数据集；并构造歌手个人信息的知识图谱，主要包含歌手个人基本信息、人物关系、最新新闻、人物评价、人物事件、歌手标签、热度排名等信息。
[0191]
基于训练集，根据歌曲类别采集音乐平台的歌曲歌词、图片和音频数据，作为歌曲数据集，歌曲类别按照心情、流派和主题划分；其中，心情包括：伤感、快乐、安静、励志、治愈、思念、甜蜜、寂寞和宣泄；流派包括：流行、电子、轻音乐、民谣、说唱、摇滚、爵士、古典、古风、中国风、乡村和金属；主题包括：ktv金曲、网络歌曲、背景音乐、经典老歌、情歌、儿歌、影视、综艺、戏曲、dj神曲、mc喊麦和佛教音乐。
[0192]
同时需要收集和歌曲热度相关的数据，比如发布时间、评论数、点赞数和收藏数、播放量等。
[0193]
基于训练集，按照反映社会生活内容的分类，采集当前时事热点新闻数据，作为时事热点数据集；其中，时事热点数据集具体包括新闻标题、新闻内容、发布时间、评论数、转发数和热度值，并对新闻评论进行情感分析，给新闻评论打上情感标签。
[0194]
进一步地，通过特征构造器的知识图谱信息抽取模块，提取歌手信息数据集的信
息，得到歌手信息特征向量；通过高潮歌词、预设类型歌词提取模块，提取歌曲数据集的信息，得到歌词信息特征向量；通过歌词图片信息提取模块，提取歌曲数据集的信息，得到心情类别特征向量；通过歌曲的时事热度计算模块，计算得到时事热点特征向量。
[0195]
进一步地，通过评论生成器的评论分类器，对歌手信息特征向量、歌词信息特征向量、心情类别特征向量、时事热点特征向量进行处理。
[0196]
其次，获取待评论歌曲，将待评论歌曲输入评论生成器，其中，评论生成器包括特征构造器、评论分类器、自动评论器。
[0197]
通过评论分类器对待检测歌曲进行检测，评论分类器的输出结果如果是从歌手角度进行评论，则自动评论器需要采用基于知识图谱生成评论的方法，如歌手创作歌曲的背景、歌手的人物评价，歌手人物事件等生成评论，也可以从知识库中随机选择关于歌手的知识信息进行评论。
[0198]
通过评论分类器对待检测歌曲进行检测，评论分类器的输出结果如果是从歌词角度进行评论，则自动评论器可以从识别到的高潮核心歌词和预设类型歌词中选择评论，也可以从识别到的人物角色或者演员中选择评论，如“xxx(人物角色/演员名)真是白月光”等，或者也可以针对识别到的多媒体发布平台来进行评论，如“从yyy(平台名)赶来的”等。
[0199]
通过评论分类器对待检测歌曲进行检测，评论分类器的输出结果如果是从心情角度进行评论，则自动评论器需要结合心情文本生成的方法进行评论，比如怀旧类歌曲的评论偏向伤感。结合心情文本生成方法在encoder编码器阶段对输入句子进行编码，提取每个单词的隐向量的同时，对句子进行情感识别，在decoder解码器解码阶段，前一个时间点的结果和隐向量作为下一个时间点的输入同时，输入encoder情感识别的分类结果，使得生成的文本具备情感特征，如图11所示。
[0200]
通过评论分类器对待检测歌曲进行检测，评论分类器的输出结果如果是从时事热点角度进行评论，则自动评论器需要评论和歌曲相关的时事热点新闻相关信息，比如标题生成有关评论。
[0201]
由此，通过上述方式，可通过评论生成器生成待评论歌曲的歌曲评论，其中，歌曲评论可从歌手角度、歌词角度、心情角度及时事热点角度自动生成，使得评论多样化，提高了用户体验。
[0202]
参照图12，图12为本发明歌曲评论的生成系统的功能模块示意图。歌曲评论的生成系统包括：
[0203]
获取模块10，用于获取待评论歌曲；
[0204]
评论生成模块20，用于通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。
[0205]
本实施例实现歌曲评论的生成的原理及实施过程，请参照上述各实施例，在此不再赘述。
[0206]
此外，本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的歌曲评论的生成程序，所述歌曲评论的生成程序被所述处理器执行时实现如上所述的歌曲评论的生成方法的步骤。
[0207]
由于本歌曲评论的生成程序被处理器执行时，采用了前述所有实施例的全部技术方案，因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果，在此不再一
一赘述。
[0208]
此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有歌曲评论的生成程序，所述歌曲评论的生成程序被处理器执行时实现如上所述的歌曲评论的生成方法的步骤。
[0209]
由于本歌曲评论的生成程序被处理器执行时，采用了前述所有实施例的全部技术方案，因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果，在此不再一一赘述。
[0210]
相比现有技术，本发明提供的一种歌曲评论的生成方法、系统、终端设备及存储介质，通过获取待评论歌曲；通过预先创建的评论生成器确定所述待评论歌曲的至少一种评论角度，并根据所述评论角度生成歌曲评论。本发明通过评论生成器生成待评论歌曲的歌曲评论，其中，歌曲评论可从歌手角度、歌词角度、心情角度及时事热点角度自动生成，使得评论多样化，提高了用户体验。
[0211]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。
[0212]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0213]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本发明每个实施例的方法。
[0214]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于穴盘育苗式的机器视觉数据管理方法与流程

歌曲评论的生成方法、系统、终端设备及存储介质与流程

相关文献

最热文献