一种基于大数据的广告引流效果分析方法与流程

2023-01-02 18:49:59 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，具体涉及一种基于大数据的广告引流效果分析方法。

背景技术：

2.目前，广告引流的方式多种多样，而直播带货就是其中一种比较新型的、影响力较为广泛的广告引流方式；由于直播带货时主播会实时和观众互动、实时向观众推荐以及介绍商品，因此这种广告引流方式较为亲民、效果也较好。一般情况下广告主在委托主播进行直播带货推广的同时，往往也会要求主播能提到突出商品优点的标准广告语句；并且主播为了直播效果，一般不会完全生硬的照着念标准广告语句，而为了使主播引流效果透明化，对广告引流效果进行分析至关重要。
3.现有的一般是通过相关人员直接对直播过程进行分析，进而判断引流效果，这种方式主观性较强、工作量大、效率低，因此可能出现判断错误的现象，因此基于这种方式对广告引流效果进行分析可靠性较低。

技术实现要素：

4.本发明提供一种基于大数据的广告引流效果分析方法，用于解决现有方法对广告引流效果进行分析可靠性较低的问题，所采用的技术方案具体如下：本发明一个实施例提供了一种基于大数据的广告引流效果分析方法包括以下步骤：获取主播对目标商品进行讲解时对应的直播时间段；获取所述直播时间段对应的直播数据和直播视频；获取目标商品对应的标准广告文本信息和标准广告文本信息对应的标准音频信息；根据所述直播视频、所述标准广告文本信息和所述标准音频信息，得到所述标准广告文本信息对应的标准词向量组、所述标准音频信息对应的标准音频向量组、各子时间段对应的目标向量组和各子时间段对应的音频向量组；根据所述标准词向量组、所述标准音频向量组、所述目标向量组和所述音频向量组，得到各子时间段对应的综合向量组；根据所述综合向量组和目标网络，得到所述各子时间段对应的目标广告文本信息；根据所述目标广告文本信息、所述标准广告文本信息和所述目标网络，得到各目标子时间段；根据所述各目标子时间段对应的直播数据，得到目标商品对应的引流效果。
5.有益效果：本发明将直播视频、标准广告文本信息和标准音频信息作为得到标准广告文本信息对应的标准词向量组、标准音频信息对应的标准音频向量组、各子时间段对应的目标向量组和各子时间段对应的音频向量组的依据；然后根据标准词向量组、标准音频向量组、目标向量组和音频向量组，得到各子时间段对应的综合向量组；之后又根据综合向量组和目标网络，得到各子时间段对应的目标广告文本信息；根据目标广告文本信息、标
准广告文本信息和所述目标网络，得到各目标子时间段；最后根据各目标子时间段对应的直播数据，得到目标商品对应的引流效果。本发明能够依据直播视频得到相对准确的文本信息，然后在相对准确的文本信息的基础上也能够较可靠的找到与目标商品存在关联的时间段，进而能相对可靠的分析判断引流效果。
6.优选的，根据所述直播视频、所述标准广告文本信息和所述标准音频信息，得到所述标准广告文本信息对应的标准词向量组、所述标准音频信息对应的标准音频向量组、各子时间段对应的目标向量组和各子时间段对应的音频向量组的方法，包括：将所述标准音频信息对应的时间长度记为标准时间段；对所述标准广告文本信息进行分词，得到各标准词模块和各标准词模块对应的标准子音频信息；获取所述各标准子音频信息对应的时间长度，记为标准时间模块；根据所述各标准子音频信息，得到各标准子音频信息对应的标准音频向量；根据所述各标准时间模块对应的标准词模块，得到各标准时间模块对应的标准词模块的词向量，记为标准词向量；根据所述标准词向量和所述标准音频向量，构建得到标准广告文本信息对应的标准词向量组和标准音频信息对应的标准音频向量组；获得所述直播时间段中各子时间段对应的各文本信息，记为第一文本信息；获得所述直播时间段中各子时间段对应的音频信息，记为第一音频信息；对于任一子时间段对应的任一第一文本信息：获得该第一文本信息对应的各词模块，记为第一词模块；获得各第一词模块对应的音频信息，记为第一子音频信息；将各第一子音频信息对应的时间长度记为第一时间模块；根据所述第一子音频信息，得到所述第一子音频信息对应的音频向量；根据所述各第一时间模块对应的第一子音频信息，得到所述各第一时间模块对应的词向量类型数量；判断所述各第一时间模块对应的词向量类型数量是否大于1，若是，则对该第一时间模块对应的各词向量进行mask掩码处理，记为掩码词向量；否则，则不对该第一时间模块对应的词向量进行mask掩码处理，记为第一词向量将各子时间段对应的掩码词向量和第一词向量记为目标向量；根据所述各第一时间模块对应的目标向量和各第一子音频信息对应的音频向量，构建得到各子时间段对应的目标向量组和各子时间段对应的音频向量组；所述任一子时间段对应的任一第一时间模块对应一个音频向量和一个目标向量。
7.优选的，获得所述直播时间段中各子时间段的方法，包括：获取直播视频对应的音频信息；根据所述直播视频对应的音频信息，得到直播视频中主播没有说话的时间段，记为停顿时间段；判断停顿时间段对应的时长是否大于预设时长阈值，若是，则将对应停顿时间段记为分句时间段；根据各分句时间段得到直播时间段对应的各子时间段；对于任一子时间段：该子时间段处于两个分句时间段之间；将时序靠前的分句时间段记为第一分句时间段、将时序靠后的分句时间段记为第二分句时间段；该子时间段中的起始时刻与第一分句时间段中的结尾时刻相邻，该子时间段中的结尾时刻与第二分句时
间段中的起始时刻相邻。
8.优选的，根据所述标准词向量组、所述标准音频向量组、所述目标向量组和所述音频向量组，得到各子时间段对应的综合向量组的方法，包括：将各子时间段对应的目标向量组和标准词向量组进行连接，得到各子时间段对应的连接向量组；根据所述连接向量组中的各元素、所述连接向量组中各元素在连接向量组中的位置以及连接向量组中各元素的属性，构建得到连接向量组中各元素对应的向量，记为格式化向量；根据所述连接向量组中各元素对应的格式化向量，得到所述连接向量组对应的格式化向量组，记为该子时间段对应的格式化向量组；根据所述标准音频向量组和所述音频向量组，得到所述连接向量组中各元素对应的音频向量，记为特征音频向量；根据所述格式化向量组和所述连接向量组中各元素对应的特征音频向量，构建得到各子时间段对应的综合向量组；所述综合向量组中的任一综合向量包含一个格式化向量和一个特征音频向量。
9.优选的，将各子时间段对应的目标向量组和标准词向量组进行连接，得到各子时间段对应的连接向量组的方法，包括：对于任一子时间段：在开头加上[cls]标记向量，按照时间的顺序依次将标准词向量组中的各标准词向量连接在[cls]标记向量后面，当标准词向量组中的各标准词向量连接完成之后，再连接[sep]标记向量，再按照时间的顺序依次将该子时间段对应的目标向量组中的各目标向量连接在[sep]标记向量后面，得到该子时间段对应的连接向量组。
[0010]
优选的，根据所述综合向量组和目标网络，得到所述各子时间段对应的目标广告文本信息的方法，包括：将所述综合向量组输入到目标网络中，得到各子时间段对应的各综合向量与对应的邻域综合向量集合中各综合向量之间的权重；根据所述各综合向量与对应的邻域综合向量集合中的各综合向量之间的权重对各综合向量对应的格式化向量进行聚合操作，得到各子时间段对应的各综合向量中各综合向量对应的格式化向量的目标特征向量；按照时间顺序将各子时间段对应的各格式化向量的目标特征向量输入到bert的解码器中，得到各子时间段对应的目标广告文本信息。
[0011]
优选的，根据所述各综合向量与对应的邻域综合向量集合中的各综合向量之间的权重对各综合向量对应的格式化向量进行聚合操作，得到各子时间段对应的各综合向量中各综合向量对应的格式化向量的目标特征向量的方法，包括：对于任一子时间段对应的综合向量组：根据如下公式得到该综合向量组中各综合向量对应的格式化向量的目标特征向量：
其中，为该综合向量组中第i个综合向量对应的格式化向量进行聚合更新后的目标特征向量，为第i个综合向量对应的格式化向量，为第j个综合向量对应的格式化向量，为第i个综合向量对应的邻域综合向量集合，为该综合向量组中第i个综合向量与第j个综合向量之间的权重。
[0012]
优选的，得到各子时间段对应的各综合向量与对应的邻域综合向量集合中各综合向量之间的权重的方法，包括：对于任一子时间段对应的综合向量组中的任一综合向量：根据该子时间段对应的综合向量组中各综合向量对应的格式化向量和对应的特征音频向量，计算得到该综合向量与对应的综合向量组中其余的综合向量之间的权重，即：其中，为该综合向量组中第i个综合向量与第j个综合向量之间的权重，为第i个综合向量对应的格式化向量，为第j个综合向量对应的格式化向量，为第i个综合向量对应的特征音频向量，为第j个综合向量对应的特征音频向量，为向量拼接操作，为激活函数，为影响系数，是第一相似度向量，为第二相似度向量，为第一相似度向量的转置，为第二相似度向量的转置，为第一权重矩阵，为第二权重矩阵，为该综合向量组中除第i个综合向量之外的综合向量集合，记为第i个综合向量对应的邻域综合向量集合。
[0013]
优选的，根据所述目标广告文本信息、所述标准广告文本信息和所述目标网络，得到各目标子时间段的方法，包括：将各子时间段对应的目标广告文本信息和标准广告文本信息输入到目标网络中，将输出结果为1的各子时间段记为目标时间段。
附图说明
[0014]
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。
[0015]
图1为本发明一种基于大数据的广告引流效果分析方法的流程图。
具体实施方式
[0016]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明实施例，本领域普通技术人员所获得的所有其它实施例，都属于本发明实施例保护的范围。
[0017]
除非另有定义，本文所使用的所有的技术和科学技术语与属于本发明的技术人员通常理解的含义相同。
[0018]
本实施例提供了一种基于大数据的广告引流效果分析方法，详细说明如下：如图1所示，该基于大数据的广告引流效果分析方法，包括以下步骤：步骤s001，获取主播对目标商品进行讲解时对应的直播时间段；获取所述直播时间段对应的直播数据和直播视频；获取目标商品对应的标准广告文本信息和标准广告文本信息对应的标准音频信息。
[0019]
一般情况下广告主在委托主播进行直播带货推广的同时，往往也会要求主播能提到突出商品优点的标准广告语句；并且有的主播为了直播效果，一般不会完全生硬的照着念标准广告语句，但是若对主播介绍产品时的整个直播过程进行分析，数据量较大，因此本实施例主要分析主播对目标商品进行介绍时与商品有关联时间段的直播数据，因为与商品有关联时间段的直播数据是与商品息息相关的，可以表征主播的引流效果；但是如果主播吐字不太清晰或者主播发音不标准，可能会使得所判断的出来的与商品有关联时间段存在误差，因此本实施例主要是利用目标网络对主播对商品进行讲解或者推广时的语句进行分析判断，得到主播对目标商品进行讲解时与标准广告文本信息有语义关联性的语句，然后统计主播对目标商品进行讲解时与标准广告文本信息存在语义关联性语句对应时间段的直播数据；然后依据所述直播数据分析判断对目标商品的引流效果；该方法能够依据直播视频得到相对准确的文本信息，然后在相对准确的文本信息的基础上也能够较可靠的找到与目标商品存在关联的时间段，进而能相对可靠的分析判断引流效果。
[0020]
本实施例中获取主播对目标商品进行讲解时对应的直播时间段；然后获取所述直播时间段对应的直播视频以及直播时间段对应的直播数据；所述直播数据包括目标商品链接点击量、直播间人数、直播间人气增长量以及目标商品购买数量等；并获取广告主对目标商品所要求的标准广告文本信息和标准广告文本信息对应的标准音频信息；所述主播对目标商品进行讲解时对应的直播时间段、直播视频以及直播数据都可以从数据库中获取。
[0021]
步骤s002，根据所述直播视频、所述标准广告文本信息和所述标准音频信息，得到所述标准广告文本信息对应的标准词向量组、所述标准音频信息对应的标准音频向量组、各子时间段对应的目标向量组和各子时间段对应的音频向量组；根据所述标准词向量组、所述标准音频向量组、所述目标向量组和所述音频向量组，得到各子时间段对应的综合向量组。
[0022]
本实施例通过对主播对目标商品进行讲解时对应的直播时间段所对应的直播视频、标准广告文本信息和标准音频信息进行分析，得到标准广告文本信息对应的标准向量组、标准音频信息对应的标准音频向量组、各子时间段对应的目标向量组和对应的音频向量组；然后通过对标准向量组、标准音频向量组、目标向量组和音频向量组进行分析，得到各子时间段对应的综合向量组；所述综合向量组是后续得到各子时间段对应的目标广告文
本信息的依据。具体为：（a）根据直播视频、标准广告文本信息和标准音频信息，得到标准广告文本信息对应的标准词向量组、标准音频信息对应的标准音频向量组、各子时间段对应的目标向量组和对应的音频向量组的具体过程为：对直播视频进行去噪处理，获取去噪之后直播视频对应的音频信息；根据去噪之后直播视频对应的音频信息，得到直播视频中主播没有说话的时间段，并记为停顿时间段；然后判断停顿时间段对应的时长是否大于预设时长阈值，若是，则将对应停顿时间段记为分句时间段；然后根据各分句时间段得到直播时间段对应的各子时间段；所述子时间段为主播说话时对应的时间段。对于任一子时间段：该子时间段处于两个分句时间段之间，将时序靠前的分句时间段记为第一分句时间段、将时序靠后的分句时间段记为第二分句时间段；该子时间段中的起始时刻与第一分句时间段中的结尾时刻相邻，该子时间段中的结尾时刻与第二分句时间段中的起始时刻相邻。所述预设时长阈值需要根据实际情况设置。
[0023]
本实施例使用bert中使用过的wordpiece分词工具对标准广告文本信息进行分词，得到标准广告文本信息对应的各标准词模块和各标准词模块对应的标准子音频信息；然后获取各标准子音频信息对应的时间长度，记为标准时间模块；根据各标准子音频信息，得到各标准子音频信息对应的标准音频向量；将所述标准音频信息对应的时间长度记为标准时间段；因此可以得到标准时间段对应的各标准时间模块、各标准时间模块对应的标准词模块以及各标准时间模块对应的标准音频向量；根据所述各标准时间模块对应的标准词模块，得到各标准时间模块对应的标准词模块的词向量，记为标准词向量；根据各标准时间模块对应的标准词向量和各标准词模块对应的标准音频向量，构建得到标准广告文本信息对应的标准词向量组和标准音频信息对应的标准音频向量组。
[0024]
对去噪之后的直播视频进行语音识别，获得各子时间段对应的音频信息，记为第一音频信息；由于当主播的语速过快或者发音存在问题时，不能对直播视频进行精确的识别，即在识别过程中可能会使得一些词存在多个识别结果，因此对直播视频进行语音识别的结果不唯一，即对直播视频进行语音识别时得到的直播视频对应的文本信息不唯一，因此根据直播时间段对应的各子时间段对应的第一音频信息，进而得到各子时间段对应的各文本信息，记为第一文本信息。对于直播视频进行语音识别时得到的任一子时间段对应的任一第一文本信息：利用wordpiece工具对该第一文本信息进行分词，得到该第一文本信息对应的各词模块，记为第一词模块。然后得到各第一词模块对应的音频信息，记为第一子音频信息，将各第一子音频信息对应的时间长度记为第一时间模块；因此可以得到各子时间段对应的各第一时间模块；根据所述第一子音频信息，得到所述第一子音频信息对应的音频向量；根据所述各第一时间模块对应的第一子音频信息，得到所述各第一时间模块对应的词向量类型数量，即所述各第一时间模块对应的文本信息类型数量；所述词向量是对应词模块构建得到的；判断各第一时间模块对应的词向量类型数量是否大于1，若是，则对该第一时间模块对应的各词向量进行mask掩码处理，由于该第一时间模块对应的各词向量进行mask掩码处理之后的各向量相同，因此选取其中一个该第一时间模块对应的各词向量进行mask掩码处理之后的任意一个向量，记为掩码词向量；否则，则不对该第一时间模块对应的词向量进行mask掩码处理，并记为第一词向量；将各子时间段中的掩码词向量和第一词向量记为目标向量；因此通过上述过程可以得到各子时间段中各第一时间模块对应的目标
向量和各第一子音频信息对应的音频向量；根据所述各第一时间模块对应的目标向量和各第一子音频信息对应的音频向量，构建得到各子时间段对应的目标向量组和各子时间段对应的音频向量组；所述任一子时间段对应的任一第一时间模块对应一个音频向量和一个目标向量。
[0025]
因此本实施例中通过上述过程可以得到标准广告文本信息对应的标准词向量组和标准音频信息对应的标准音频向量组，以及各子时间段对应的目标向量组和音频向量组。
[0026]
（b）根据标准词向量组、标准音频向量组、目标向量组和音频向量组，得到各子时间段对应的综合向量组的具体过程为：对于任一子时间段：将该子时间段对应的目标向量组和标准词向量组进行连接，具体为：首先在开头先加上[cls]标记向量，按照时间的顺序依次将标准词向量组中的各标准词向量连接在[cls]标记向量后面，当标准词向量组中的各标准词向量连接完成之后，再连接[sep]标记向量，再按照时间的顺序依次将该子时间段对应的目标向量组中的各目标向量连接在[sep]标记向量后面，得到该子时间段对应的连接向量组，所述连接向量组中含有标准词向量和目标向量；所述[cls]标记向量起到指示作用（本实施例是开头作用），[cls]的输出包含整个序列层面的信息；所述[sep]标记向量起到分割作用。根据所述连接向量组中的各元素、连接向量组中各元素在连接向量组中的位置以及连接向量组中各元素的属性，构建得到连接向量组中各元素对应的向量，记为格式化向量；所述属性是指该元素是标准词向量还是目标向量，若该元素是标准词向量记为，若该元素是目标向量记为。例如标准词向量组中的标准词向量分别为a1、a2、a3、a4、a5，该子时间段对应的目标向量组中的各目标向量分别为b1、b2、b3、b4、b5，进行连接后得到的连接向量组为w={ [cls]，a1，a2，a3，a4，a5，[sep]，b1，b2，b3，b4，b5}；如连接向量组中元素a1对应的格式化向量a1
*
=（a1，2，ea），其中，格式化向量a1
*
中的2表明元素a1在连接向量组w中的位置为2，格式化向量a1
*
中的ea表明元素a1为标准词向量；如连接向量组中元素b4对应的格式化向量b4
*
=（b4，11，eb），其中，格式化向量b4
*
中的11表明元素a1在连接向量组w中的位置为11，格式化向量b4
*
中的eb表明元素b4为目标向量。根据所述连接向量组中各元素对应的格式化向量，得到所述连接向量组对应的格式化向量组，记为该子时间段对应的格式化向量组。
[0027]
因此本实施例通过上述过程可以得到各子时间段对应的格式化向量组；根据标准音频向量组和音频向量组，得到各子时间段对应的连接向量组中各元素对应的音频向量，记为特征音频向量；根据各子时间段对应的格式化向量组和连接向量组中各元素对应的音频向量，构建得到各子时间段对应的综合向量组，所述综合向量组中的任一综合向量包含一个格式化向量和一个特征音频向量。
[0028]
步骤s003，根据所述综合向量组和目标网络，得到所述各子时间段对应的目标广告文本信息；根据所述目标广告文本信息、所述标准广告文本信息和所述目标网络，得到各目标子时间段。
[0029]
本实施例中根据综合向量组和目标网络，得到各子时间段对应的目标广告文本信息；然后根据目标广告文本信息、标准广告文本信息和目标网络，得到各目标子时间段；后续依据各目标子时间段对应的直播数据来分析判断对目标商品的引流效果。具体为：
（a）根据各子时间段对应的综合向量组和目标网络，得到各子时间段对应的目标广告文本信息的具体过程为：本实施例中目标网络的构建是基于bert，包括嵌入层、transformer层、输出层。bert是目前自然语言理解方面性能最优的基础模型，能够补全语句中缺失的词语以及判断两个句子的关联程度。bert的重要进步在于其无监督的预训练方式，对大数据有更好的适配性，即预训练时不用人工对大数据样本进行标注，从而降低成本和加速神经网络的训练。所述目标网络的基础网络架构为注意力机制和bert模型结构，所述目标网络为训练好的网络，并且所述目标网络包含两层，即所述目标网络存在两个分支，第一层输入为综合向量组，输出为各子时间段对应的综合向量组中各综合向量对应的格式化向量的目标特征向量，第一层可以提高对音频信息识别的可靠度；第二层是对目标广告文本信息和标准广告文本信息之间关联性的判别。
[0030]
本实施例主要是目标网络利用注意力机制对输入的各子时间段对应的各综合向量对应的格式化向量进行聚合处理，聚合完成后，得到各格式化向量对应的目标特征向量。对于任一子时间段对应的综合向量组中的任一综合向量：根据该子时间段对应的综合向量组中各综合向量对应的格式化向量和对应的特征音频向量，计算得到该子时间段中该综合向量与对应的综合向量组中其余的综合向量之间的权重，即：其中，为该综合向量组中第i个综合向量与第j个综合向量之间的权重（即第j个综合向量对于第i个综合向量的权重），为第i个综合向量对应的格式化向量，为第j个综合向量对应的格式化向量，为第i个综合向量对应的特征音频向量，为第j个综合向量对应的特征音频向量，为向量拼接操作，为激活函数，为影响系数，是第一相似度向量，为第二相似度向量，为第一相似度向量的转置，为第二相似度向量的转置，为第一权重矩阵，为第二权重矩阵，为该综合向量组中除第i个综合向量之外的综合向量集合，记为第i个综合向量对应的邻域综合向量集合。
[0031]
上述式子中，，其中，为未进行掩码操作处理之前第j个综合向量对应的格式化向量对应的时间模块对应的词向量类型数量，为基础系数，为调节系数；本实施例设置、；可以反映未进行掩码操作处理之前第j个综合向量对应的格式化向量对应的时间模块对应的词向量类型数量对第i个综合向量与第j个综合向量之间的权重的影响，且越大，越大。上述式子中，主要用于衡量和的相似度，所述的维度与的维度相同；所述主要用于衡量
和的相似度，所述的维度与的维度相同。本实施例中的第一权重矩阵和第二权重矩阵用于进行线性变换，实现降维的目的，即将向量进行不同的线性变换以实现降维处理；其中第一相似度向量、第二相似度向量、第一权重矩阵和第二权重矩阵的取值可由神经网络训练得到，因此不再详细描述。
[0032]
因此本实施例通过上述过程可以得到该子时间段中该综合向量与对应的邻域综合向量集合中的各综合向量之间的权重；之后根据该综合向量与对应的邻域综合向量集合中的各综合向量之间的权重对各综合向量对应的格式化向量进行聚合操作，得到该综合向量对应的格式化向量的目标特征向量；根据如下公式计算得到该综合向量对应的格式化向量的目标特征向量：其中，为该综合向量组中第i个综合向量对应的格式化向量进行聚合更新后的目标特征向量。
[0033]
因此本实施例中通过上述过程可以得到各子时间段对应的综合向量组中各综合向量对应的格式化向量的目标特征向量；按照时间顺序将各子时间段对应的各格式化向量的目标特征向量输入到bert的解码器中，最终得到各子时间段对应的目标广告文本信息。
[0034]
（b）根据各子时间段对应的目标广告文本信息、标准广告文本信息和目标网络，得到各目标子时间段的具体过程为：将各子时间段对应的目标广告文本信息和标准广告文本信息输入到目标网络中，当目标网络输出为1时，表明对应的目标广告文本信息和标准广告文本信息的语义有关；当目标网络输出为0时，表明对应的目标广告文本信息和标准广告文本信息的语义无关；本实施例将输出结果为1的各子时间段记为目标时间段。
[0035]
本实施例中，目标网络的训练过程分为预训练和正式训练，所述预训练的参数会继承到正式训练前的神经网络中，网络训练的损失函数为负对数似然函数，优化器使用adam；目标网络的具体训练过程为：首先对目标网络进行预训练，具体的：获取各标准样本文本信息对应的标准样本词向量组和各样本广告文本信息对应的目标样本向量组；对于同一商品对应的标准样本文本信息和样本广告文本信息，样本广告文本信息属于标准样本文本信息，但是样本广告文本信息和标准样本文本信息又存在差异；获取各标准样本文本信息对应的标准样本音频信息和各样本广告文本信息对应的样本音频向量组；按照上述连接方式将任意标准样本词向量组和任意目标样本向量组进行连接，得到连接后的各连接样本向量组；然后在各连接样本向量组中选取预设数量的向量，记为子连接样本向量组，所述预设数量需要根据实际情况设置；所述连接时50%按照同一商品对应的标准样本词向量组和目标样本向量组进行连接，50%按照不同商品对应的标准样本词向量组和目标样本向量组进行连接，将所述子连接样本向量组中40%的向量用[mask]直接替换，将所述子连接样本向量组中40%的向量用对应向量对应的候选词向量直接替换，将所述子连接样本向量组中10%的向量用与对应向量相同字符长度的词向量进行替换，剩余10%的词向量不变；所述向量对应的候选词向量为与该
向量对应的读音或者拼音相近的词构成的向量，且一个向量可能会对应多个候选词向量，而每个候选词向量被选中的概率相同；进而可以得到上述替换处理后的各连接样本向量组对应的样本格式化向量组，所述样本格式化向量组与上述得到格式化向量组的方法相同；根据样本音频向量组和样本格式化向量组，构建得到各样本综合向量，所述样本综合向量中的任一样本综合向量对应一个样本格式化向量和一个样本音频向量；将样本综合向量输入到网络中，对目标网络的第一层进行预训练，输出为样本综合向量中各样本综合向量对应的样本格式化向量进行聚合更新后的向量。将标准样本文本信息和样本文本信息作为预训练的输入，对目标网络的第二层进行预训练，不进行掩码操作，直接输入到transformer层，输出结果只有两种，分别为1和0；预训练时的标签是自动生成；预训练时的第一层和第二层可以同时进行。
[0036]
然后对预训练后的网络进行正式训练，具体的：获取主播对商品进行讲解时对应的各样本直播时间段对应的直播样本视频和对应的各第一标准样本广告文本信息，获取第一样本广告文本信息集和各第一标准样本广告文本信息；将各样本直播时间段对应的直播样本视频进行语音识别时，对识别结果不唯一的词向量进行掩码等一系列处理，进而得到各第一样本综合向量组，所述各第一样本综合向量组用于正式训练，所述第一样本综合向量组的构建方式和上述构建各子时间段对应的综合向量组的方式相同；利用各第一综合向量组对网络第一层进行正式训练，所述对第一层进行正式训练的标签由专业人员进行标记填写。然后根据第一样本广告文本信息集和各第一标准样本广告文本信息对网络第二层进行正式训练，所述对第二层进行正式训练的标签也由专业人员进行标记。目标网络的训练过程为现有技术，因此不再详细描述。
[0037]
步骤s004，根据所述各目标子时间段对应的直播数据，得到目标商品对应的引流效果。
[0038]
本实施例中上述得到的各目标子时间段对应的直播视频是和目标商品对应的标准广告文本信息有语义关联的，因此本实施例利用各目标子时间段内的目标商品链接点击量、直播间人数、直播间人气增长量以及目标商品购买数量来分析判断对目标商品的引流效果；即当各目标子时间段内的目标商品链接点击量越高、直播间人数越多、直播间人气增长量越多以及目标商品购买数量越多表明对目标商品的引流效果越好。
[0039]
有益效果：本实施例将直播视频、标准广告文本信息和标准音频信息作为得到标准广告文本信息对应的标准词向量组、标准音频信息对应的标准音频向量组、各子时间段对应的目标向量组和各子时间段对应的音频向量组的依据；然后根据标准词向量组、标准音频向量组、目标向量组和音频向量组，得到各子时间段对应的综合向量组；之后又根据综合向量组和目标网络，得到各子时间段对应的目标广告文本信息；根据目标广告文本信息、标准广告文本信息和所述目标网络，得到各目标子时间段；最后根据各目标子时间段对应的直播数据，得到目标商品对应的引流效果。本实施例能够依据直播视频得到相对准确的文本信息，然后在相对准确的文本信息的基础上也能够较可靠的找到与目标商品存在关联的时间段，进而能相对可靠的分析判断引流效果。
[0040]
以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改
或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：升级方法、电子设备及存储介质与流程

一种基于大数据的广告引流效果分析方法与流程

相关文献

最热文献