一种数字视听场所用户信息更新方法及计算机可读存储介质与流程

2021-10-24 06:21:00 来源：中国专利 TAG：场所视听数字用户信息可读

1.本发明涉及数字视听场所技术领域，特别是涉及一种数字视听场所用户信息更新方法及计算机可读存储介质。

背景技术：

2.用户画像就是用户信息标签化，可以简单理解成在海量信息中提取出来的有用的信息标签。在用户画像中可根据用户目标、行为和观点差异，将用户区分为不同的类型，然后每种类型抽取出公共的特征，并赋予分类标签，从而描述一类人物的原型，即用户画像。
3.由于行业特征的原因，数字视听场所缺少用户基本信息的可靠获取途径，因此很难生成用户画像，并且很难对用户画像进行更新。

技术实现要素：

4.为此，需要提供一种数字视听场所用户信息更新方法用于解决现有技术中数字视听领域用户信息难以获取的技术问题。
5.为实现上述目的，发明人提供了一种数字视听场所用户信息更新方法，包括以下步骤：
6.采集数字视听场所的用户行为数据，并根据所述用户行为数据生成训练数据集，所述训练数据集包括所述用户行为数据以及对应用户的用户信息；
7.对所述训练数据集进行分析生成估算模型；
8.将待估算用户的行为数据输入至所述估算模型中进行估算，得到所述待估算用户的用户信息。
9.进一步的，所述对所述训练数据集进行分析生成估算模型包括以下步骤：
10.计算所述训练数据集中所述用户行为数据影响所述用户信息的权重；
11.根据各所述用户行为数据的所述权重生成所述估算模型。
12.进一步的，通过tf
‑
idf值表示所述权重；
[0013][0014]
进一步的，所述估算模型是采用逻辑回归算法对所述各所述用户行为数据的所述权重进行计算生成的。
[0015]
进一步的，所述逻辑回归算法为：
[0016]
y＝wx b；
[0017]
[0018]
其中，x为tf
‑
idf值，w、b为待求参数，p为概率值。
[0019]
进一步的，还包括步骤：
[0020]
根据所述估算模型估算得到的所述用户信息更新对应用户的用户画像。
[0021]
进一步的，所述用户行为数据包括含录音数据、点歌数据、社交数据中的任意一种或多种；所述用户行为数据可通过点歌设备采集或通过连接所述点歌设备的移动终端采集。
[0022]
进一步的，所述用户信息包括年龄、性别中的任意一种或多种。
[0023]
进一步的，在采集数字视听场所的用户行为数据之后，对所述用户行为数据进行预处理，所述处理包括删除重复数据、删除格式错误数据、删除内容错误数据、删除逻辑错误数据、删除残缺数据、数据关联性验证中的任意一种或多种的组合。
[0024]
为解决上述技术问题，本发明还提供了另一技术方案：
[0025]
一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上任一项技术方案所述的数字视听场所用户信息更新方法。
[0026]
区别于现有技术，上述技术方案采集数字视听场所的用户行为数据，并根据所述用户行为数据生成训练数据集，所述训练数据集包括所述用户行为数据以及对应用户的用户信息；对所述训练数据集进行分析生成估算模型；将待估算用户的行为数据输入至所述估算模型中进行估算，得到所述待估算用户的用户信息。因此通过所述训练数据集生成的估算模型，可反向预测行为数据相同或近似的其他用户的用户信息，从而大大丰富了用户信息，为生成用户画像提供了有力的数据支持。
附图说明
[0027]
图1为具体实施方式所述数字视听场所用户信息更新方法的步骤流程图；
[0028]
图2为具体实施方式所述行为数据预处理的流程图；
[0029]
图3为具体实施方式生成估算模型的流程图；
[0030]
图4为具体实施方式所述数字视听场所用户信息更新方法的步骤流程图；
[0031]
图5为具体实施方式所述计算机可读存储介质的模块框图。
[0032]
附图标记说明：
[0033]
500、计算机可读存储介质；
具体实施方式
[0034]
为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。
[0035]
请参阅图1至图4，本实施例提供了一种数字视听场所用户信息更新方法，该数字视听场所用户信息更新方法可通过点歌设备和/或手机等移动终端采集用户在数字视听场所内的行为数据，所述行为数据包括点歌、录音和社交等授权数据等，并通过注册授权等方式获取到的用户年龄、性别等用户信息，并将采集得到的用户行为数据和用户信息结合生成训练数据集。然后通过向所述估算模型输入采集到的待估算用户的行为数据，通过所述估算模型反推所述估算用户的用户信息。通过该数字视听场所用户信息更新方法，可反向预测行为数据相同或近似的其他用户的用户信息，从而大大丰富了用户信息，为生成用户
画像提供了有力的数据支持。
[0036]
如图1所示，在一实施方式中，所述数字视听场所用户信息更新方法包括以下步骤：
[0037]
s101、采集数字视听场所的用户行为数据，并根据所述用户行为数据生成训练数据集，所述训练数据集包括所述用户行为数据以及对应用户的用户信息；
[0038]
s102、对所述训练数据集进行分析生成估算模型；
[0039]
s103、将待估算用户的行为数据输入至所述估算模型中进行估算，得到所述待估算用户的用户信息。
[0040]
在步骤s101中，所述数字视听场所可以为ktv、酒吧等具有多媒体点播系统的场所。所述数字视听场所的用户行为数据可包括点歌数据、录音数据和社交数据中的任意一种或多种，其中所述用户行为数据为经过用户授权采集的。所述用户信息为该用户的基础信息，所述用户信息包括年龄、性别中的任意一种或多种，并且所述用户信息也是经过用户授权采集的。
[0041]
为了便于数据管理，在一实施方式中，在采集数字视听场所的用户行为数据之后，对所述用户行为数据进行预处理，所述处理包括删除重复数据、删除格式错误数据、删除内容错误数据、删除逻辑错误数据、删除残缺数据、数据关联性验证中的任意一种或多种的组合。经过所述预处理后可得到格式化数据，格式化数据可包含用户id、录音文件、歌曲信息、歌手信息、包厢用户信息。这些格式化数据可存储于存储系统中，由于用户行为数据的数量较大，因此可将用户行为数据存储在分布式文件存储系统中。
[0042]
如图2所示，在一实施方式中，所述对所述用户行为数据进行预处理依次包括步骤：
[0043]
s201、删除重复数据(即重复数据清洗)；
[0044]
s202、删除残缺数据(即缺失数据清洗)；
[0045]
s203、删除格式错误数据(即格式错误数据清洗)；
[0046]
s204、删除内容错误数据(内容错误数据清洗)；
[0047]
s205、删除逻辑错误数据(即逻辑错误数据清洗)；
[0048]
s206、数据关联性验证。由于数据来源可能有多个，通过数据关联性验证可验证同一个用户的相关数据信息是否一致，如果不一致，则需要调整或者去除数据，通过关联性验证可去除数据中的干扰噪声，提高数据的准确性。
[0049]
通过用户行为数据进行预处理可得到格式化的用户行为数据，便于存储的调用，并且通过预处理可过滤无用缺失数据和错误数据，提高数据的可靠性。
[0050]
经过预处理的用户行为数据与对应用户的用户信息关联，从而生成训练数据集，在所述训练数据集中存储的是已具有完整或较为完整用户信息的用户的数据(包括用户信息和用户行为数据)，在所述训练数据集中用户行为数据和用户信息可通过用户id等关联标签进行对应存储，当需要调取训练数据集中某一用户的数据时，只需输入对应的用户id即可。该训练数据集要作为标准数据用于训练所述估算模型，
[0051]
在步骤s102中，通过对所述训练数据集进行分析生成估算模型，该估算模型可根据输入的用户行为数据估算了这个用户的年龄、性别等用户信息。
[0052]
在步骤s103中将待估算用户的行为数据输入至所述估算模型中进行估算，即可得
到所述待估算用户的用户信息。本实施方式通过所述估算模型可反向预测数字视听场所中行为数据相同或近似的其他用户的用户信息，从而大大丰富了用户信息，为生成用户画像提供了有力的数据支持。
[0053]
在一实施方式中，所述对所述训练数据集进行分析生成估算模型包括以下步骤：
[0054]
计算所述训练数据集中所述用户行为数据影响所述用户信息的权重；
[0055]
根据各所述用户行为数据的所述权重生成所述估算模型。
[0056]
通过对训练数据集进行分析，所述该估算模型可综合计算各权重对用户信息的影响，并最终估算出用户的用户信息。
[0057]
在一实施方式中，通过tf
‑
idf值表示所述权重，tf
‑
idf表示第i个词对dj类文档的重要程度；其中，tf
‑
idf值计算过程如下：根据公式1进行计算；
[0058][0059]
其中，i表示单词在词袋中的位置，j表示文本类别数，n
i，j
表示词袋中第i个词在第j类文档中出现的次数，∑
k
n
k，j
表示该类文档中所有词条数目；
[0060]
根据公式2进行计算；
[0061][0062]
其中，d表示文本集中全部文档数量，{m：t
i
∈d
j
}表示包含该单词且属于第j类文档数量，{x：t
i
∈d
x
}表示所有包含该单词的文档数量；
[0063]
根据公式3进行计算；
[0064][0065]
从而得到tf
‑
idf值的计算公式：
[0066][0067]
将所述tf
‑
idf值的计算公式应用于本实施方式中，则可得到：
[0068][0069]
其中，所述训练数据集中的行为数据是通过对应的文字进行记录，例如用户进行点歌的行为数据为：行为类型
‑‑
点播歌曲，歌曲名称—爱你一万年，用户id—xxxxxx。因此在tf
‑
idf值计算公式中，通过计算训练数据集中的行为数据对应的词(即文字)的出现次数和频率来计算所述训练数据集中某行为数据的次数和频率，并根据行为数据对应的词出现次数和频率来计算行为数据的权重。
[0070]
在一实施方式中，在通过所述tf
‑
idf值计算得到训练数据集中所述用户行为数据影响所述用户信息的权重之后，采用逻辑回归算法对所述各所述用户行为数据的所述权重进行计算生成所述估算模型。
[0071]
逻辑回归可根据公式4和公式5表示；
[0072]
y＝wx b；
ꢀꢀ
(公式4)
[0073][0074]
其中，x为tf
‑
idf值，w、b为待求参数，p为概率值。在本实施方式中，逻辑回归算法通过训练数据集中的tf
‑
idf值对待估算用户的用户信息进行估算。
[0075]
如图3所示，为一具体实施方式中所述估算模型的生成流程图；该估算模型的生成步骤包括：
[0076]
s301、输入文本；
[0077]
s302、文本预处理；
[0078]
s303、中文分词去停用词；其中，去停用词可根据停用词文件去除，例如预设停用词库，然后跟这个停用词库比对，若是落入停用词库，则删除。
[0079]
s304、计算tf
‑
idf值(文本表示方法)；
[0080]
s305、估算模型训练；
[0081]
其中，s301中所述输入文本可以为用户行为数据和对应的用户信息，其中，用户行为数据可以是未进行整理清洗的数据，因此需要进行步骤s302和步骤s303对用户行为数据进行预处理。
[0082]
在另一些实施方式中，输入文本可以为上述实施方式中的训练数据集，其中的用户行为数据是经过预处理的，因此可需要进行步骤s302和步骤s303。
[0083]
步骤s304中计算tf
‑
idf值与上述实施方式中通过tf
‑
idf值表示所述用户行为数据影响所述用户信息的权重相同，这里就不再重复说明。
[0084]
在步骤s305中估算模型训练通过逻辑回归算法进行预测，并输出分类结果，然后再以打磨分类结果对所述逻辑回归算法进行优化，直到得到理想的估算模型。
[0085]
在另一实施方式中，所述估算模型可以为具有自学习能力的人工智能模型，通过不断训练可使该估算模型知道训练数据集中用户信息与用户行为数据之间的关联性。
[0086]
在一实施方式中，数字视听场所会为根据已有的用户信息为用户建立用户画像，在一些情况下用户信息不全，从而导致用户画像不完整。此时数字视听场所可采用上述实施方式中的估算模型，估算得到的所述用户信息，并将得到的用户信息补充到对应用户的用户画像中，即更新对应用户的用户画像。
[0087]
在上述实施方式中，可为用户建立用户画像，并在用户画像中可根据用户目标、行为和观点等特征的差异，将用户区分为不同的类型用户集群。并且上述实施方式中所述训练数据集和估算模型可以是以用户集群为单位生成的。在生成训练数据集时，可先将用户集群内的用户分成用户信息完整的用户和用户信息不完整的用户，然后将用户信息完整的用户对应的用户行为数据和用户信息做为训练数据集，并通过该训练数据集生成估算模型，其中该估算模型是只针对本用户集群的，对其他用户集群可能不适用。在一些实施方式中，还获取用户的会员数据，并将同一用户的会员数据和用户行为数据进行统计，然后生成
包括会员数据和用户行为数据训练数据集。
[0088]
在该实施该中先将用户分为不同的用户集群，并以用户集群为单位进行上述数字视听场所用户信息更新方法，因此本实施方式中训练数据集和估算模型更具有针对性，同时估算模型的处理数据量也更少，用户信息估算的准确度也更高。
[0089]
如图4所示，为一实施方式中数字视听场所用户信息更新方法，其包括步骤：
[0090]
s401、通过点歌设备采集用户行为数据，所述用户行为数据包括录音数据、点歌数据和社交数据等；
[0091]
s402、对所述用户行为数据进行清洗整理，所述清洗整理包括上述实施方式中所述的用户行为数据预处理中的步骤；
[0092]
s403、通过手机端获取注册授权的用户信息；
[0093]
s404、获取用户的会员数据；
[0094]
s405、数据统计；数据统计用于统计上述获取的会员数据和采集的用户行为数据，以便于生成训练数据；
[0095]
s406生成训练数据集，所述训练数据集包括所述清洗整理的用户行为数据和所述用户信息，根据所述训练数据集生成估算模型；
[0096]
s407判断用户信息是否完整；
[0097]
若否，则跳转至步骤s408、使用估算模型估算用户的年龄、性别等用户信息；
[0098]
s409、最后输出估算结果。
[0099]
如图5所示，一实施方式提供了一种计算机可读存储介质500，其上存储有计算机程序，所述程序被处理器执行时实现以上任一项实施方式所述的数字视听场所用户信息更新方法。该数字视听场所用户信息更新方法可根据用户行为数据和用户信息生成训练数据集，通过所述训练数据集生成的估算模型，并通过估算模型可反向预测行为数据相同或近似的其他用户的用户信息，从而大大丰富了用户信息，为生成用户画像提供了有力的数据支持。
[0100]
需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于多尺度特征融合的目标检测与图像清晰联合学习方法与流程

一种数字视听场所用户信息更新方法及计算机可读存储介质与流程

相关文献

最热文献