一种基于能源电力大数据的用户全息画像标签生成方法与流程

2022-02-25 22:21:44 来源：中国专利 TAG：

1.本发明涉及一种用于电力用户管理领域的基于能源电力大数据的用户全息画像标签生成方法。

背景技术：

2.大数据技术的发展为电力企业的对客户的准确辨识提供了技术支撑，为制定针对性的用户服务策略提供了技术支持，这对于未来提高电力用户体验非常关键。随着售电侧开放，一个多方参与的售电市场即将形成，给传统供电企业带来新的考验。客户对电力企业的品牌印象会随着企业角色、职能的转变发生变化，品牌形象处于垄断型的国企及服务型事业单位的交叉口，供电企业应主动出击，掌握新形势下的客户需求，不断推动服务升级，促进服务品牌形象的全面提升。目前电力企业对电力用户的了解存在两方面问题：一是缺乏完整的电力用户描述，营销系统内用户以用户编号为主体，联系方式为用户的一个属性，且一户一般为一个联系方式，而95598系统内以客户拨打95598电话为主体，且和营销系统内的单个用户的为多对一关系，因此两者无法实现精准对应。二是缺乏对电力用户基于其基本属性、社会属性、价值属性、服务记录等全生命周期的全方位信息进行分类方法，无法为新型客户管理模式提供数据支撑。

技术实现要素：

3.本发明的目的是为了克服现有技术的不足，提供一种基于能源电力大数据的用户全息画像标签生成方法，它能够实现电力用户分类管理。
4.实现上述目的的一种技术方案是：一种基于能源电力大数据的用户全息画像标签生成方法，其特征在于，该方法利用大数据处理技术生成用户特性标签,用户特性标签通过分析用户的特征诉求指标，利用大数据算法模型生成特征诉求指标的数据库；大数据处理技术的基础数据库构型围绕客户诉求构建，将电力95598、电力内网外网、“网上国网”、微信公众号线、营业厅意见簿等渠道的意见和咨询数据流导入基础数据库作为标签数据原始来源，通过数据分析以标签的形式对客户进行标记。
5.进一步的，构建特征诉求指标的数据库，此数据库包含如下子数据库分支：电网建设诉求特征指标子数据库、供电质量诉求特征指标子数据库、故障抢修诉求特征指标子数据库、营业诉求特征指标子数据库和服务诉求特征指标子数据库。
6.再进一步的，所述电网建设诉求特征指标子数据库包括：施工合规性、电网设施建设与施工不规范、农网改造不及时、占地赔偿对等性和噪音污染。
7.再进一步的，所述供电质量诉求特征指标子数据库包括：频繁停电、频繁停电、低电压、电能质量异常、无故停电、未按计划停送电。
8.再进一步的，所述故障抢修诉求特征指标子数据库包括：抢修服务态度差、抢修质量不高、抢修超时限。
9.再进一步的，所述营业诉求特征指标子数据库包括：抄表错误及欠费停电不通知、
复电不及、表计线路、业扩报装超时限、其他类。
10.再进一步的，所述服务诉求特征指标子数据库包括：服务人员态度冷漠、行为不规范、营业厅及收费网点管理不规范。
11.进一步的，所述大数据算法模型包括线性回归模型，利用回归分析确定两种或两种以上变量间相互依赖的定量关系；所述大数据算法模型包括logistic回归模型，根据现有数据对分类边界建立回归公式并以此进行分类，回归最佳拟合；所述大数据算法模型包括决策树模型，通过训练数据构建决策树，对未知的数据进行分类；所述大数据算法模型包括聚类分析模型，基于距离进行非层次聚类，在最小化误差函数的基础上将数据划分为预定的类数k，采用距离作为相似性的评价指标；所述大数据算法模型还包括神经网络模型。
12.采用上述技术方案所产生的有益效果在于：本发明能够实现对电力客户的准确的特征识别，方便企业制定针对性的服务策略来提高客户服务满意度。本发明能够整合公司多种来源数据，依托大数据分析技术，建立多维度、立体化的客户画像，通过标签对客户深层次行为特征进行描述，为电力同类型的客户提供个性化服务，打造以客户标签为核心的新型客户管理模式提供数据支撑。
具体实施方式
13.为了能更好地对本发明的技术方案进行理解，下面通过具体地实施例进行详细地说明：
14.本发明涉及一种基于能源电力大数据的用户全息画像标签生成方法，该方法利用大数据处理技术生成用户特性标签的,用户特性标签通过分析用户的特征诉求指标利用大数据算法模型生成；大数据处理技术的基础数据库构型围绕客户诉求构建，将电力95598、电力内网外网、“网上国网”、微信公众号线、营业厅意见簿等渠道的意见和咨询数据流导入基础数据库作为标签数据原始来源，通过数据分析以标签的形式对客户进行标记。
15.特征诉求指标的数据库需要首先得到构建，其包含如下子数据库分支：包括电网建设诉求特征指标子数据库、供电质量诉求特征指标子数据库、故障抢修诉求特征指标子数据库、营业诉求特征指标子数据库、服务诉求特征指标子数据库；其中，电网建设诉求特征指标子数据库包括：施工合规性、电网设施建设与施工不规范、农网改造不及时、占地赔偿对等性、噪音污染；供电质量诉求特征指标子数据库包括：频繁停电、频繁停电、低电压、电能质量异常、无故停电、未按计划停送电；故障抢修诉求特征指标子数据库包括：抢修服务态度差、抢修质量不高、抢修超时限；营业诉求特征指标子数据库包括：抄表错误及欠费停电不通知、复电不及、表计线路、业扩报装超时限、其他类；服务诉求特征指标子数据库包括：服务人员态度冷漠、行为不规范、营业厅及收费网点管理不规范。
16.大数据算法模型可以有诸多交叉运用选项，包括线性回归模型，利用回归分析确定两种或两种以上变量间相互依赖的定量关系；所述大数据算法模型包括logistic回归模型，根据现有数据对分类边界建立回归公式并以此进行分类，回归最佳拟合；所述大数据算法模型包括决策树模型，通过训练数据构建决策树，对未知的数据进行分类；所述大数据算法模型包括聚类分析模型，基于距离进行非层次聚类，在最小化误差函数的基础上将数据划分为预定的类数k，采用距离作为相似性的评价指标。
17.线性回归模型的构建步骤包括：搜集数据：系统搜集研究对象有关特征量的大量
历史数据；由于回归分析是建立在大量的数据基础之上的定量分析方法，历史数据的数量及其准确性都直接影响到回归分析的结果；
18.设定回归方程：以大量的历史数据为基础，分析其间的关系，根据自变量与因变量之间所表现出来的规律设定回归方程；设定回归方程是回归分析法的关键，选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础。
19.确定回归系数：将已知数据代入设定的回归方程，并用最小二乘法原则计算出回归系数，确定回归方程；
20.进行相关性检验：相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验，有r检验、t检验和f检验三种方法；
21.进行预测，并确定置信区间：通过相关性检验后，利用已确定的回归方程进行预测；在进行单点预测的同时给出该单点预测值的置信区间。
22.logistic回归模型根据现有数据对分类边界建立回归公式并以此进行分类，回归即最佳拟合；logistic回归模型的构建步骤包括：a、逻辑回归架构设置：1)每个回归系数初始化为1；2)重复r次；3)计算整个数据集的梯度；4)使用步长x梯度更新回归系数的向量；5)返回回归系数；b、逻辑回归算法流程设置：收集数据:采用信息化方法收集数据；准备数据:由于需要进行距离计算，要求数据类型为数值型，对数据进行结构化格式转换；分析数据:基于数据用途导向对数据进行分析；训练算法:设置训练的目的为找到最佳的分类回归系数；测试算法:训练步骤完成测试算法的可行性和执行速率；使用算法:首先一些数据，并将其转换成对应的结构化数值，接着基于训练好的回归系数对这些数值进行回归计算，完成归类回归判定类别。
23.logistic回归模型，logistic回归模型作为一种传统的统计模型，对变量是否服从正态分布没有要求，自变量可以是连续或非连续性的，对于因变量非连续性的信用风险的等级划分最合适，即使信用风险与其他相关因素之间不存在线性关系，我们也可以进行研宄，可以运用对借款人未来违约概率的测算，灵活性较强，具有非常现实的经济意义。logistic回归模型，在数据完整的情况下，可以使用于各种违约率的测算。
24.基于因变量的个数，以及logistic回归模型不要求自变量服从正态分布，本文选取有序logistic回归模型，假设因变量有m类，通过拟合m-1个因变量的回归模型：
[0025][0026]
其中，y表示企业信用属于某一等级的概率，xi表示自变量的第i个指标。由于有序logistic回归模型属于累计函数，对进行赋值，得出累计logist模型：
[0027]
logit(pi)＝ln[p(y≤j)/p(y≥j 1)]＝ai bx
ꢀꢀꢀ
(2)
[0028]
其中，a代表第i个自变量对应的模型的截距，b表示一组与x对应的回归系数。
[0029]
根据模型输出输出的结果，从参数估计里得出截距项a和系数项b，当y等于一个特定的值时可以求出y＝j发生的概率：
[0030][0031]
对于模型中自变量来的系数b的解释为：
[0032]
当b＝0时，自变量x对于y没有影响；
[0033]
当b＞0时，p(y＞j)较大，而p(y＜j)比较小，当x增大时，会提高选择较高级别的可能性，而降低选择较低级别的可能性(假定模型中的j＝l为最低级别)。
[0034]
当b＜0时，p(y＜j)比较大，而p(y＞j)较小，当x增大时，会降低选择较高级别的可能性，而提高选择较低接别的可能性。
[0035]
由于logistic回归属于累计回归函数，用b的反对数来反映累计概率比：
[0036]
若b＞0时，exp(-b)＜l，即x每增加一个单位，累计概率就会减少，选择等级高的可能性就会加大。
[0037]
若b＜0时，exp(-b)＞l，即x每增加一个单位，累计概率就会增加，选择等级高的可能性就会降低。
[0038]
由于因变量涉及到有序的多分类变量，选用有序logistic回归，然而有序logistic回归，模型是一个累积回归函数，模型估计出的概率为累积概率，得出累计概率比来检测各个自变量的效应的大小。
[0039]
logistic回归模型的设计方面，本发明利用有序logistic回归分析债券的信用风险，在结合实际的影响因素，提出一定的预设，找出可能的影响因素，由于因素繁多，各个变量之间可能存在相关性，为提高模型的准确性，首先要对变量进行因子分析处理，采用降维的方法提取出成份因子，由此去除变量之间的相关性，最后合并进行有序logistic回归。第一步，对选取的具有代表性的指标数据进行降维，采取最大方差法，观测自变量累积概率和特征值大小得出主成份，分析旋转矩阵和旋转载荷将自变量归类到主成份中，并给主成份进行命名，并从成份系数得分中得出主成份因子和各个自变量之间的关系。第二步，指标因素进行因子分析后，得出主成份因子并命名和提取。第三步，对前两步得出的主成份因子进行整合，通过有序logistic回归分析，得出数据标签特性。
[0040]
神经网络模型，通过模仿人脑神经网络结构和功能，可以协同处理大规模分布式存储信息和并行信息，ann本质上是对人脑的简化和抽象化模拟。ann具有对非线性系统由任意近似的能力，可以通过自我学习、自我调整，对网络内部节点之间的相互连接关系进行处理，不断的调整模型参数来适应外部环境的变化，最终实现信息的学习和自适应功能。神经网络突出优点是能够处理大规模系统的并行分布问题，动态响应速度快，学习记忆功能强。这些优点归功于ann自身的网络的拓扑和节点的处理能力。ann作为一个并行系统，依靠简单的神经元结构和节点处理功能，使得网络的运算速度很快。神经网络主要有以下几个特点：(1)联想记忆能力强和容错性好，ann神经元机构及连接方式决定了其具有的联想记忆特点。记忆信息通过节点分布式方式存储在神经元间的权值系数里。如果发生记忆信息模糊或者坏损，通常对神经网络也不会产生严重影响，因此系统抗噪性和容错性强，在误差容许范围内，训练神经网络样本还能够帮助处理有数据残缺的历史资料。(2)并行性强，神经网络由无数单一神经元构成，虽然单一神经元结构简单、功能单一，但是组成网络就可以进行大量并行运算，信息处理能力增强。(3)非线性强，神经网络最主要特点就是对非线性系统具有任意的近似能力，其输入与输出端口的外部特性保持高度非线性，能够处理复杂的逻辑运算和非线性问题，ann一般应用三层神经网络近似地表达非线性连续函数。(4)自学习性强，可以对神经网络进行学习与训练，即使外部环境多变复杂，神经网络也能自动调整网络拓扑和连接方式，以适应多变的外部环境，使得输出效果更逼近实际。
[0041]
神经元数学表达式在一个神经元及网络中地位十分重要，神经网络能否具有记忆学习能力除了与网络非线性复杂连接结构有关，更重要的是取决于自身的传递函数。为了区别于自动控制理论并突出该函数的作用，在此将神经网络传递函数命名为启动函数，主要作用如下：(1)启动输入对输出的函数控制；(2)转换输入信号和输出信号；(3)对于无穷大的输入，可以实现限幅输出作用。启动函数通常是非线性函数。常见的启动函数类型有：阈值型、线性型、s型。
[0042]
(1)阈值型传递函数将任意输入信号根据性质不同输出为0或1的幅值，函数表现为单位阶跃特性。此时，人工神经元的输入-输出表达式为：
[0043][0044]
(2)分段线性型启动转移函数中，网络的输出等于加权输入加上偏差值，函数的输入-输出表达式为：
[0045]
a＝f(w*p b)＝w*p b
[0046]
(3)s型s型启动函数将任意输入幅值限制到(0，1)区域内，在该范围函数单调可微，常用的s型函数为指数函数或双曲正切函数。函数的输入-输出表达式为：
[0047][0048]
根据神经元连接方式不同，神经网络可分为两种：无反馈的前向网络及相互结合型。前向网络包括输入层、中间层和输出层3部分，中间层可内含多层，但是每层的神经元映射前一层的输出。对于结合型网络，神经元之间是互联的，这样信息可以在神经元之间反复得到学习和训练，最终输入信号渐渐趋于某一稳定状态。
[0049]
本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种群体性队列训练的分析方法及装置与流程

一种基于能源电力大数据的用户全息画像标签生成方法与流程

相关文献

最热文献