一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于时序深度学习和法律文书信息的信用风险评估方法与流程

2022-05-21 09:57:20 来源:中国专利 TAG:


1.本发明是关于一种基于时序深度学习和法律文书信息的信用风险评估方法,涉及计算机科学与技术领域。


背景技术:

2.当前在信用风险评估领域,发达的金融交易市场无时无刻不在产生着包含时序信息的大量事务级交易数据。面对大量时序交易数据,传统机器学习模型无法解决长序列训练过程中的梯度消失和梯度爆炸问题,从而导致大规模的数据并没有被充分的挖掘和应用。另外,法律判决文书包含了丰富的信息,在一定程度上反映了借贷人的违约风险,以往的信用风险评估模型特征集的构造往往忽略了法律文书信息。
3.传统信用风险评估包括基于专家的信用评估法和基于统计学的信用风险评估方法。其中,基于专家的信用评估法主观色彩强烈,基于统计学的信用风险评估方法又难以囊括各变量之间的复杂关系。随着机器学习和深度学习的兴起,时间序列预测类问题越来越多的被抽象为回归问题,从而可以使用机器学习和深度学习的相关模型,不需要受到基本假设的限制,适用范围更广,更受到人们青睐。
4.传统的机器学习算法绝大多数是基于基础统计学数据,不能很好地利用数据的时间顺序关系。因此无法充分利用信用领域产生的大量事务级交易数据进行风险评估模型构造,现有技术构造的风险评估模型预测准确率不高,并且银行对信贷人员在贷前审查时会遇到借贷人信息不足等信息不对称问题,使得银行存在较高的不良率与不良额,银行办事效率较低。


技术实现要素:

5.针对上述问题,本发明的目的提供一种通过对包含时序关系的数据进行分析,挖掘数据中包含的时间序列信息,提高信用风险评估预测准确率的基于时序深度学习和法律文书信息的信用风险评估方法、系统、电子设备及存储介质。
6.为实现上述目的,本发明采取以下技术方案:
7.第一方面,本发明提供的基于时序深度学习和法律文书信息的信用风险评估方法,其特征在于包括:
8.确定最佳观察周期,并根据待评价主体的诉讼状况和判决结果对判决进行分类;
9.爬取设定时间内的法律判决文书,配置文书实体抽取规则和词典,采用基于规则的抽取方法进行法律文书实体抽取;
10.对抽取的法律文书数据进行了预处理,并对法律文书文本信息进行事件抽取;
11.利用rfe递归特征选择方法选择出预测能力强的法律文书特征;
12.设置混合数据集并进行lstm模型的训练获得评估模型进行信用风险的评估。
13.进一步地,确定最佳观察周期采用卡方检验法,其中,法律文书判决分为四类:诉讼状态为被告且判决结果对其不利的判决类型;诉讼状态为被告且判决结果对有利的判决
类型;诉讼状态为原告且判决结果对其不利的判决类型;诉讼状态为原告且判决结果对其有利的判决类型。
14.进一步地,爬取设定时间内的法律判决文书利用python中的scrapy框架 selenium模拟浏览器访问。
15.进一步地,对抽取的法律文书数据进行了预处理包括数据去重、缺失值处理和/或数据导入,其中,数据去重包括基于待检测的法律文书的案号及法律文书对应的法院信息数据进行去重处理;缺失值处理包括对信贷数据进行转换以得到格式统一的向量化数据;数据导入包括对各数据源的数据进行合并以形成数据集。
16.进一步地,对法律文书文本信息进行事件抽取,包括:
17.采用正则匹配的方法,利用专家经验人为定义得到关键词表,并根据关键词表在python代码中定义多个用于正则匹配的词典,针对爬取得到的法律文书文本数据循环遍历定义的python字典中的所有内容,逐行进行关键词匹配,匹配成功后提取关键词所在位置的信息并存入对应的由python定义的列表当中,将收集到的各法律文书特征字段信息循环写入文件当中进行保存,抽取得到法律文书初始特征集。
18.进一步地,利用rfe递归特征选择方法选择出预测能力强的法律文书特征,包括:
19.s1、构建法律文书初始特征集f,初始特征集包含案号、标题、案由、案件类型、审理法院、发布日期、诉讼状态、案情、当事人、公开日期、裁判日期、审理程序、判决结果、涉案金额;
20.s2、设初始特征集合fx为原始数据集,最优特征集合fy为空,最优特征子集均方根误差值为rx,由fx经过bootstrap重采样生成决策树进行建模,建立随机森林分类模型,经过投票得到最终分类结果,使用所有特征变量训练模型;
21.s3、计算每个特征变量的重要性并进行排序,计算均方根误差值rx,并且按照特征评分数的绝对值|c|降序排列;
22.s4、删除子集fx中排名靠后的特征fi,直到特征集合fx为空,若特征子集fy的均方根误差值ry小于rx,那么ry=rx,否则执行s3和s4;
23.s5、输出最优特征子集fy,得到的最优特征变量包含法律文书中的案号、发布日期、诉讼状态、案情、判决结果和金额。
24.进一步地,混合数据集包括法律文书信息中最优特征变量集合和按时间顺序记录的用户的时间序列相关数据以及人口统计学数据。
25.第二方面,本发明提供的基于时序深度学习和法律文书信息的信用风险评估系统,该系统包括:
26.数据获取单元,被配置为确定最佳观察周期,并根据待评价主体的诉讼状况和判决结果对判决进行分类;
27.实体抽取单元,被配置为爬取设定时间内的法律判决文书,配置文书实体抽取规则和词典,采用基于规则的抽取方法进行法律文书实体抽取;
28.事件抽取单元,被配置为对抽取的法律文书数据进行了预处理,并对法律文书文本信息进行事件抽取;
29.特征获取单元,被配置为利用rfe递归特征选择方法选择出预测能力强的法律文书特征;
30.风险评估单元,被配置为设置混合数据集并进行lstm模型的训练获得评估模型进行信用风险的评估。
31.第三方面,本发明提供的一种电子设备,所述电子设备至少包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器运行所述计算机程序时执行所述的方法。
32.第四方面,本发明提供的一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行所述的方法。
33.本发明由于采取以上技术方案,其具有以下特点:
34.1、本发明通过对法律文书进行特征抽取,利用rfe特征选择算法对所有特征进行特征选择,构造lstm为基础的时序信用风险评估模型,通过对包含时序关系的数据进行分析,挖掘数据中包含的时间序列信息,提高信用风险评估预测准确率,从而快速高效地解决借贷主体与银行间信息不对称的痛点,帮助银行等金融机构实现个人信用风险评级和信用管理考核评价,一定程度上解决个人借贷贷款难的问题,有效降低银行的不良率与不良额,使得银行在个人贷款审批和授信额度确认等方面具有更大的优势,同时可以帮助银行提升办事效率和服务质量;
35.2、信用风险评估领域存在着大量的时间序列交易流水数据,本发明利用lstm模型发掘出这些时序数据之间蕴藏着的信息,同时在此基础上引入法律判决文书信息作为补充特征,采用金融信息和非金融信息相结合的方法进行信用风险评估,对用户的违约风险进行合理预测,可以进一步地帮助银行等金融信贷机构合理评估资产状况,从而将其资产负债比维持在一个比较稳定的水平,保持金融信贷市场的安全与稳定;
36.3、本发明构建出的基于时序深度学习和法律文书信息的用户信用风险评估模型框架,帮助银行等金融信贷机构对用户的违约概率进行更为合理有效的评估和预测,便于银行筛选优质客户,过滤高风险客户,实现风险早识别、早预警、早发现,及时发起客户风险预警,提升风险把控质量为银行反欺诈应用决策提供更精准、更可靠的依据,推进算法实践赋能用户风险管理,有效降低银行的不良率与不良额;
37.综上,本发明可以广泛应用于银行的信用风险评估中。
附图说明
38.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在整个附图中,用相同的附图标记表示相同的部件。在附图中:
39.图1为本发明实施例的信用评估方法原理示意图;
40.图2为本发明实施例的法律文书信息提取流程图;
41.图3为本发明实施例的法律文书特征集构造流程图;
42.图4为本发明实施例的rfe的执行过程示意图;
43.图5为本发明实施例的lstm原理图;
44.图6为本发明实施例的基于lstm的时序信用风险评估模型流程图;
45.图7为本发明实施例的电子设备结构示意图。
具体实施方式
46.下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
47.应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在,但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的步骤。
48.本发明使用已发表的涉及法律判决文书信息作为非财务信息,使用人口统计学信息以及借贷人时序交易信息,构建出基于lstm的用户信用风险评估模型框架,便于银行筛选优质客户,过滤高风险客户,实现风险早识别、早预警、早发现,及时发起客户风险预警,提升风险把控质量。法律判决文书包含了丰富的信息,在一定程度上反映了借贷人的违约风险。由于判决书在互联网上是公开的,使用判决书可以降低银行的信息收集成本,保证信息的真实性。使用文本挖掘技术从判断文本中提取特征,可以显著提高预测模型的识别性能。因此,本发明利用时序深度学习模型lstm,使之适合于处理时序数据和人口统计学数据组成的混合数据,最终构建出的基于lstm的用户信用风险评估模型框架,同时本发明将法律文书信息加入到lstm模型中作为补充信息,针对包含时序交易数据和基础统计学数据组成的混合数据,改造lstm深度学习算法有效处理混合数据,通过对包含时序关系的数据进行分析,挖掘数据中包含的时间序列信息,提高信用风险评估预测准确率。
49.实施例一:如图1所示,本实施例提供的基于时序深度学习和法律文书信息的信用风险评估模型构建方法,包括:
50.s1、如图2所示,确定最佳的观察周期并根据贷款申请人的诉讼状况和判决结果对判决进行分类。
51.具体地,为了在提取法律文书信息前选择最佳的观察周期,本实施例采用现有测试相关性的常用方法卡方检验法测试了观察周期与贷款违约之间的相关性,找出与违约相关性最高的观察周期。
52.为了确定哪些判断对预测信用风险有效,将选定的观察期的法律文书判决分为四类:诉讼状态为被告且判决结果对其不利的判决类型,诉讼状态为被告且判决结果对有利的判决类型,诉讼状态为原告且判决结果对其不利的判决类型,诉讼状态为原告且判决结果对其有利的判决类型,并使用现有经典机器学习方法逻辑回归模型验证各类型判决数量各自的违约概率,发现诉讼状态为被告且判决结果对其不利的判决类型例如申请贷款的人为被告公司的法人且案件结果为败诉需要对原告进行赔款,可能对信用风险有更高的影响。
53.s2、如图3所示,利用python中的scrapy框架 selenium模拟浏览器访问,爬取近两年内的法律判决文书,配置文书实体抽取规则和词典,采用基于规则的抽取方法进行法律
文书实体抽取。
54.其中,可以利用专家经验人为定义得到关键词表,采用基于规则的抽取方法进行法律文书实体抽取使用关键词表,关键词是指对抽取任务起到标志、识别作用,用于激活抽取任务的词汇。对于法律文书虽然是以非结构化的格式存储的,但其内容本身是有结构的且裁判文书中的语言表述比较固定,如案号,发布日期,审判员,诉讼状态,判决结果,上诉请求这些关键词的冒号后就是要提取的特征信息。使用正则表达式匹配爬取到的法律文书正文,根据关键词抽取相应的特征字段信息。
55.s3、对法律文书数据进行了预处理,并对文书信息进行事件抽取。
56.具体地,对法律文书数据进行预处理包括数据去重、缺失值处理和/或数据导入,其中,数据去重包括基于待检测的法律文书的案号及法律文书对应的法院信息数据进行去重处理;缺失值处理包括对信贷数据进行转换以得到格式统一的向量化数据;数据导入包括对各数据源的数据进行合并以形成数据集。
57.其中,对所有爬取得到的法律文书文本信息进行事件抽取,具体方法为:
58.由于裁判文书中的语言表述比较固定,存在一定模式,因此采用正则匹配的方法,利用专家经验人为定义得到关键词表,并根据关键词表在python代码中定义多个用于正则匹配的词典(如:re_dict1={'案由':'案.*由(.*)','案号':'案.{0,4}号(.*)','发布日期':'发布日期.*(\d{4}-\d{1,2}-\d{1,2})'},re_dict2={'委托诉讼代理人-原告':'原审原告(.*?)委托诉讼代理人:(.*?)上诉人'}),针对爬取得到的法律文书文本数据循环遍历定义的python字典中的所有内容,逐行进行关键词匹配,匹配成功后提取关键词所在位置的信息并存入对应的由python定义的列表当中,将收集到的各法律文书特征字段信息循环写入文件当中进行保存,最终抽取得到法律文书初始特征集,并作为rfe递归特征选择初始的特征集。
59.s4、利用rfe递归特征选择方法选择出预测能力强的法律文书特征,最终选择的文本特征包括案号、发布日期、诉讼状态、案情、判决结果和金额。
60.如图4所示,具体地,利用rfe递归特征选择方法选择出预测能力强的法律文书特征,通过计算模型的均方根误差值筛选最优法律文书特征子集,该特征选择方法选择过程包括输入和输出过程,具体为:
61.s41、构建初始特征集,输入初始特征集f,初始的特征集为所有可用的特征包含案号、标题、案由、案件类型、审理法院、发布日期、诉讼状态、案情、当事人、公开日期、裁判日期、审理程序、判决结果、涉案金额;
62.s42、设初始特征集合fx为原始数据集,最优特征集合fy为空,最优特征子集均方根误差值为rx,由fx经过bootstrap重采样生成决策树进行建模,建立随机森林分类模型,经过投票得到最终分类结果,使用所有特征变量训练模型;
63.s43、计算每个特征变量的重要性并进行排序,计算均方根误差值rx,并且按照特征评分数的绝对值|c|降序排列,其中,第i个特征的特征评分分数计算公式为:
[0064][0065]
式中,wi为第i个特征的权重;ci为第i个特征的特征评分分数。
[0066]
s44、删除子集fx中排名靠后的特征fi,直到特征集合fx为空,若特征子集fy的均方根误差值ry小于rx,那么ry=rx,否则执行s43和s44;
[0067]
s45、输出最优特征子集fy,最终得到的最优特征变量包含法律文书中的案号、发布日期、诉讼状态、案情、判决结果和金额。
[0068]
s5、将上述提取出的法律文书信息中最优特征变量集合和按时间顺序记录的用户的时间序列相关数据(如用户随时间一直在产生的账单金额情况)以及人口统计学数据(如用户的性别、年龄、受教育程度等特征)组成的混合数据集,并拆分为训练集,测试集和验证集;
[0069]
s6、如图5、图6所示,进行lstm模型的训练,在完成模型的训练之后,进行模型的评估。
[0070]
lstm模型,即长短期记忆网络,是循环神经网络rnn的一种变体,是以循环神经网络的基本算法思想为基础所做的改进型。
[0071]
具体地,首先按照划定的比例,读取训练集数据和测试集数据。训练集数据分为标签和特征两部分。由于lstm模型是处理时序数据的模型,所以首先要按照时间序列顺序对二维的训练集数据利用python中的numpy数组的reshape方法进行维数的变化。在进行维数转化后,开始进入模型的训练过程。使用两个模型进行训练,当两个模型一轮训练完毕,将lstm模型输出的张量和全连接神经网络输出的张量按列拼接在一起。而后经过事先设定的全连接层,实现样本的分类预测。然后进入逻辑判断,若迭代次数还未达到预先设定的要求,则需要通过损失函数计算出相应的损失,并通过优化函数更新lstm层以及全连接神经网络的相关参数,进行新一轮的模型参数迭代更新,直至模型满足预先设定的迭代终止条件。在完成模型的训练之后,进行模型的评估。
[0072]
进一步地,对于时间序列数据,需要经由lstm模型进行处理。在数据输入之前,需要初始化lstm模型中涉及到的所有参数,包括三个门控机制中的所有相关参数。接着将数据传入lstm层进行一轮训练。对于非时间序列数据,不适合用lstm模型进行处理,需要传入事先初始化的一个三层全连接神经网络中进行的学习和预测。
[0073]
下面通过具体实施例详细说明本发明的基于时序深度学习和法律文书信息的信用风险评估方法的实现过程。
[0074]
如图1所示,本实施例提出的基于时序深度学习和法律文书信息的信用风险评估方法,包括:
[0075]
1、对法律文书进行事件抽取,从法律文书中提取法律文书中的最优特征变量案号、发布日期、诉讼状态、案情、判决结果和金额,并使用这些信息来评估借贷人的信用风险。
[0076]
如图2所示,为了从判断中挖掘信息,本实施例使用文本挖掘方法,将法律文书转换为结构化信息。
[0077]
2、构建法律文书特征集。
[0078]
为了确定哪些法律判决文书是有效的预测信用风险并且方便后续有针对性的对法律文书进行爬取,考虑两个方面:法律文书时间范围和法律文书判决类别。
[0079]
在时间方面,分析了判决日期和贷款申请日期之间的时间跨度,以确定最佳观察期。
[0080]
在类别方面,根据贷款申请人的诉讼状况和判决结果对判决进行分类,并确定与信用风险评估相关的判决类别。
[0081]
为了在提取法律文书信息前选择最佳的观察周期,本实施例使用卡方法测试了观察周期与贷款违约之间的相关性。并使用逻辑回归方法来检查每个观测周期的预测能力。结果显示结果表明,在2年内存在法律判决文书的变量的卡方值最大,与贷款违约具有最高程度的相关性。
[0082]
3、为了确定哪些判断对预测信用风险有效,考虑四种法律文书类别,分类标准详见表1对法律文书进行分类。
[0083]
关于类别,本实施例将根据贷款申请人的诉讼状况和判决结果作出的判决,并确定与评估信贷风险相关的判决类别。
[0084]
原告、被告和判决结果:由于诉讼状态和判决结果对信用风险的影响不同,根据这两个因素对判决文件进行分类。诉讼状态和判决结果分为非负和负两组。基于此划分,所选的法律文书类别分为四类(c1-c4),分类标准见下表:
[0085]
表1法律文书类别
[0086][0087]
根据诉讼状况和判决结果,将选定的观察期的法律文书判决分为四类。并使用逻辑回归模型验证各类型判决数量各自的违约概率,发现c4类判断的借贷人的违约概率最高,这表明属于c4的判断可能对信用风险有更高的影响。
[0088]
4、在确定了法律文书时间范围和法律文书判决类别后,对进行了裁判文书网上披露的法律判决文书进行了有针对性的爬取,利用python中的scrapy框架 selenium模拟浏览器访问,爬取近两年内的法律判决文书。为了处理缺失的值,使用k-新邻居算法(knn)找到k个最近邻,并使用邻居的平均值填充缺失的值。
[0089]
5、提取对于法律文书特征
[0090]
如图3所示,使用关键词和正则表达式的方法来提取结构化信息。对于法律文书虽然是以非结构化的格式存储的,但其内容本身是有结构的,裁判文书中的语言表述比较固定,如每个条约包括序言和正文两个组成部分,正文包含若干个章或每章包括若干个节,每节包括若干个条,每条包含若干个款等,以及往往案号,发布日期,审判员,诉讼状态,判决结果,上诉请求这些关键词的冒号后就是要提取的特征信息等。根据以上特点使用正则表达式匹配条约正文中的特征文字抽取法律文书各个最优特征相应的信息。随后利用rfe递归特征选择可以选择出预测能力强的特征,作为补充特征加入到模型中,并将这些非财务信息与财务和用户特定信息相结合,帮助评估借贷人的信用风险。
[0091]
6、如图4所示,利用rfe自动特征选择方法判断每个提取到的法律文书特征的作用,提取最优的法律文书特征,rfe的执行过程如下:
[0092]
61、初始的特征集为所有可用的特征。
[0093]
62、使用当前特征集利用逻辑回归模型进行建模,使用抽取的所有特征变量训练模型。
[0094]
63、计算每个特征变量的重要性并进行排序
[0095]
64、对每一个变量子集s_{i},i=1...s,提取前s_{i}个最重要的特征变量,更新
特征集。
[0096]
65、跳转到步骤62,直到完成所有特征的重要性评级
[0097]
66、计算比较每个子集获得的模型的效果,决定最优的特征变量集合。
[0098]
7、将筛选完成后的基础信息特征与法律文书特征合并成总体特征集,数据既包含婚姻、教育、年龄、性别等基础统计学信息,以及每个用户在六个月范围内、包含时间顺序的交易信息以及法律文书特征,具体描述如下:
[0099]
表2包含法律文书特征的总体特征集
[0100][0101]
8、按照划定的比例,读取训练集数据和测试集数据。训练集数据分为标签和特征两部分。由于lstm模型是处理时序数据的模型,所以首先要按照时间序列顺序对二维的训
练集数据进行维数的变化。在进行维数转化后,开始进入模型的训练过程。如图5、图6所示,模型训练的具体过程为:
[0102]
81、拉取所有混合数据,根据人口统计学数据表、时序数据表以及法律文书数据表三个表中的共同的主键借贷人id这个唯一标识把三个表进行关联成为一张宽表,宽表中包含人口统计学数据和时序数据中的所有特征以及之前求得的法律文书数据最优特征变量集合。
[0103]
82、根据欧式距离或相关分析来确定距离缺失数据最近的k个样本,将这k个值加权平均来补充样本的缺失数据进行缺失值处理。
[0104]
83、采用smote算法对非平衡数据进行处理,smote处理不平衡数据,其算法流程如下:
[0105]
(1)对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
[0106]
(2)根据样本不平衡比例设置一个采样比例以确定采样倍率n,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。
[0107]
(3)对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本。
[0108]
xnew=x rand(0,1)*(x
′‑
x)
[0109]
84、将特征变量转化为向量信号。
[0110]
85、将特征信号输入到输入层,根据sigmoid激活函数,计算输入层输出到隐含层的信号。
[0111]
86、依次计算输入门的输入输出信号、计算记忆单元的输入信号及状态值、计算遗忘门的输出输出信号、计算输出门的输入输出信号。
[0112]
87、计算最终的记忆单元的输出向量。
[0113]
88、将最终的记忆单元的输出向量作为下一个隐含层的输入,重复执行85、86,得到下一个隐含层的输出。
[0114]
89、同理,以此得到第三个和第四个隐含层的输出。
[0115]
810、根据预测值计算误差函数(logarithmicloss,对数损失函数)进行权重的更新。
[0116]
811、将第89步得到的信号通过输出层即得到预测值。
[0117]
812、重复第82步到第811,直到达到最大的迭代次数。
[0118]
813、关于学习率的设置,学习率决定了权重根据损失函数进行更新的程度。学习率较高时,模型的训练速度会比较快,但是模型的效果可能相对差一些;学习率较低时,模型训练耗时会比较长。但是本实施例的数据量相对来说较少,于是选取了0.001的学习率,来确保模型预测的准确度。参数调整及优化,lstm总共有7个参数。lstm模型的参数表如下所示:
[0119]
表3 lstm模型参数取值
[0120][0121]
对于全连接神经网络,将上述数据中的非时序部分抽取出来,构成一个24000
×6×
5的三维列表。而后对列表平铺展开,构成一个batchsize
×
30的输入结构,输入到三层的全连接神经网络中进行神经网络的学习和训练。本实施例选取的激活函数为sigmoid激活函数,误差函数选取均方误差函数,优化函数选取adam优化函数。隐含层设置为3层,隐含层节点数依次是60、30、16批处理数量为90迭代次数设置为900。
[0122]
814、训练结束,将模型保存,模型输出0到1之间的实数代表客户的违约概率,帮助银行对用户是否存在违约风险进行更为合理有效的评估和预测,便于银行筛选优质客户,过滤高风险客户。
[0123]
实施例二:上述实施例一提供了基于时序深度学习和法律文书信息的信用风险评估方法,与之相对应地,本实施例提供一种基于时序深度学习和法律文书信息的信用风险评估系统。本实施例提供的系统可以实施实施例一的基于时序深度学习和法律文书信息的信用风险评估方法,该系统可以通过软件、硬件或软硬结合的方式来实现。为了描述的方便,描述本实施例时以功能分为各种单元分别描述。当然,在实施时可以把各单元的功能在同一个或多个软件和/或硬件中实现。例如,该系统可以包括集成的或分开的功能模块或功能单元来执行实施例一各方法中的对应步骤。由于本实施例的系统基本相似于方法实施例,所以本实施例描述过程比较简单,相关之处可以参见实施例一的部分说明即可,本发明提供的基于时序深度学习和法律文书信息的信用风险评估系统的实施例仅仅是示意性的。
[0124]
本实施例提供的基于时序深度学习和法律文书信息的信用风险评估系统,该系统包括:
[0125]
数据获取单元,被配置为确定最佳观察周期,并根据贷款申请人的诉讼状况和判决结果对判决进行分类;
[0126]
实体抽取单元,被配置为爬取设定时间内的法律判决文书,配置文书实体抽取规则和词典,采用基于规则的抽取方法进行法律文书实体抽取;
[0127]
事件抽取单元,被配置为对抽取的法律文书数据进行了预处理,并对法律文书文本信息进行事件抽取;
[0128]
特征获取单元,被配置为利用rfe递归特征选择方法选择出预测能力强的法律文书特征;
[0129]
风险评估单元,被配置为设置混合数据集并进行lstm模型的训练获得评估模型进行信用风险的评估。
[0130]
实施例三:本实施例提供一种与本实施例一所提供的基于时序深度学习和法律文书信息的信用风险评估方法对应的电子设备,电子设备可以是用于客户端的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行实施例一的方法。
[0131]
如图7所示,电子设备包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,以完成相互间的通信。总线可以是工业标准体系结构(isa,industry standard architecture)总线,外部设备互连(pci,peripheral component)总线或扩展工业标准体系结构(eisa,extended industry standard component)总线等等。存储器中存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行本实施例一所提供的基于时序深度学习和法律文书信息的信用风险评估方法。本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0132]
在一些实现中,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、光盘等各种可以存储程序代码的介质。
[0133]
在另一些实现中,处理器可以为中央处理器(cpu)、数字信号处理器(dsp)等各种类型通用处理器,在此不做限定。
[0134]
实施例四:本实施例一的基于时序深度学习和法律文书信息的信用风险评估方法可被具体实现为一种计算机程序产品,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本实施例一所述的基于时序深度学习和法律文书信息的信用风险评估方法的计算机可读程序指令。
[0135]
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
[0136]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实现”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书
中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0137]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0138]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0139]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0140]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献