一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信贷催收短信判别方法、系统、设备及存储介质与流程

2022-11-19 14:51:27 来源:中国专利 TAG:


1.本发明实施例涉及机器学习领域,具体涉及一种信贷催收短信判别方法、系统、设备及存储介质。


背景技术:

2.在信贷业务场景中,用户在发起信贷申请后,会陆续收到银行或金融机构发出的通知信息,这些短信中,用户未能按时还款而收到的催收提示短信称为信贷催收短信,此类短信对于区分用户的信用等级,具有重要的参考作用;因此如何在繁杂的通知信息中,筛选出信贷催收信息,具有重要的现实意义和技术价值。
3.现有的文本分类判别技术,在使用关键词匹配的方式对文本进行分类过程时,由于否定词、文本更替、同义词替换等因素的存在导致文本筛选效果逐渐下降,分类效率低下;同时关键词匹配的方式还需要靠技术工程师进行繁琐的文本分析,持续的更新文本匹配模板,此项工作艰巨浩繁,单调乏味,导致工作的效率低下和人工成本激增。
4.现有的文本表示模型,采用词袋模型对文本进行文本表示,并不能很好的表达文本的特征,句义表达不准确,由于金融机构发送的短信文本具有高度的相似性,通过词袋模型得到的文本向量往往区分度不高,导致后续分类模型的训练效果不佳。
5.因此抽取样本,构建覆盖度广泛的样本库,利用优化的文本表示方法并训练分类模型,对于信贷催收类别的文本的筛选和分类具有非常实际的工作意义和业务价值。


技术实现要素:

6.为此,本发明实施例提供一种信贷催收短信判别方法、系统、设备及存储介质,以解决现有技术对信贷催收短信的判别匹配效率低、分类准确度差的问题。
7.为了实现上述目的,本发明实施例提供如下技术方案:
8.根据本发明实施例的第一方面,提供了一种信贷催收短信判别方法,所述方法包括:
9.对第一短信文本样本进行标注,得到第二短信文本样本,建立样本库;
10.对所述第二短信文本样本进行分词处理,得到第三短信文本样本;
11.对所述第三短信文本样本进行向量化,得到相对应的文本词向量;
12.将各个文本词向量与对应标注对齐后作为训练数据,得到分类模型;
13.对待判别短信文本进行数据处理,并输入至所述分类模型进行预测,得到判别结果。
14.进一步地,对第一短信文本样本进行标注,包括:
15.对所述第一短信文本样本,将信贷催收类短信文本标注为1,非信贷催收类文本标注为0。
16.进一步地,对所述第二短信文本样本进行分词处理,得到第三短信文本样本,包括:
17.利用停用词库和自定义词库,对所述第二短信文本样本进行第一分词处理,得到第一分词结果,所述第一分词结果包括至少一个第一短语,第一短语之间由空格隔开;
18.计算出所述第一分词结果中每个第一短语的第一tf-idf值;
19.判断所述第一tf-idf值是否超过第一预设分词阈值;
20.若第一tf-idf值超过第一预设分词阈值,则将所述第一短语作为停用词加入停用词库;
21.根据所述第一分词结果判断是否存在自定义词未被区分;
22.若所述第一分词结果中存在所述自定义词未被区分,则向自定义词库中添加该自定义词并提高该自定义词的分词权重;
23.利用更新后的停用词库和自定义词库,对所述第二短信文本样本进行第二分词处理,得到第三短信文本样本。
24.进一步地,对所述第二短信文本样本进行分词处理,得到第三短信文本样本,还包括:
25.若所述第一tf-idf值未超过第一预设分词阈值,则根据所述第一分词结果判断是否存在自定义词未被区分;
26.若所述第一分词结果中不存在所述自定义词未被区分,则直接利用第一分词结果,得到第三短信文本样本。
27.进一步地,对所述第三短信文本样本进行向量化,得到相对应的文本词向量,包括:
28.利用所述第三短信文本样本,得到第一矩阵;
29.根据所述第三短信文本样本的分词总数和词向量维度,构建第一中心词矩阵和第一上下文矩阵;
30.利用所述第一矩阵与所述第一中心词矩阵进行第一矩阵乘法运算,得到第二中心词矩阵;
31.利用所述第二中心词矩阵与所述第一上下文矩阵进行第二矩阵乘法运算,得到第一内积矩阵;
32.对所述第一内积矩阵进行归一化处理,并利用归一化处理结果对所述第一中心词矩阵和所述第一上下文矩阵进行调整,得到第一向量化模型;
33.将所述第三短信文本样本输入至所述第一向量化模型中,得到各个文本第一分词词向量;
34.对各个文本第一分词词向量进行求和,并利用求和结果进行平均,得到文本词向量。
35.进一步地,对待判别短信文本进行数据处理,并输入至所述分类模型进行预测,得到判别结果,包括:
36.对所述待判别短信文本进行分词处理,得到待判别分词结果;对所述待判别分词结果进行向量化,得到待判别文本向量;
37.将所述待判别文本向量输入至所述分类模型中,预测所述待判别短信文本是否为信贷催收类短信文本;
38.若所述待判别短信文本为信贷催收类短信文本,则所述判别结果为1;
39.若所述待判别短信文本为非信贷催收类短信文本,则所述判别结果为0。
40.进一步地,对所述待判别短信文本进行分词处理,得到待判别分词结果,包括:
41.利用停用词库和自定义词库,对所述待判别短信文本进行第三分词处理,得到第三分词结果,所述第三分词结果包括至少一个第二短语,第二短语之间由空格隔开;
42.计算出所述第三分词结果中每个第二短语的第二tf-idf值;
43.判断第二tf-idf值是否超过第二预设分词阈值;
44.若第二tf-idf值超过第二预设分词阈值,则将所述第二短语作为停用词加入停用词库;根据所述第三分词结果判断是否存在自定义词未被区分;
45.若第二tf-idf值未超过第二预设分词阈值,则直接根据所述第三分词结果判断是否存在自定义词未被区分;
46.若所述第三分词结果中存在所述自定义词未被区分,则向自定义词库中添加该自定义词并提高该自定义词的分词权重;利用更新后的停用词库和自定义词库,对所述待判别短信文本进行第四分词处理,得到待判别分词结果;
47.若所述第三分词结果中不存在所述自定义词未被区分,则直接利用第三分词结果,得到待判别分词结果。
48.进一步地,对所述待判别分词结果进行向量化,得到待判别文本向量,包括:
49.利用所述待判别分词结果,得到第二矩阵;
50.根据所述待判别分词结果的分词总数和词向量维度,构建第三中心词矩阵和第二上下文矩阵;
51.利用所述第二矩阵与所述第三中心词矩阵进行第三矩阵乘法运算,得到第四中心词矩阵;
52.利用所述第四中心词矩阵与所述第二上下文矩阵进行第四矩阵乘法运算,得到第二内积矩阵;
53.对所述第二内积矩阵进行归一化处理,并利用归一化处理结果对所述第三中心词矩阵和所述第二上下文矩阵进行调整,得到第二向量化模型;
54.将所述待判别分词结果输入至所述第二向量化模型中,得到各个文本第二分词词向量;
55.对各个文本第二分词词向量进行求和,并利用求和结果进行平均,得到待判别文本向量。
56.进一步地,在对第一短信文本样本进行标注得到第二短信文本样本之前,所述方法还包括:
57.通过正则匹配,从所有短信文本中筛选出金融类短信文本;
58.根据文本相似度对所述金融类短信文本进行去重处理,得到所述第一短信文本样本。
59.进一步地,通过正则匹配,从所有短信文本中筛选出金融类短信文本,包括:
60.根据所有短信文本的内容得到金融类短信特征;
61.基于所述金融类短信特征从已有数据库中匹配得到相应的特征短信文本;
62.对所述特征短信文本进行数据清洗处理;
63.利用清洗后的数据,分析文本的话术特点和结构特征,提取出不同类别短信文本
的关键词;
64.根据所述关键词进行正则匹配,筛选出金融类短信文本。
65.进一步地,根据文本相似度对所述金融类短信文本进行去重处理,得到所述第一短信文本样本,包括:
66.按照单个字符的维度,将所述金融类短信文本拆分成至少一个特征字符,并形成文本字符串;
67.对所述文本字符串中的每个特征字符计算对应的hash值,得到二进制的数字串;
68.以所述特征字符的出现频率作为权重,对所述数字串进行加权处理,得到加权数字串;
69.将所述加权数字串的序列值进行累加,形成加权累加数字串;
70.对所述加权累加数字串进行降维处理,将每一位大于0的数字取为1,将其余数字取为0,得到simhash值;
71.利用所述simhash值进行分区处理,按照键值对方式进行hashmap数据结构的索引构建;
72.基于所述simhash值,计算待存入金融类短信文本与对应hashmap分区中已存入金融类短信文本之间的相似度;
73.判断所述相似度是否达到预设阈值;
74.若所述相似度未达到预设阈值,则将待存入金融类短信文本作为所述第一短信文本样本保留;
75.若所述相似度达到预设阈值,则将待存入金融类短信文本舍弃。
76.根据本发明实施例的第二方面,提供了一种信贷催收短信判别系统,所述系统包括:
77.匹配模块,用于通过正则匹配,从所有短信文本中筛选出金融类短信文本;
78.去重模块,用于根据文本相似度对所述金融类短信文本进行去重处理,得到第一短信文本样本;
79.样本库构建模块,用于对所述第一短信文本样本进行标注,得到第二短信文本样本,建立样本库;
80.分词模块,用于对所述第二短信文本样本进行分词处理,得到第三短信文本样本;
81.向量化模块,用于对所述第三短信文本样本进行向量化,得到相对应的文本词向量;
82.训练模块,用于将各个文本词向量与对应标注对齐后作为训练数据,得到分类模型;
83.判别模块,用于对待判别短信文本进行数据处理,并输入至所述分类模型进行预测,得到判别结果。
84.进一步地,通过正则匹配,从所有短信文本中筛选出金融类短信文本,包括:
85.根据所有短信文本的内容得到金融类短信特征;
86.基于所述金融类短信特征从已有数据库中匹配得到相应的特征短信文本;
87.对所述特征短信文本进行数据清洗处理;
88.利用清洗后的数据,分析文本的话术特点和结构特征,提取出不同类别短信文本
的关键词;
89.根据所述关键词进行正则匹配,筛选出金融类短信文本。
90.进一步地,根据文本相似度对所述金融类短信文本进行去重处理,得到第一短信文本样本,包括:
91.按照单个字符的维度,将所述金融类短信文本拆分成至少一个特征字符,并形成文本字符串;
92.对所述文本字符串中的每个特征字符计算对应的hash值,得到二进制的数字串;
93.以所述特征字符的出现频率作为权重,对所述数字串进行加权处理,得到加权数字串;
94.将所述加权数字串的序列值进行累加,形成加权累加数字串;
95.对所述加权累加数字串进行降维处理,将每一位大于0的数字取为1,将其余数字取为0,得到simhash值;
96.利用所述simhash值进行分区处理,按照键值对方式进行hashmap数据结构的索引构建;
97.基于所述simhash值,计算待存入金融类短信文本与对应hashmap分区中已存入金融类短信文本之间的相似度;
98.判断所述相似度是否达到预设阈值;
99.若所述相似度未达到预设阈值,则将待存入金融类短信文本作为所述第一短信文本样本保留;
100.若所述相似度达到预设阈值,则将待存入金融类短信文本舍弃。
101.进一步地,对所述第一短信文本样本进行标注,得到第二短信文本样本,建立样本库,包括:
102.对所述第一短信文本样本,将信贷催收类短信文本标注为1,非信贷催收类文本标注为0,得到第二短信文本样本;
103.根据所述第二短信文本样本构建样本库。
104.进一步地,所述第二短信文本样本进行分词处理,得到第三短信文本样本,包括:
105.利用停用词库和自定义词库,对所述第二短信文本样本进行第一分词处理,得到第一分词结果,所述第一分词结果包括至少一个第一短语,第一短语之间由空格隔开;
106.计算出所述第一分词结果中每个第一短语的第一tf-idf值;
107.判断所述第一tf-idf值是否超过第一预设分词阈值;
108.若所述第一tf-idf值超过第一预设分词阈值,则将所述第一短语作为停用词加入停用词库;
109.若所述第一tf-idf值未超过第一预设分词阈值,则根据所述第一分词结果判断是否存在自定义词未被区分;
110.根据所述第一分词结果判断是否存在自定义词未被区分;
111.若所述第一分词结果中不存在所述自定义词未被区分,则直接利用第一分词结果,得到第三短信文本样本。
112.若所述第一分词结果中存在所述自定义词未被区分,则向自定义词库中添加该自定义词并提高该自定义词的分词权重;
113.利用更新后的停用词库和自定义词库,对所述第二短信文本样本进行第二分词处理,得到第三短信文本样本。
114.进一步地,对所述第三短信文本样本进行向量化,得到相对应的文本词向量,包括:
115.利用所述第三短信文本样本,得到第一矩阵;
116.根据所述第三短信文本样本的分词总数和词向量维度,构建第一中心词矩阵和第一上下文矩阵;
117.利用所述第一矩阵与所述第一中心词矩阵进行第一矩阵乘法运算,得到第二中心词矩阵;
118.利用所述第二中心词矩阵与所述第一上下文矩阵进行第二矩阵乘法运算,得到第一内积矩阵;
119.对所述第一内积矩阵进行归一化处理,并利用归一化处理结果对所述第一中心词矩阵和所述第一上下文矩阵进行调整,得到第一向量化模型;
120.将所述第三短信文本样本输入至所述第一向量化模型中,得到各个文本第一分词词向量;
121.对各个文本第一分词词向量进行求和,并利用求和结果进行平均,得到文本词向量。
122.进一步地,对待判别短信文本进行数据处理,并输入至所述分类模型进行预测,得到判别结果,包括:
123.对所述待判别短信文本进行分词处理,得到待判别分词结果;
124.对所述待判别分词结果进行向量化,得到待判别文本向量;
125.将所述待判别文本向量输入至所述分类模型中,预测所述待判别短信文本是否为信贷催收类短信文本;
126.若所述待判别短信文本为信贷催收类短信文本,则所述判别结果为1;
127.若所述待判别短信文本为非信贷催收类短信文本,则所述判别结果为0。
128.进一步地,对所述待判别短信文本进行分词处理,得到待判别分词结果,包括:
129.利用停用词库和自定义词库,对所述待判别短信文本进行第三分词处理,得到第三分词结果,所述第三分词结果包括至少一个第二短语,第二短语之间由空格隔开;
130.计算出所述第三分词结果中每个第二短语的第二tf-idf值;
131.判断第二tf-idf值是否超过第二预设分词阈值;
132.若第二tf-idf值超过第二预设分词阈值,则将所述第二短语作为停用词加入停用词库;根据所述第三分词结果判断是否存在自定义词未被区分;
133.若第二tf-idf值未超过第二预设分词阈值,则直接根据所述第三分词结果判断是否存在自定义词未被区分;
134.若所述第三分词结果中存在所述自定义词未被区分,则向自定义词库中添加该自定义词并提高该自定义词的分词权重;利用更新后的停用词库和自定义词库,对所述待判别短信文本进行第四分词处理,得到待判别分词结果;
135.若所述第三分词结果中不存在所述自定义词未被区分,则直接利用第三分词结果,得到待判别分词结果。
136.进一步地,对所述待判别分词结果进行向量化,得到待判别文本向量,包括:
137.利用所述待判别分词结果,得到第二矩阵;
138.根据所述待判别分词结果的分词总数和词向量维度,构建第三中心词矩阵和第二上下文矩阵;
139.利用所述第二矩阵与所述第三中心词矩阵进行第三矩阵乘法运算,得到第四中心词矩阵;
140.利用所述第四中心词矩阵与所述第二上下文矩阵进行第四矩阵乘法运算,得到第二内积矩阵;
141.对所述第二内积矩阵进行归一化处理,并利用归一化处理结果对所述第三中心词矩阵和所述第二上下文矩阵进行调整,得到第二向量化模型;
142.将所述待判别分词结果输入至所述第二向量化模型中,得到各个文本第二分词词向量;
143.对各个文本第二分词词向量进行求和,并利用求和结果进行平均,得到待判别文本向量。
144.根据本发明实施例的第三方面,提供了一种信贷催收短信判别设备,所述设备包括:处理器和存储器;
145.所述存储器用于存储一个或多个程序指令;
146.所述处理器,用于运行一个或多个程序指令,用以执行如上述任一项所述的一种信贷催收短信判别方法的步骤。
147.根据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的一种信贷催收短信判别方法的步骤。
148.本发明实施例具有如下优点:
149.本发明实施例公开了一种信贷催收短信判别方法、系统、设备及存储介质,通过对短信文本样本标注建立样本库,然后对样本进行分词和向量化处理,得到文本词向量,将各个文本词向量与对应标注对齐后作为训练数据训练分类模型,最后利用分类模型对待判别短信文本进行预测判别。本发明实施例根据机器学习分类算法训练分类模型,对文本进行预测,优化了繁琐的人工分析和模板构建的过程,避免模板频繁修改,有效提高了对信贷催收短信判别的文本匹配效率,增强了分类的准确度。
附图说明
150.为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
151.本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
152.图1为本发明实施例提供的一种信贷催收短信判别系统的逻辑结构示意图;
153.图2为本发明实施例提供的一种信贷催收短信判别方法的流程示意图;
154.图3为本发明实施例提供的从所有短信文本中筛选出金融类短信文本的流程示意图;
155.图4为本发明实施例提供的根据文本相似度对金融类短信文本进行去重处理,得到第一短信文本样本的流程示意图;
156.图5为本发明实施例提供的对第二短信文本样本进行分词处理,得到第三短信文本样本的流程示意图;
157.图6为本发明实施例提供的对第三短信文本样本进行向量化,得到相对应的文本词向量的流程示意图;
158.图7为本发明实施例提供的对待判别短信文本进行数据处理,并输入至分类模型进行预测,得到判别结果的流程示意图;
159.图8为本发明实施例提供的对待判别短信文本进行分词处理,得到待判别分词结果的流程示意图;
160.图9为本发明实施例提供的对待判别分词结果进行向量化,得到待判别文本向量的流程示意图。
具体实施方式
161.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
162.参考图1,本发明实施例提供了一种信贷催收短信判别系统,其具体包括:匹配模块1、去重模块2、样本库构建模块3、分词模块4、向量化模块5、训练模块6和判别模块7。
163.进一步地,匹配模块1用于通过正则匹配,从所有短信文本中筛选出金融类文本;去重模块2用于根据文本相似度对金融类短信文本进行去重处理,得到第一短信文本样本;样本库构建模块3用于对第一短信文本样本进行标注,得到第二短信文本样本,建立样本库;分词模块4用于对第二短信文本样本进行分词处理,得到第三短信文本样本;向量化模块5用于对第三短信文本样本进行向量化,得到相对应的文本词向量;训练模块6用于将各个文本词向量与对应标注对齐后作为训练数据,得到分类模型;判别模块7用于对待判别短信文本进行数据处理,并输入至分类模型进行预测,得到判别结果。
164.本发明实施例公开了一种信贷催收短信判别系统,通过对短信文本样本标注建立样本库,然后对样本进行分词和向量化处理,得到文本词向量,将各个文本词向量与对应标注对齐后作为训练数据训练分类模型,最后利用分类模型对待判别短信文本进行预测判别。本发明实施例根据机器学习分类算法训练分类模型,对文本进行分类预测,优化了繁琐的人工分析和模板构建的过程,避免模板频繁修改,有效提高了对信贷催收短信判别的文本匹配效率,增强了分类的准确度。
165.与上述公开的一种信贷催收短信判别系统相对应,本发明实施例还公开了一种信贷催收短信判别方法。以下结合上述描述的一种信贷催收短信判别系统详细介绍本发明实
施例中公开的一种信贷催收短信判别方法。
166.参考图2,以下对本发明实施例提供的一种信贷催收短信判别方法的具体步骤进行描述。
167.由匹配模块1通过正则匹配,从所有短信文本中筛选出金融类文本。
168.参考图3,上述步骤具体包括:根据所有短信文本的内容得到金融类短信特征;基于金融类短信特征从已有数据库中匹配得到相应的特征短信文本;对特征短信文本进行数据清洗处理;利用清洗后的数据,分析文本的话术特点和结构特征,提取出不同类别短信文本的关键词;根据关键词进行正则匹配,筛选出金融类短信文本。
169.本发明实施例能够减少后续人工操作量以及训练集数据量,提高模型训练的效率。
170.由去重模块2根据文本相似度对金融类短信文本进行去重处理,得到第一短信文本样本。
171.参考图4,上述步骤具体包括:按照单个字符的维度,将金融类短信文本拆分成至少一个特征字符,并形成文本字符串;通过hash函数对每一个特征字符进行映射,对文本字符串中的每个特征字符计算对应的hash值,得到一个n位二进制的数字串,一般常用的位数为32、64、128;以特征字符的出现频率作为权重,对数字串进行加权处理,数字串相应位置是1的,权重取正,相应位置是0的,权重取负,得到加权数字串;将加权数字串的序列值进行累加,形成加权累加数字串;对加权累加数字串进行降维处理,将每一位大于0的数字取为1,将其余数字取为0,得到simhash值,其中,simhash属于一种局部敏感哈希算法,它产生的simhash值在一定程度上可以表征原内容;利用simhash值进行分区处理,按照键值对方式进行hashmap数据结构的索引构建;基于simhash值,计算待存入金融类短信文本与对应hashmap分区中已存入金融类短信文本之间的相似度,以simhash标签之间的汉明距离作为文本之间的相似度,其中,汉明距离指两个二进制串之间相同位置不同的个数;判断相似度是否达到预设阈值,该预设阈值为一个预设的汉明距离;若相似度未达到预设阈值,则将待存入金融类短信文本作为第一短信文本样本保留;若相似度达到预设阈值,则将待存入金融类短信文本舍弃。
172.本发明实施例通过上述文本相似性算法去除金融类短信文本中相似度过高的短信文本,解决了样本库中样本相似度过高的问题,使得同样的样本规模可以覆盖更广的样本特征,提高了后续运算和训练的效率。
173.由样本库构建模块3对第一短信文本样本进行标注,得到第二短信文本样本,建立样本库。
174.上述步骤具体包括:人工判断第一短信文本样本是否是信贷催收类短信,将信贷催收类的短信标注为1,非信贷催收类短信则标注为0,得到第二短信文本样本,以标注后的文本构建一个规模为两万左右的样本库,保证两种标签的数据比例大抵为一比一。
175.本发明实施例通过标注后的样本构建样本库,为后续的分词、向量化和训练过程提供数据支持,同时控制样本库中的信贷催收类短信的比例,从而保证判别模型的训练效果。
176.由分词模块4对第二短信文本样本进行分词处理,得到第三短信文本样本。
177.参考图5,上述步骤具体包括:利用停用词库和自定义词库,对第二短信文本样本
进行第一分词处理,得到第一分词结果,第一分词结果中包括若干个第一短语,第一短语之间由空格隔开;计算述第一分词结果中每个第一短语的第一tf-idf值,其中,tf-idf(term frequency

inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗;tf-idf有两层意思,一层是"词频"(term frequency,缩写为tf),另一层是"逆文档频率"(inverse document frequency,缩写为idf);判断第一tf-idf值是否超过第一预设分词阈值;若第一tf-idf值超过第一预设分词阈值,则将第一短语作为停用词加入停用词库;若第一tf-idf值未超过第一预设分词阈值,则根据第一分词结果判断是否存在自定义词未被区分,其中,自定义词一般为分词工具难以自动区分的与金融主题相关的专用词;根据第一分词结果判断是否存在自定义词未被区分;若第一分词结果中存在自定义词未被区分,则向自定义词库中添加该自定义词并提高该自定义词的分词权重,利用更新后的停用词库和自定义词库,对第二短信文本样本进行第二分词处理,得到第三短信文本样本。若第一分词结果中不存在自定义词未被区分,则直接利用第一分词结果,得到第三短信文本样本。
178.本发明实施例通过上述分词方法去除了无意义的词并且保证区分出与信贷催收相关的专用词,并根据分词结果不断更新停用词库和自定义词库。相对于现有常规分词方法,本发明实施例具备迭代性和自优化性,分词结果更加简洁并保证了相关领域词的区分。
179.由向量化模块5对第三短信文本样本进行向量化,得到相对应的文本词向量。
180.参考图6,上述步骤具体包括:利用第三短信文本样本,得到第一矩阵,该第一矩阵为迭代词的one-hot编码矩阵;根据第三短信文本样本的分词总数和词向量维度,构建第一中心词矩阵和第一上下文矩阵,上述第一中心词矩阵通过将所有词映射到一个d维空间构成形状为v*d的映射矩阵并对迭代词进行映射得到;利用第一矩阵与第一中心词矩阵进行第一矩阵乘法运算,得到第二中心词矩阵;利用第二中心词矩阵与第一上下文矩阵进行第二矩阵乘法运算,得到第一内积矩阵;对第一内积矩阵进行softmax归一化处理,其中,softmax归一化函数能将一个含任意实数的k维向量z“压缩”到另一个k维实向量中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1;利用归一化处理结果对第一中心词矩阵和第一上下文矩阵进行调整,上述归一化结果代表迭代词与相对应的词的相关性,通过神经网络中的反向传播算法对第一中心词矩阵和第一上下文矩阵进行调节,使得迭代词和迭代词上下文的词相关性尽量大,将所有分词作为迭代词进行遍历,逐渐实现模型的损失函数最小化,得到第一向量化模型;将第三短信文本样本输入至第一向量化模型中,得到各个文本第一分词词向量;对各个文本第一分词词向量进行求和,并利用求和结果进行平均,得到文本词向量。
181.本发明实施例使用基于文本上下文语境的word2vec的skip-gram模型,其中,word2vec是用来产生词向量的相关模型,该模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本,并且需猜测相邻位置的输入词,训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层,上述skip-gram模型是word2vec中的一种,其基本原理是用当前词预测上下文的词。通过上述方法,本发明实施例能够更加科学准确地对文本进行向量化表示。
182.由训练模块6将各个文本词向量与对应标注对齐后作为训练数据,得到分类模型。
183.上述步骤具体包括:将向量化后的短信文本与对应的人工标注进行对齐;将对齐
后的向量作为训练数据输入至逻辑回归模型进行训练;该逻辑回归模型采用梯度下降法进行拟合并求得最优解,同时利用l2作为正则项,用于调节过拟合问题,最终到训练完成的分类模型。
184.由判别模块7对待判别短信文本进行数据处理,并输入至分类模型进行预测,得到判别结果。
185.参考图7,上述步骤具体包括:对待判别短信文本进行分词处理,得到待判别分词结果;对待判别分词结果进行向量化,得到待判别文本向量;将待判别文本向量输入至分类模型中,预测待判别短信文本是否为信贷催收类短信文本;若待判别短信文本为信贷催收类短信文本,则判别结果为1;若待判别短信文本为非信贷催收类短信文本,则判别结果为0。
186.进一步地,参考图8,上述对待判别短信文本进行分词处理,得到待判别分词结果,具体包括:利用停用词库和自定义词库,对待判别短信文本进行第三分词处理,得到第三分词结果,第三分词结果包括至少一个第二短语,第二短语之间由空格隔开;计算出第三分词结果中每个第二短语的第二tf-idf值;判断第二tf-idf值是否超过第二预设分词阈值;若第二tf-idf值超过第二预设分词阈值,则将第二短语作为停用词加入停用词库;根据第三分词结果判断是否存在自定义词未被区分;若第二tf-idf值未超过第二预设分词阈值,则直接根据第三分词结果判断是否存在自定义词未被区分;若第三分词结果中存在自定义词未被区分,则向自定义词库中添加该自定义词并提高该自定义词的分词权重;利用更新后的停用词库和自定义词库,对待判别短信文本进行第四分词处理,得到待判别分词结果;若第三分词结果中不存在自定义词未被区分,则直接利用第三分词结果,得到待判别分词结果;
187.进一步地,参考图9,上述对待判别分词结果进行向量化,得到待判别文本向量,具体包括:利用待判别分词结果,得到第二矩阵;根据待判别分词结果的分词总数和词向量维度,构建第三中心词矩阵和第二上下文矩阵;利用第二矩阵与第三中心词矩阵进行第三矩阵乘法运算,得到第四中心词矩阵;利用第四中心词矩阵与第二上下文矩阵进行第四矩阵乘法运算,得到第二内积矩阵;对第二内积矩阵进行归一化处理,并利用归一化处理结果对第三中心词矩阵和第二上下文矩阵进行调整,得到第二向量化模型;将待判别分词结果输入至第二向量化模型中,得到各个文本第二分词词向量;对各个文本第二分词词向量进行求和,并利用求和结果进行平均,得到待判别文本向量;
188.本发明实施例公开了一种信贷催收短信判别方法,该方法通过对短信文本样本标注建立样本库,然后对样本进行分词和向量化处理,得到文本词向量,将各个文本词向量与对应标注对齐后作为训练数据训练分类模型,最后利用分类模型对待判别短信文本进行预测判别。本发明实施例根据机器学习分类算法训练分类模型,对文本进行分类预测,优化了繁琐的人工分析和模板构建的过程,避免模板频繁修改,有效提高了对信贷催收短信判别的文本匹配效率,增强了分类的准确度。
189.另外,本发明实施例还提供了一种信贷催收短信判别设备,上述设备包括:处理器和存储器;
190.存储器用于存储一个或多个程序指令;
191.处理器,用于运行一个或多个程序指令,用以执行如上任一项所述的一种信贷催
收短信判别方法的步骤。
192.另外,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述一种信贷催收短信判别方法的步骤。
193.在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
194.可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
195.存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
196.其中,非易失性存储器可以是只读存储器(read-only memory,简称rom)、可编程只读存储器(programmable rom,简称prom)、可擦除可编程只读存储器(erasable prom,简称eprom)、电可擦除可编程只读存储器(electrically eprom,简称eeprom)或闪存。
197.易失性存储器可以是随机存取存储器(random access memory,简称ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,简称sram)、动态随机存取存储器(dynamic ram,简称dram)、同步动态随机存取存储器(synchronous dram,简称sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,简称ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,简称esdram)、同步连接动态随机存取存储器(synchlink dram,简称sldram)和直接内存总线随机存取存储器(direct rambus ram,简称drram)。
198.本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
199.本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
200.虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献