一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信贷催收短信判别方法、系统、设备及存储介质与流程

2022-11-19 14:51:27 来源:中国专利 TAG:

技术特征:
1.一种信贷催收短信判别方法,其特征在于,所述方法包括:对第一短信文本样本进行标注,得到第二短信文本样本,建立样本库;对所述第二短信文本样本进行分词处理,得到第三短信文本样本;对所述第三短信文本样本进行向量化,得到相对应的文本词向量;将各个文本词向量与对应标注对齐后作为训练数据,得到分类模型;对待判别短信文本进行数据处理,并输入至所述分类模型进行预测,得到判别结果。2.如权利要求1所述的一种信贷催收短信判别方法,其特征在于,对所述第二短信文本样本进行分词处理,得到第三短信文本样本,包括:利用停用词库和自定义词库,对所述第二短信文本样本进行第一分词处理,得到第一分词结果,所述第一分词结果包括至少一个第一短语,第一短语之间由空格隔开;计算出所述第一分词结果中每个第一短语的第一tf-idf值;判断所述第一tf-idf值是否超过第一预设分词阈值;若第一tf-idf值超过第一预设分词阈值,则将所述第一短语作为停用词加入停用词库;根据所述第一分词结果判断是否存在自定义词未被区分;若所述第一分词结果中存在所述自定义词未被区分,则向自定义词库中添加该自定义词并提高该自定义词的分词权重;利用更新后的停用词库和自定义词库,对所述第二短信文本样本进行第二分词处理,得到第三短信文本样本。3.如权利要求2所述的一种信贷催收短信判别方法,其特征在于,对所述第三短信文本样本进行向量化,得到相对应的文本词向量,包括:利用所述第三短信文本样本,得到第一矩阵;根据所述第三短信文本样本的分词总数和词向量维度,构建第一中心词矩阵和第一上下文矩阵;利用所述第一矩阵与所述第一中心词矩阵进行第一矩阵乘法运算,得到第二中心词矩阵;利用所述第二中心词矩阵与所述第一上下文矩阵进行第二矩阵乘法运算,得到第一内积矩阵;对所述第一内积矩阵进行归一化处理,并利用归一化处理结果对所述第一中心词矩阵和所述第一上下文矩阵进行调整,得到第一向量化模型;将所述第三短信文本样本输入至所述第一向量化模型中,得到各个文本第一分词词向量;对各个文本第一分词词向量进行求和,并利用求和结果进行平均,得到文本词向量。4.如权利要求3所述的一种信贷催收短信判别方法,其特征在于,对待判别短信文本进行数据处理,并输入至所述分类模型进行预测,得到判别结果,包括:对所述待判别短信文本进行分词处理,得到待判别分词结果;对所述待判别分词结果进行向量化,得到待判别文本向量;将所述待判别文本向量输入至所述分类模型中,预测所述待判别短信文本是否为信贷催收类短信文本;
若所述待判别短信文本为信贷催收类短信文本,则所述判别结果为1;若所述待判别短信文本为非信贷催收类短信文本,则所述判别结果为0。5.如权利要求4所述的一种信贷催收短信判别方法,其特征在于,对所述待判别短信文本进行分词处理,得到待判别分词结果,包括:利用停用词库和自定义词库,对所述待判别短信文本进行第三分词处理,得到第三分词结果,所述第三分词结果包括至少一个第二短语,第二短语之间由空格隔开;计算出所述第三分词结果中每个第二短语的第二tf-idf值;判断第二tf-idf值是否超过第二预设分词阈值;若第二tf-idf值超过第二预设分词阈值,则将所述第二短语作为停用词加入停用词库;根据所述第三分词结果判断是否存在自定义词未被区分;若第二tf-idf值未超过第二预设分词阈值,则直接根据所述第三分词结果判断是否存在自定义词未被区分;若所述第三分词结果中存在所述自定义词未被区分,则向自定义词库中添加该自定义词并提高该自定义词的分词权重;利用更新后的停用词库和自定义词库,对所述待判别短信文本进行第四分词处理,得到待判别分词结果;若所述第三分词结果中不存在所述自定义词未被区分,则直接利用第三分词结果,得到待判别分词结果。6.如权利要求5所述的一种信贷催收短信判别方法,其特征在于,对所述待判别分词结果进行向量化,得到待判别文本向量,包括:利用所述待判别分词结果,得到第二矩阵;根据所述待判别分词结果的分词总数和词向量维度,构建第三中心词矩阵和第二上下文矩阵;利用所述第二矩阵与所述第三中心词矩阵进行第三矩阵乘法运算,得到第四中心词矩阵;利用所述第四中心词矩阵与所述第二上下文矩阵进行第四矩阵乘法运算,得到第二内积矩阵;对所述第二内积矩阵进行归一化处理,并利用归一化处理结果对所述第三中心词矩阵和所述第二上下文矩阵进行调整,得到第二向量化模型;将所述待判别分词结果输入至所述第二向量化模型中,得到各个文本第二分词词向量;对各个文本第二分词词向量进行求和,并利用求和结果进行平均,得到待判别文本向量。7.如权利要求1至6中任一项所述的一种信贷催收短信判别方法,其特征在于,在对第一短信文本样本进行标注得到第二短信文本样本之前,所述方法还包括:通过正则匹配,从所有短信文本中筛选出金融类短信文本;根据文本相似度对所述金融类短信文本进行去重处理,得到所述第一短信文本样本。8.一种信贷催收短信判别系统,其特征在于,所述系统包括:匹配模块,用于通过正则匹配,从所有短信文本中筛选出金融类短信文本;去重模块,用于根据文本相似度对所述金融类短信文本进行去重处理,得到第一短信
文本样本;样本库构建模块,用于对所述第一短信文本样本进行标注,得到第二短信文本样本,建立样本库;分词模块,用于对所述第二短信文本样本进行分词处理,得到第三短信文本样本;向量化模块,用于对所述第三短信文本样本进行向量化,得到相对应的文本词向量;训练模块,用于将各个文本词向量与对应标注对齐后作为训练数据,得到分类模型;判别模块,用于对待判别短信文本进行数据处理,并输入至所述分类模型进行预测,得到判别结果。9.一种信贷催收短信判别设备,其特征在于,所述设备包括:处理器和存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1至7中任一项所述的一种信贷催收短信判别方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种信贷催收短信判别方法的步骤。

技术总结
本发明实施例公开了一种信贷催收短信判别方法、系统、设备及存储介质,通过对短信文本样本标注建立样本库,然后对样本进行分词和向量化处理,得到文本词向量,将各个文本词向量与对应标注对齐后作为训练数据训练分类模型,最后利用分类模型对待判别短信文本进行预测判别。本发明实施例根据机器学习分类算法训练分类模型,对文本进行预测,优化了繁琐的人工分析和模板构建的过程,避免模板频繁修改,有效提高了对信贷催收短信判别的文本匹配效率,增强了分类的准确度。增强了分类的准确度。增强了分类的准确度。


技术研发人员:邓超 胡栩喆
受保护的技术使用者:联洋国融(上海)科技有限公司
技术研发日:2022.08.30
技术公布日:2022/11/18
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献