一种基于舆情监控的企业信用确定方法及装置与流程

2022-11-14 15:17:43 来源：中国专利 TAG：

1.本技术属于情绪识别技术领域，具体地讲，涉及一种基于舆情监控的企业信用确定方法及装置。

背景技术：

2.银行在给企业发放贷款时，必须要了解企业的经营状况，一般是通过财务报表等方式了解。但是，企业可能存在为了获得贷款而对财务报表造价的情况。如果财务报表的真实性无法得到保证，那么基于财务报表作出的结论的可靠性亦会出现问题。

技术实现要素：

3.本技术提供了一种基于舆情监控的企业信用确定方法及装置，以至少解决当前了解企业的经营状况只能通过财务报表作出结论的问题。
4.根据本技术的第一个方面，提供了一种基于舆情监控的企业信用确定方法，包括：
5.通过网络爬虫获取网络舆情中的关于企业的新闻文本信息；
6.对获取的新闻文本信息进行预处理生成预处理文件；
7.将预处理文件输入预先训练的机器学习模型中获得企业与信用水平的映射关系。
8.在一实施例中，对获取的新闻文本信息进行预处理生成预处理文件，包括：
9.将新闻文本信息转换为数字信息；
10.将数字信息以词汇为单位进行分割并去除代词、介词和停用词。
11.在一实施例中，基于舆情监控的企业信用确定方法还包括：
12.对选中的多个机器学习模型进行筛选；多个机器学习模型包括：svm模型、lgbm模型、cnn模型和lstm模型。
13.在一实施例中，对选中的多个机器学习模型进行筛选，包括：
14.分别训练svm模型、lgbm模型、cnn模型和lstm模型；
15.根据判断的准确正例个数计算svm模型、lgbm模型、cnn模型和lstm模型的精确率、召回率和f1值；
16.对比精确率、召回率和f1值确定综合表现最优的模型作为最终的机器学习模型。
17.在一实施例中，机器学习模型的训练过程包括：
18.根据获取的历史新闻文本信息建立训练集；
19.将训练集输入机器学习模型进行训练，以使机器学习模型从训练集中选出与企业信用或经营状况相关的信息。
20.在一实施例中，基于舆情监控的企业信用确定方法还包括：
21.应用实体提取技术从企业信用或经营状况相关的信息中获取实体；
22.根据获取的实体建立企业与信用水平的映射关系。
23.在一实施例中，基于舆情监控的企业信用确定方法还包括：
24.在机器学习模型的训练过程中，根据训练反馈的结果，通过粒子群算法对机器学
习模型进行参数调优；
25.将调优后的机器学习模型重新进行训练。
26.根据本技术的另一个方面，还提供了一种基于舆情监控的企业信用确定装置，包括：
27.信息爬取单元，用于通过网络爬虫获取网络舆情中的关于企业的新闻文本信息；
28.预处理单元，用于对获取的新闻文本信息进行预处理生成预处理文件；
29.企业信用评估单元，用于将预处理文件输入预先训练的机器学习模型中获得企业与信用水平的映射关系。
30.在一实施例中，预处理单元包括：
31.转换模块，用于将新闻文本信息转换为数字信息；
32.分词剔除模块，用于将数字信息以词汇为单位进行分割并去除代词、介词和停用词。
33.在一实施例中，基于舆情监控的企业信用确定装置还包括：
34.模型筛选单元，用于对选中的多个机器学习模型进行筛选；多个机器学习模型包括：svm模型、lgbm模型、cnn模型和lstm模型。
35.在一实施例中，模型筛选单元包括：
36.训练模块，用于分别训练svm模型、lgbm模型、cnn模型和lstm模型；
37.计算模块，用于根据判断的准确正例个数计算svm模型、lgbm模型、cnn模型和lstm模型的精确率、召回率和f1值；
38.对比模块，用于对比精确率、召回率和f1值确定综合表现最优的模型作为最终的机器学习模型。
39.在一实施例中，机器学习模型的训练过程包括：
40.根据获取的历史新闻文本信息建立训练集；
41.将训练集输入机器学习模型进行训练，以使机器学习模型从训练集中选出与企业信用或经营状况相关的信息。
42.在一实施例中，基于舆情监控的企业信用确定装置还包括：
43.实体提取模块，用于应用实体提取技术从企业信用或经营状况相关的信息中获取实体；
44.映射关系建立模块，用于根据获取的实体建立企业与信用水平的映射关系。
45.在一实施例中，基于舆情监控的企业信用确定装置还包括：
46.参数调优模块，用于在机器学习模型的训练过程中，根据训练反馈的结果，通过粒子群算法对机器学习模型进行参数调优；
47.重新训练模块，用于将调优后的机器学习模型重新进行训练。
48.本技术通过对网络上获取一些贷款企业的信息，来了解企业真实的经营状况。通过网络爬虫技术从网站获取庞大的文本资源，对文本资源进行预处理，处理后的数据用文本分类技术筛选出贷款企业的相关信息，最后用实体提取技术提取信息中关键信息，作为评估的重要依据，实现了真实客观地反映企业信用状况的技术效果。
附图说明
49.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
50.图1为本技术提供的基于舆情监控的企业信用确定方法。
51.图2为本技术实施例中对获取的新闻文本信息进行预处理生成预处理文件的方法流程图。
52.图3为本技术实施例中对选中的多个机器学习模型进行筛选的方法流程图。
53.图4为本技术实施例中机器学习模型的训练过程的流程图。
54.图5为本技术另一实施例中基于舆情监控的企业信用确定方法的流程图。
55.图6为本技术另一实施例中基于舆情监控的企业信用确定方法的流程图。
56.图7为本技术实施例中word2vec两种基本模型。
57.图8为本技术实施例中lstm记忆单元简易结构图。
58.图9为本技术实施例中初始化后的程序结果图。
59.图10为本技术实施例中隐性马尔可夫模型图。
60.图11为本技术提供的一种基于舆情监控的企业信用确定装置的结构框图。
61.图12为本技术实施例中预处理单元的结构框图。
62.图13为本技术实施例中模型筛选单元的结构框图。
63.图14为本技术实施例中一种电子设备的具体实施方式。
具体实施方式
64.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
65.针对背景技术中存在的问题，网络上最多的信息多是以文字的形式存储，所以要分析、处理这些信息要使用自然语言处理技术，研究人与计算机之间用自然语言进行有效通信的各种理论和方法。本技术中应用的主要有其中的文本分类技术和实体提取技术。文本分类技术的定义是按照一定的标准使用计算机等机器对文本数据集进行自动标记。文本分类在网络资源极大化发展的今天，在信息检索、数字图书馆、舆情分析、情感分析等各个应用领域都取得了长远的发展。而实体提取技术目的是识别语料中人名、地名、组织机构名等命名实体。在自然语言处理应用领域中，命名实体识别是信息检索、知识图谱、机器翻译、情感分析、问答系统等多项自然语言处理应用的基础任务。
66.根据本技术的一个方面，提供了一种基于舆情监控的企业信用确定方法，如图1所示，包括：
67.s101：通过网络爬虫获取网络舆情中的关于企业的新闻文本信息。
68.s102：对获取的新闻文本信息进行预处理生成预处理文件。
69.s103：将预处理文件输入预先训练的机器学习模型中获得企业信用或经营状况；
70.s104：根据企业信用或经营状况以及预先建立的企业与信用水平的映射关系确定企业的信用。
71.在一实施例中，对获取的新闻文本信息进行预处理生成预处理文件，如图2所示，包括：
72.s201：将新闻文本信息转换为数字信息。
73.s202：将数字信息以词汇为单位进行分割并去除代词、介词和停用词。
74.在一具体实施例中，首先通过网络爬虫获取文本信息。具体地，选择scrapy爬虫框架获取网络新闻信息，原因是scrapy爬虫框架技术成熟，应用场景广泛，具有并发性好，用户可以灵活地定制爬虫规则等优势。
75.其次，预处理主要分为文本分词、去停用词。因为文本信息是为了人类阅读而出现的，所以计算机并不能直接识别此类信息。通过一些文本预处理，将人类能够识别的文信息转换为数字信息。而又因为中文文本除了标点符号之外是连续的，需要应用技术手段将文本以词汇为单位分开，便于计算机识别。本发明使用jieba分词工具对文本数据进行分词，jieba分词工具是国内使用最广泛的分词工具。为解决jieba分词对于未登录词识别能力的不足，特添加了自定义词典，将其添加至jieba的默认词典中，主要是各个企业的名字、金融方面专有名词等。去停用词是指将原始文本经过分词后，去除其中对后续处理没有任何影响的词汇，如代词“你”、“我”、“他”、“那个”等，介词“在”、“为”、“让”等等。这些内容不但对于分类没有任何价值，还会影响分类的结果、降低关键词密度，所以要将其去除以便于更好的凸显文本特征。去停用词的算法是，对分词后的每个词语判断其是否属于停用词，若是停用词，则将其去除，不加入词语集合。互联网上已经有多个停用词表，本文将多种停用词表合并去重，构建出了一个适用于本文数据集的停用词表，主要包括标点符号、无意义字符、频率较高的单汉字，存放在一个名为“stopword.txt”的文件，以便后续随时更改。部分停用词表如表1所示：
76.表1
[0077][0078][0079]
文本是由词和短语构成的符号序列，而符号序列无法被数学模型识别，所以需要将符号形式转换成数值形式，也可以认为将其嵌入一个数学空间。具体地，选择word2vec模
型将文本信息转换为一个向量，因为word2vec模型自面世以来凭借着其技术成熟、能够快速运行、通用性好等一系列优点，成为现如今最广泛的词向量模型。word2vec两种基本模型如图7所示。cbow利用前后文词语来对中间词语进行预测，skip-gram则相反，利用中间的词语去预测前后文的词语。
[0080]
在一实施例中，基于舆情监控的企业信用确定方法还包括：
[0081]
对选中的多个机器学习模型进行筛选；多个机器学习模型包括：svm模型、lgbm模型、cnn模型和lstm模型。
[0082]
在一实施例中，对选中的多个机器学习模型进行筛选，如图3所示，包括：
[0083]
s301：分别训练svm模型、lgbm模型、cnn模型和lstm模型。
[0084]
s302：根据判断的准确正例个数计算svm模型、lgbm模型、cnn模型和lstm模型的精确率、召回率和f1值。
[0085]
s303：对比精确率、召回率和f1值确定综合表现最优的模型作为最终的机器学习模型。
[0086]
因为机器学习模型种类众多，从中选择四种具有代表性的机器学习模型，从中选择表现最好的模型作为分类模型，并对其进行调优。四种具有代表性的机器学习模型分别是支持向量机模型(svm)、梯度提升决策树模型(lgbm)、卷积神经网络模型(cnn)、长短记忆神经网络(lstm)。
[0087]
对比这四种模型的精确率、召回率和f1值得到四种模型的分类结果。其中，各指标计算公式如下所示。
[0088]
精确率(p)＝tp/(tp fp)
[0089]
召回率(r)＝tp/(tp fn)
[0090]
f1值＝(2
×
p
×
r)/(p r)
[0091]
tp(true positives)：被正确划分为正例个数；fp(false positives)：被错误划分为正例个数；fn(false negatives)：被错误地划分为负例的个数；tn(true negatives)：被正确地划分为负例的个数。其中精确率代表文本分类结果中正确程度，而召回率代表结果的完整程度，f1值则是综合考虑这两点。对比结果如表2所示：
[0092]
表2
[0093][0094]
在一具体实施例中，根据表2所示，显示长短记忆神经网络表现最好。长短记忆神经网络通过lstm单元对上文信息进行记忆，每个lstm单元由遗忘门、输入门和输出门组成。lstm记忆单元简易结构如图8所示。
[0095]
在一实施例中，如图4所示，机器学习模型的训练过程包括：
[0096]
s401：根据获取的历史新闻文本信息建立训练集。
[0097]
s402：将训练集输入机器学习模型进行训练，以使机器学习模型从训练集中选出与企业信用或经营状况相关的信息。
[0098]
在一实施例中，如图5所示，基于舆情监控的企业信用确定方法还包括：
[0099]
s501：应用实体提取技术从企业信用或经营状况相关的信息中获取实体。
[0100]
s502：根据获取的实体建立企业与信用水平的映射关系。
[0101]
在一具体实施例中，应用实体提取技术获取信息中的实体，如各个企业名，做了什么事，根据提取结果分析判断此事件是否会影响到此企业的信用水平与经营状况。具体是通过隐性马尔可夫模型(hmm)实现，是关于序列的概率模型，它假设数据存在一个潜藏的状态序列，这个状态序列具有马尔可夫链结构，通过这个状态序列去生成观测序列。隐性马尔可夫模型如图10所示。
[0102]
在一实施例中，如图6所示，基于舆情监控的企业信用确定方法还包括：
[0103]
s601：在机器学习模型的训练过程中，根据训练反馈的结果，通过粒子群算法对机器学习模型进行参数调优。
[0104]
s602：将调优后的机器学习模型重新进行训练。
[0105]
在一具体实施例中，通过粒子群算法(pso)对lstm进行参数调优，此算法来源于对鸟群的研究，科学家发现当鸟群中的某一只鸟发现食物丰富的地域时，会召唤其他的鸟一起来此觅食。于是将质量为零的粒子类比为鸟，当某个粒子在活动中找到最优值时，其他粒子会向着这个粒子聚集，最后pso算法会搜索到最优值。目前，pso因其易于实现且操作简单，在函数优化、机器学习模型训练等领域已被广泛应用。pso先设置许多随机粒子，而这些粒子只有两个属性：速度和位置，通过迭代更新每个粒子的速度和位置，找出最优解。
[0106][0107]
在上述公式中，w代表惯性因子。和代表粒子在当前时刻和下一时刻的将到达的位置和速度。和分别代表粒子在迭代过程中记录的最优位置和整个粒子群在迭代过程中的最优位置。c1、c2代表加速因子，2作为通常值。r1、r2是计算机自动生成的随机数，值取0到1之间。在初始化后，程序会如图9所示得到最终结果。
[0108]
基于同一发明构思，本技术实施例还提供了一种基于舆情监控的企业信用确定装置，可以用于实现上述实施例中所描述的方法，如下面实施例所述。由于该基于舆情监控的企业信用确定装置解决问题的原理与基于舆情监控的企业信用确定方法相似。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
[0109]
根据本技术的另一个方面，还提供了一种基于舆情监控的企业信用确定装置，如图11所示，包括：
[0110]
信息爬取单元1101，用于通过网络爬虫获取网络舆情中的关于企业的新闻文本信息；
[0111]
预处理单元1102，用于对获取的新闻文本信息进行预处理生成预处理文件；
[0112]
企业信用评估单元1103，用于将预处理文件输入预先训练的机器学习模型中获得
企业与信用水平的映射关系。
[0113]
在一实施例中，如图12所示，预处理单元1102包括：
[0114]
转换模块1201，用于将新闻文本信息转换为数字信息；
[0115]
分词剔除模块1202，用于将数字信息以词汇为单位进行分割并去除代词、介词和停用词。
[0116]
在一实施例中，基于舆情监控的企业信用确定装置还包括：
[0117]
模型筛选单元，用于对选中的多个机器学习模型进行筛选；多个机器学习模型包括：svm模型、lgbm模型、cnn模型和lstm模型。
[0118]
在一实施例中，如图13所示，模型筛选单元包括：
[0119]
训练模块1301，用于分别训练svm模型、lgbm模型、cnn模型和lstm模型；
[0120]
计算模块1302，用于根据判断的准确正例个数计算svm模型、lgbm模型、cnn模型和lstm模型的精确率、召回率和f1值；
[0121]
对比模块1303，用于对比精确率、召回率和f1值确定综合表现最优的模型作为最终的机器学习模型。
[0122]
在一实施例中，机器学习模型的训练过程包括：
[0123]
根据获取的历史新闻文本信息建立训练集；
[0124]
将训练集输入机器学习模型进行训练，以使机器学习模型从训练集中选出与企业信用或经营状况相关的信息。
[0125]
在一实施例中，基于舆情监控的企业信用确定装置还包括：
[0126]
实体提取模块，用于应用实体提取技术从企业信用或经营状况相关的信息中获取实体；
[0127]
映射关系建立模块，用于根据获取的实体建立企业与信用水平的映射关系。
[0128]
在一实施例中，基于舆情监控的企业信用确定装置还包括：
[0129]
参数调优模块，用于在机器学习模型的训练过程中，根据训练反馈的结果，通过粒子群算法对机器学习模型进行参数调优；
[0130]
重新训练模块，用于将调优后的机器学习模型重新进行训练。
[0131]
本技术的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式，参见图14，所述电子设备具体包括如下内容：
[0132]
处理器(processor)1401、内存1402、通信接口(communications interface)1403、总线1404和非易失性存储器1405；
[0133]
其中，所述处理器1401、内存1402、通信接口1403通过所述总线1404完成相互间的通信；
[0134]
所述处理器1401用于调用所述内存1402和非易失性存储器1405中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：
[0135]
s101：通过网络爬虫获取网络舆情中的关于企业的新闻文本信息。
[0136]
s102：对获取的新闻文本信息进行预处理生成预处理文件。
[0137]
s103：将预处理文件输入预先训练的机器学习模型中获得企业与信用水平的映射关系。
[0138]
本技术的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：
[0139]
s101：通过网络爬虫获取网络舆情中的关于企业的新闻文本信息。
[0140]
s102：对获取的新闻文本信息进行预处理生成预处理文件。
[0141]
s103：将预处理文件输入预先训练的机器学习模型中获得企业与信用水平的映射关系。
[0142]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，
所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种机电管理MCU固件烧录方法和系统与流程

一种基于舆情监控的企业信用确定方法及装置与流程

相关文献

最热文献