一种风险信息确定方法、装置、设备及存储介质与流程

2022-02-22 08:52:25 来源：中国专利 TAG：

1.本发明实施例涉及数据处理技术领域，尤其涉及一种风险信息确定方法、装置、设备及存储介质。

背景技术：

2.随着我国市场经济的迅速发展和国际化水平的不断提高，各大企业面临的国内外的竞争压力越来越大。为了保证企业的长足发展，需要提前预判企业在未来可能面临的风险，以便企业的决策者能够及时规避潜在的风险。
3.在实现本发明的过程中，发明人发现现有技术中存在以下技术问题：现有的风险信息确定方案的确定精度较低。

技术实现要素：

4.本发明实施例提供了一种风险信息确定方法、装置、设备及存储介质，以实现在投行业务中准确确定目标企业的风险信息的效果。
5.第一方面，本发明实施例提供了一种风险信息确定方法，可以包括：
6.获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据；
7.针对每个舆情文本数据，基于投行业务风控词典对舆情文本数据进行分词，并对分词结果进行向量化，得到舆情特征向量；
8.将舆情特征向量输入至已训练完成的舆情分类模型中，根据舆情分类模型的输出结果，确定目标企业的风险信息；
9.其中，在投行业务风控词典中存储有隶属于投行业务风控类别的多个投行业务风控词汇，投行业务风控类别包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个。
10.第二方面，本发明实施例还提供了一种风险信息确定装置，可以包括：
11.舆情文本数据获取模块，用于获取预先构建完成的投行业务风控词典以及目标企业的舆情文本数据；
12.舆情特征向量得到模块，用于针对每个舆情文本数据，基于投行业务风控词典对舆情文本数据进行分词，并对分词结果进行向量化，得到舆情特征向量；
13.风险信息确定模块，用于将舆情特征向量输入至已经训练完成的舆情分类模型中，根据舆情分类模型的输出结果，确定目标企业的风险信息；
14.其中，在投行业务风控词典中存储有隶属于投行业务风控类别的多个投行业务风控词汇，投行业务风控类别包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个。
15.第三方面，本发明实施例还提供了一种风险信息确定设备，可以包括：
16.一个或多个处理器；
17.存储器，用于存储一个或多个程序；
18.当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例所提供的风险信息确定方法。
19.第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明任意实施例所提供的风险信息确定方法。
20.本发明实施例的技术方案，通过获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据，该投行业务风控词典中记载有隶属于投行业务风控类别的多个投行业务风控词汇，该投行业务风控类别可包括重大事项披露类别、召集持有人会议类别以及加入重点关注类别中的至少一个；针对每个舆情文本数据，基于投行业务风控词典对舆情文本数据进行分词，得到了舆情文本数据中与投行业务在风控实施方面强关联的分词结果，进而对分词结果进行向量化，得到能够被计算机程序理解和处理的舆情特征向量，由此降低了舆情文本数据的处理难度、减少了处理时间且提高了处理准确性；将舆情特征向量输入至已训练完成的舆情分类模型中，由于舆情分类模型的输出结果可以表示上述舆情文本数据是否能够表示目标企业在未来可能面临一定的风险、面临的风险是否严重等，因此根据输出结果可以确定目标企业的风险信息，这有助于目标企业的决策者基于风险信息及时规避潜在的风险，也有助于第三方基于风险信息为目标企业进行准确的风控预警。上述技术方案，通过投行业务风控词典对目标企业的舆情文本数据进行分析，由此达到了在投行业务中准确确定目标企业的风险信息的效果。
附图说明
21.图1是本发明实施例一中的一种风险信息确定方法的流程图；
22.图2是本发明实施例一中的一种风险信息确定方法中svm的分类示意图；
23.图3是本发明实施例二中的一种风险信息确定方法的流程图；
24.图4是本发明实施例三中的一种风险信息确定方法的流程图；
25.图5是本发明实施例四中的一种风险信息确定方法的流程图；
26.图6是本发明实施例五中的一种风险信息确定装置的结构框图；
27.图7是本发明实施例六中的一种风险信息确定设备的结构示意图。
具体实施方式
28.下面结合附图和实施例对本发明作进一步详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
29.实施例一
30.图1是本发明实施例一中提供的一种风险信息确定方法的流程图。本实施例可适用于在投行业务中根据目标企业的舆情文本数据确定其风险信息的情况。该方法可以由本发明实施例提供的风险信息确定装置来执行，该装置可由软件和/或硬件的方式实现，该装置可以集成在风险信息确定设备上，该设备可以是各种用户终端或是服务器。
31.参见图1，本发明实施例的方法具体包括如下步骤：
32.s110、获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据，其中，在投行业务风控词典中存储有隶属于投行业务风控类别的多个投行业务风控词汇，投行业
务风控类别包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个。
33.其中，投行业务风控词典可以是已预先构建完成的与投行业务在风控实施方面强关联的词典，其内可以存储有隶属于投行业务风控类别的多个投行业务风控词汇，该投行业务风控类别可以是根据实际的投行业务需求提出的类别，如重大事项披露类别、召集持有人会议类别和加入重点关注类别等。具体的，
34.重大事项披露类别可以是披露出重大事项的类别，如企业名称、经营方针和经营范围发生重大变化；如企业生产经营的外部条件发生重大变化或者产业或行业政策变化、重大灾害、特许经营权变化等；如企业涉及可能对其资产、负债、权益和经营成果产生重要影响的重大合同；如企业发生可能影响其偿债能力的资产抵押、质押、出售、转让、划转或报废；如企业发生未能清偿到期重大债务的违约情况，未能按照相关约定偿还债务；如企业发生大额赔偿责任或因赔偿责任影响正常生产经营且难以消除的；如企业因未能履行合同约定、产品质量存在问题、发生安全事故、履行担保责任等或是因履行赔偿责任影响企业正常生产经营且难以消除的事项；再如企业做出减资、合并、分立、解散及申请破产的决定，或依法进入破产程序、被责令关闭；等等，在此未做具体限定。在此基础上，可选的，隶属于重大事项披露类别的投行业务风控词汇可包括赔偿、违法、违约、处罚、查封、破产和扣押中的至少一个。
35.召集持有人会议类别可以是召集持有人会议的类别，如发行人发行的债务融资工具或其他境内外债券的本金或利息未能按照约定按期足额兑付；如发行人拟转移债务融资工具清偿义务；如发行人拟减资、合并、分立、解散，申请破产、被责令停产停业、被暂扣或者吊销许可证、暂扣或吊销执照；如发行人因拟进行的资产出售、转让、无偿划转、债务减免、会计差错更正、会计政策(因法律、行政法规或是国家统一的会计制度等要求变更的除外)等原因可能导致发行人净资产减少单次超过最近一期经审计净资产的10％或者24个月内累计超过净资产(以首次导致净资产减少行为发生时对应的最近一期经审计净资产为准)的10％，或者虽未达到上述指标，但对发行人营业收入、净利润、现金流、持续稳健经营等方面产生重大不利影响；再如拟解聘、变更受托管理人或变更涉及持有人权利义务的受托管理协议条款；等等，在此未做具体限定。在此基础上，可选的，隶属于召集持有人会议类别的投行业务风控词汇可包括转移、债务、出售、转让、变更、解聘和发行人中的至少一个。
36.加入重点关注类可以是需要重点关注的类别，如企业所处行业环境或政策发生重大变化，导致生产经营的外部条件或其他生产经营状况发生重大变化；如企业主营业务结构或业务模式发生重大变化，特别是有大规模新增投资计划，并可能对企业偿债能力产生重大不利影响的情况；如企业股权、经营权被委托管理，或涉及委托管理股权、经营权；如企业及企业法定代表人、董事、监事、高级管理人员、控股股东、实际控制人等涉嫌违法违规被有权机关调查、采取强制措施，受到刑事处罚、重大行政处罚或行政监管措施，或是存在严重失信行为、被列为失信被执行人、环保或安全生产领域失信单位等信用惩戒对象，可能影响偿债能力的；再如企业发生可能影响其偿债能力的资产被查封、扣押或冻结的情况；等等，在此未做具体限定。在此基础上，可选的，隶属于加入重点关注类别的投行业务风控词汇可以包括不合理，强制、刑事、监管、失信和冻结中的至少一个。
37.目标企业可以是存在风险信息确定需求的企业，如建立并定期更新的企业名单中
的企业。舆情文本数据可以是阐述目标企业的相关舆情的文本数据(textual data)，其可以是由各类外部媒体披露的文本数据、广大网民发表的文本数据等，在实际应用中可以通过文章、评论等多种形式进行展示。
38.s120、针对每个舆情文本数据，基于投行业务风控词典对该舆情文本数据进行分词，并对分词结果进行向量化，得到舆情特征向量。
39.其中，针对目标企业而言，获取到的其的舆情文本数据的数量可以是一个、两个或是多个，对各舆情文本数据分别进行处理。具体的，针对某个舆情文本数据，基于投行业务风控词典对其进行分词，得到舆情文本数据中与投行业务风控词典中记载的投行业务风控词汇一致的分词结果，由此可以通过这些分词结果表示舆情文本数据。示例性的，假设舆情文本数据是某某企业在过去一年内出现多次违约，因此该企业的多项产业被法院查封以偿还债务，在对该舆情文本数据进行分词后，得到的分词结果可以是违约、查封和债务。需要说明的，对舆情文本数据进行分词的好处在于，大部分的分类算法并不考虑词序信息，特征粒度为词粒度的分类准确性远好于字粒度，因此对舆情文本数据进行分词后可以提高后续的舆情分类模型的分类精度；与此同时，舆情文本数据中可能存在大量冗余或无用的信息，通过分词可以达到降维和信息提取的效果，由此提高了舆情文本数据的质量。
40.由于分词结果并非是计算机程序能够理解和处理的语言，因此在得到分词结果后，可以对该分词结果进行向量化，将其编码成能够被计算机程序理解和处理的舆情特征向量，由此忽略了舆情文本数据中的词序、句法和语法，仅是将其作为词汇集合，那么后续在将舆情特征向量输入到舆情分类模型时，达到了降低数据处理难度、减少数据处理时间并且提高数据处理准确性的效果。
41.s130、将舆情特征向量输入至已训练完成的舆情分类模型中，并根据舆情分类模型的输出结果，确定目标企业的风险信息。
42.其中，舆情分类模型可以是已训练完成的用于对输入到自身中的舆情特征向量(也是与该舆情特征向量对应的舆情文本数据)进行分类的模型，即可以用于从各舆情文本数据中筛选出具有风险提示价值的文本数据，因此根据舆情分类模型的输出结果可以确定相应的舆情文本数据是否能够表示出目标企业在未来可能面临一定的风险、面临的风险是否严重等。由此，在将舆情特征向量输入至舆情分类模型之后，根据舆情分类模型的输出结果可以确定目标企业的风险信息，该风险信息可以表示目标企业在未来是否会面临一定的风险、面临的风险是否严重等，在此未做具体限定。本步骤通过舆情分类模型对舆情文本数据进行自动分类，由此可以在很大程度上减少人工操作，进而降低了对人工操作的要求和人工操作的成本。
43.本发明实施例的技术方案，通过获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据，该投行业务风控词典中记载有隶属于投行业务风控类别的多个投行业务风控词汇，该投行业务风控类别可包括重大事项披露类别、召集持有人会议类别以及加入重点关注类别中的至少一个；针对每个舆情文本数据，基于投行业务风控词典对舆情文本数据进行分词，得到了舆情文本数据中与投行业务在风控实施方面强关联的分词结果，进而对分词结果进行向量化，得到能够被计算机程序理解和处理的舆情特征向量，由此降低了舆情文本数据的处理难度、减少了处理时间且提高了处理准确性；将舆情特征向量输入至已训练完成的舆情分类模型中，由于舆情分类模型的输出结果可以表示上述舆情文本
数据是否能够表示目标企业在未来可能面临一定的风险、面临的风险是否严重等，因此根据输出结果可以确定目标企业的风险信息，这有助于目标企业的决策者基于风险信息及时规避潜在的风险，也有助于第三方基于风险信息为目标企业进行准确的风控预警。上述技术方案，通过投行业务风控词典对目标企业的舆情文本数据进行分析，由此达到了在投行业务中准确确定目标企业的风险信息的效果。
44.一种可选的技术方案，上述风险信息确定方法，还可以包括：获取各样本企业的训练样本，其中每个训练样本包括样本企业的舆情样本数据和舆情样本数据的风险类别；分别获取各舆情样本数据中隶属于投行业务风控类别的投行业务风控词汇，基于各投行业务风控词汇对各舆情样本数据分别进行更新，并且构建得到投行业务风控词典；针对每个训练样本，对训练样本中的舆情样本数据进行向量化，并根据向量化结果更新舆情样本数据；基于各训练样本对原始分类模型进行训练，得到舆情分类模型。
45.其中，样本企业可以是在模型训练过程中涉及到的企业，其的数量可以是一个、两个或是多个，在此未做具体限定。舆情样本数据可以是阐述样本企业的相关舆情的文本数据，其实质含义与舆情文本数据相同，这里只是为了区分模型训练阶段和模型应用阶段而设置的不同名称；风险类别可以是为舆情样本数据设置的用于表示舆情样本数据是否能够表示样本企业在未来可能面临一定的风险、面临的风险是否严重等的标签。将舆情样本数据和风险类别作为一组训练样本，每个样本企业的训练样本的数量可以是一个、两个或是多个，在此未做具体限定。进一步，从各舆情样本数据中分别获取属于投行业务风控类别的投行业务风控词汇，基于这些投行业务风控词汇对各舆情样本数据分别进行更新，即针对每个舆情样本数据，将其中的投行业务风控词汇作为该舆情样本数据；同时，还可以基于这些投行业务风控词汇构建得到投行业务风控词典。再进一步，针对每个训练样本，可以对该训练样本中的舆情样本数据进行向量化，并根据向量化结果更新舆情样本数据，即此时的训练样本包括向量化结果和风险类别，由此可以基于各个训练样本对原始分类模型进行训练，得到舆情分类模型，其中的原始分类模型可以是待训练的能够实现分类功能的模型，如支持向量机(support vector machine，svm)、长短期记忆网络(long short-term memory，lstm)模型等，在此未做具体限定。
46.在此基础上，可选的，风险类别包括无用风险类别、一般风险类别或重大风险类别，其中，无用风险类别可以是当舆情样本数据无法表示出样本企业在未来是否会面临一定的风险时而设置的标签，一般风险类别可以是当舆情样本数据能够表示出样本企业在未来可能面临一般风险时而设置的标签，重大风险类别可以是当舆情样本数据能够表示出样本企业在未来可能面临重大风险时而设置的标签。为了训练出能够进行三分类的舆情分类模型，基于各训练样本对原始分类模型进行训练，可以包括：将风险类别为无用风险类别的训练样本作为无用训练样本，风险类别为一般风险类别的训练样本作为一般训练样本，并且风险类别为重大风险类别的训练样本作为重大训练样本；以无用训练样本为无用正样本，并且以一般训练样本和重大训练样本为无用负样本，对原始分类模型进行训练；以一般训练样本为一般正样本，且以无用训练样本和重大训练样本为一般负样本，对原始分类模型进行训练；以重大训练样本为重大正样本，并且以无用训练样本和一般训练样本为重大负样本，对原始分类模型进行训练。在基于上述步骤训练得到舆情分类模型后，其在模型应用阶段可以输出各类别的置信度，然后将最大的置信度对应的类别作为输出结果。
47.再可选的，投行业务风控词典还可通过如下步骤预先构建得到：分别获取每个舆情样本数据所属的投行业务风控类别，并将属于同一投行业务风控类别的各舆情样本数据划分到同一舆情样本集合中；获取待分类词汇，并分别确定待分类词汇和各舆情样本集合间的相似度，根据各相似度确定是否将待分类词汇划分到各舆情样本集合中的一个；若是，则将待分类词汇作为投行业务风控词汇，添加到投行业务风控词典中。其中，舆情样本集合中的各舆情样本数据所属的投行业务风控类别相同，即这些舆情样本数据之间具有一定的相似度。待分类词汇可以是待确定是否将其划分到某个投行业务风控类别下的词汇，其可以是与投行业务在风控实施方面有关的词汇，也可以不是，在此并未做具体限定。分别确定待分类词汇和各舆情样本集合间的相似度，针对每个舆情样本集合，如根据待分类词汇在该舆情样本集合中的出现频次确定相似度，再如将待分类词汇和该舆情样本集合中高频次出现的舆情样本词汇间的相似度作为待分类词汇和该舆情样本集合间的相似度，等等。进而，可以根据各相似度确定是否将待分类词汇划分到各舆情样本集合中的某一个，如在最小的相似度大于第一预设相似度阈值时，可以将待分类词汇划分到与最大的相似度对应的舆情样本集合中；再如，假设每个舆情样本集合分别对应有各自的第二预设相似度阈值，那么可以将待分类词汇划分到与大于第二预设相似度阈值的相似度对应的舆情样本集合中；等等。显然，在上述技术方案中，待分类词汇有可能会被划分到某舆情样本集合中，也有可能不被划分到任一的舆情样本集合中，因此由此可以确定是否将待分类词汇作为投行业务风控词汇以添加到投行业务风控词典中，如某待分类词汇被划分到某舆情样本集合时，这说明该待分类词汇与投行业务风控词汇较为相似，其可以被添加到投行业务风控词典中，反之则不可以被添加到投行业务风控词典中。上述技术方案，可以自动且准确地确定某待分类词汇是否可以作为投行业务风控词汇添加到投行业务风控词典中，由此达到了自动且准确构建或是说扩充投行业务风控词典的效果。
48.为了更好地理解上述模型训练过程，下面以原始分类模型是svm为了进行示例性的说明。示例性的，svm在解决非线性及高维模式识别中表现出了许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中，是当下主流的分类算法。svm的基本思想是：定义最优线性超平面，并把寻找最优线性超平面的算法归结为求解最优化的问题，进而通过非线性映射，把样本空间映射到一个高维的特征空间，这使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。svm在让训练样本被正确分类的同时，又最小化了分类面的vc维；svm通过升维和线性化的方式达到了学习机器实际风险最小的目的，其结构风险最小化思想使svm具有较好的泛化能力。
49.(1)在此以二分类为例，对于线性可分，设训练样本为{xi,yi}，i＝1,
…
,l，其中，l是训练样本的数量，xi为向量化结果(后文将其称为样本)，yi∈{-1, 1}作为标签，设有一个超平面可以把这两类样本分开，该超平面方程为：w＠x b＝0，式中的w为超平面的法向量，而为原点到超平面的垂直距离。令d

(d-)表示正(负)样本(支持向量)到超平面的最近距离，则间隔d＝d

d-，对于线性可分的情况，svm的主要任务就是寻找一个合适的超平面将两类分割开来，使得d最大，即分类间隔最大化。令h1,h2为支持向量所在的边界超平面：
50.51.合并得：
[0052][0053]
结合图2可知，原点到h1,h2的垂直距离分别为：所以
[0054]
最大化d，即最小化‖w‖，为方便计算，等同于最小化‖w‖2或这样就得到一个有限定条件的最优化问题：
[0055][0056]
为消除不等式约束，应用拉格朗日乘子法重新定义以上的最小化问题，这是一种将约束问题变为无约束优化问题的方法，揭示了条件极值的基本特性，同时是最优准则法的理论基础，于是我们可以得到原始拉格朗日函数：
[0057][0058]
其中α为拉格朗日乘子，都不小于0。
[0059]
分别对w和b求偏导，从而可得取到极值时，将其代入l(w,b,α)可得：
[0060][0061]
就这样，原问题变成一个对偶规划问题：
[0062][0063]
b则可以通过原始约束得到，我们将αi不为零所对应的样本成为支持向量(support vector,sv)。这样分类就可以用下面这个函数来对向量进行识别：
[0064][0065]
(2)svm的重要价值在于能够处理非线性问题，主要是利用核函数，基于mercer核展开定理，将线性支持向量机中的点积用非线性核函数替代。
[0066]
k(xi,xj)＝φ(xi)
·
φ(xj)
[0067]
这种内积运算是可以用原输入空间中的函数实现的。这种方法可以有效得到一个分线性变换的特征空间，通过定义合适的核函数，svm方法就能通过非线性映射函数将样本从原始的非线性可分的低维空间映射到高维特征空间(希尔伯特空间)，然后在高维空间中寻找最优分类超平面，即：
[0068][0069]
核函数就是为输入空间的非线性可分情形提供一个适当的非线性映射，使对应样本点在映射到特征空间中变为线性可分。
[0070]
实施例二
[0071]
图3是本发明实施例二中提供的一种风险信息确定方法的流程图。本实施例以上述各技术方案为基础进行优化。本实施例中，可选的，对分词结果进行向量化，得到舆情特征向量，可包括：针对每个投行业务风控词汇，根据分词结果确定投行业务风控词汇在舆情文本数据中的出现数据；根据各投行业务风控词汇的出现数据，得到舆情特征向量。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。
[0072]
参见图3，本实施例的方法具体可以包括如下步骤：
[0073]
s210、获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据，其中，在投行业务风控词典中存储有隶属于投行业务风控类别的多个投行业务风控词汇，投行业务风控类别包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个。
[0074]
s220、针对每个舆情文本数据，基于投行业务风控词典对该舆情文本数据进行分词，得到分词结果。
[0075]
s230、针对每个投行业务风控词汇，根据分词结果确定投行业务风控词汇在舆情文本数据中的出现数据。
[0076]
其中，针对每个舆情文本数据，分词结果可以包括该舆情文本数据中包括的各投行业务风控词汇，因此针对每个投行业务风控词汇，根据分词结果可以确定该投行业务风控词汇在该舆情文本数据中的出现数据，其中出现数据可以是出现与否数据，其可以表示该投行业务风控词汇是否出现在该舆情文本数据；还可以是出现频次数据，其可以表示该投行业务风控词汇在该舆情文本数据中出现了几次；等等，在此未做具体限定。需要说明的是，相对于出现与否数据，出现频次数据可以提供更多的信息，这有助于提高后续的舆情分类模型的分类精度。示例性的，假设舆情文本数据是某某企业在过去一年内出现了多次违约，违约情况严重，因此该企业的多项产业被法院查封以偿还债务，并且投行业务风控词典包括变更、解聘、违约、查封和债务，以出现数据是出现频次数据为例，变更和解聘的出现数据均是0，查封和债务的出现数据均是1，违约的出现数据是2。
[0077]
s240、根据各投行业务风控词汇的出现数据，得到舆情特征向量。
[0078]
其中，舆情特征向量可以是根据每个投行业务风控词汇在舆情文本数据中的出现数据确定的。假设在投行业务风控词典中包括n个投行业务风控词汇，其中n是正整数，可以根据这n个投行业务风控词汇的出现数据得到舆情特征向量，此时的舆情特征向量是一个n维向量。
[0079]
示例性的，针对每个投行业务风控词汇，可以确定其在待得到的舆情特征向量中的向量维度，即确定其是对应于n维向量的n个向量维度下的哪个向量维度，进而该将投行业务风控词汇的出现数据作为该向量维度下的数值；根据每个投行业务风控词汇在与这一
投行业务风控词汇对应的向量维度下的数值，得到舆情特征向量。示例性的，继续以“变更和解聘的出现数据均是0，查封和债务的出现数据均是1，违约的出现数据是2”为例，假设变更对应于第1个向量维度，查封对应于第2个向量维度，债务对应于第3个向量维度，解聘对应于第4个向量维度，并且违约对应于第5个向量维度，那么舆情特征向量v可以表示为v＝(0,1,1,0,2)。
[0080]
s250、将舆情特征向量输入至已训练完成的舆情分类模型中，并根据舆情分类模型的输出结果，确定目标企业的风险信息。
[0081]
本发明实施例的技术方案，针对于每个投行业务风控词汇，通过分词结果确定投行业务风控词汇在舆情文本数据中的出现数据，进而根据每个投行业务风控词汇的出现数据，得到舆情特征向量，由此达到了准确得到舆情特征向量的效果。
[0082]
实施例三
[0083]
图4是本发明实施例三中提供的一种风险信息确定方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，舆情文本数据包括舆情文本语句，基于投行业务风控词典对舆情文本数据进行分词，可包括：针对每个舆情文本语句，将舆情文本语句拆分为舆情文本词汇；针对每个舆情文本词汇，将舆情文本词汇与记载在投行业务风控词典中的各投行业务风控词汇进行对比；如果根据对比结果确定舆情文本词汇属于各投行业务风控词汇，则将舆情文本词汇作为分词结果。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。
[0084]
参见图4，本实施例的方法具体可以包括如下步骤：
[0085]
s310、获取预先构建完成的投行业务风控词典和目标企业的舆情文本语句，其中，在投行业务风控词典中存储有隶属于投行业务风控类别的多个投行业务风控词汇，投行业务风控类别包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个。
[0086]
其中，舆情文本语句可以是阐述目标企业的相关舆情的文本语句，上文中的每个舆情文本数据可以包括至少一句舆情文本语句，如每篇文章中可以包括多句舆情文本语句，每条评论中可以包括至少一句舆情文本语句等。实际应用中，可选的，获取到的目标企业的舆情文本语句的句数可以是一句、两句或是多句，在此未做具体限定。
[0087]
s320、针对每个舆情文本语句，将舆情文本语句拆分为舆情文本词汇。
[0088]
其中，针对每个舆情文本语句，将其拆分为舆情文本词汇，其中舆情文本词汇是舆情文本语句中的一部分。示例性的，假设舆情文本语句是某某企业在过去一年内出现了多次违约，对其进行拆分后可以得到“某某企业”以及“在过去一年内出现了多次违约”，可以将“某某企业”以及“在过去一年内出现了多次违约”分别作为一个舆情文本词汇。
[0089]
s330、针对每个舆情文本词汇，将舆情文本词汇与记载在投行业务风控词典中的各投行业务风控词汇进行对比。
[0090]
其中，针对每个舆情文本词汇，将其与各投行业务风控词汇分别进行对比，确定各投行业务风控词汇中是否存在与舆情文本词汇一致的投行业务风控词汇。
[0091]
s340、如果根据对比结果确定舆情文本词汇属于各投行业务风控词汇，则将舆情文本词汇作为分词结果。
[0092]
其中，如果根据对比结果确定舆情文本词汇属于各投行业务风控词汇，即舆情文
本词汇是各投行业务风控词汇中的一个，则可以将该舆情文本词汇作为分词结果。
[0093]
在此基础上，可选的，如果根据对比结果确定舆情文本词汇不属于各投行业务风控词汇，即舆情文本词汇不是各投行业务风控词汇中的一个，则可以将舆情文本词汇作为舆情文本语句，并重复执行针对每个舆情文本语句的步骤，即对该舆情文本词汇再次进行拆分对比，由此有效保证了分词结果的准确得到。在此基础上，再可选的，在执行上述技术方案的过程中，如果舆情文本词汇中的舆情文本字的字数小于或是等于预设数量阈值，则停止对舆情文本词汇执行的拆分处理。其中，舆情文本词汇中包括至少一个舆情文本字，当舆情文本字较少时，即舆情文本词汇已经无法再次被拆分时，则可以停止对其的拆分处理，由此可以避免出现拆分过程迟迟无法停止的情况。
[0094]
s350、对分词结果进行向量化，得到舆情特征向量。
[0095]
s360、将舆情特征向量输入至已训练完成的舆情分类模型中，并根据舆情分类模型的输出结果，确定目标企业的风险信息。
[0096]
本发明实施例的技术方案，针对每个舆情文本语句，通过将其拆分为舆情文本词汇，然后针对每个舆情文本词汇，将其与各投行业务风控词汇分别进行对比，由此根据对比结果可以确定其是否属于各投行业务风控词汇中的一个，如果是则可以将舆情文本词汇作为分词结果，由此达到了分词结果的准确快速得到的效果。
[0097]
实施例四
[0098]
图5是本发明实施例四中提供的一种风险信息确定方法的流程图。本实施例以上述各技术方案为基础进行优化。本实施例中，可选的，在根据舆情分类模型的输出结果，确定目标企业的风险信息之后，上述风险信息确定方法，还可以包括：根据风险信息的信息类别确定是否对舆情文本数据进行推送；如果是，则根据信息类别确定舆情文本数据接收设备，并将舆情文本数据推送到舆情文本数据接收设备上。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。
[0099]
参见图5，本实施例的方法具体可以包括如下步骤：
[0100]
s410、获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据，其中，在投行业务风控词典中存储有隶属于投行业务风控类别的多个投行业务风控词汇，投行业务风控类别包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个。
[0101]
s420、针对每个舆情文本数据，基于投行业务风控词典对该舆情文本数据进行分词，并对分词结果进行向量化，得到舆情特征向量。
[0102]
s430、将舆情特征向量输入至已训练完成的舆情分类模型中，并根据舆情分类模型的输出结果，确定目标企业的风险信息。
[0103]
s440、根据风险信息的信息类别确定是否对舆情文本数据进行推送。
[0104]
其中，由于信息类别可以表示出目标企业在未来是否会面临一定的风险、面临的风险是否严重等，因此可以根据信息类别确定是否对舆情文本数据进行推送，由此能够仅推送那些需要推送的舆情文本数据，过滤掉那些无需推送的舆情文本数据，避免了无用的舆情文本数据对被推送对象造成干扰。
[0105]
在实际应用中，可选的，信息类别可以是无用风险类别、一般风险类别或重大风险类别，其中无用风险类别可以表示舆情文本数据无法反映出目标企业在未来是否会面临一
定的风险，一般风险类别可以表示舆情文本数据能够反映出目标企业在未来可能会面临不太严重的风险，而重大风险类别可以表示舆情文本数据能够反映出目标企业在未来可能会面临较为严重的风险。
[0106]
s450、如果是，则根据信息类别确定舆情文本数据接收设备，并将舆情文本数据推送到舆情文本数据接收设备上。
[0107]
其中，针对需要进行舆情文本数据推送的信息类别，不同的信息类别可以对应于不同的舆情文本数据接收设备，示例性的，继续以一般风险类别和重大风险类别为例，可以预先设置一般风险信息(即一般风险类别对应的风险信息)对应的舆情文本数据接收设备以及重大风险信息(即重大风险类别对应的风险信息)对应的舆情文本数据接收设备。
[0108]
进而，可以根据信息类别确定与其相应的舆情文本数据接收设备，以便将舆情文本数据或是风险信息推送到该舆情文本数据接收设备上。这样一来，当舆情文本数据接收设备归目标企业所有时，目标企业可以及时接收到能够预警自身可能面临风险的舆情文本数据，这有助于目标企业的决策者对后期的风控事态发展进行一个趋势分析，进而及时规避潜在的风险，由此满足了投行业务在风控预警方面的需求。
[0109]
本发明实施例的技术方案，通过风险信息的信息类别确定舆情文本数据能否起到风险提示的作用，若是则确定需要对舆情文本数据进行推送，那么可以根据信息类别确定舆情文本数据接收设备，并将舆情文本数据推送到舆情文本数据接收设备上，这使得舆情文本数据接收设备的归属方能够接收到具有风险提示作用的舆情文本数据，由此满足了投行业务在风控预警方面的需求，提升了风控预警效率。
[0110]
一种可选的技术方案，目标企业包括被投资企业，根据信息类别确定舆情文本数据接收设备，可以包括：根据信息类别确定待投资企业的舆情文本数据接收设备，其中待投资企业是待对被投资企业进行投资的企业，换言之，可以将具有风险提示作用的舆情文本数据发送给存在投资需求的待投资企业，以使其及时确定是否对存在融资需求的被投资企业进行投资，由此达到了为待投资企业提供高质量的风控服务的效果。
[0111]
实施例五
[0112]
图6为本发明实施例五提供的风险信息确定装置的结构框图，该装置用于执行上述任意实施例所提供的风险信息确定方法。该装置与上述各实施例的风险信息确定方法属于同一个发明构思，在风险信息确定装置的实施例中未详尽描述的细节内容，可以参考上述风险信息确定方法的实施例。如图6所示，该装置具体可以包括：舆情文本数据获取模块510、舆情特征向量得到模块520和风险信息确定模块530。其中，
[0113]
舆情文本数据获取模块510，用于获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据；
[0114]
舆情特征向量得到模块520，用于针对每个舆情文本数据，基于投行业务风控词典对舆情文本数据进行分词，并对分词结果进行向量化，得到舆情特征向量；
[0115]
风险信息确定模块530，用于将舆情特征向量输入至已经训练完成的舆情分类模型中，根据舆情分类模型的输出结果，确定目标企业的风险信息；
[0116]
其中，在投行业务风控词典中存储有隶属于投行业务风控类别的多个投行业务风控词汇，投行业务风控类别包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个。
[0117]
可选的，舆情特征向量得到模块520，可以包括：
[0118]
出现数据确定单元，用于针对每个投行业务风控词汇，根据分词结果确定投行业务风控词汇在舆情文本数据中的出现数据；
[0119]
舆情特征向量得到单元，用于根据各投行业务风控词汇的出现数据，得到舆情特征向量。
[0120]
在此基础上，可选的，舆情特征向量得到单元，具体可以用于：
[0121]
针对每个投行业务风控词汇，确定投行业务风控词汇在待得到的舆情特征向量中的向量维度，并将投行业务风控词汇的出现数据作为向量维度下的数值；
[0122]
根据各投行业务风控词汇在与投行业务风控词汇对应的向量维度下的数值，得到舆情特征向量。
[0123]
再可选的，出现数据包括出现频次数据。
[0124]
可选的，舆情文本数据包括舆情文本语句，舆情特征向量得到模块520，可以包括：
[0125]
舆情文本词汇拆分单元，用于针对每个舆情文本语句，将该舆情文本语句拆分为舆情文本词汇；
[0126]
词汇对比单元，用于针对每个舆情文本词汇，将该舆情文本词汇与记载在投行业务风控词典中的各投行业务风控词汇进行对比；
[0127]
分词结果得到单元，用于如果根据对比结果确定舆情文本词汇属于各投行业务风控词汇，则将舆情文本词汇作为分词结果。
[0128]
在此基础上，可选的，舆情特征向量得到模块520，还可以包括：
[0129]
舆情文本语句更新单元，用于在将舆情文本词汇与记载在投行业务风控词典中的各投行业务风控词汇进行对比后，如果根据对比结果确定舆情文本词汇不属于各投行业务风控词汇，则将舆情文本词汇作为舆情文本语句；
[0130]
舆情文本词汇再拆分单元，用于重复执行针对每个舆情文本语句的步骤。
[0131]
在此基础上，可选的，舆情特征向量得到模块520，还可以包括：
[0132]
舆情文本词汇停止拆分单元，用于若舆情文本词汇中的舆情文本字的字数小于或是等于预设数量阈值，则停止对舆情文本词汇执行的拆分处理。
[0133]
可选的，上述风险信息确定装置，还可以包括：
[0134]
舆情文本数据确定模块，用于在根据舆情分类模型的输出结果，确定目标企业的风险信息之后，根据风险信息的信息类别确定是否对舆情文本数据进行推送；
[0135]
舆情文本数据推送模块，用于如果是，则根据信息类别确定舆情文本数据接收设备，并将舆情文本数据推送到舆情文本数据接收设备上。
[0136]
在此基础上，可选的，目标企业是被投资企业，舆情文本数据推送模块，可以包括：
[0137]
舆情文本数据接收设备确定单元，用于根据信息类别确定待投资企业的舆情文本数据接收设备，其中待投资企业是待对被投资企业进行投资的企业。
[0138]
可选的，上述风险信息确定装置，还可以包括：
[0139]
训练样本获取模块，用于获取各样本企业的训练样本，其中每个训练样本包括样本企业的舆情样本数据和舆情样本数据的风险类别；
[0140]
投行业务风控词典构建模块，用于分别获取各舆情样本数据中隶属于投行业务风控类别的投行业务风控词汇，并基于各投行业务风控词汇对各舆情样本数据分别进行更
新，并且构建得到投行业务风控词典；
[0141]
舆情样本数据更新模块，用于针对每个训练样本，对训练样本中的舆情样本数据进行向量化，并根据向量化结果更新舆情样本数据；
[0142]
舆情分类模型得到模块，用于基于各训练样本对原始分类模型进行训练，得到舆情分类模型。
[0143]
在此基础上，可选的，风险类别包括无用风险类别、一般风险类别或重大风险类别；舆情分类模型得到模块，可以包括：
[0144]
训练样本得到单元，用于将风险类别为无用风险类别的训练样本作为无用训练样本，风险类别为一般风险类别的训练样本作为一般训练样本，风险类别为重大风险类别的训练样本作为重大训练样本；
[0145]
第一模型训练单元，用于以无用训练样本为无用正样本，并且以一般训练样本和重大训练样本为无用负样本，对原始分类模型进行训练；
[0146]
第二模型训练单元，用于以一般训练样本为一般正样本，并且以无用训练样本和重大训练样本为一般负样本，对原始分类模型进行训练；
[0147]
第三模型训练单元，用于以重大训练样本为重大正样本，并且以无用训练样本和一般训练样本为重大负样本，对原始分类模型进行训练。
[0148]
再可选的，投行业务风控词典还通过如下模块预先构建得到：
[0149]
舆情样本数据划分模块，用于分别获取每个舆情样本数据所属的投行业务风控类别，并将属于同一投行业务风控类别的各舆情样本数据划分到同一舆情样本集合中；
[0150]
待分类风控词划分模块，用于获取待分类词汇，分别确定待分类词汇和各舆情样本集合间的相似度，根据各相似度确定是否将待分类词汇划分到各舆情样本集合中的一个；
[0151]
待分类词汇添加模块，用于若是，则将待分类词汇作为投行业务风控词汇，添加到投行业务风控词典中。
[0152]
可选的，隶属于重大事项披露类别的投行业务风控词汇包括赔偿、违法、违约、处罚、查封、破产和扣押中的至少一个；和/或，
[0153]
隶属于召集持有人会议类别的投行业务风控词汇包括转移、债务、出售、转让、变更、解聘和发行人中的至少一个；和/或，
[0154]
隶属于加入重点关注类别的投行业务风控词汇包括不合理，强制、刑事、监管、失信和冻结中的至少一个。
[0155]
本发明实施例五所提供的风险信息确定装置，通过舆情文本数据获取模块获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据，投行业务风控词典中记载有隶属于投行业务风控类别的多个投行业务风控词汇，该投行业务风控类别可包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个；通过舆情特征向量得到模块针对每个舆情文本数据，基于投行业务风控词典对舆情文本数据进行分词，得到舆情文本数据中与投行业务在风控实施方面强关联的分词结果，进而对分词结果进行向量化，得到能够被计算机程序理解和处理的舆情特征向量，由此降低了舆情文本数据的处理难度、减少了处理时间且提高了处理准确性；通过风险信息确定模块将舆情特征向量输入至已训练完成的舆情分类模型中，由于舆情分类模型的输出结果可以表示上述舆情文本数
据是否能够表示目标企业在未来可能面临一定的风险、面临的风险是否严重等，因此根据输出结果可以确定目标企业的风险信息，这有助于目标企业的决策者基于风险信息及时规避潜在的风险，也是有助于第三方基于风险信息为目标企业进行准确的风控预警。上述装置，通过投行业务风控词典对目标企业的舆情文本数据进行分析，由此达到了在投行业务中准确确定目标企业的风险信息的效果。
[0156]
本发明实施例所提供的风险信息确定装置可执行本发明任意实施例所提供的风险信息确定方法，具备执行方法相应的功能模块和有益效果。
[0157]
值得注意的是，上述风险信息确定装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
[0158]
实施例六
[0159]
图7为本发明实施例六提供的一种风险信息确定设备的结构示意图，如图7所示，该设备包括存储器610、处理器620、输入装置630和输出装置640。设备中的处理器620的数量可以是一个或多个，图7中以一个处理器620为例；设备中的存储器610、处理器620、输入装置630和输出装置640可以通过总线或其它方式连接，图7中以通过总线650连接为例。
[0160]
存储器610作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的风险信息确定方法对应的程序指令/模块(例如，风险信息确定装置中的舆情文本数据获取模块510、舆情特征向量得到模块520和风险信息确定模块530)。处理器620通过运行存储在存储器610中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的风险信息确定方法。
[0161]
存储器610可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器610可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器610可进一步包括相对于处理器620远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0162]
输入装置630可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
[0163]
实施例七
[0164]
本发明实施例七提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种风险信息确定方法，该方法包括：
[0165]
获取预先构建完成的投行业务风控词典和目标企业的舆情文本数据；
[0166]
针对每个舆情文本数据，基于投行业务风控词典对舆情文本数据进行分词，并对分词结果进行向量化，得到舆情特征向量；
[0167]
将舆情特征向量输入至已训练完成的舆情分类模型中，根据舆情分类模型的输出结果，确定目标企业的风险信息；
[0168]
其中，在投行业务风控词典中存储有隶属于投行业务风控类别的多个投行业务风控词汇，投行业务风控类别包括重大事项披露类别、召集持有人会议类别和加入重点关注类别中的至少一个。
[0169]
当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的风险信息确定方法中的相关操作。
[0170]
通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。依据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0171]
注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于镜面反射和漫反射的欺骗检测的制作方法

一种风险信息确定方法、装置、设备及存储介质与流程

相关文献

最热文献