一种金融信息处理方法及装置与流程

2021-11-22 13:37:00 来源：中国专利 TAG：

1.本发明涉及信息处理技术领域，特别是涉及一种金融信息处理方法及装置。

背景技术：

2.基于深度学习所进行的各类识别，一直以来都是各种应用场景下解决大数据分析的重要工具。例如，图像、自然语言处理、风险预警等应用场景。金融风险预测常用基于金融数据的风险预测量化模型。
3.但是，现有的风险预测模型通常是基于单一维度的信息进行考量，不能进行全面、实时的预测，使得最终的预测模型可信度较差，从而对金融信息处理后会有滞后性，并降低了处理的准确性。

技术实现要素：

4.针对于上述问题，本发明提供一种金融信息处理方法及装置，实现了满足信息实时和全面处理的需求，并提升了信息处理的准确性。
5.为了实现上述目的，本发明提供了如下技术方案：
6.一种金融信息处理方法，包括：
7.响应于金融信息预测请求，获取与所述金融信息预测请求对应的金融数据以及网络信息；
8.对所述金融数据进行分析，获得冲击事件的时间序列；
9.对所述时间序列进行预测，得到第一预测结果；
10.对所述网络信息进行预处理，并将预处理后的网络信息输入至目标识别模型，获得第二预测结果；
11.利用联合分析模型对所述第一预测结果和所述第二预测结果进行处理，得到目标结果。
12.可选地，所述对所述金融数据进行分析，获得冲击事件的时间序列，包括：
13.获取所述金融数据中的高频数据；
14.对所述高频数据进行数据预处理，得到预处理后的数据，所述数据预处理包括数据清洗和数据整合；
15.对预处理后的数据进行筛选，获得冲击事件；
16.构建所述冲击事件的时间序列。
17.可选地，所述对所述网络信息进行预处理，包括：
18.对所述网络信息进行数据清洗，获得清洗后的数据，所述数据清洗包括合法值校验和去除空值以及异常值；
19.对清洗后的数据进行特征提取，获得数据特征。
20.可选地，所述方法还包括：
21.获取样本数据集，所述样本训练集为标注有情感指向标签的网络数据；
22.依据所述样本数据集进行训练，获得目标识别模型，所述目标识别模型为能够通过网络信息识别获得情感指向。
23.可选地，所述方法还包括：
24.基于所述目标结果对金融风险进行评级，获得评级信息，以使得通过所述评级信息确定与所述金融信息预测请求对应的处理模式。
25.一种金融信息处理装置，包括：
26.获取单元，用于响应于金融信息预测请求，获取与所述金融信息预测请求对应的金融数据以及网络信息；
27.分析单元，用于对所述金融数据进行分析，获得冲击事件的时间序列；
28.第一预测单元，用于对所述时间序列进行预测，得到第一预测结果；
29.第二预测单元，用于对所述网络信息进行预处理，并将预处理后的网络信息输入至目标识别模型，获得第二预测结果；
30.处理单元，用于利用联合分析模型对所述第一预测结果和所述第二预测结果进行处理，得到目标结果。
31.可选地，所述分析单元包括：
32.第一获取子单元，用于获取所述金融数据中的高频数据；
33.预处理子单元，用于对所述高频数据进行数据预处理，得到预处理后的数据，所述数据预处理包括数据清洗和数据整合；
34.筛选子单元，用于对预处理后的数据进行筛选，获得冲击事件；
35.构建子单元，用于构建所述冲击事件的时间序列。
36.可选地，所述第二预测单元包括：
37.数据清洗子单元，用于对所述网络信息进行数据清洗，获得清洗后的数据，所述数据清洗包括合法值校验和去除空值以及异常值；
38.提取子单元，用于对清洗后的数据进行特征提取，获得数据特征。
39.可选地，所述装置还包括：
40.样本获取单元，用于获取样本数据集，所述样本训练集为标注有情感指向标签的网络数据；
41.训练单元，用于依据所述样本数据集进行训练，获得目标识别模型，所述目标识别模型为能够通过网络信息识别获得情感指向。
42.可选地，所述装置还包括：
43.评级单元，用于基于所述目标结果对金融风险进行评级，获得评级信息，以使得通过所述评级信息确定与所述金融信息预测请求对应的处理模式。
44.相较于现有技术，本发明提供了一种金融信息处理方法及装置，包括：响应于金融信息预测请求，获取与金融信息预测请求对应的金融数据以及网络信息；对金融数据进行分析，获得冲击事件的时间序列；对时间序列进行预测，得到第一预测结果；对网络信息进行预处理，并将预处理后的网络信息输入至目标识别模型，获得第二预测结果；利用联合分析模型对第一预测结果和第二预测结果进行处理，得到目标结果。本发明通过对金融数据和网络信息进行分析，实现了基于全面的信息挖掘和利用，使得满足了信息实时和全面处理的需求，并提升了信息处理的准确性。
附图说明
45.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
46.图1为本发明实施例提供的一种金融信息处理方法的流程示意图；
47.图2为本发明实施例提供的一种金融信息处理架构的示意图；
48.图3为本发明实施例提供的一种金融信息处理装置的结构示意图。
具体实施方式
49.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
50.本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。
51.在本发明实施例中提供了一种金融信息处理方法，参见图1，该方法可以包括以下步骤：
52.s101、响应于金融信息预测请求，获取与所述金融信息预测请求对应的金融数据以及网络信息。
53.金融信息预测请求是指需要对金融信息进行处理的需求，如金融投资需求，风险预估需求等。不同的预测需求对应要分析的数据不同，本发明实施例中不仅对与预测请求对应的金融数据进行分析，还对相关的网络数据进行分析，其中网络数据主要是指来源于论坛、分析等平台的数据，但是这些网络数据是与预测请求关联的数据，例如是针对同一业务的数据。
54.s102、对所述金融数据进行分析，获得冲击事件的时间序列。
55.s103、对所述时间序列进行预测，得到第一预测结果。
56.在本发明实施例的一种实施方式中，所述对所述金融数据进行分析，获得冲击事件的时间序列，包括：
57.获取所述金融数据中的高频数据；
58.对所述高频数据进行数据预处理，得到预处理后的数据，所述数据预处理包括数据清洗和数据整合；
59.对预处理后的数据进行筛选，获得冲击事件；
60.构建所述冲击事件的时间序列。
61.具体的，获取金融市场交易信息的高频数据，进行数据清洗与数据整合。选取依据为：在事件期内有完整连续的交易数据、事件期内本身没有发生影响股价变动的重大事件(重组、分配股利、公布年报等)的公司股票。
62.通过构建冲击事件时间点前后一段时间的收益率的时间序列模型，分析金融市场下一步走势，预估接下来15分钟、30分钟、24小时或其他时间点后的收益率。将这些预估信息作为通过金融数据进行预测得到的第一预测结果。
63.s104、对所述网络信息进行预处理，并将预处理后的网络信息输入至目标识别模型，获得第二预测结果。
64.在本发明实施例中网络信息是采用网络爬虫，从网络论坛等网页获取评论类信息和新闻类信息，包括金融市场交易者的相关评论、相关金融事件新闻的点击量、浏览转发量等。
65.其中，目标识别模型是基于样本数据训练得到的。对于每一网页地址，爬取网页所含的帖子标题、对应涉及的股票、发帖时间等，分割数据集为训练集和测试集。从而利用目标识别模型识别到与网络信息对应的预测结果，该预测结果表征基于网络信息得到的情感指向信息，如，针对某个投资信息的看涨、看跌和中立的情感指向。
66.s105、利用联合分析模型对所述第一预测结果和所述第二预测结果进行处理，得到目标结果。
67.当分别获得基于金融数据和网络信息的预测结果后，进行综合分析和处理，得到目标结果。可以基于该目标结果进行后续处理，如生成投资参考指数，以使得投资人根据该投资参考指数确定是否进行后续的投资。
68.需要说明的是，本发明提供的一种金融信息处理方法可用于大数据领域或金融领域。上述仅为实例，并不对本发明提供的金融信息处理方法的应用领域进行限定。
69.本发明提供的一种金融信息处理方法可用于金融领域或其他领域，例如，可用于金融领域的辅助投资应用场景。其他领域为除金融领域之外的任意领域，例如，互联网数据处理领域。上述仅为示例，并不对本发明提供的金融信息处理的应用领域进行限定。
70.为了便于对本发明的实施例进行说明，现将相关术语进行解释。
71.网络爬虫：通过程序自动提取网页信息。
72.自然语言处理：将自然语言，即人们日常使用的语言，有条件地转换为机器可读、数学可解释的格式。
73.文本分析：从非结构化文本中收集数据，通过特定算法给出逻辑结构并搜索趋势，预测未来事件。
74.情感分类。情感分类又称情感倾向性分析，是指对给定的文本，通过文本数据处理识别其中主观性文本的倾向是肯定还是否定的，或者说是正面还是负面的。
75.高频数据：采集频率较高的数据。如选取15min高频数据，相比将一天不同时段、交易与非交易时段的数据混为一体，高频数据能更好的监测相关变化规律，体现出一天中不同信息所造成的实时影响情况。
76.时间序列模型：自变量t(横轴)为时间节点，因变量y(纵轴)为随时间改变的变量。一个时间点对应一个变量的具体值。
77.含滞后性的var模型(向量自回归模型)：含滞后性指的是变量有时间先后顺序的值。var方法通过把系统中每一个内生变量xi,作为系统中所有内生变量的滞后值的函数来构造预测模型，多用于分析不同类型的随机误差项对系统变量的动态影响。
78.格兰杰因果检验：检验变量在统计上的时间先后顺序。特征x的前期变化如果能有
效地解释结果y的变化，称其为“格兰杰原因”。
79.在本发明实施例中在获得了金融数据后，会对金融数据进行预处理，同样在获得了网络信息后，也需要对网络信息进行预处理，具体的包括：
80.对所述网络信息进行数据清洗，获得清洗后的数据，所述数据清洗包括合法值校验和去除空值以及异常值；
81.对清洗后的数据进行特征提取，获得数据特征。
82.其中，网络信息是采用网络爬虫，从网络论坛等网页获取评论类信息和新闻类信息，包括金融市场交易者的相关评论、相关金融事件新闻的点击量、浏览转发量等。合法值校验是将特征取值不在合法范围内的数据剔除，包括空缺词、标点符号、停用词等；去除空值、异常值等。进行特征提取是指提取的文本被有条件地转换为机器可读、数学可解释的格式。
83.由于是将网络信息输入至目标识别模型进行处理的，所以需要预先通过神经网络方式进行模型训练，以得到目标识别模型。
84.具体的，本发明实施例包括：获取样本数据集，所述样本训练集为标注有情感指向标签的网络数据；依据所述样本数据集进行训练，获得目标识别模型，所述目标识别模型为能够通过网络信息识别获得情感指向。
85.因此，在创建目标识别模型时对采集后的网络信息进行预处理后可以添加对应的情感指向标签，然后将得到的数据集分为训练集和测试集。采用机器学习算法进行情感分类，如knn分类方法、贝叶斯分类器、支持向量机等。如朴素贝叶斯算法得出帖子的3种分类：看涨、看跌、中立，再构建投资者情绪倾向指标和投资者意见分歧度指标。
86.在本发明实施例中，可以基于所述目标结果对金融风险进行评级，获得评级信息，以使得通过所述评级信息确定与所述金融信息预测请求对应的处理模式。具体的，根据后台处理后的趋势预测模型，对金融风险进行评级，根据不同的金融风险评级为用户推荐相关的投资节点，获取一定的商业价值。用户交易行为信息、趋势预测模型以及用户推荐方案都展示在后台界面，有利于运营人员进行用户运营。
87.参见图2，其示出了本发明实施例提供的一种金融信息处理架构的示意图，该架构包括：金融市场数据获取模块、数据清洗与整合模块、异常收益节点预估模块、指标获取模块，以及信息收集模块、自然语言处理模块、情感分类模块、指标获取模块、联合分析模块。
88.以金融投资应用为例，对上述架构进行说明。
89.金融市场数据获取模块：获取金融市场交易信息的高频数据，进行数据清洗与数据整合。选取依据为：在事件期内有完整连续的交易数据、事件期内本身没有发生影响股价变动的重大事件(重组、分配股利、公布年报等)的公司股票。
90.异常收益节点预估模块：通过构建冲击事件时间点前后一段时间的收益率的时间序列模型，分析金融市场下一步走势，预估接下来15分钟、30分钟、24小时或其他时间点后的收益率。
91.网络信息数据收集模块：采用网络爬虫，从网络论坛等网页获取评论类信息和新闻类信息，包括金融市场交易者的相关评论、相关金融事件新闻的点击量、浏览转发量等。对于每一网页地址，爬取网页所含的帖子标题、对应涉及的股票、发帖时间等，分割数据集为训练集和测试集。
92.文本处理模块：文本分析模块包括数据预处理、语料库和情感词库构建。数据预处理主要包括：1)合法值校验：将特征取值不在合法范围内的数据剔除，包括空缺词、标点符号、停用词等；2)去除空值、异常值等；3)构建词库或获取文本语料库、中文分词：提取的文本被有条件地转换为机器可读、数学可解释的格式。
93.情感分类和趋势挖掘模块：1)挖掘各种不同的特征，常用的特征提取方法有信息增益,chi统计量和文档频率df等。2)采用机器学习算法进行情感分类，如knn分类方法、贝叶斯分类器、支持向量机等。如朴素贝叶斯算法得出帖子的3种分类：看涨、看跌、中立，再构建投资者情绪倾向指标和投资者意见分歧度指标。3)将非结构性的文本信息量化为可能影响股市的相关因子，与股市的三个变量：日交易量、日收益率、波动性进行相关性分析和不滞后项的多元回归分析，并对收益率和投资者情绪指标构建含滞后项的var模型和进行格兰杰因果检验(趋势预测模型)，研究事件后投资者情绪与股票市场收益的相互影响机制。
94.根据后台处理后的趋势预测模型，对金融风险进行评级，根据不同的金融风险评级为用户推荐相关的投资节点，获取一定的商业价值。用户交易行为信息、趋势预测模型以及用户推荐方案都展示在后台界面，有利于运营人员进行用户运营。
95.其中，时间序列模型，由四部分构成，包括：
96.(1)长期趋势变动：指时间序列朝着一定方向持续上升或下降，或停留在某一水平上的倾向。用t(t)表示。
97.(2)季节变动：s(t)表示。
98.(3)循环变动：通常是指周期为一年以上，由非季节因素引起的涨落起伏波形相似的波动，c(t)表示。
99.(4)不规则变动：突然变动和随机变动，r(t)表示。
100.对应的，三种时间序列模型为：
101.(1)加法模型：y(t)＝t(t) s(t) c(t) r(t)
102.(2)乘法模型：y(t)＝t(t) s(t) c(t) r(t)
103.(3)混合，如：自回归移动平均模型arma。
104.在该金融投资预测场景中，本发明通过金融市场实时数据分析和对网络论坛信息等进行自然语言处理及文本分析(包括情感分类和趋势挖掘)，从而预测金融市场走向，提前预报风险或投资机会节点。
105.在前述实施例的基础上，本发明实施例还提供了一种金融信息处理装置，参见图3，包括：
106.获取单元10，用于响应于金融信息预测请求，获取与所述金融信息预测请求对应的金融数据以及网络信息；
107.分析单元20，用于对所述金融数据进行分析，获得冲击事件的时间序列；
108.第一预测单元30，用于对所述时间序列进行预测，得到第一预测结果；
109.第二预测单元40，用于对所述网络信息进行预处理，并将预处理后的网络信息输入至目标识别模型，获得第二预测结果；
110.处理单元50，用于利用联合分析模型对所述第一预测结果和所述第二预测结果进行处理，得到目标结果。
111.进一步地，所述分析单元包括：
112.第一获取子单元，用于获取所述金融数据中的高频数据；
113.预处理子单元，用于对所述高频数据进行数据预处理，得到预处理后的数据，所述数据预处理包括数据清洗和数据整合；
114.筛选子单元，用于对预处理后的数据进行筛选，获得冲击事件；
115.构建子单元，用于构建所述冲击事件的时间序列。
116.进一步地，所述第二预测单元包括：
117.数据清洗子单元，用于对所述网络信息进行数据清洗，获得清洗后的数据，所述数据清洗包括合法值校验和去除空值以及异常值；
118.提取子单元，用于对清洗后的数据进行特征提取，获得数据特征。
119.进一步地，所述装置还包括：
120.样本获取单元，用于获取样本数据集，所述样本训练集为标注有情感指向标签的网络数据；
121.训练单元，用于依据所述样本数据集进行训练，获得目标识别模型，所述目标识别模型为能够通过网络信息识别获得情感指向。
122.进一步地，所述装置还包括：
123.评级单元，用于基于所述目标结果对金融风险进行评级，获得评级信息，以使得通过所述评级信息确定与所述金融信息预测请求对应的处理模式。
124.基于前述实施例，本技术的实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一项的金融信息处理方法的步骤。
125.本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现的金融信息处理方法的步骤。
126.需要说明的是，上述处理器或cpu可以为特定用途集成电路(application specific integrated circuit，asic)、数字信号处理器(digital signal processor，dsp)、数字信号处理装置(digital signal processing device，dspd)、可编程逻辑装置(programmable logic device，pld)、现场可编程门阵列(fieldprogrammable gate array，fpga)、中央处理器(central processing unit，cpu)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本技术实施例不作具体限定。
127.需要说明的是，上述计算机存储介质/存储器可以是只读存储器(read only memory，rom)、可编程只读存储器(programmable read
‑
only memory，prom)、可擦除可编程只读存储器(erasable programmable read
‑
only memory，eprom)、电可擦除可编程只读存储器(electrically erasable programmable read
‑
only memory，eeprom)、磁性随机存取存储器(ferromagnetic random access memory，fram)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(compact disc read
‑
only memory，cd
‑
rom)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。
128.在本技术所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其
它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
129.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
130.另外，在本技术各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
131.本技术所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。
132.本技术所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。
133.本技术所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。
134.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。
135.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
136.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于融合多种图像生成技术的加权平均图像生成方法与流程

一种金融信息处理方法及装置与流程

相关文献

最热文献