一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据录入方法、装置、电子设备及存储介质与流程

2022-02-22 18:12:59 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及一种数据录入方法、装置、电子设备及存储介质。


背景技术:

2.债券市场是发行和买卖债券的场所,它是金融市场的一个重要组成部分。在银行间市场的现券业务交易中,交易员获得交易信息的渠道有三个,分别为外汇交易中心x-bond系列行情、来自货币中介行情与来自于qq聊天的私域行情。其中来自qq聊天的私域行情占总现券交易行情的60%以上。
3.目前我国银行间交易的电子化程度低,除来自于外汇交易中心x-bond行情外,其余来自货币中介的债券行情和来自qq聊天的私域行情均为非格式化的文本形式。为此,货币中介设立了专门的岗位数据录入员(data input)负责将货币中介收到的非格式化文本形式,经人工整理数据成为格式化信息后录入系统,费时费力。与此同时,qq的私域行情数据虽然占比整个债券市场行情数据的60%以上,由于交易对手众多,在询价沟通上,使用qq或企业qq存在交易沟通过程冗长繁琐,文字错漏时有发生。
4.来自qq的私域行情数据一直都没有一个很好的格式化处理信息的方案,这些报价、交易信息停留在交易员个人的聊天消息层面。事实上金融机构会关注本机构下所有交易员的交易、报价情况,用于内部数据分析、数据统计等。同时,金融机构会根据来自不同渠道的数据(交易所行情、货币中间行情、qq聊天私域行情)用于制定债券交易策略,包括债券套利交易策略、债券定价策略等。这部分数据蕴藏着巨大的经济价值。
5.因此,如何将qq私域行情产生的债券交易、报价信息对接到机构内部系统,对于机构来说是一个燃眉之急的迫切需求。同时,对于提升我国债券交易在银行间市场的电子化程度是至关重要的。
6.目前国内部分金融机构为了收集机构内交易员qq私域的报价信息并且将信息结构化后对接到内部系统,要求交易员将债券的报价信息按照一定的格式整理后,统一录入至机构内部系统。
7.现有技术通过人工进行数据录入,从新的数据产生到数据录入金融机构系统,有很长的延迟性,时效性差,依靠人工处理数据,对于大批量的数据处理能力低,数据录入效率低。
8.因此,现有技术还有待于改进和发展。


技术实现要素:

9.鉴于上述现有技术的不足,本发明提供了一种数据录入方法、装置、电子设备及存储介质,旨在解决现有技术中通过人工进行数据录入,从新的数据产生到数据录入金融机构系统,有很长的延迟性,时效性差,依靠人工处理数据,对于大批量的数据处理能力低,数据录入效率低的问题。
10.本发明的技术方案如下:
11.本发明第一实施例提供了一种数据录入方法,方法包括:
12.获取交易员间的即时聊天信息;
13.根据即时聊天信息获取非结构化的金融文本信息,基于金融文本信息识别出结构化的金融信息;
14.将金融信息通过预设的接口规范传输至金融机构内部系统。
15.进一步地,所述获取交易员间的即时聊天信息前,包括:
16.预先根据不同的接口协议设置对应的接口规范。
17.进一步地,所述预先根据不同的接口协议设置对应的接口规范,包括:
18.预先根据不同的接口协议对接口的应用场景、传输方向、传输字段、字段标签、字段结构、长度、精度及业务数据字典进行设置。
19.进一步地,所述获取交易员间的即时聊天信息,包括:
20.检测到第一交易员通过即时聊天工具向第二交易员发送债券询价请求时,获取第一交易员和第二交易员间的即时聊天信息。
21.进一步地,所述基于金融文本信息识别出结构化的金融信息,包括:
22.根据ner算法从金融文本信息中识别出结构化的金融信息。
23.进一步地,所述根据ner算法从金融文本信息中识别出结构化的金融信息,包括:
24.将所述金融文本消息输入预先训练好的文本识别模型进行识别,获取出结构化的金融信息,所述文本识别模型是ner算法对应的神经网络模型。
25.进一步地,所述根据ner算法从金融文本信息中识别出结构化的金融信息前,还包括:
26.获取大量的文本样本,所述文本样本为非结构化的文本消息;
27.构建初始深度学习网络模型;
28.根据文本样本对初始深度学习网络模型进行训练,生成训练好的文本识别模型。
29.本发明的另一实施例提供了一种数据录入装置,应用于电子设备,装置包括:
30.第一数据获取模块,用于获取交易员间的即时聊天信息;
31.第二数据获取模块,用于根据即时聊天信息获取非结构化的金融文本信息,基于金融文本信息识别出结构化的金融信息;
32.数据传输模块,用于将金融信息通过预设的接口规范传输至金融机构内部系统。
33.本发明的另一实施例提供了一种电子设备,所述电子设备包括至少一个处理器;以及,
34.与所述至少一个处理器通信连接的存储器;其中,
35.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的数据录入方法。
36.本发明的另一实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的数据录入方法。
37.有益效果:本发明实施例通过将即时聊天消息中金融信息提取并完成信息结构化,然后基于不同的接口协议(https、fix等)定义出接口规范,最后金融机构可按照接口规
范获取到相应的金融信息,从而实现将数据及时的录入金融机构系统,处理速度快,正确率高,数据不易丢失,数据录入效率高。
附图说明
38.下面将结合附图及实施例对本发明作进一步说明,附图中:
39.图1为本发明一种数据录入方法较佳实施例的流程图;
40.图2为本发明一种数据录入方法的具体应用实施例的接口规范示意图;
41.图3为本发明一种数据录入装置的较佳实施例的功能模块示意图;
42.图4为本发明一种电子设备的较佳实施例的硬件结构示意图。
具体实施方式
43.为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
44.以下结合附图对本发明实施例进行介绍。
45.本发明实施例提供了一种数据录入方法,请参阅图1,图1为本发明一种数据录入方法较佳实施例的流程图。如图1所示,其包括步骤:
46.步骤s100、获取交易员间的即时聊天信息;
47.步骤s200、根据即时聊天信息获取非结构化的金融文本信息,基于金融文本信息识别出结构化的金融信息;
48.步骤s300、将金融信息通过预设的接口规范传输至金融机构内部系统。
49.具体实施时,本发明实施例的数据录入方法主要用于获取交易间的聊天时金融信息,直接上传至金融机构内部系统。从而方便金融机构对金融信息进行记录。
50.本发明实施例针对即时通讯类工具上金融领域的报价、交易类聊天信息,本发明提出一种将聊天消息中金融信息实时格式化对接给金融机构内部系统的流程。主要针对的是金融信息,但是不限于金融数据;可拓展到任意需要将聊天信息中关键业务信息对接到机构内部系统的场景。基于聊天对话的文本消息场景下,将非结构化数据,结构化后通过接口实时对接到机构内部系统的流程。本发明实施例的即时聊天工具包括但不限于qq、微信等社交软件。
51.首先是基于ai领域已有nlp解析技术,现有针对债券询价及交易业务的nlp解析方案,已实现将债券交易员询价和达成成交的非结构化聊天文本中按规律抽取出业务要素。
52.通过将即时聊天消息中金融信息提取并完成信息结构化,然后基于不同的接口协议(https、fix等)定义出接口规范,最后金融机构可按照接口规范获取到相应的金融信息,从而实现将数据及时的录入金融机构系统,处理速度快,正确率高,数据不易丢失,数据录入效率高。
53.在一个实施例中,获取交易员间的即时聊天信息前,包括:
54.预先根据不同的接口协议设置对应的接口规范。
55.具体实施时,本发明实施例的设置的协议包括但不限于https和fix协议,预先对接口规范进行设置,并将接口规范发送至接口的上下游。接口上游按照定义的接口规范进行接口数据的传输,接口下游按照定义的接口规范进行数据的接收。其中接口下游一般是
指金融机构内部系统的数据接口。fix会话协议与选择用于电子数据传递的物理介质(铜缆,光纤,卫星传输等)及传输协议规范(x.25,同步,tcp/ip等)无关。它提供了一个消息传递的可靠数据流。直到2006年10月,fix会话协议与fix应用协议一道,为用户提供了一个可靠的传输fix应用消息的传输机制。
56.在一个实施例中,预先根据不同的接口协议设置对应的接口规范,包括:
57.预先根据不同的接口协议对接口的应用场景、传输方向、传输字段、字段标签、字段结构、长度、精度及业务数据字典进行设置。
58.具体实施时,如图2所示,是以fix协议为例,定义的接口规范。根据抽取出来的结构化金融业务数据,采用不同的接口协议定义出接口规范,以fix协议为例,主要是通过以下几个方面进行设置:规定接口的应用场景;规定接口的传输方向;规定接口的传输字段、字段标签、字段类型、字段结构、长度、精度、必传等要求;提供接口的业务数据字典。
59.在一个实施例中,获取交易员间的即时聊天信息,包括:
60.检测到第一交易员通过即时聊天工具向第二交易员发送债券询价请求时,获取第一交易员和第二交易员间的即时聊天信息。
61.具体实施时,本发明实施例主要是用于获取金融信息,一般是检测交易员间的聊天记录存在金融信息时,才获取相关的即时聊天信息。
62.进一步的,可在检测到一个交易员向另一个交易员发送债券询价请求时,再开始获取第一交易间和第二交易员间的即时聊天信息。
63.在一个实施例中,基于金融文本信息识别出结构化的金融信息,包括:
64.根据ner算法从金融文本信息中识别出结构化的金融信息。
65.具体实施时,信息抽取是自然语言处理领域中相对较为成熟的技术,采用的是神经网络算法模型,主要是ner(named entity recognition,命名实体识别)模型。将非结构的聊天对话文本,解析识别为结构化的信息。本发明实施例使用ner算法实现金融信息中获取。其中,ner又称作专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。ner系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。
66.在一个实施例中,根据ner算法从金融文本信息中识别出结构化的金融信息,包括:
67.将所述金融文本消息输入预先训练好的文本识别模型进行识别,获取出结构化的金融信息,所述文本识别模型是ner算法对应的神经网络模型。
68.具体实施时,即时聊天信息中还包括大量的聊天对象等无关信息,将即时聊天信息进行初步解析后,将即时聊天信息转化为非结构化的文本消息。将非结构化的金融文本消息输入训练好的文本识别模型进行识别,识别结果为结构化的金融信息。本发明实施例的文本识别模型是采用ner算法对应的神经网络模型。例如文本识别模型可采用lstm crf模型。lstm整体思路同样是先对给定的训练样本进行学习,确定模型中的参数,再利用该模型对测试样本进行预测得到最后的输出。由于测试输出的准确性现阶段达不到100%,这就意味着,肯定存在一部分错误的输出,这些输出里很可能就包含类似于上述第二句话这种
不符合语法规则的文本。因此,这就是为什么要将crf模型引入进来的原因。条件随机场(crf)是一种统计方法。其用于文本序列标注的优点就是上文所说的对于输出变量可以进行约束,使其符合一定的语法规则。常见的神经网络对训练样本的学习,只考虑训练样本的输入,并不考虑训练样本的输出之间的关系。因此采用lstm crf模型具有较好的识别结果。
69.在一个实施例中,根据ner算法从金融文本信息中识别出结构化的金融信息前,还包括:
70.获取大量的文本样本,所述文本样本为非结构化的文本消息;
71.构建初始深度学习网络模型;
72.根据文本样本对初始深度学习网络模型进行训练,生成训练好的文本识别模型。
73.具体实施时,预先获取大量的非结构化的文本消息,所述文本消息为金融数据。对文本消息进行清洗处理后,生成训练样本。根据训练样本对初始深度学习网络模型进行训练,生成训练好的文本识别模型。
74.本发明实施例能够将聊天对话的非结构化的文本消息,经过ai技术处理转化为结构化文本后,通过接口将结构化业务信息实时的对接到机构内部系统。与人工处理后导入机构内部系统相比,极大提升了数据处理的准确率、时效性,帮助金融机构开拓交易机会,助力中国债券交易机构的电子化进程。
75.需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
76.本发明另一实施例提供一种数据录入装置,如图3所示,装置1包括:
77.第一数据获取模块11,用于获取交易员间的即时聊天信息;
78.第二数据获取模块12,用于根据即时聊天信息获取非结构化的金融文本信息,基于金融文本信息识别出结构化的金融信息;
79.数据传输模块13,用于将金融信息通过预设的接口规范传输至金融机构内部系统。
80.具体实施方式见方法实施例,此处不再赘述。
81.本发明另一实施例提供一种电子设备,如图4所示,电子设备10包括:
82.一个或多个处理器110以及存储器120,图4中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图4中以通过总线连接为例。
83.处理器110用于完成电子设备10的各种控件逻辑,其可以为通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)、单片机、arm(acorn risc machine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件控件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp核、或任何其它这种配置。
84.存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的数据录入方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行设备10的各种功能应用以及数据处理,即实现上述方法实施例中的数据录入方法。
85.存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储根据设备10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
86.一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中的数据录入方法,例如,执行以上描述的图1中的方法步骤s100至步骤s300。
87.本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤s100至步骤s300。
88.作为示例,非易失性存储介质能够包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦rom(eeprom)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(ram)。通过说明并非限制,ram可以以诸如同步ram(sram)、动态ram、(dram)、同步dram(sdram)、双数据速率sdram(ddr sdram)、增强型sdram(esdram)、synchlink dram(sldram)以及直接rambus(兰巴斯)ram(drram)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器控件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
89.本发明的另一种实施例提供了一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被处理器执行时,使处理器执行上述方法实施例的数据录入方法。例如,执行以上描述的图1中的方法步骤s100至步骤s300。
90.以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。
91.通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存在于计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施例或者实施例的某些部分的方法。
92.除了其他之外,诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解,否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此,这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。
93.已经在本文中在本说明书和附图中描述的内容包括能够提供数据录入方法及装置的示例。当然,不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合,但是可以认识到,所公开的特征的许多另外的组合和置换是可能的。因此,显而易见的是,在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外,或在替代方案中,本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是,本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语,但是它们在通用和描述性意义上被使用并且不用于限制的目的。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献