一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、计算机可读介质及电子设备与流程

2021-12-08 00:45:00 来源:中国专利 TAG:


1.本技术属于计算机技术领域,具体涉及一种数据处理方法、数据处理 装置、计算机可读介质以及电子设备。


背景技术:

2.银行、保险公司等各种类型的金融机构需要对运营过程中涉及的金融 业务进行严格的监管和审查。例如,当发现大额交易行为或者可疑交易行 为时,应当对其交易内容进行风险评估,并在必要时上报至上级监管机构。 然而,现有的尽职调查方法大多依赖于人工审核,存在处理效率低且容易 遗漏风险的问题。


技术实现要素:

3.本技术的目的在于提供一种数据处理方法、数据处理装置、计算机可 读介质以及电子设备,至少在一定程度上克服相关技术中存在的处理效率 低、准确性差等技术问题。
4.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地 通过本技术的实践而习得。
5.根据本技术实施例的一个方面,提供一种数据处理方法,该方法包括: 获取待处理的业务数据,所述业务数据包括业务文本以及与所述业务文本 相关联的业务属性,所述业务属性用于表示所述业务数据的数据采集来源 和数据采集时间;获取用于对所述业务数据进行异常检测的关键词数据, 所述关键词数据包括关键词文本以及与所述关键词文本相关联的关键词属 性,所述关键词属性用于表示所述关键词数据的关键词类型和异常风险等 级;将所述关键词文本与所述业务文本进行匹配检测,以确定所述关键词 文本是否包含在所述业务文本中;若所述关键词文本与所述业务文本匹配 成功,则将所述业务数据与所述关键词数据组合形成匹配数据;根据所述 业务属性和所述关键词属性从所述匹配数据中提取用于评价所述业务数据 的异常风险的目标数据。
6.根据本技术实施例的一个方面,提供一种数据处理装置,该装置包括: 业务数据获取模块,被配置为获取待处理的业务数据,所述业务数据包括 业务文本以及与所述业务文本相关联的业务属性,所述业务属性用于表示 所述业务数据的数据采集来源和数据采集时间;关键词数据获取模块,被 配置为获取用于对所述业务数据进行异常检测的关键词数据,所述关键词 数据包括关键词文本以及与所述关键词文本相关联的关键词属性,所述关 键词属性用于表示所述关键词数据的关键词类型和异常风险等级;匹配检 测模块,被配置为将所述关键词文本与所述业务文本进行匹配检测,以确 定所述关键词文本是否包含在所述业务文本中;数据组合模块,被配置为 若所述关键词文本与所述业务文本匹配成功,则将所述业务数据与所述关 键词数据组合形成匹配数据;数据提取模块,被配置为从所述匹配数据中 提取用于评价所述业务数据的异常风险的目标数据。
7.在本技术的一些实施例中,基于以上技术方案,所述数据提取模块包 括:量化处理模块,被配置为根据所述业务属性和所述关键词属性对所述 匹配数据进行量化处理,得
到与所述匹配数据相对应的量化数据,所述量 化数据是包括一个或者多个数值字段的数值型数据;数据排序模块,被配 置为根据所述量化数据中各个数值字段的取值对所述匹配数据进行排序, 得到有序排列的数据列表;数据选取模块,被配置为按照排列顺序从所述 数据列表中选取用于评价所述业务数据的异常风险的目标数据。
8.在本技术的一些实施例中,基于以上技术方案,所述量化处理模块包 括:字段提取模块,被配置为从所述匹配数据中提取与所述业务属性相关 的第一业务字段、与所述关键词属性相关的第二业务字段以及与所述匹配 数据的统计信息相关的第三业务字段;字段量化模块,被配置为按照各个 业务字段的字段类型分别对所述第一业务字段、所述第二业务字段和所述 第三业务字段进行量化处理,得到与各个业务字段相对应的数值字段;字 段组合模块,被配置为将所述数值字段组合得到与所述匹配数据相对应的 量化数据。
9.在本技术的一些实施例中,基于以上技术方案,所述第一业务字段包 括用于表示所述业务数据的采集时间的时间字段,所述第二业务字段包括 用于表示所述关键词数据的异常风险等级的等级字段,所述第三业务字段 包括用于表示所述关键词文本在所述匹配数据中的出现频次的频次字段。
10.在本技术的一些实施例中,基于以上技术方案,所述数据排序模块包 括:权重获取模块,被配置为获取与所述量化数据中的各个数值字段相对 应的量化权重;字段加权模块,被配置为按照所述量化权重对所述数值字 段进行加权求和,得到所述匹配数据的选取概率;概率排序模块,被配置 为按照所述选取概率对所述匹配数据进行排序。
11.在本技术的一些实施例中,基于以上技术方案,所述权重获取模块包 括:样本获取模块,被配置为获取对历史业务数据进行量化处理得到的量 化数据样本,并获取对所述历史业务数据进行异常风险评价得到的数据标 签;样本组合模块,被配置为将所述量化数据样本和所述数据标签组成训 练样本;权重预测模块,被配置为根据所述训练样本预测与所述量化数据 中的各个数值字段相对应的量化权重。
12.在本技术的一些实施例中,基于以上技术方案,所述权重预测模块包 括:模型获取模块,被配置为获取用于对所述量化数据进行权重预测的权 重预测模型;迭代训练模块,被配置为根据所述训练样本对所述权重预测 模型进行迭代训练;模型预测模块,被配置为通过训练完成的权重预测模 型预测与所述量化数据中的各个数值字段相对应的量化权重。
13.在本技术的一些实施例中,基于以上技术方案,所述权重预测模块包 括:矩阵组合模块,被配置为分别将所述训练样本中的量化数据样本和数 据标签按照数据类型组成数据样本矩阵和数据标签矩阵;矩阵运算模块, 被配置为对所述数据样本矩阵和所述数据标签矩阵进行矩阵运算,得到权 重矩阵,所述权重矩阵包括与所述量化数据中的各个数值字段相对应的量 化权重。
14.在本技术的一些实施例中,基于以上技术方案,所述矩阵组合模块被 配置为:对所述训练样本进行筛选处理,得到与所述业务数据具有数据关 联性的设定数量的相关样本;分别将所述相关样本中的量化数据样本和数 据标签按照数据类型组成数据样本矩阵和数据标签矩阵。
15.在本技术的一些实施例中,基于以上技术方案,所述数据排序模块被 配置为:获取与所述量化数据中的各个数值字段相对应的排序优先级;根 据所述排序优先级以及各
个数值字段的取值对所述匹配数据进行排序。
16.在本技术的一些实施例中,基于以上技术方案,所述数据处理装置还 包括:超链接添加模块,被配置为在所述数据列表中添加与所述业务数据 的数据来源相关的超链接文本;云图展示模块,被配置为响应于对所述超 链接文本的触发操作,展示与所述业务数据的数据来源相关的关键词云图。
17.在本技术的一些实施例中,基于以上技术方案,所述数据处理装置还 包括:文本选取模块,被配置为响应于对关键词类型的选取操作,从所述 目标数据中提取与所选取的关键词类型相对应的关键词文本;报文生成模 块,被配置为将所述关键词文本填充至预设的报文模板中,以生成用于评 价所述业务数据的异常风险的评价报文。
18.根据本技术实施例的一个方面,提供一种计算机可读介质,其上存储 有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的数 据处理方法。
19.根据本技术实施例的一个方面,提供一种电子设备,该电子设备包括: 处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处 理器被配置为经由执行所述可执行指令来执行如以上技术方案中的数据处 理方法。
20.根据本技术实施例的一个方面,提供一种计算机程序产品或计算机程 序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储 在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读 取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以 上技术方案中的数据处理方法。
21.在本技术实施例提供的技术方案中,通过关键词文本对业务数据中的 业务文本进行匹配检测,可以快速识别存在异常风险的业务文本,在将其 与相应的关键词数据组成匹配数据后,再通过业务属性和关键词属性从匹 配数据中提取用于评价异常风险的目标数据。本技术实施例可以提高对业 务数据进行风险检测的处理效率,而且可以提高数据识别的准确性。
22.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释 性的,并不能限制本技术。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本 申请的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下 面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1示意性地示出了应用本技术技术方案的示例性系统架构框图。
25.图2示意性地示出了本技术一个实施例中的数据处理系统的架构框图。
26.图3示意性地示出了本技术一个实施例中的数据处理方法的步骤流程 图。
27.图4示意性地示出了本技术实施例在一个应用场景中存储业务数据的 表格示意图。
28.图5示意性地示出了本技术实施例在一个应用场景中对关键词文本进 行匹配检测以得到匹配数据的过程示意图。
29.图6示意性地示出了本技术一个实施例中提取目标数据的方法步骤流 程图。
30.图7示意性地示出了本技术一个实施例中的训练样本的数据表格示意 图。
31.图8示意性地示出了本技术一个实施例中数据列表的界面示意图。
32.图9示意性地示出了本技术实施例提供的数据处理装置的结构框图。
33.图10示意性示出了适于用来实现本技术实施例的电子设备的计算机系 统结构框图。
具体实施方式
34.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能 够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这 些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面 地传达给本领域的技术人员。
35.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个 或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术 的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术 的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、 组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、 实现或者操作以避免模糊本技术的各方面。
36.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实 体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个 硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置 和/或微控制器装置中实现这些功能实体。
37.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操 作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分 解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根 据实际情况改变。
38.图1示意性地示出了应用本技术技术方案的示例性系统架构框图。
39.如图1所示,系统架构100可以包括终端设备110、网络120和服务器 130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑 等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物 理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的 云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信 链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信 链路。
40.根据实现需要,本技术实施例中的系统架构可以具有任意数目的终端 设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的 服务器群组。另外,本技术实施例提供的技术方案可以应用于终端设备110, 也可以应用于服务器130,或者可以由终端设备110和服务器130共同实 施,本技术对此不做特殊限定。
41.举例而言,用户通过终端设备110向银行等金融机构发起付款、转账 或者其他业务请求,金融机构处运行的服务器130在通过网络120接收到 用户发起的业务请求后,可以按照指定的业务规则办理相应的业务。与此 同时,服务器130可以对业务办理过程中产生的业务数据进行监管和风险 预测,以便及时发现异常交易行为。
42.图2示出了本技术一个实施例中的数据处理系统的架构框图,该数据 处理系统可以通过安装在终端设备110或者服务器130上的用于进行风险预 测的应用程序来实现。
43.如图2所示,数据处理系统200主要可以包括关键词匹配模块210、关 键词分析模块220和关键词应用模块230。其中,关键词匹配模块首先从业 务信息表240中提取文本信
息,同时可以从关键词数据库250中获取关键 词数据,在采用关键词数据对文本信息进行匹配检测后,得到由匹配结果 组成的数据列表,然后将该数据列表传入至关键词分析模型220。关键词分 析模块220可以采用线性模式或者非线性模式对数据列表进行数据清洗, 提取得到其中存在异常风险的主要风险文本信息。关键词应用模块230可 以根据实际的应用需求对关键词分析模块220分析提取得到的主要风险文 本信息做进一步地数据处理,得到具体应用场景中的数据处理结果。例如, 可以最终形成针对存在异常风险的业务数据进行风险提示的数据报表或者 预警信息等等。
44.在本技术的一些实施例中,数据处理系统200可以通过基于人工智能 的机器学习模型来实现。
45.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机 控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识 获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计 算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能 以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智 能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
46.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术 也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智 能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一 体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、 自然语言处理技术以及机器学习/深度学习等几大方向。
47.自然语言处理(nature language processing,nlp)是计算机科学领域与人 工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言 进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机 科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人 们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处 理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱 等技术。
48.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、 统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机 怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有 的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使 计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习 和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归 纳学习、式教学习等技术。
49.在本技术的一些实施例中,关键词数据库和业务信息表可以通过区块 链技术来进行去中心化的可靠存储。
50.区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算 机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的 数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包 含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下 一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服 务层。
51.区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监 控等处理模
块。其中,用户管理模块负责所有区块链参与者的身份信息管 理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块 链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计 某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服 务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对 有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先 对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加 密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信), 并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约 执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上 (合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行, 完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负 责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行 中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备 健康状态等。
52.平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以 基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用 服务层提供基于区块链方案的应用服务给业务参与方进行使用。
53.下面结合具体实施方式对本技术提供的数据处理方法、数据处理装置、 计算机可读介质以及电子设备等技术方案做出详细说明。
54.图3示出了本技术一个实施例中的数据处理方法的步骤流程图,该数 据处理方法可以由终端设备或者服务器执行,也可以由终端设备和服务器 共同执行,本技术实施例以终端设备执行的数据处理方法作为示例进行说 明。如图3所示,该数据处理方法主要可以包括如下的步骤s310至步骤 s350。
55.步骤s310:获取待处理的业务数据,业务数据包括业务文本以及与业 务文本相关联的业务属性,业务属性用于表示业务数据的数据采集来源和 数据采集时间。
56.步骤s320:获取用于对业务数据进行异常检测的关键词数据,关键词 数据包括关键词文本以及与关键词文本相关联的关键词属性,关键词属性 用于表示关键词数据的关键词类型和异常风险等级。
57.步骤s330:将关键词文本与业务文本进行匹配检测,以确定关键词文 本是否包含在业务文本中。
58.步骤s340:若关键词文本与业务文本匹配成功,则将业务数据与关键 词数据组合形成匹配数据。
59.步骤s350:根据业务属性和关键词属性从匹配数据中提取用于评价业 务数据的异常风险的目标数据。
60.在本技术实施例提供的数据处理方法中,通过关键词文本对业务数据 中的业务文本进行匹配检测,可以快速识别存在异常风险的业务文本,在 将其与相应的关键词数据组成匹配数据后,再通过业务属性和关键词属性 从匹配数据中提取用于评价异常风险的目标数据。该方法可以提高对业务 数据进行风险检测的处理效率,而且可以提高数据识别的准确性。
61.下面结合具体应用场景对本技术实施例的数据处理方法中的各个方法 步骤做详细说明。
62.在步骤s310中,获取待处理的业务数据,业务数据包括业务文本以及 与业务文本相关联的业务属性,业务属性用于表示业务数据的数据采集来 源和数据采集时间。
63.在本技术的一个实施例中,待处理的业务数据可以是对监测中发现的 大额交易或者可疑交易进行筛选和信息采集后得到的交易数据,具体可以 包括用户在办理金融业务时生成的业务信息和用户信息等数据。业务文本 是在业务办理过程中生成的文本内容,例如可以包括交易的名称以及对于 交易内容进行说明的描述性文字。业务属性是与业务文本相关联的属性内 容,可以包括表示数据采集来源、数据采集时间等多种属性维度的字段。
64.以两个或者两个以上的用户之间进行转账交易为例,该交易生成的业 务数据可以包括交易各方的账户号码、交易时间、转账金额、转账附言等 数据。其中,转账附言或者业务说明即为业务文本,与之相关的账户号码 或者账户名称是用于表示数据来源的业务属性,与之相关的交易时间是用 于表示数据采集时间的业务属性。
65.在本技术的一个实施例中,业务数据可以是对业务文本和业务属性按 照指定的维度进行组合而形成的数据表。图4示出了本技术实施例在一个 应用场景中存储业务数据的表格示意图,该表格为业务信息表。如图4中 所示,表格第一列为序号id,第二列为被匹配的文本内容word,第三列为 该文本信息所属的客户名称whos,第四列为文本信息所出现的时间time。
66.在步骤s320中,获取用于对业务数据进行异常检测的关键词数据,关 键词数据包括关键词文本以及与关键词文本相关联的关键词属性,关键词 属性用于表示关键词数据的关键词类型和异常风险等级。
67.在本技术的一个实施例中,关键词数据可以是从关键词数据库中提取 得到的用于对业务数据进行异常检测的部分数据库条目,关键词数据库可 以是对历史业务数据进行数据采集和筛选后形成的数据库。
68.关键词数据包括关键词文本以及与关键词文本相关联的一个或者多个 关键词属性,关键词属性用于表示每个关键词数据的关键词类型、异常风 险等级以及其他与业务数据的异常风险相关的属性信息。关键词类型例如 可以包括白文本和异常文本,其中白文本表示相应的关键词文本是不存在 异常风险的正常文本,而异常文本表示关键词文本是存在指定类型的异常 风险的文本。异常风险等级用于表示不同的关键词类型所对应的关键词文 本存在异常风险的程度高低,异常风险等级可以包括定性衡量异常风险程 度的属性文本,如高风险等级、中风险等级、低风险等级,异常风险等级 也可以包括定量衡量异常风险程度的属性数值,如连续取值或者分段取值 的数值,数值越大即表示存在异常风险的程度越高。
69.在本技术的一个实施例中,关键词数据可以包括由关键词文本字段、 关键词类型字段和异常风险等级字段组成的字段组合。以尽职调查的应用 场景为例,关键词类型可以包括白文本以及异常文本。举例而言,关键词 数据可以包括的字段组合为【白文本,xxx,a】、【异常文本,yyy, b】、【异常文本,zzz,c】等等。其中,第一个字段为关键词类型字段, 第二个字段为关键词文本字段,第三个字段为异常风险等级字段。
70.步骤s330:将关键词文本与业务文本进行匹配检测,以确定关键词文 本是否包含在业务文本中。
71.将关键词文本与业务文本进行匹配检测的方法可以包括获取关键词文 本的文本长度,以关键词文本的文本长度作为滑动窗口,在业务文本上进 行字符串采样,并将采样得到的文本字符串依次与关键词文本进行字符串 匹配,当业务文本中存在至少一个文本字符串与关键词文本匹配成功时, 即可以确定关键词文本包含在业务文本中。
72.在本技术的一个实施例中,通过匹配检测除了可以确定关键词文本是 否包含在业务文本中以外,还可以统计关键词文本在业务文本中的出现频 次。关键词文本的出现频次越高,表示该关键词文本对于业务文本异常检 测结果的影响程度越大。
73.步骤s340:若关键词文本与业务文本匹配成功,则将业务数据与关键 词数据组合形成匹配数据。
74.对于匹配成功的关键词文本和业务文本,可以将包含该业务文本的业 务数据和包含该关键词文本的关键词数据进行组合,形成相应的匹配数据。 在本技术的一个实施例中,匹配数据可以是将业务数据和关键词数据中的 所有字段进行组合得到的完整数据,匹配数据也可以是分别从业务数据和 关键词数据中提取部分字段进行组合得到的非完整数据。
75.图5示出了本技术实施例在一个应用场景中对关键词文本进行匹配检 测以得到匹配数据的过程示意图。
76.如图5所示,在一个匹配轮次中,待匹配的关键词数据510例如可以 是一个字段组合【天气,白文本,0】,其中第一个字段“天气”为关键词 文本,第二个字段“白文本”为关键词类型,第三个字段“0”为异常风险 等级。
77.从存储业务数据的业务信息表520中逐一提取业务文本,并将其与关 键词文本共同输入至关键词匹配模块530中,由关键词匹配模块530判断 业务文本中是否包含与关键词文本相同的文本字符串。例如,当前匹配轮 次中提取到的业务文本为“今天天气真好”,其中包含了关键词文本“天 气”,因此可以判定匹配成功。相反地,如果业务文本中不存在与关键词 文本相同的文本字符串,则判定匹配失败。
78.当匹配成功时,可以将关键词数据510与匹配成功的业务数据进行组 合得到匹配数据540。举例而言,业务数据是一个字段组合【今天天气真好, 张三,2020
‑1‑
2】,其中第一个字段“今天天气真好”即为匹配检测中使用 的业务文本,第二个字段“张三”是表示数据采集来源的客户名称,第三 个字段“2020
‑1‑
2”是表示数据采集时间的文本出现时间,该文本出现时间 例如可以是银行转账交易的交易时间。将该业务数据与关键词数据510进 行组合后得到的匹配数据540可以是将各个字段按照指定的维度顺序进行 排列形成的新的字段组合,例如可以是【天气,白文本,0,今天天气真好, 张三,2020
‑1‑
2】。
79.当匹配失败时,可以继续将关键词数据510与从业务信息表520中提 取到的下一个业务文本进行匹配检测。若业务信息表520中的所有业务文 本都已完成与关键词数据510的匹配检测,则可以重新选取一组新的关键 词数据,并开启下一轮匹配检测。
80.在完成匹配检测得到匹配数据后,可以进一步从中提取目标数据,以 便根据目标数据对业务数据的异常风险做出评价。
81.图6示出了本技术一个实施例中提取目标数据的方法步骤流程图。如 图6所示,在以上实施例的基础上,步骤s350中的根据业务属性和关键词 属性从匹配数据中提取用于评价业务数据的异常风险的目标数据,可以包 括如下的步骤s610至步骤s630。
82.步骤s610:根据业务属性和关键词属性对匹配数据进行量化处理,得 到与匹配数据相对应的量化数据,量化数据是包括一个或者多个数值字段 的数值型数据。
83.步骤s620:根据量化数据中各个数值字段的取值对匹配数据进行排序, 得到有序排列的数据列表。
84.步骤s630:按照排列顺序从数据列表中选取用于评价业务数据的异常 风险的目标数据。
85.在本技术实施例中,通过获取对应于业务属性和关键词属性的多个维 度的量化数据对匹配数据进行排序,可以按照比较量化数值的方式选取目 标数据,提高目标数据的数据选取效率,并提高异常风险评价的可靠性。
86.下面结合具体实施方式对提取目标数据的各个方法步骤做详细说明。
87.在步骤s610中,根据业务属性和关键词属性对匹配数据进行量化处理, 得到与匹配数据相对应的量化数据,量化数据是包括一个或者多个数值字 段的数值型数据。
88.在本技术的一个实施例中,步骤s610中对匹配数据进行量化处理的方 法可以包括:从匹配数据中提取与业务属性相关的第一业务字段、与关键 词属性相关的第二业务字段以及与匹配数据的统计信息相关的第三业务字 段;按照各个业务字段的字段类型分别对第一业务字段、第二业务字段和 第三业务字段进行量化处理,得到与各个业务字段相对应的数值字段;将 数值字段组合得到与匹配数据相对应的量化数据。
89.按照预设的规则分别对匹配数据中与业务属性和关键词属性相关的业 务字段以及匹配数据的统计信息进行量化处理,可以得到多个业务字段对 应的数值字段,再将多个数值字段进行组合即可得到与匹配数据相对应的 量化数据。
90.在本技术的一个实施例中,第一业务字段包括用于表示业务数据的采 集时间的时间字段,第二业务字段包括用于表示关键词数据的异常风险等 级的等级字段,第三业务字段包括用于表示关键词文本在匹配数据中的出 现频次的频次字段。
91.针对第一业务字段,可以采用时间段划分的方式进行量化得到相应的 数值字段。举例而言,根据业务属性中的数据采集时间,可以确定业务数 据的采集时间与当前时间的距离,再将该时间距离与预设的单位时间长度 比较后得到相应的量化数值。例如,距离当前时间在1个月以内时,确定 相应的量化数值为1;距离当前时间在1~2个月之间时,可以确定相应的量 化数值为2;以此类推。
92.针对第二业务字段,若异常风险等级为定量表示的数值型数据,则可 以直接选取其自身取值作为量化后的数值字段,也可以对其进行归一化处 理或者经过其他处理后的数值作为量化后的数值字段。若异常风险等级为 定性表示的文本型字段,则可以按照预设的映射关系将其定性的等级映射 为相应的量化数值。例如,将异常风险等级定性地划分为高、中、低三个 等级,那么可以分别将这三个等级映射至量化数值2、1、0。
93.针对第三业务字段,可以直接选取出现频次的自身取值作为量化后的 数值字段,也可以对其进行归一化处理或者经过其他处理后的数值作为量 化后的数值字段。
94.在步骤s620中,根据量化数据中各个数值字段的取值对匹配数据进行 排序,得到有序排列的数据列表。
95.在本技术的一个实施例中,对匹配数据进行排序的方法可以包括:获 取与量化数据中的各个数值字段相对应的量化权重;按照量化权重对数值 字段进行加权求和,得到匹
配数据的选取概率;按照选取概率对匹配数据 进行排序。
96.举例而言,量化数据包括对应于异常风险等级的第一量化字段l、对 应于关键词出现频次的第二量化字段c和对应于数据采集时间的第三量化 字段t。按照各自对应的量化权重β1、β2和β3对各个量化字段进行加权求 和后可以得到选取概率p为:
97.p=β1*l β2*c β3*t
98.在本技术的一个实施例中,量化权重可以是根据历史业务数据的处理 经验预先设定的固定数值,另外也可以是在异常风险评价过程中动态确定 的动态数值。
99.在本技术的一个实施例中,获取与量化数据中的各个数值字段相对应 的量化权重的方法可以包括:获取对历史业务数据进行量化处理得到的量 化数据样本,并获取对历史业务数据进行异常风险评价得到的数据标签; 将量化数据样本和数据标签组成训练样本;根据训练样本预测与量化数据 中的各个数值字段相对应的量化权重。
100.图7示出了本技术一个实施例中的训练样本的数据表格示意图。如图7 所示,训练样本的数据表格中包括了数据标签701和量化数据样本702两 部分。数据标签701表示经过异常风险评价后确定的历史业务数据是否存 在异常风险,例如当数据标签为1时,表示数据样本存在异常风险,当数 据标签为0时,表示数据样本不存在异常风险。量化数据样本702由多个 维度的量化字段组成,例如包括对应于异常风险等级的第一量化字段l、 对应于关键词出现频次的第二量化字段c、对应于数据采集时间的第三量 化字段t。
101.在本技术的一个实施例中,根据训练样本的数据量可以选取不同的量 化权重计算方法,例如当训练样本的数据量大于设定的数据量阈值时,可 以采用训练权重预测模型的方法确定量化权重;而当训练样本的数据量小 于或等于设定的数据量阈值时,可以采用矩阵运算的方法确定量化权重。
102.在本技术的一个实施例中,根据训练样本预测与量化数据中的各个数 值字段相对应的量化权重的方法可以包括:获取用于对量化数据进行权重 预测的权重预测模型;根据训练样本对权重预测模型进行迭代训练;通过 训练完成的权重预测模型预测与量化数据中的各个数值字段相对应的量化 权重。在本技术的实施例,权重预测模型可以是用于对输入数据进行映射 处理以预测量化权重的线性模型或者非线性模型。对权重预测模型可以采 用梯度下降法进行模型训练,以提高其权重预测效果。
103.在本技术的一个实施例中,根据训练样本预测与量化数据中的各个数 值字段相对应的量化权重的方法可以包括:分别将训练样本中的量化数据 样本和数据标签按照数据类型组成数据样本矩阵和数据标签矩阵;对数据 样本矩阵和数据标签矩阵进行矩阵运算,得到权重矩阵,权重矩阵包括与 量化数据中的各个数值字段相对应的量化权重。
104.以图7所示的训练样本为例,数据标签701可以组成数据标签矩阵y。 y=[1

0]。
[0105]
量化数据样本702可以组成数据样本矩阵x。
[0106][0107]
对数据标签矩阵y和数据样本矩阵x可以如下的矩阵运算公式,运算 得到权重矩阵a。
[0108]
a=(x
t
*x)
‑1*x
t
*y
[0109]
在本技术的一个实施例中,分别将训练样本中的量化数据样本和数据 标签按照数据类型组成数据样本矩阵和数据标签矩阵的方法可以包括:对 训练样本进行筛选处理,得到与业务数据具有数据关联性的设定数量的相 关样本;分别将相关样本中的量化数据样本和数据标签按照数据类型组成 数据样本矩阵和数据标签矩阵。当训练样本的数据量较大时,矩阵运算过 程将消耗较多的计算资源,本技术实施例通过对训练样本进行筛选,可以 降低矩阵运算的运算量,提高数据处理效率。
[0110]
在本技术的一个实施例中,步骤s620根据量化数据中各个数值字段的 取值对匹配数据进行排序的方法可以包括:获取与量化数据中的各个数值 字段相对应的排序优先级;根据排序优先级以及各个数值字段的取值对匹 配数据进行排序。例如,本技术实施例首先按照排序优先级中优先级最高 的第一数值字段对匹配数据进行排序,对于第一数值字段相同的匹配数据, 再按照排序优先级第二高的第二数值字段进行排序,依次类推,直至完成 所有排序优先级下的各个数值字段的排序比较。
[0111]
在本技术的一个实施例中,在根据量化数据中各个数值字段的取值对 匹配数据进行排序,得到有序排列的数据列表之后,还可以在数据列表中 添加与业务数据的数据来源相关的超链接文本;响应于对超链接文本的触 发操作,展示与业务数据的数据来源相关的关键词云图。基于关键词云图 可以直观地查看数据来源(如某个指定的交易用户)的基本信息。
[0112]
在步骤s630中,按照排列顺序从数据列表中选取用于评价业务数据的 异常风险的目标数据。
[0113]
图8示出了本技术一个实施例中数据列表的界面示意图。如图中所示, 该数据列表包括了涉及客户、文本内容、命中关键词、选取概率和关键词 类型等多个字段。该表格中的数据按照步骤s620中确定的排列顺序依次由 上向下进行排序,越靠前的文本内容,表示其越能代表相关业务数据所涉 及的异常风险。涉及客户字段为该文本内容所属的客户,即业务数据的数 据来源。通过向涉及客户字段添加超链接文本可以查看该客户的基础信息 内容,可以更加方便的了解具体的文本发生场景。命中关键词字段可以使 使用者了解清楚文本被什么关键词命中,关键词类型则可以了解该文本所 涉及的风险类型。
[0114]
在本技术的一个实施例中,在从匹配数据中提取用于评价业务数据的 异常风险的目标数据之后,还可以根据业务需求自动化地生成评价报文, 用以评价业务数据的异常风险。在本技术实施例中,响应于对关键词类型 的选取操作,从目标数据中提取与所选取的关键词类型相对应的关键词文 本;将关键词文本填充至预设的报文模板中,以生成用于评价业务数据的 异常风险的评价报文。以报文自动生成为例,当审核人员选取案例的风险 类型时,可以依据风险类型选取等级靠前的同风险类型的关键词,自动化 地生成该文本的相关描述,从而加快报文的生成效率。
[0115]
在本技术实施例提供的数据处理方法中,利用关键词数据库,可以快 速匹配所有文本信息,更加快速地识别文本信息风险的同时,保证了风险 的全面覆盖,在人工日常审核过程中,能大大的提升尽职调查的速度,同 时不遗漏相关风险。另外,本技术实施例直接输出代表本案例主要风险的 文本形象,能够使审核人员快速的分析案例性质,同时避免了文本信息量 过大的情况下,无法识别部分文本的情况,在一定程度上保证了合规性。
[0116]
以本技术实施例在尽职调查中的应用为例,本技术实施例既可以快速 完成对尽
职调查中文本信息的提取分析,又可以保证所提取的主要文本风 险的时效性,风险集中程度,以及风险大小的平衡。
[0117]
人工尽调检索文本信息,单个需时间约10s以上,且在所涉及文本内容 较大的情况下,一般只抽取其中前10%

20%的数据进行分析,而本技术实 施例可以提升速度80%以上,同时可以快速检索100%的数据,能更全面的 覆盖风险。
[0118]
且人工在分析的同时无法准确量化文本的各个维度信息,而本技术实 施例所提取的风险更具有客观性,同时相较于人工尽调,本技术实施例能 有效保障所提取文本信息的时效性等方面。
[0119]
本技术实施例能有效的提升审核尽调过程的效率,同时提升风险覆盖 程度,有效的保障尽职调查的合规性。
[0120]
应当注意,尽管在附图中以特定顺序描述了本技术中方法的各个步骤, 但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必 须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略 某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为 多个步骤执行等。
[0121]
以下介绍本技术的装置实施例,可以用于执行本技术上述实施例中的 数据处理方法。图9示意性地示出了本技术实施例提供的数据处理装置的 结构框图。如图9所示,数据处理装置900包括:业务数据获取模块910, 被配置为获取待处理的业务数据,所述业务数据包括业务文本以及与所述 业务文本相关联的业务属性,所述业务属性用于表示所述业务数据的数据 采集来源和数据采集时间;关键词数据获取模块920,被配置为获取用于对 所述业务数据进行异常检测的关键词数据,所述关键词数据包括关键词文 本以及与所述关键词文本相关联的关键词属性,所述关键词属性用于表示 所述关键词数据的关键词类型和异常风险等级;匹配检测模块930,被配置 为将所述关键词文本与所述业务文本进行匹配检测,以确定所述关键词文 本是否包含在所述业务文本中;数据组合模块940,被配置为若所述关键词 文本与所述业务文本匹配成功,则将所述业务数据与所述关键词数据组合 形成匹配数据;数据提取模块950,被配置为从所述匹配数据中提取用于评 价所述业务数据的异常风险的目标数据。
[0122]
在本技术的一些实施例中,基于以上技术方案,所述数据提取模块950 包括:量化处理模块,被配置为根据所述业务属性和所述关键词属性对所 述匹配数据进行量化处理,得到与所述匹配数据相对应的量化数据,所述 量化数据是包括一个或者多个数值字段的数值型数据;数据排序模块,被 配置为根据所述量化数据中各个数值字段的取值对所述匹配数据进行排序, 得到有序排列的数据列表;数据选取模块,被配置为按照排列顺序从所述 数据列表中选取用于评价所述业务数据的异常风险的目标数据。
[0123]
在本技术的一些实施例中,基于以上技术方案,所述量化处理模块包 括:字段提取模块,被配置为从所述匹配数据中提取与所述业务属性相关 的第一业务字段、与所述关键词属性相关的第二业务字段以及与所述匹配 数据的统计信息相关的第三业务字段;字段量化模块,被配置为按照各个 业务字段的字段类型分别对所述第一业务字段、所述第二业务字段和所述 第三业务字段进行量化处理,得到与各个业务字段相对应的数值字段;字 段组合模块,被配置为将所述数值字段组合得到与所述匹配数据相对应的 量化数据。
[0124]
在本技术的一些实施例中,基于以上技术方案,所述第一业务字段包 括用于表示
所述业务数据的采集时间的时间字段,所述第二业务字段包括 用于表示所述关键词数据的异常风险等级的等级字段,所述第三业务字段 包括用于表示所述关键词文本在所述匹配数据中的出现频次的频次字段。
[0125]
在本技术的一些实施例中,基于以上技术方案,所述数据排序模块包 括:权重获取模块,被配置为获取与所述量化数据中的各个数值字段相对 应的量化权重;字段加权模块,被配置为按照所述量化权重对所述数值字 段进行加权求和,得到所述匹配数据的选取概率;概率排序模块,被配置 为按照所述选取概率对所述匹配数据进行排序。
[0126]
在本技术的一些实施例中,基于以上技术方案,所述权重获取模块包 括:样本获取模块,被配置为获取对历史业务数据进行量化处理得到的量 化数据样本,并获取对所述历史业务数据进行异常风险评价得到的数据标 签;样本组合模块,被配置为将所述量化数据样本和所述数据标签组成训 练样本;权重预测模块,被配置为根据所述训练样本预测与所述量化数据 中的各个数值字段相对应的量化权重。
[0127]
在本技术的一些实施例中,基于以上技术方案,所述权重预测模块包 括:模型获取模块,被配置为获取用于对所述量化数据进行权重预测的权 重预测模型;迭代训练模块,被配置为根据所述训练样本对所述权重预测 模型进行迭代训练;模型预测模块,被配置为通过训练完成的权重预测模 型预测与所述量化数据中的各个数值字段相对应的量化权重。
[0128]
在本技术的一些实施例中,基于以上技术方案,所述权重预测模块包 括:矩阵组合模块,被配置为分别将所述训练样本中的量化数据样本和数 据标签按照数据类型组成数据样本矩阵和数据标签矩阵;矩阵运算模块, 被配置为对所述数据样本矩阵和所述数据标签矩阵进行矩阵运算,得到权 重矩阵,所述权重矩阵包括与所述量化数据中的各个数值字段相对应的量 化权重。
[0129]
在本技术的一些实施例中,基于以上技术方案,所述矩阵组合模块被 配置为:对所述训练样本进行筛选处理,得到与所述业务数据具有数据关 联性的设定数量的相关样本;分别将所述相关样本中的量化数据样本和数 据标签按照数据类型组成数据样本矩阵和数据标签矩阵。
[0130]
在本技术的一些实施例中,基于以上技术方案,所述数据排序模块被 配置为:获取与所述量化数据中的各个数值字段相对应的排序优先级;根 据所述排序优先级以及各个数值字段的取值对所述匹配数据进行排序。
[0131]
在本技术的一些实施例中,基于以上技术方案,所述数据处理装置还 包括:超链接添加模块,被配置为在所述数据列表中添加与所述业务数据 的数据来源相关的超链接文本;云图展示模块,被配置为响应于对所述超 链接文本的触发操作,展示与所述业务数据的数据来源相关的关键词云图。
[0132]
在本技术的一些实施例中,基于以上技术方案,所述数据处理装置还 包括:文本选取模块,被配置为响应于对关键词类型的选取操作,从所述 目标数据中提取与所选取的关键词类型相对应的关键词文本;报文生成模 块,被配置为将所述关键词文本填充至预设的报文模板中,以生成用于评 价所述业务数据的异常风险的评价报文。
[0133]
本技术各实施例中提供的数据处理装置的具体细节已经在对应的方法 实施例中进行了详细的描述,此处不再赘述。
[0134]
图10示意性地示出了用于实现本技术实施例的电子设备的计算机系统 结构框图。
[0135]
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示 例,不应对本技术实施例的功能和使用范围带来任何限制。
[0136]
如图10所示,计算机系统1000包括中央处理器1001(centralprocessing unit,cpu),其可以根据存储在只读存储器1002(read

onlymemory,rom)中的程序或者从存储部分1008加载到随机访问存储器 1003(random access memory,ram)中的程序而执行各种适当的动作和 处理。在随机访问存储器1003中,还存储有系统操作所需的各种程序和数 据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过 总线1004彼此相连。输入/输出接口1005(input/output接口,即i/o接口) 也连接至总线1004。
[0137]
以下部件连接至输入/输出接口1005:包括键盘、鼠标等的输入部分 1006;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器 (liquid crystal display,lcd)等以及扬声器等的输出部分1007;包括硬 盘等的存储部分1008;以及包括诸如局域网卡、调制解调器等的网络接口 卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。 驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011,诸 如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010 上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0138]
特别地,根据本技术的实施例,各个方法流程图中所描述的过程可以 被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产 品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用 于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序 可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011 被安装。在该计算机程序被中央处理器1001执行时,执行本技术的系统中 限定的各种功能。
[0139]
需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可 读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机 可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、 或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介 质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便 携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、 可擦式可编程只读存储器(erasable programmable read only memory, eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read
‑ꢀ
only memory,cd

rom)、光存储器件、磁存储器件、或者上述的任意合 适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序 的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结 合使用。而在本技术中,计算机可读信号介质可以包括在基带中或者作为 载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传 播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述 的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以 外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用 于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机 可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于: 无线、有线等等,或者上述的任意合适的组合。
[0140]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法 和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程 图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上 述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功 能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的 功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方 框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所 涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或 流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件 的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0141]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干 模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施 方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块 或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可 以进一步划分为由多个模块或者单元来具体化。
[0142]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述 的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方 式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式 体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd
‑ꢀ
rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设 备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据 本技术实施方式的方法。
[0143]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到 本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适 应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包 括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0144]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精 确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅 由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献