一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于BERT模型的金融创新专利分类方法与流程

2022-02-23 01:16:15 来源:中国专利 TAG:

一种基于bert模型的金融创新专利分类方法
技术领域
1.本发明涉及专利分类技术领域,尤其涉及一种基于bert模型的金融创新专利分类方法。


背景技术:

2.自然语言处理(naturallanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。当前影响最大的预训练语言模型是基于transformer的双向深度语言模型—bert。bert是由多层双向transformer解码器构成,主要包括2个不同大小的版本:基础版本有12层transformer,每个transformer中的多头注意力层是12个,隐藏层大小为768;加强版有24层transformer,每个transformer中的多头注意力层是24个,隐藏层大小为1024。由此可见深而窄的模型效果要优于浅而宽的模型。目前bert在机器翻译、文本分类、文本相似性、阅读理解等多个任务中都有优异的表现。
3.在过去十年中,有关金融科技的学术研究随着全球新金融科技初创企业的指数式增长而不断发展。一些期刊主办了专门针对金融科技创新的专题,包括《金融研究评论》和《管理信息系统杂志》。然而,很少有研究能够提供关于金融科技创新的系统概述,主要原因是缺乏国际公认的分类法,部分原因是缺少能够使用机器学习和深度学习方法进行大规模数据分析的数据集。因此,现有的专利文本分类方法缺少一种对于金融科技创新的专利进行分类的方法。


技术实现要素:

4.本发明的目的在于克服现有技术的不足,提供一种基于bert模型的金融创新专利分类方法。
5.本发明的目的是通过以下技术方案来实现的:一种基于bert模型的金融创新专利分类方法,包括:步骤1:从专利数据库中获取专利数据;步骤2:对专利数据进行预处理,选择由企业实体开发或拥有的专利,并进一步过滤具有属于g和h领域的ipc代码的专利;步骤3:将预处理后的专利数据输入bert模型,以筛选出属于金融科技类别的专利,并将筛选出的专利数据进行分类;其中,bert模型的训练过程为:步骤4:准备训练样本和测试样本,具体为:按照金融科技类别手动标记属于金融科技类别的专利数据集,并手动标记一个非金融科技类别的专利数据集,将标记的专利数据分为训练样本集和测试样本集;步骤5:使用transformers库,通过手动标记后的数据来对预训练的bert模型及变体模型进行参数微调实验,从而提升bert模型的分类性能并得到实验效果最佳的最优bert
模型;其中,使用adam优化器对bert模型进行优化;步骤6:将用于金融创新专利分类任务的最优bert模型与预训练的bert模型上的cnn网络或rnn网络进行比较;所述预训练的bert模型中为专利摘要中的每个标记创建维度为768的嵌入,并将标记嵌入作为输入提供给cnn或rnn网络;步骤7:训练投票分类器,所述投票分类器由l-svm、g-svm和mlp网络组成,并将投票分类器与基于传统机器学习及常见深度学习分类方法进行实验对比,从而对投票分类器进行优化。
6.进一步的,所述金融科技类别包括数据分析、欺诈、保险、投资和支付。
7.进一步的,所述标记的专利数据中有80%为训练样本,20%为测试样本。
8.进一步的,所述步骤5中使用adam优化器训练每个模型6个纪元,学习率为2e
−5,对于其他超参数均使用默认值。
9.进一步的,所述预训练的bert模型的cnn或rnn网络中任何包含超过512个标记的摘要都会被截断为512个标记,以适应bert模型的大小限制;在cnn或rnn网络训练期间,将bert模型的权重冻结。
10.进一步的,所述cnn网络中包含了一个卷积层以及多个过滤器;所述过滤器包括宽度分别为3、4和5的过滤器;其中1宽度中包含32个特征图,用于提取给定金融创新专利摘要的特征;所述卷积层之后是单层前馈网络,所述单层前馈网络将从卷积中提取的扁平特征作为输入,并输出类别的概率分布。
11.进一步的,在cnn网络的训练期间,使用标准交叉熵损失作为优化标准,使用adam作为优化器,学习率为1e

4的,每5个纪元衰减10倍,总共训练15个纪元。
12.进一步的,所述rnn网络采用bi-lstm网络,预训练模型的正向和反向lstm网络的单元输入大小均为768;每个所述lstm网络仅有一个大小为64的隐藏层;所述预训练模型采用lstm网络输出的元素最大值,并将该元素最大值作为特征向量输入到单层全连接网络中进行分类。
13.进一步的,在rnn网络在训练期间,使用标准交叉熵损失作为优化标准,使用adam作为优化器,总共训练25个纪元,学习率为1e-4

14.进一步的,所述步骤7中进行实验对比的基于传统机器学习及常见深度学习分类方法包括线性支持向量机、高斯支持向量机、多层感知器、朴素贝叶斯、随机森林、梯度提升方法;投票分类器在训练期间,使用标准交叉熵作为优化标准,使用adam作为优化器,总共训练30个纪元,学习率为6e
−4。
15.本发明的有益效果:本发明解决了金融创新专利分类方法及基准数据集缺乏的问题,通过专利数据库获取到的数据形成数据集并根据分类法手动标记一组金融创新专利摘要,随后使用标记的数据集来训练bert模型;并通过实验结果验证了与基于传统机器学习及常见深度学习算法的分类方法相比,本方案在分类性能上具有显著优势。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图示出的结构获得其他的附图。
17.图1是本发明的方法流程图。
18.图2是分类结果混淆矩阵图。
19.图3是金融科技专利分类结果图。
20.图4是与其他分类方法实验结果对比图。
具体实施方式
21.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
22.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.本实施例中,如图1所示,一种基于bert模型的金融创新专利分类方法,包括:步骤1:从专利数据库中获取专利数据;具体可以从 orbis-patstat 数据库中检索 2000 年至 2017 年期间提交的所有专利,该数据库包含世界各地提交的超过 1 亿份专利文件的书目条目,以及有关其公司所有权的详细信息。
24.步骤2:对专利数据进行预处理,选择由企业实体开发或拥有的专利,并进一步过滤具有属于g和h领域的ipc代码的专利;这些领域涵盖与数字计算相关的专利创新,其中包括许多金融科技类别,通过过滤过程产生了 680 万项专利。
25.步骤3:将预处理后的专利数据输入bert模型,以筛选出属于金融科技类别的专利,并将筛选出的专利数据进行分类;其中,bert模型的训练过程为:步骤4:准备训练样本和测试样本,具体为:按照金融科技类别手动标记属于金融科技类别的专利数据集,并手动标记一个非金融科技类别的专利数据集,将标记的专利数据分为训练样本集和测试样本集;其中,对专利数据集使用的标记术语是从 campbell r. harvey 的超文本金融词汇表和在线牛津金融与银行词典中的 487 个金融术语的词典开始,开发了一个包含 516 个金融标记术语的增强数据集,使用这些术语从集中选择包含至少一个关键字(金融科技类别)的专利,得到 516 个财务条款之一的专利数量为 38,228项。金融科技涵盖范围广泛的金融产品和服务。目前,没有全面的、广为接受的分类法来分析该行业。因此,通过确认来自学术界和工业界的大量文章、报告和市场地图的研究得出的分类法来构建金融科技分类法。它包含五个金融科技类别,分别是数据分析、欺诈、保险、投资和支付。
26.步骤5:使用transformers库,通过手动标记后的数据来对预训练的bert模型及变体模型进行参数微调实验,从而提升bert模型的分类性能并得到实验效果最佳的最优bert模型;并使用adam优化器训练每个模型6个纪元,学习率为2e
−5,对于其他超参数均使用默认值。
27.步骤6:将用于金融创新专利分类任务的最优bert模型与预训练的bert模型上的cnn网络或rnn网络进行比较;所述预训练的bert模型中为专利摘要中的每个标记创建维度为768的嵌入,并将标记嵌入作为输入提供给cnn或rnn网络;
步骤7:训练投票分类器,所述投票分类器由l-svm、g-svm和mlp网络组成,并将投票分类器与基于传统机器学习及常见深度学习分类方法进行实验对比,从而对投票分类器进行优化。
28.为了与基于传统机器学习及常见深度学习分类方法进行实验对比,使用线性支持向量机、高斯支持向量机、多层感知器、朴素贝叶斯、随机森林、梯度提升方法以及一个投票分类器进行金融创新专利分类,其中投票分类器由l-svm、g-svm和mlp网络组成, 除 mlp 外,l-svm和g-svm均使用 scikit-learn 库实现,并使用库提供的默认超参数值(除了l-svm 中 c = 0.0,g-svm中 c = 1 )。mlp 网络是用 pytorch 实现的,总共有 4 层。
29.其中,所述投票分类器在训练期间,使用标准交叉熵作为优化标准,使用adam作为优化器,总共训练30个纪元,学习率为6e
−4。
30.在本实施例中,为了能够为金融科技专利分类识别训练机器学习和深度学习模型,手动标记了专利数据集的一个子集。具体来说,手动标记了以下每个类别的500项专利:欺诈、保险、投资和支付,以及数据分析类别的350项专利(该类别中手动标记的专利数量较少,因为这些专利更难识别)。此外,手动标记了1,500项非金融科技专利的子集。因此手动标记数据集包含2,350项金融科技专利和1,500项非金融科技专利,总共有3,850项手动标记专利。为了训练和评估提出的模型,数据集被分为训练和测试子集,其中训练子集包含80%的标记数据,测试数据集包含20%的数据。
31.在本实施例中,步骤5中进行参数微调实验的bert模型及变体模型可包括bert、roberta和albert。对于每一个模型,使用不同的架构(例如,对于bert,使用如下架构:bert-base-uncased,bert-base-cased,bert-large-uncased,等等)其中,预训练的bert模型的cnn或rnn网络中任何包含超过512个标记的摘要都会被截断为512个标记,以适应bert模型的大小限制;在cnn或rnn网络训练期间,将bert模型的权重冻结。
32.在本实施例中,cnn网络中包含了一个卷积层以及多个过滤器;所述过滤器包括宽度分别为3、4和5的过滤器;其中1宽度中包含32个特征图,用于提取给定金融创新专利摘要的特征;所述卷积层之后是单层前馈网络,所述单层前馈网络将从卷积中提取的扁平特征作为输入,并输出类别的概率分布。
33.其中,在cnn网络的训练期间,使用标准交叉熵损失作为优化标准,使用adam作为优化器,学习率为1e

4的,每5个纪元衰减10倍,总共训练15个纪元。
34.其中,所述rnn网络采用bi-lstm网络,预训练模型的正向和反向lstm网络的单元输入大小均为768;每个所述lstm网络仅有一个大小为64的隐藏层;所述预训练模型采用lstm网络输出的元素最大值,并将该元素最大值作为特征向量输入到单层全连接网络中进行分类。
35.其中,在rnn网络在训练期间,使用标准交叉熵损失作为优化标准,使用adam作为优化器,总共训练25个纪元,学习率为1e-4

36.在本实施例中,为了评估训练的各种模型的性能,使用的标准指标包括整体准确度、精确度、召回率和f1分数。
37.模型实验结果如图2所示。通过最后的bert模型进行分类的分类结果如图3所示,从图中可以看出,数据分析类别的专利数量始终从2000年至2017年间始终是最多的,其后
依次为欺诈、保险和投资,支付最少。
38.在图4中展示了其他分类方法进行对比的实验结果。
39.在本实施例中,首先创建了一个从大量文献中得到证实的金融科技创新分类法搜索与金融科技相关的工作论文和已发表的学术文章、报告和材料。使用财务术语列表来预过滤与财务相关的专利。然后,构建大量人工标记的金融科技专利语料库,并使用语料库来训练和评估不同类型的深度学习分类器,最后,在经过财务术语预过滤的专利申请摘要中采用性能最佳的分类器,获得全球金融科技创新数据集。使用生成的数据集,得到了不同金融科技类别中金融科技创新出现的空间和时间分布。
40.通过本发明可以有效解释金融科技是什么,它们在哪里和为什么出现,以及它们对于社会和投资与它们的公司的财务业绩影响,可以直观的了解全球近几年金融科技创新趋势。
41.本发明解决了金融创新专利分类方法及基准数据集缺乏的问题,通过专利数据库获取到的数据形成数据集并根据分类法手动标记一组金融创新专利摘要,随后使用标记的数据集来训练bert模型;并通过实验结果验证了与基于传统机器学习及常见深度学习算法的分类方法相比,本方案在分类性能上的优势。
42.需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本技术所必须的。
43.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
44.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、rom、ram等。
45.以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献