一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于政策文本分类和关键信息识别的政策文本分析方法与流程

2022-11-09 22:30:50 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,具体涉及一种基于政策文本分类和关键信息识别的政策文本分析方法。


背景技术:

2.通常情况下,政策文件的文本结构划分具有标准可循,甚至用词上也有统一的标准。对政策文件的内容和结构进行自动化地识别、分析,对于提高政策文件分析效率尤为重要。近些年,自然语言处理技术迅猛发展,主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文ocr等方面。因此,对于具有结构化的文本内容的政策文件而言,自然语言处理技术不失为分析政策文件文本内容的一种有效手段。
3.目前,具有较高分类、识别精度的政策文件文本内容识别方法很少,部分学者采用无监督学习的方式训练文本分类识别模型以用于识别政策文本内容,但由于缺乏对政策文本内容的分类、识别标准,导致训练而得的文本分类识别模型的性能不够稳定。还有部分学者采用监督学习方法训练文本分类识别模型,但同样没有统一的标准对政策文本内容作标签标注,导致训练而得的文本分类识别模型同样不够稳定,且获取大量用于监督学习的训练样本通常需要较高的成本。


技术实现要素:

4.本发明以实现对政策文件文本段落的准确分类和关键信息的精准识别为目的,提供了一种基于政策文本分类和关键信息识别的政策文本分析方法。
5.为达此目的,本发明采用以下技术方案:提供一种基于政策文本分类和关键信息识别的政策文本分析方法,步骤包括:s1,基于预训练的政策文本分类器对输入的段落,预测输出所述段落的类型;s2,基于预训练的政策信息识别器对完成分类的各所述段落进一步在实体级别抽取出关键信息。
6.作为优选,步骤s1中,所述政策文本分类器预测所述段落的类型的方法具体包括步骤:s11,对于给定的政策文件中的所述段落,使用模板函数将转换为语言模型的输入,在原始的所述段落中增加了分类任务的提示语言,所述提示语言中包含需要预测并填写标签的掩码位置;s12,所述语言模型预测出填入所述掩码位置的标签;
s13,标签转换器将所述标签映射为事先构建的政策文件要素体系的标签词集合中对应的标签词作为预测得到的所述段落的类型。
7.作为优选,训练所述语言模型的方法步骤包括:a1,对于作为训练样本的每个,计算所述标签词集合中的每个标签词填入所述掩码位置的概率分数;a2,通过softmax函数计算概率分布;a3,根据和,并利用所构造的损失函数,计算模型预测损失;a4,判断是否达到模型迭代训练终止条件,若是,则终止迭代,输出所述语言模型;若否,则调整模型参数后返回步骤a1继续进行迭代训练。
8.作为优选,所述语言模型为由若干个语言子模型融合形成的融合语言模型,训练所述融合语言模型的方法包括步骤:b1,定义模板函数集合,所述模板函数集合中包含若干个不同的所述模板函数;b2,对于作为训练样本的每个,通过对应的所述语言子模型,计算所述标签词集合中的每个标签词填入所述掩码位置的概率分数;b3,对关联每个所述模板函数的进行融合得到;b4,通过softmax函数计算概率分布;b5,根据和,并利用所构造的损失函数,计算模型预测损失;b6,判断是否达到模型迭代训练终止条件,若是,则终止迭代,输出所述融合语言模型;若否,则调整模型参数后返回步骤b2继续进行迭代训练。
9.作为优选,所述语言模型或所述语言子模型为bert语言模型。
10.作为优选,所述政策文件要素体系包括句子级别要素和实体级别要素,所述句子级别要素包括政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理、监管评估、准入条件8大类共27个子类别中的任意一种或多种,
其中,所述政策工具-供给型这一大类下包括人才培养、资金支持、技术支持、公共服务这4个子类别中的任意一种或多种;所述政策工具-环境型这一大类下包括法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传这6个子类别中的任意一种或多种;所述政策工具-需求型这一大类下包括政府采购、公司合作、海外合作这3个子类别中的任意一种或多种;所述监管评估这一大类下包括监督管理和/或考核评估这2个子类别;所述资金管理这一大类下包括资金来源和/或管理原则这2个子类别。
11.作为优选,步骤s2中,基于所述政策信息识别器抽取每个所述段落中的所述关键信息的方法包括步骤:s21,定义句子模板集合、政策文件要素体系中用于实体识别的标签词集合、以及语言模型用于实体识别的标签集合,所述句子模板集合中包含实体类型和非实体类型的句子模板,句子模板中包含两个空缺待填入的词,其中第一空缺为从输入的所述段落中截取的文本片段,第二空缺为对截取的文本片段进行分类的类别标签,所述标签集合中标签与所述标签词集合中的标签词具有映射关系;s22,将从所述段落中截取的每个所述文本片段和每个所述标签对应的标签词分别填入到所述句子模板集合中的每个所述句子模板中的所述第一空缺和所述第二空缺中,然后使用所述语言模型计算这些填写好的句子的概率分数,计算方法通过以下公式(1)表达:公式(1)中,表示使用候选的文本片段和与标签具有映射关系的标签词填入句子模板得到的句子;表示所述句子的序列长度;表示所述句子的词序列中的第项;表示所述句子的词序列中的第1项到第项;
表示输入到所述语言模型的文本序列;表示在给定输入文本和句子模板的词序列中的第1项到第项的情况下,模型预测第c项为的概率;s23,将得分最高的所述句子中填入的文本片段作为关键信息实体,对应的类型标签映射为所述标签词后作为对应的实体类型,共同构成所述段落的关键信息,。
12.作为优选,步骤s2中所述语言模型为bart模型。
13.作为优选,步骤a1中,的计算方法通过以下公式(2)表达:步骤a2中通过softmax函数(3)计算:公式(2)、(3)中,表示标签集合中与所述标签词具有映射关系的标签;表示文本分类任务的标签集合;步骤a3中所构造的损失函数通过以下公式(4)表达:公式(4)中,表示微调系数;表示模型预测的分布与真实分布间的差距;表示模型预测的分数与真实分数间的差距。
14.作为优选,步骤b2中的计算方法通过以下公式(5)表达:步骤b3中通过以下公式(6)融合而得:
公式(6)中,表示所述模板函数集合中的所述模板函数的数量;表示所述模板函数在计算时所占的权重;步骤b4中通过softmax函数(7)计算:公式(5)、(6)、(7)中,表示标签集合中与所述标签词具有映射关系的标签;表示文本分类任务的标签集合;步骤b5中所构造的所述损失函数通过以下公式(8)表达:公式(8)中,表示微调系数;表示模型预测的分布与真实分布间的差距;表示模型预测的分数与真实分数间的差距。
15.作为优选,公式(4)和公式(8)中的微调系数。
16.本发明具有以下有益效果:1、构建了一套完整的政策文件要素体系,将政策文件中的各个不同要素清晰地划分开。后续基于这个体系,能够更为准确地实现对政策文件中每个段落的分类以及实体级别的文本段落的关键信息提取。
17.2、通过在原始段落中增加了分类任务的提示语言,该提示语言中包含需要预测并填写标签的掩码位置,将段落分类问题转换为类似完形填空的分类预测问题,简化了段落分类预测的过程,能够基于所构建的完整的政策文件要素体系,更精准地从内容构成和文件结构的角度解析政策文件文本,并挖掘出更深层的信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
18.3、提供的政策信息识别器通过在所构建的政策文件要素体系下预测两个空缺内容标签的方式简化了文本实体的识别难度,能够基于构建的政策文件要素体系,更准确地从文本中提取出有用的关键信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
附图说明
19.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本发明一实施例构建的政策文件要素体系的示意图;图2是本发明一实施例提供的预测政策文件的段落类别的逻辑框图;图3是本发明一实施例提供的基于提示学习的政策信息识别器的逻辑框图;图4是本发明一实施例用于对比的基于预训练-微调的政策信息识别器的逻辑框图;图5是本发明一实施例提供的基于政策文本分类和关键信息识别的政策文本分析方法的实现步骤图;图6是政策文本分类器预测段落的类型的方法实现步骤图;图7是政策信息识别器抽取段落中的关键信息的方法步骤图。
具体实施方式
21.下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
22.其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
23.本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
24.在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
25.本发明实施例中,申请人收集了一定数量的政策文件,作为政策文件要素体系构建的参考以及后续政策文本分类器和政策信息识别器的模型训练数据。这些政策文件涉及农业、工业、商业、服务业等各个领域,政策文件的适用对象包括个体、企业、机构等。本实施例所构建的政策文件要素体系如图1所示,根据在文本段落中的字符长度,将体系中的要素分为句子级别和实体级别。句子级别的要素在段落中一般覆盖了整个句子,比如“对成功上市的企业,对经营团队给予市区联动200万元奖励”,这个句子为一条完整的句子,因此被认
定为句子级别;而实体级别的要素在段落中一般包含于具有特定意义的词中,比如政策名称、政策文号、发布地区、制定部门等。
26.进一步地,句子级别的要素又细分为一般形式和“主体-关系-域”形式,一般形式的句子级别要素用于区分段落在政策文本中的内容构成,如图1中的政策目标、申请审核、政策工具、监督评估、资金管理等。而“主体-关系-域”形式的句子级别要素用于结构化地表示政策的准入条件,如与企业注册地相关的准入条件“企业注册地-属于-上海”。具体如图1所示,本实施例所构建的政策文件要素体系的具体内容如下:1、实体级别的要素包括:政策名称、政策文号、发布地区、制定部门、执行部门、发布时间和执行期限7个类别;2、一般形式的句子级别的要素包括:政策目标、申请审核、政策工具、监管评估、资金管理5个大类。其中,监管评估被进一步细分为监督管理和考核评估2个子类。资金管理被进一步细分为资金来源和管理规则2个子类。政策工具被进一步细分为如下3个类型共13个子类:供给型政策工具(即政策工具-供给型),包括人才培养(建立人才发展规划,积极完善各种教育体系及培训体系等)、资金支持(提供财力支持,如研发经费和基础设施建设经费等)、技术支持(技术辅导与咨询,加强技术基础设施建设等)、公共服务(完善相关配套设施、政策环境等)。
27.环境型政策工具(即政策工具-环境型),包括法规管制(制定法规、标准,规范市场秩序,加大监管力度)、目标规划(顶层设计,提供相应政策配套服务)、税收优惠(税收减免和退税等政策激励,包括投资减免、加速折扣、免税和租税抵扣等)、金融支持(通过金融机构为企业提供贷款、补助、风险投资、信用担保、基金、风险控制以及其他金融支持)、组织建设(为促进产业健康发展设立领导、监管、服务等组织及队伍建设)、政策宣传(为促进产业发展宣传相关政策)。
28.需求型政策工具(即政策工具-需求型),包括政府采购(政府向相关企业进行产品采购)、公私合作(政府与社会多方主体共同参与产业发展的相关活动,如共同投资、共同开展技术研究、发展规划研究等)、海外合作(引进外资,在生成技术、标准定制等方面与海外政府、企业或科研机构展开合作与交流)。
[0029]“主体-关系-域”形式的句子级别的要素包括准入条件,其中又可以细分为8个子类:注册地、产权要求、业务领域、员工构成、法人资格、企业类型、经营要求、研发要求。
[0030]
在对政策文本进行段落分类和关键信息识别前,首先对政策文件的文本内容进行段落拆分。对政策文件的文本内容进行段落拆分的现有方法有许多,且拆分段落的方式也并非本发明请求权利保护的范围,因此有关段落拆分的具体方式在此不做说明。
[0031]
完成段落拆分后,进入段落分类和关键信息识别流程。本实施例中,通过预先训练的政策文本分类器对段落进行分类,进而分析政策文件的内容构成和文件结构。本实施例中,选择图1中所示的政策文件要素体系中的一般形式的句子级别要素作为段落的候选类别集合,并且使用两种不同分类粒度的类别集合为样本分别进行了政策文本分类器的训练并比较了训练效果,其中一个分类粒度的句子级别要素为图1中所示的政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、资金管理和监管评估共7个大类;另外一个分类粒度为对政策工具、监管评估、资金管理这3个大类扩充后的17个小类以
及政策目标、申请审核这两个大类共19个类别。政策文本分类器在对段落进行分类时,还会判断段落是否不属于这些种类的任意一个,即判断是否为无意义段落。
[0032]
以下对本实施例利用预训练的政策文本分类器对输入的段落进行分类的方法进行具体阐述:本实施例中,对输入段落进行分类的技术核心是采用了提示学习的思想,提示学习可以简化分类过程、提高分类效率,对于小规模数据集具有更高的分类优越性。具体而言,为了更充分地发挥政策文本分类器强大的问答和阅读理解能力,以及挖掘标注的小规模政策文件文本数据集中包含的更深层次的信息,通过将输入的段落文本按照特定模式进行处理,为其增加任务提示语言,使其更适配语言模型的问答形式。基于提示学习的政策文本分类器进行段落识别的原理如下:设为预先训练的语言模型(优选为bert语言模型),是政策文件要素体系中的标签词集合,掩码词被用于填写语言模型的输入里被遮盖住的掩码位置的内容,并令是文本分类任务(段落分类任务)的标签集合。对每个政策文本段落分词后得到输入语言模型的词序列,然后使用自定义的模板函数将转换为语言模型的输入,在中增加了分类任务的提示语言,提示语言中包含需要预测并填写标签的掩码位置。经转换后,可以将段落类型预测问题转换为完形填空问题,即语言模型以完形填空问题形式表示的为输入,预测得到的最合适填入掩码位置的词作为对表达的段落的分类预测结果。
[0033]
需要强调的是,本技术基于提示学习的思想,更好地利用了语言模型的问答和阅读理解能力,同时由于将分类问题转换成了完形填空问题,预测过程更加简单,提高了政策文本分类器的分类效率。进一步地,本实施例定义了一个从文本分类任务的标签集合到政策文件要素体系中的标签词集合的映射作为标签的转换器。例如,对于中的标签,该标签转换器将其映射为标签词,“政策目标”即为预测的段落类别。
[0034]
图2是本发明实施例提供的预测政策文件的段落类别的逻辑框图。需要强调的是,对于每一个模板函数和标签转换器,本实施例通过以下步骤来实现对段落的分类:给定一个输入段落(优选为原始段落的词序列),使用模板函数将转换为语言模型的输入,语言模型会预测中掩码位置最合适的标签,,然后使用标签转换器将这个标签映射为政策文件要素体系中的标签词
,,并将其作为对段落的分类。作为优选,本实施例采用预训练的中文bert模型作为语言模型,其对掩码位置的预测方法沿用了bert模型的预训练任务,即使用其对中掩码位置对应的输出来预测掩码位置的标签(预测方法与bert模型的masked language model预训练任务一致,不做详细说明)。
[0035]
举例而言,关于模板函数,假设定义为“。总体而言,这是有关_____的政策文本段落。”其中,“_____”表示掩码位置,这样就为原始文本段落增加了一个分类任务的提示语言。例如为“对成功上市的企业,对经营团队给予市区联动200万元奖励”,对于该段落,增加上述的提示语言后,语言模型的分类任务为预测“对成功上市的企业,对经营团队给予市区联动200万元奖励。总体而言,这是有关_____的政策文本段落。”中的掩码位置“_____”的标签。预测出掩码位置后的标签后,将预测到的标签映射为政策文件要素体系中的标签词集合中对应的标签词作为预测得到的段落的类型。
[0036]
以下对本实施例训练语言模型的方法进行说明:语言模型优选采用bert模型,bert模型的现有训练方法有许多,这些现有的训练方法可应用到本技术中用于训练语言模型,区别在于,本实施例用于训练语言模型的样本为经模板函数转换得到的以及经标签转换器转换得到的标签词集合中对应的标签词,以及本技术为提高分类精度而改进的用于评估模型性能的损失函数。
[0037]
训练语言模型时,本技术将样本数据集按照7:3的比例随机划分为训练集和验证集,训练过程如下:对于每个政策文本段落产生的只包含一个掩码位置的序列,对政策文件要素体系中的标签词集合中的每个标签词填入该掩码位置的概率计算一个分数(由于标签在标签词集合中具有一个存在映射关系的标签词,因此预测标签填入该掩码位置的概率分数相当于预测对应的标签词填入该掩码位置的概率分数),这个分数由语言模型预测,代表预测出的该标签词可以填入该掩码位置的可能性。更为具体地,对于一个序列,本技术计算文本分类任务的标签集合中的标签填入该掩码位置的概率分数的方法通过以下公式(1)表达:
公式(1)中,表示标签填入掩码位置的概率分数,由于标签与政策文件要素体系的标签词集合中对应的标签词具有映射关系,因此相当于表示标签词填入掩码位置的概率分数;,例如可以将图1中的标签词“政策目标”的标签映射为,将标签词“申请审核”的标签映射为,通过这样建立映射关系,将所述任务从为输入句子分配一个没有含义的标签变为了选择最有可能填入掩码位置的词。
[0038]
在计算得到中所有标签词填入同个掩码位置的分数后,通过softmax函数得到一个概率分布,具体计算方法通过以下公式(2)表达:公式(2)中,表示文本分类任务的标签集合;然后,根据和,并利用所构造的损失函数,计算模型预测损失,所构造的损失函数通过以下公式(3)表达:公式(3)中,表示微调系数(优选为0.0001);表示模型预测的分布与真实独热向量分布间的差距;表示模型预测的分数与真实分数间的差距;最后,判断是否达到模型迭代训练终止条件,若是,则终止迭代,输出语言模型;若否,则调整模型参数后继续进行迭代训练。
[0039]
为了进一步提升模型训练效果,进而提升语言模型的分类性能,优选地,语言模型为由若干个语言子模型融合形成的融合语言模型,训练融合语言模型的方法为:首先,定义一个模板函数集合,模板函数集合中包含若干个不同的模板函数,例如,“。这个政策文本段落和什么有关_____”,又例如,“这个政策文本段落和什么有关和_____有关”等等。对于不同的模板函数,本实施例通过以下方法来训练融合语
言模型:对于作为训练样本的每个,通过对应的语言子模型计算标签词集合中的每个标签词填入掩码位置的概率分数,计算方法通过以下公式(4)表达:对关联每个模板函数的进行融合得到,具体通过以下公式(5)表达:公式(5)中,表示模板函数集合中的模板函数的数量;表示模板函数在计算、时所占的权重,本实施例中,根据各语言子模型在训练集和验证集上获得的准确度来确定个的权重。
[0040]
然后,通过softmax函数计算概率分布,计算方法通过以下公式(6)表达:公式(4)、(5)、(6)中,;表示文本分类任务的标签集合;最后,根据和,并利用所构造的损失函数,计算模型预测损失,所构造的损失函数通过以下公式(7)表达:公式(7)中,表示微调系数(优选为0.0001);表示模型预测的分布与真实分布间的差距;表示模型预测的分数与真实分数间的差距。
[0041]
本技术提供的以具有提示语言的为语言模型的输入的掩码位置标签预测方法在有标注的训练数据集规模较小的情况下具有优秀的预测性能,为了验证其在训练数据较少时的优秀性能,本技术还设计了多种基于完全监督学习的政策文本分类器进行
性能比较,具体方法包括:(1)对于政策文件段落,使用分词工具得到词序列,记为,表示词序列中的第个词,再通过在大规模综合领域语料库上预训练得到的词向量表示模型对分词后的每个词进行分布式表示。本实施例中,使用的是静态的词向量,每个词被表示为一个300维的预训练的向量,表示词序列中的第个词,通过词向量得到段落的特征表示后,将段落的特征表示输入一个多分类器来预测每个段落属于个类别的概率,预测过程表示为:,为特征表示函数,表示段落为第个类别的概率,选择其中概率最大的类别作为段落所述的类别。
[0042]
(2)在多分类器部分,本技术选择基于统计机器学习和基于深度学习的方法对多分类器进行完全监督学习。其中,基于统计机器学习的多分类器是以支持向量机模型和xgboost模型为基础设计的;基于深度学习的多分类器是以textcnn模型和bi-lstm attention模型为基础设计的。
[0043]
1)在基于统计机器学习的多分类器中,对一个政策文本段落,将分词后的段落的所有词的300维分布式表示的每一维取平均值,并拼接上段落的长度和在整篇政策文件中的相对位置(段落在文件中的索引值/文件的总分段数)这两个特征后得到一个302维的特征向量,将其输入到多分类器中,输出该段落分类的标签。
[0044]
2)在基于深度学习的多分类器中,对一个政策文本段落,将分词后的段落的所有词的分布式表示拼接成一个矩阵,并用3种不同尺寸的卷积核去提取特征,3种卷积核的大小可以分别为3
×
3、4
×
4、5
×
5,卷积后再进行最大池化,最后将不同尺寸的卷积核提取的特征拼接为特征向量输入到softmax激活函数后输出该段落分类的标签。
[0045]
3)在另一个基于深度学习的多分类器中,对一个政策文本段落,将分词后的段落的所有词的300维分布式表示正向输入到lstm长短时记忆网络中得到,逆向输入lstm得到,并将两者对应时序的元素相加得到每个时
序的输出向量。然后通过attention机制,计算每个时序的权重并将所有时序的向量加权求和作为特征向量,最后使用softmax函数进行分类。
[0046]
以下展示了通过方法(1)以及方法(2)中的1)、2)、3)四种方法在小规模训练数据集上训练得到的多分类器与通过本发明实施例提供的基于提示语言和掩码位置标签预测的政策文本分类方法训练的语言模型对图1中所示的“政策目标、申请审核、政策工具-供给型、政策工具-环境型、政策工具-需求型、监管评估、资金管理”7大类以及“政策目标、申请审核、人才培养、资金支持、技术支持、公共服务、法规管制、目标规划、税收优惠、金融支持、组织建设、政策宣传、政府采购、公私合作、海外合作、监督管理、考核评估、资金来源、管理原则”19类这两种不同粒度的政策文件的段落分类的效果对比表,评价指标为测试集上的正确率。由下表a可知:本实施例训练的语言模型在段落中增加分类任务提示语言进行掩码位置标签预测的段落文本分类方法在小规模数据集上表现出了比其他四种方法训练的多分类器具有更优的段落分类性能,证明了本实施例训练的语言模型在小规模数据集上预测段落类别的优越性。
[0047]
表a完成对政策文本中的段落分类后,有时需要自动识别出各个段落中的关键信息。本技术通过基于提示学习的政策信息识别器来识别政策文件中的关键信息。本技术中,定义图1中所示的政策文件要素体系中的实体级别的要素作为政策的关键信息类别集合,即图1中所示的“政策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别。
[0048]
以下对基于提示学习的政策信息识别器抽取出每个段落中的关键信息的方法进行具体阐述:总体而言,本技术将每个段落看作一个字符序列,通过政策信息识别器去识别字符序列中的每一位是否为实体边界以及识别实体的种类。具体地,如图3所示,设定为预训练的语言模型,在模型中,是政策文件要素体系中用于实体识别的标签词集合,并令为实体识别任务的标签集合,标签集合中的每个标签在标签词集合中存在一个具有映射关系的标签词,并定义句子模板,模板中包含两个待
填入词的空缺,第一空缺填入的内容为从输入段落中截取的文本片段,这些片段被视为候选的实体,第二空缺为需要预测的所填入的文本片段的实体类别标签。对政策文件要素体系中用于实体识别的标签词集合中的每一个标签词代表的实体类型,将这个实体类型填入中定义一个新模板,例如定义句子模板为“[文本片段]是一个[实体类型]政策实体”,那么对于实体识别的标签词集合中的“制定部门”实体类型,将其填入模板中后可以定义一个新的模板例如为“[候选实体]是一个制定部门政策实体”。此外,为了处理文本片段不是实体的情况,再定义一个“非实体”类型的句子模板,也就是“[文本片段]不是一个政策实体”,这样,多个不同的实体类型的句子模板和非实体类型的句子模板构成一个句子模板的集合。
[0049]
将从段落中截取的每个文本片段填入到句子模板集合中的每个句子模板中,然后使用语言模型(同样优选为bart模型)计算这些填写好的句子的概率分数,计算方法通过以下公式(8)表达:公式(8)中,表示使用候选的文本片段和与标签填入到句子模板后得到的句子;表示所述句子的序列长度;表示句子的词序列中的第项;表示句子的词序列中的第1项到第项;表示输入到所述语言模型的文本序列;表示在给定输入文本和句子模板的词序列中的第1项到第项的情况下,模型预测第c项为的概率,该概率由预训练生成式语言模型计算得出。
[0050]
通过上述过程,就使用语言模型为每种实体类型和非实体类型的句子模板都计算了一个在第二空缺填入标签词的概率得分,然后将每个候选的文本片段分类为得分最高的句子模板对应的类型,当然该类型也可能是“非实体”。其中被分配了实体类型的文本片段就是这段文本中识别出的实体,其实体类型为分配的实体类型。
[0051]
以下对训练政策信息识别器的方法进行简要阐述:
transforme,三种模型的结构及构建方法简述如下:在基于多层感知机的上下文编码层中,采用线性层-relu函数层-线性层的结构。
[0056]
在基于transformer的上下文编码层中,使用transformer encoder对文本进行特征编码。
[0057]
在基于flat-lattice transformer(flat)的上下文编码层中,使用了一种transformer的变体flat,同时使用了文本的字符和词汇的分布式表示,并进一步拓展了transformer中的位置编码,引入了文本字符和词汇的首尾相对位置,试图更好地克服政策文件实体长度不平衡的问题。flat的文本片段相对位置编码计算方法通过如下公式(9)表达:公式(9)中,和分别表示第个文本片段在原始序列中的第一个和最后一个字符的位置索引。对于字符,其第一个和最后一个字符的位置索引是相同的(head和tail用于表示出文本片段从哪里开始,到哪里结束。例如,“政策的有效期为3年”这段文本中,“政策”的head和tail分别为1和2;而对于“政”这个字符,其head和tail都为1)。是一个可学习的参数,包括,的计算方法通过如下公式(10)、(11)表达:1)表达:公式(10)、(11)中,包括、、、中的任意一种;表示输入模型的向量长度。
[0058]
政策信息识别器的解码层使用条件随机场模型,解码过程使用了基于动态规划的维特比算法来获得较高的解码效率,并且使用条件随机场损失函数进行优化。
[0059]
以下展示了基于预训练-微调的政策信息识别器与通过本发明实施例提供的基于提示学习的政策信息识别器在有标注的训练数据集规模较小的情况下对图1中所示的“政
策名称、政策文号、发布地区、制定部门、执行部门、发布时间、执行期限”7个类别的政策信息的抽取效果对比表,评价指标为测试集上的f1得分。由下表b可知:本实施例训练的语言模型n在小规模训练数据集上表现出了比其他方法训练的政策信息识别器更优的性能,证明了本实施例训练的语言模型n在有标注的训练数据集较少时识别政策关键信息的优越性。
[0060]
表b综上,本发明实施例提供的基于政策文本分类和关键信息识别的政策文本分析方法,如图5所示,步骤包括:s1,基于预训练的政策文本分类器对输入的段落,预测输出段落的类型;s2,基于预训练的政策信息识别器对完成分类的各段落进一步在实体级别抽取出关键信息。
[0061]
更加具体地,如图6所示,政策文本分类器预测段落的类型的方法具体包括步骤:s11,对于给定的政策文件中的所述段落,使用模板函数将转换为语言模型的输入,在原始的所述段落中增加了分类任务的提示语言,提示语言中包含需要预测并填写标签的掩码位置;s12,语言模型预测出填入掩码位置的标签;s13,标签转换器将标签映射为事先构建的政策文件要素体系的标签词集合中对应的标签词作为预测得到的段落的类型。
[0062]
更加具体地,如图7所示,步骤s2中,基于政策信息识别器抽取每个段落中的所述关键信息的方法包括步骤:s21,定义句子模板集合、政策文件要素体系中用于实体识别的标签词集合、以及语言模型用于实体识别的标签集合,句子模板集合中包含实体类型和非实体类型的句子模板,句子模板中包含两个空缺待填入的词,其中第一空缺为从输
入的段落中截取的文本片段,第二空缺为对截取的文本片段进行分类的类别标签,标签集合中标签与所述标签词集合中的标签词具有映射关系;s22,将从段落中截取的每个文本片段填入到句子模板集合中的每个句子模板中,然后使用语言模型对填写好文本片段的每个句子模板计算标签集合中的每个标签填入第二空缺的概率分数,计算方法通过以下公式(12)表达:公式(12)中,表示使用候选的文本片段和与标签填入句子模板得到的句子;表示所述句子的序列长度;表示所述句子的词序列中的第项;表示所述句子的词序列中的第1项到第项;表示输入到语言模型的文本序列;表示在给定输入文本和句子模板的词序列中的第1项到第项的情况下,模型预测第c项为的概率,该概率由预训练生成式语言模型计算得出;s23,将得分最高的所述句子中填入的文本片段作为关键信息实体,对应的类型标签映射为所述标签词后作为对应的实体类型,共同构成所述段落的关键信息。
[0063]
本发明具有以下有益效果:1、构建了一套完整的政策文件要素体系,将政策文件中的各个不同要素清晰地划分开。后续基于这个体系,能够更为准确地实现对政策文件中每个段落类型的分类以及实体级别的文本段落的关键信息提取。
[0064]
2、通过在原始段落中增加了分类任务的提示语言,该提示语言中包含需要预测并填写标签的掩码位置,将段落分类问题转换为类似完形填空的分类预测问题,简化了段落分类预测的过程,能够基于所构建的完整的政策文件要素体系,更精准地从内容构成
和文件结构的角度解析政策文件文本,并挖掘出更深层的信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
[0065]
3、提供的政策信息识别器通过在所构建的政策文件要素体系下预测两个空缺内容标签的方式简化了文本实体的识别难度,能够基于构建的政策文件要素体系,更准确地从文本中提取出有用的关键信息,并且在有标注的训练数据集规模较小的情况下有优秀的表现。
[0066]
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本技术说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献