一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于提示学习的中文词义消歧方法

2022-09-03 13:33:08 来源:中国专利 TAG:


1.本发明属于计算机技术领域,涉及一种基于提示学习的中文词义消歧方法。


背景技术:

2.词义消歧是指对于一个歧义词,当它在一个具体的上下文环境出现时,根据上下文的环境来确定该歧义词语义的过程,它作为自然语言处理领域中的基础任务,在其他下游任务中都有广泛应用,如机器翻译,信息提取和信息检索等。因此,解决语言的歧义现象是重要的研究任务之一。
3.词义消歧主要有两种类型,即有监督的词义消歧和基于知识库的词义消歧。有监督的词义消歧需要大量的带有词义注释的训练语料库。在有监督的词义消歧方法中,主要使用相关的注释数据来训练神经网络,从而消除歧义,通过提取人工设计的一些特征,然后为每个歧义词训练分类器。因此有监督的效果会比基于知识库的更好。基于知识库的词义消歧方法主要是通过提取歧义词所在上下文的语境词汇作为消歧特征,并且构建大规模的知识库来获取歧义词与消歧特征之间的关系,从而判别歧义词的真实含义,比较常用的知识库包括wordnet、wikipedia和hownet等。基于知识库的词义消歧方法不仅可以节约成本,提高效率,同时也可以避免因训练语料库规模过小而导致的消歧效率低的问题。
4.现有技术不足:
5.(1)基于bert的大多数方法都采用使用bert迁就下游任务的形式,首先将预训练模型应用到下游任务上,然后再通过微调预训练语言模型提升性能。但随着预训练语言模型体量不断地增大,对其微调的硬件要求和实际代价也在变得更艰难。
6.(2)中文的bert是基于字的,大多数基于bert的词义消歧模型在预训练mlm模型任务中只能以字为单位去添加mask标记,词是取得字的平均,对词的表达不够准确。
7.本发明主要解决中文词义消歧模型存在的消歧效率低、监督分类时需要大量数据标注以及未充分利用bert的自身能力等问题。


技术实现要素:

8.有鉴于此,本发明的目的在于提供一种基于提示学习的中文词义消歧方法。
9.针对问题(1)中有监督方法和基于知识的方法各有利弊的问题,本发明使用hownet作为知识库,使用bert进行监督分类。
10.针对问题(2)中,本发明使用提示学习的方法,利用bert的预训练任务mlm的mask机制,将计算近义词相似性的可以更好地结合上下文,获取更丰富的语义信息。
11.为达到上述目的,本发明提供如下技术方案:
12.一种基于提示学习的中文词义消歧方法,该方法包括以下步骤:
13.步骤一:基于数据集,对于每个歧义词xi,这个词在知识库hownet中有n个意思;对于它的每一个意思找到一组的同义词集再将歧义词替换为其对应的同义词,生成新的替换句b;
14.步骤二:将歧义词的每个意思对应的所有同义词替换原歧义词的位置,通过数据预处理得到一条新的替换句,通过设置标签,训练模型,完成监督二分类;判断替换后的句子是否与原句的意思一致,并与给定标签进行误差计算;
15.对于输入的文本x,有函数f
prompt
(x),将x转化成prompt的形式x

,如公式(1)所示;
16.x

=f
prompt
(x)
ꢀꢀꢀꢀ
(1)
17.其中,结合预训练语言模型bert的预训练任务mlm,设置如下prompt:“两句话意思[mask]相同:contexta,contextb;”。其中contexta为原句,contextb为近义词进行替换后的句子,[mask]为预留的答案填空;
[0018]
通过预测[mask]的值,判断替换句和原句的意思是否相似,从而获得歧义词每个词义中替换句与原句的相似性标签;
[0019]
步骤三:通过提示学习,已经得到替换句的正确标签和错误标签;然后需要把每个句子中歧义词的正确词义找出来;通过预测到的替换句的标签bi,通过公式(2)能够得到每个意思的得分最后取得分最高的意思为最终词义;
[0020][0021]
计算出每一个词义的相似性得分后,得到歧义词中n个词义的相似性得分,取相似性得分最高的词义为歧义词的最终词义,如公式(3)所示:
[0022]
y=max(g(si|x))
ꢀꢀꢀ
(3)。
[0023]
可选的,所述数据集为基于semeval-2007#task5中使用中文词义标注语料库,构建的基于hownet的中文词义消歧数据集openhownet wsd;该数据集由2967个分词和词性标注实例句组成,包含36个多义词,36个多义词包括16个名词和20个动词;
[0024]
选取2201条句子进行训练,766条句子进行测试;
[0025]
采用micro-f1、macro-f1作为评价指标;实验环境基于keras,使用中文bert-base-chinese模型作为编码器,共有12层,768个隐藏单元和12个注意力头,模型设置学习率为0.0006,batch_size为16,使用adam来优化模型;训练模型使用的内存为32g的tesla v100-sxm2显卡。
[0026]
一种计算机系统,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-2任一项所述的方法。
[0027]
一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-2任一项所述的方法。
[0028]
本发明的有益效果在于:
[0029]
(1)在相似性预测模块,基于hownet获得词义的同义词集,使用近义词替换歧义词的方法,生成新的替换句,再去计算替换句与原句之间的相似性。
[0030]
(2)在训练模型进行监督分类时,不仅使用预训练语言模型bert融合了上下文的语义信息,还提高了预测相似性标签二分类的能力。
[0031]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和
获得。
附图说明
[0032]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0033]
图1为基于提示学习的中文词义消歧模型结构图。
具体实施方式
[0034]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0035]
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0036]
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0037]
请参阅图1,本发明的具体实施步骤如下:
[0038]
步骤一:对于每个歧义词xi,这个词在知识库hownet中有n个意思。对于它的每一个意思可以找到一组的同义词集再将歧义词替换为其对应的同义词,生成新的替换句b。
[0039]
步骤二:将歧义词的每个意思对应的所有同义词替换原歧义词的位置,通过数据预处理得到一条新的替换句,通过设置标签,训练模型,完成监督二分类。判断替换后的句子是否与原句的意思一致,并与给定标签进行误差计算。
[0040]
对于输入的文本x,有函数f
prompt
(x),将x转化成prompt的形式x

,如公式(1)所示。
[0041]
x

=f
prompt
(x)
ꢀꢀꢀꢀ
(1)
[0042]
其中,本发明设置的prompt是“两句话意思[mask]相同:contexta,contextb。”其中contexta为原句,contextb为近义词进行替换后的句子。
[0043]
使用bert的mlm任务得到设计的prompt的输出,输出则为“很”和“不”。通过预测[mask]的值,判断替换句和原句的意思是否相似,从而获得歧义词每个词义中替换句与原句的相似性标签。
[0044]
步骤三:通过提示学习,已经得到了替换句的正确标签和错误标签。然后需要把每个句子中歧义词的正确词义找出来。通过预测到的替换句的标签bi,通过公式(2)能够得到每个意思的得分最后取得分最高的意思为最终词义。
[0045][0046]
计算出每一个词义的相似性得分后,得到歧义词中n个词义的相似性得分,取相似性得分最高的词义为歧义词的最终词义,如公式(3)所示。
[0047]
y=max(g(si|x))
ꢀꢀꢀꢀ
(3)
[0048]
本发明的数据集为基于semeval-2007#task5中使用中文词义标注语料库,构建的基于hownet的中文词义消歧数据集—openhownet wsd。该数据集由2967个分词和词性标注实例句组成,包含36个多义词(16个名词和20个动词)。
[0049]
本发明选取2201条句子进行训练,766条句子进行测试。数据集的划分和歧义词的词义数的数量如表1所示。
[0050]
表1数据集的构成
[0051][0052]
本发明采用micro-f1、macro-f1作为评价指标。实验环境基于keras,使用中文bert-base-chinese模型作为编码器,共有12层,768个隐藏单元和12个注意力头,模型设置学习率为0.0006,batch_size为16,使用adam来优化模型。训练模型使用的内存为32g的tesla v100-sxm2显卡。
[0053]
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
[0054]
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或
以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
[0055]
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、ram、rom等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的基于提示学习的中文词义消歧方法和技术编程时,本发明还包括计算机本身。
[0056]
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
[0057]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献