一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

命名实体识别方法及其装置、设备、介质、产品与流程

2022-04-09 11:31:44 来源:中国专利 TAG:


1.本技术涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。


背景技术:

2.命名实体识别在电商领域的搜索、推荐和用户画像分析等都起着重要作用,例如用户搜索时,搜索框对用户搜索的词汇联想,可以引导用户搜索想要搜索的商品词,提高搜索效率,而词汇联想中的联想词需要基于商品库中的商品,命名实体识别方法就可以识别出商品词。根据用户的搜索,识别出搜索关键词的标签,例如商品词、品牌等,可以用户的权重提高搜索精排的效果。同时用户的搜索商品、点击商品、加购、下单商品等行为,可以使用命名实体识别方法识别出用户这些行为的偏好,用于用户画像分析,诸如此类。
3.采用bert模型进行命名实体识别是近几年来比较流行的一种方法,该方法对bert模型实施两阶段训练,先经第一阶段实施预训练后,以预训练模型作为基座,进行下游任务所需的命名实体识别相对应的微调训练,一般能取得相应的效果。
4.美中不足的是,bert模型不同于其所采用的基础架构,即transformer模型,transformer模型利用三角函数位置编码对待识别文本的相对位置信息进行编码,但是bert模型在对待识别文本进行词嵌入时,虽同时给出令牌嵌入(token embedding)、段嵌入(segment embedding)以及位置嵌入(position embedding),但其中的位置嵌入只是各个词元的绝对位置信息,因此,在bert模型的表示学习过程中,bert模型未能获得词元之间的相对位置关系的感知能力,而将transformer模型的三角函数编码方法生硬地套用到bert模型中,也无法有效发挥作用。
5.但是,文本中的相对位置信息是非常重要的,举例而言,英文“wang founded leadners ip firm in 2019”,这一语句中,介词“in”之后的词比它之前的词更有可能是地点和时间,而“firm”之前的词更有可能是地点和时间,可见,词元所处的位置对于上下文的理解有重要作用。对此,中文也同理,例如,“王某在2019年建立了利能事务所”,同理,“在”之后一般紧跟时间或地点。由此可见,模型如能有效感知文本中的词元之间的距离,获得相对位置信息,对于命名实体识别等任务来说,是有助益的。
6.本技术人所从事的电商领域,长期需要处理大量的文本信息,较为倚重准确的命名实体识别结果,故此,在实践过程中探索改进上述不足的方案,提出本技术。


技术实现要素:

7.本技术的首要目的在于解决上述问题至少之一而提供一种命名实体识别方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
8.为满足本技术的各个目的,本技术采用如下技术方案:
9.根据待识别文本分词获得的多个词元编码生成相应的嵌入向量;
10.根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征
信息;
11.以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,其中,所述相对位置特征信息作为生成所述文本特征向量的关联权重;
12.根据所述文本特征向量从待识别文本中识别出其中的命名实体。
13.具体化的实施例中,根据待识别文本分词获得的多个词元编码生成相应的嵌入向量,包括如下步骤:
14.获取待识别文本,所述待识别文本为用于描述商品信息的标题文本;
15.采用预训练的分词模型对所述待识别文本进行分词,获得相对应的多个词元,所述词元为由英文单词或中文汉字为单字构成的词汇;
16.分别编码各个词元的嵌入向量,每个词元的嵌入向量包括该词元的令牌嵌入、位置嵌入以及段嵌入。
17.具体化的实施例中,根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息,包括如下步骤:
18.根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵;
19.将各个相对距离尺度相对应的编码矩阵拼接为多通道编码矩阵;
20.对所述多通道编码矩阵匹配可学习权重进行非线性变换以激活输出,获得相对位置特征信息。
21.深化的实施例中,根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵,包括如下步骤:
22.针对每个词元,计算其与任意一个词元之间前者首字与后者首字之间的相对距离,获得每个词元相对应的第一向量,将所有词元的第一向量拼接为第一编码矩阵;
23.针对每个词元,计算其与任意一个词元之间前者首字与后者末字之间的相对距离,获得每个词元相对应的第二向量,将所有词元的第二向量拼接为第二编码矩阵;
24.针对每个词元,计算其与任意一个词元之间前者末字与后者首字之间的相对距离,获得每个词元相对应的第三向量,将所有词元的第三向量拼接为第三编码矩阵;
25.针对每个词元,计算其与任意一个词元之间前者末字与后者末字之间的相对距离,获得每个词元相对应的第四向量,将所有词元的第四向量拼接为第四编码矩阵。
26.具体化的实施例中,以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,包括如下由首个编码网络执行的步骤:
27.采用当前编码网络中的自注意力层为各个词元的嵌入向量构造其相对应的查询向量、键向量及值向量;
28.由该自注意力层将所有词元相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他嵌入向量相对应的查询向量的点积的归一化分值;
29.由该自注意力层将加权求和结果乘以转换权重矩阵与所述相对位置特征信息的加和结果,获得中间信息矩阵,使所述相对位置特征信息构成所述中间信息矩阵的关联权重;
30.经前馈神经层对所述中间信息矩阵进行特征提取,获得文本特征向量,作为下一
个编码网络的自注意力层所需的输入。
31.具体化的实施例中,根据所述文本特征向量从待识别文本中识别出其中的命名实体,包括如下步骤:
32.采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性;
33.根据词性将各个命名实体输出至与词性相应的存储位置,以构成商品信息中词性相应的属性数据。
34.具体化的实施例中,根据所述文本特征向量从待识别文本中识别出其中的命名实体,包括如下步骤:
35.采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性;
36.根据词性提取出其中的目标词性相对应的命名实体,将该命名实体与预设的实体词典精准匹配,将实现精准匹配的命名实体输出为所述待识别文本的关键词。
37.适应本技术的目的之一而提供的一种命名实体识别装置,包括:词嵌入模块、距离编码模块、特征交互模块、标注识别模块,其中,所述词嵌入模块,用于根据待识别文本分词获得的多个词元编码生成相应的嵌入向量;所述距离编码模块,用于根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息;所述特征交互模块,用于以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,其中,所述相对位置特征信息作为生成所述文本特征向量的关联权重;所述标注识别模块,用于根据所述文本特征向量从待识别文本中识别出其中的命名实体。
38.适应本技术的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的命名实体识别方法的步骤。
39.适应本技术的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的命名实体识别方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
40.适应本技术的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述方法的步骤。
41.相对于现有技术,本技术的优势如下:
42.首先,本技术出于命名实体识别所需,对于以自注意力机制进行上下文梳理的基础编码网络,在其原有编码方式的基础上,通过对待识别文本分词所得的所有词元中的两两词元进行多个相对距离尺度的编码,获得词元间的相对位置特征信息,将该相对位置特征信息作为关联权重,添加到自注意力运算过程中,控制编码网络输出的文本特征向量的生成,使编码网络输出的文本特征向量携带词元之间的距离信息,以词元之间的相对位置关系丰富了原有词元的嵌入向量的上下文信息,从而使得表示学习过程中能够更有效地根据词元所处的相对位置表征其深层语义信息,实现更为精准的命名实体识别效果。
43.其次,本技术无需改动编码网络的架构,只是将编码生成的相对位置特征信息作为关联权重用于编码网络中的自注意力层对文本特征向量的生成权重进行修正,实现简便,处理高效,由此使编码网络获得对文本的位置信息更为敏感的感知能力,可以提升了编码网络所在的神经网络模型的表示学习能力,有助于提升神经网络模型的训练效率,使其更易于被采用少量样本微调训练至收敛状态,从而实现节省训练成本。
44.此外,本技术的技术方案更适于处理电商领域中的商品信息,针对商品信息特别是商品标题文本中包含多个并列词的表意特点,通过本技术准确识别出其中的命名实体后应用于其他下游任务,能够提升电商信息处理效率,使电商平台收获规模经济效应。
附图说明
45.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
46.图1为本技术的命名实体识别方法的典型实施例的流程示意图;
47.图2为本技术执行命名实体识别方法的神经网络模型的网络架构示意图;
48.图3为本技术中待识别文本的嵌入向量编码过程的流程示意图;
49.图4为本技术中待识别文本的相对位置特征信息编码过程的流程示意图;
50.图5为本技术中基于各个相对距离尺度进行相对位置特征信息编码的过程的流程示意图;
51.图6为本技术示例中基于一个相对距离尺度编码所得的编码矩阵;
52.图7为本技术改进后神经网络模型的编码网络的处理过程的流程示意图;
53.图8为本技术获得的命名实体的一个应用示例的流程示意图;
54.图9为本技术获得的命名实体的另一应用示例的流程示意图;
55.图10为本技术的命名实体识别装置的原理框图;
56.图11为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
57.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
58.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
59.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
60.本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。
这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personal communications service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personal digital assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobile internet device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
61.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
62.需要指出的是,本技术所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本技术的网络部署方式的实施方式。
63.本技术的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
64.本技术中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
65.本技术所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本技术的技术方案所调用即可。
66.本领域技术人员对此应当知晓:本技术的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本技术所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
67.本技术即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
68.本技术的一种命名实体识别方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
69.请参阅图1,本技术的命名实体识别方法在其典型实施例中,包括如下步骤:
70.步骤s1100、根据待识别文本分词获得的多个词元编码生成相应的嵌入向量:
71.首先需要指出的是,由于本技术主要是适应bert模型的特点而做出的改进,而bert模型是基础框架,是采用了transformer模型的编码路径,且在bert模型的基础上,进一步又发展出albert、electra等具有相同基础框架的模型,因此,不难理解,如图2的网络架构所示,所有与bert模型具有相同基础架构的同类深度神经网络模型,此类模型均包含多个编码网络,每个编码网络中均包含一个自注意力层和一个前馈神经网层,在其中第一编码网络层中接受待识别文本相对应的嵌入向量的输入,在每个编码网络层中经自注意力层对其所接收的输入进行特征交互之后,经其前馈神经层处理获得文本特征向量,输出至下一个编码网络作为其输入,在最后一个编码网络中输出经多层特征交互之后的最终的文本特征向量。对于此类与bert模型同构的神经网络模型,均可采用本技术的技术方案进行改进。
72.所述待识别文本,可以是各种不同语言的文本,例如中文和英文。根据本技术所适用的神经网络模型的基础原理可知,所述待识别文本会被分词而获得多个词元,模型的编码层负责对其实施模型固有原理相对应的编码,以bert模型为例,待识别文本中的每个词元,均会被编码获得相应的嵌入向量,该令牌嵌入(token embedding)、段嵌入(segment embedding)以及位置嵌入(position embedding)构成,其中的令牌嵌入表示词元在预设词典中的标签,段嵌入表示词元所处的章节,位置嵌入表示词元的在待识别文本中的绝对位置信息。
73.所述的词元,在本技术中,是指根据分词相对应的词表确定的能够表示一个独立的意思单元的词汇,该词汇可以包括单字或多字,举例而言,对于中文文本,所述词元可以包含一个或多个汉字;对于英文文本,所述词元可以包含一个或多个单词。
74.模型的编码层对各个词元进行编码生成各个词元相应的嵌入向量之后,将这些嵌入向量输入模型的第一个编码网络中开始进行表示学习。
75.步骤s1200、根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息:
76.固有的bert模型及其衍生模型,其词元的嵌入向量中的位置嵌入只起标示词元所在的绝对位置信息的作用,并未表征任意各词元之间的相对位置信息,为了适应本技术所需,为待识别文本的命名实体识别过程添加词元之间的相对位置信息,故扩展本步骤对词元之间的相对位置信息进行编码。
77.对词元的相对位置信息进行编码时,主要根据待识别文本分词的所有词元中,任意两两词元之间的一种尺度的相对距离来实施,通过确定任意两两词元之间在相同度量基准下的相对距离,将该两两词元之间的相对距离信息向量化。从而,针对每个词元均可获得其与所有任意词元之间的相对距离信息,从而构成该词元相对应的距离向量,而所有词元的距离向量经拼接后便构成一个编码矩阵,据此,每个编码矩阵便对应于一个相对距离尺度。由所有编码矩阵共同构成所述的相对位置特征信息。
78.本技术中,可以基于多个所述的相对距离尺度对所有词元进行编码获得所述的相对位置特征信息,每个相对距离尺度即为一个对词元之间的相对距离进行度量的基准,示例而言,第一相对距离尺度可以被定义为两两词元中,第一词元的首字与第二词元的首字之间的字数距离;第二相对距离尺度可以定义为两两词元中,第一词元的首字与第二词元的末字之间的字数距离;第三相对距离尺度可以定义为两两词元中,第一词元的末字与第二词元的首字之间的字数距离;第四相对距离尺度可以被定义为两两词元中,第一词元的末字与第二词元的末字之间的字数距离。
79.示例而言,对于待识别文本“越野摩托车全新旺季特惠”,假设其分词集为{越野;摩托车;全新;旺季;特惠},取第一词元为“越野”与第二词元为“摩托车”,则在第一相对距离尺度下相对应的字数距离为“越”字所在位序与“摩”字所在位序之间的字数距离,即1-3=-2。同理,第二相对距离尺度下,该两个词元相对应的字数距离为1-5=-4;第三相对距离尺度下,该两个词元相对应的字数距离为2-3=-1;第四相对距离尺度下,该两个词元相对应的字数距离为2-5=-3。
80.至此,不难理解,根据不同的相对距离尺度,对待识别文本分词所得的所有词元进行编码,便可获得表征各词元之间的相对位置关系的相对位置特征信息,该相对位置特征信息表示了词元与词元之间在各个相对距离尺度下的相对字数距离,表征了待识别文本内部的词元之间的距离信息,所获得的相对位置特征信息适于参与到本技术所述的神经网络模型的编码网络的自注意力层中,丰富自注意力层运算过程中的上下文参考信息,使该模型能够感知各个词元之间的相对距离。
81.步骤s1300、以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,其中,所述相对位置特征信息作为生成所述文本特征向量的关联权重:
82.进而,适应模型训练或者推理的过程,将待识别文本的各个嵌入向量输入本技术的神经网络模型中,如图2所示,首先进入其多个编码网络中的首个编码网络,在该编码网络中,自注意力层负责对各个词元的嵌入向量进行特征交互运算,使各个词元的特征充分交互融合,最终统一归一化映射为一个中间信息矩阵,以便输出至该编码网络的前馈神经层中做进一步的特征提取处理,由该前馈神经层进一步提取出文本特征向量。
83.根据自注意力层固有的原理,在归一化获得所述中间信息矩阵的过程中,会将各个词元的嵌入向量充分交互后的输出乘以一个转换权重矩阵,本技术中,将编码所得的所述相对位置特征信息用于修正该转换权重矩阵,将相对位置特征信息与该转换权重矩阵进行累计,从而实现对该转换权重矩阵的修正,由此,便实现将表征词元之间相对距离信息的所述相对位置特征信息融合到该转换权重矩阵中,使所述中间信息矩阵获得感知词元之间的相对距离的能力,所述相对位置特征信息也就自然而然构成所述文本特征向量生成过程中的关联权重。
84.本技术所述的神经网络模型包含有多个所述的编码网络,前一编码网络所输出的文本特征向量,作为后一编码网络的输入,因此,第二个编码网络起,便无需再行单独引入所述的相对位置特征信息,只需依赖第一个编码网络所输出的文本特征向量进行处理即可。作为变通的实施例,也不排除在多个所述的编码网络的自注意力层中引入所述的相对位置特征信息的可行性。同理,作为变通的实施例,引入所述的相对位置特征信息时,可以
在所述神经网络模型的多个编码网络中的任意一个的自注意力层中引入,对此,本领域技术人员应当理解。当最后一个编码网络完成特征交互并输出文本特征向量后,便可用于执行具体下游任务,例如实现本技术所述的命名实体识别。
85.在编码所述相对位置特征信息的过程中,该相对位置特征信息被关联一个可学习权重,由此,在本技术的神经网络模型被训练的过程中,该相对位置特征信息通过模型训练不断修正其相应的权重,在模型被训练至收敛状态时,获得该权重相对应的最佳参数,由此训练过程中可以修正其可学习权重,因此,更容易调节编码网络所输出的文本特征向量的生成,而相对位置特征信息又是对词元之间的相对距离信息的表征,因此,通过训练,可以通过相对距离信息提升模型的表示学习效率,促使模型更快速地被训练至收敛状态。
86.本技术的神经网络模型在引入所述相对位置特征信息对待识别文本的词元的嵌入向量处理获得文本特征向量之后,经层层推理,最终获得的文本特征向量是感知了词元之间的相对距离信息的结果,因此具有优于该模型的固有的编码原理的优势。
87.步骤s1400、根据所述文本特征向量从待识别文本中识别出其中的命名实体:
88.本技术的神经网络模型最后一个编码网络输出的所述文本特征向量,是一个概率矩阵,可通过采用条件随机场模型提供的状态矩阵进行相乘,完成词性标注,从而确定出其中的命名实体。由于本技术的神经网络模型在推理过程中充分参考了待识别文本的词元之间的相对距离信息,因此,所识别出的命名实体更为准确。
89.本技术的神经网络模型,可采用两阶段训练,其第一阶段被预训练至收敛状态后,进入第二阶段的微调训练,在微调训练过程中采用本技术的技术方案进行相对应的编码,在适量的由待识别文本构成的训练样本的迭代训练下,最终使模型被训练至收敛状态,从而可以投入实用场景中为待识别文本进行命名实体识别。在模型投入使用过程中,同理也对待识别文本实施本技术的编码过程,从而使模型能够正确精准地识别出其中的命名实体。
90.由于本技术的神经网络模型建基于bert模型及其衍生模型,而该类模型用于实现命名实体识别的训练方案为本领域技术人员所熟知,故对其训练过程恕不赘述。
91.通过本典型实施例及其变通实施例,可以看出,本技术包含多方面优势,包括但不限于如下各方面:
92.首先,本技术出于命名实体识别所需,对于以自注意力机制进行上下文梳理的基础编码网络,在其原有编码方式的基础上,通过对待识别文本分词所得的所有词元中的两两词元进行多个相对距离尺度的编码,获得词元间的相对位置特征信息,将该相对位置特征信息作为关联权重,添加到自注意力运算过程中,控制编码网络输出的文本特征向量的生成,使编码网络输出的文本特征向量携带词元之间的距离信息,以词元之间的相对位置关系丰富了原有词元的嵌入向量的上下文信息,从而使得表示学习过程中能够更有效地根据词元所处的相对位置表征其深层语义信息,实现更为精准的命名实体识别效果。
93.其次,本技术无需改动编码网络的架构,只是将编码生成的相对位置特征信息作为关联权重用于编码网络中的自注意力层对文本特征向量的生成权重进行修正,实现简便,处理高效,由此使编码网络获得对文本的位置信息更为敏感的感知能力,可以提升了编码网络所在的神经网络模型的表示学习能力,有助于提升神经网络模型的训练效率,使其更易于被采用少量样本微调训练至收敛状态,从而实现节省训练成本。
94.此外,本技术的技术方案更适于处理电商领域中的商品信息,针对商品信息特别是商品标题文本中包含多个并列词的表意特点,通过本技术准确识别出其中的命名实体后应用于其他下游任务,能够提升电商信息处理效率,使电商平台收获规模经济效应。
95.请参阅图3,具体化的实施例中,所述步骤s1100、根据待识别文本分词获得的多个词元编码生成相应的嵌入向量,包括如下步骤:
96.步骤s1110、获取待识别文本,所述待识别文本为用于描述商品信息的标题文本:
97.所述的待识别文本可以从用户请求中获取,也可以从数据库例如商品数据库中商品对象的商品标题或本地存储空间中例如系统粘贴板中调用,视本技术所应用的下游任务的不同而灵活获取输入文本作为所述的待识别文本,用于执行命名实体识别任务,从待识别文本中提取出一个或多个命名实体相对应的关键词。
98.所述的下游任务,视本技术的技术方案的具体应用场景而定,例如在线搜索、搜索关键词联想、数据画像、推荐搜索等。
99.示例之一,在线搜索场景中,用户在客户端设备提交其原始搜索表达式后,该原始搜索表达式被作为所述的待识别文本进行命名实体识别后提取出多个关键词,再根据所述关键词进行逻辑结合之后构成优化后的搜索表达式再执行在线搜索。
100.示例之二,搜索关键词联想场景中,用户在输入其搜索关键词的过程中,其已输入的文本被作为所述的待识别文本进行命名实体识别,然后后台根据命名实体识别获得的关键词进行词语联想,将相关联想词显然给用户选定。
101.示例之三,数据画像场景中,以电商领域为例,可以直接从客户端设备或者从商品数据库中获取商品对象的商品标题或商品详情等文本信息,作为所述的待识别文本,进行命名实体识别,获得相应的关键词,对相应的商品对象进行标注,将这些关键词作为商品对象的数据画像标签。
102.示例之四,推荐搜索场景中,仍以电商领域为例,可以获取客户端设备的输入作为待识别文本,对其进行命名实体识别,根据识别所获得的关键词在商品数据库中搜索获取其相对应的商品对象,然后构造出商品对象推荐列表推送给用户端。
103.诸如此类,表明可以根据其应用场景的不同而获取相应输入的文本信息来作为所述的待识别文本,以便启动本技术的命名识别过程。实际上,命名实体识别是自然语言处理技术中的一个项基础功能,可以广泛地适用于多种场合,对此,本领域技术人员均已知晓,因此,不应以应用领域为限约束本技术的创造精神所应涵盖的保护范围。
104.步骤s1120、采用预训练的分词模型对所述待识别文本进行分词,获得相对应的多个词元,所述词元为由英文单词或中文汉字为单字构成的词汇:
105.可以采用现有技术中预训练的分词模型对所述待识别文本进行分词,以便获得与一个预设词典中存储的词元相对应的分词集(图2示例为w1至w9),该分词集中包含从所述待识别文本中提取出的多个词元。所述分词模型对应设置有一个词典,该词典中包含各种指代命名实体的词元。为了实现待识别文本的词嵌入,先根据该词典,基于待识别文本的每一字,从该词典中匹配出包含该字的所有可能的分词,针对每个字符构造出其分词集,该分词集中包含出现该字符的所有可能的分词。所述的分词模型推荐使用word2vec。
106.例如,对于待识别文本“南京市长江大桥”,经分词,可能获得的分词集为{南京;南京市;市;市长;长江;长江大桥;江;江大桥;大桥}。
107.步骤s1130、分别编码各个词元的嵌入向量,每个词元的嵌入向量包括该词元的令牌嵌入、位置嵌入以及段嵌入:
108.如图2所示,将所述的分词集输入本技术的用于执行命名实体识别的神经网络模型的编码层中进行编码,对应的构造每个所述分词集中的词元的嵌入向量,如前所述,每个嵌入向量为该词元的令牌嵌入、位置嵌入以及段嵌入的合成结果。
109.本实施例中,适应电商领域的应用场景,获得商品信息的标题文本作为命名实体识别所需的待识别文本,对其进行分词并构造各个词元相对应的嵌入向量,为命名实体识别做好预备工作,由于商品信息的标题文本常为多个名词、形容词的罗列,因此,在这一具体场景中应用本技术的技术方案,能收获规模经济效用,通过提升标题文本的命名实体的识别准确度,提升电商平台的关键词搜索、推荐、匹配、商品数据画像、关键词联想等方面的执行效率,提升用户体验。
110.请参阅图4,具体化的实施例中,所述步骤s1200、根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息,包括如下步骤:
111.步骤s1210、根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵:
112.结合前文所述,在编码获得所述的相对位置特征信息的过程中,首先需要根据多个不同的相对距离尺度,对待识别文本的分词集中的两两词元之间的相对距离信息进行编码。作为变通的实施例,在本技术的典型的实施例的基础上,可以采用单个所述的相对距离尺度,或者两个或三个所述的相对距离尺度进行编码,最终获得每个相对距离尺度相对应的编码矩阵即可。不难理解,每个编码矩阵中,包含相同度量基准下,分词集中每个词元到所有任意一个词元的字数距离,并且以词元为单位进行有序组织,从而构成符合本技术规范的编码格式。
113.步骤s1220、将各个相对距离尺度相对应的编码矩阵拼接为多通道编码矩阵:
114.为了实现对多个所述的相对距离尺度相对应的编码矩阵的综合,可将各个编码矩阵简单拼接,构成多通道编码矩阵。
115.步骤s1230、对所述多通道编码矩阵匹配可学习权重进行非线性变换以激活输出,获得相对位置特征信息:
116.为使所述词元的相对距离信息可以被模型在梯度更新时被修正,故采用一个非线性激活层,通过匹配可学习权重,对所述的多通道编码矩阵进行激活输出,由此获得一个二维矩阵构成所述的相对位置特征信息。后续在本技术的神经网络模型的训练过程中,对该模型实施梯度更新时,便可相应修正该可学习权重,直至模型被训练至收敛状态时,该可学习权重被固定,达到最佳状态,从而可以关联控制所述相对位置特征信息的生成,使其适于指导自注意力层控制文本特征向量的输出。
117.本实施例全程的示例公式如下:
[0118][0119]
其中,h表示词元中的首字,t表示词元中的末字,p表示编码矩阵,d表示某一相对距离尺度,r
i,j
指第i个词元和第j个词元的位置编码,wr是可学习权重,relu是非线性层所采用的激活函数。
[0120]
本实施例中,通过将分别编码获得的各个相对距离尺度相对应的编码矩阵进行简单拼接并匹配可学习权重激活输出获得相对位置特征信息,使相对位置特征信息可参与模型的训练过程进行参数修正,从而使模型更易被训练至收敛状态,能提升模型的训练效率。
[0121]
请参阅图5,深化的实施例中,所述步骤s1210、根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵,包括如下步骤:
[0122]
步骤s1211、针对每个词元,计算其与任意一个词元之间前者首字与后者首字之间的相对距离,获得每个词元相对应的第一向量,将所有词元的第一向量拼接为第一编码矩阵:
[0123]
适应第一个相对距离尺度,根据词元在待识别文本中的位置所确定的任意两个词元之间的距离信息,计算每一个词元与分词集中各个词元之间的相对距离,具体算法为将当前词元的首字的位序减去另一词元的首字的位序,获得两者之间的相对应距离,公式示例如下:
[0124][0125]
其中,head代表了词元的开始位置,即其首字所在待识别文本中的位置顺序编号,i,j分别表示两个词元,前者为当前词元,后者为与其相对的另一词元。
[0126]
经过计算,每个当前词元,均可与分词集中的每一个词元相比较,基于彼此首字之间相对距离计算出相应的距离数值,将所有距离数值有序组织,即构成当前词元相对应的第一向量,而将所有词元的第一向量拼接在一起,构成一个二维矩阵,便获得相应的第一编码矩阵。
[0127]
步骤s1212、针对每个词元,计算其与任意一个词元之间前者首字与后者末字之间的相对距离,获得每个词元相对应的第二向量,将所有词元的第二向量拼接为第二编码矩阵:
[0128]
适应第二个相对距离尺度,根据词元在待识别文本中的位置所确定的任意两个词元之间的距离信息,计算每一个词元与分词集中各个词元之间的相对距离,具体算法为将当前词元的首字的位序减去另一词元的末字的位序,获得两者之间的相对应距离,公式示例如下:
[0129][0130]
其中,head代表了词元的开始位置,即其首字所在待识别文本中的位置顺序编号,tail代表了词元的结束位置,即其末字所在待识别文本中的位置顺序编号,i,j分别表示两个词元,前者为当前词元,后者为与其相对的另一词元。
[0131]
经过计算,每个当前词元,均可与分词集中的每一个词元相比较,基于前者首字与后者末字之间相对距离计算出相应的距离数值,将所有距离数值有序组织,即构成当前词元相对应的第二向量,而将所有词元的第二向量拼接在一起,构成一个二维矩阵,便获得相应的第二编码矩阵。
[0132]
步骤s1213、针对每个词元,计算其与任意一个词元之间前者末字与后者首字之间的相对距离,获得每个词元相对应的第三向量,将所有词元的第三向量拼接为第三编码矩阵;
[0133]
适应第三个相对距离尺度,根据词元在待识别文本中的位置所确定的任意两个词元之间的距离信息,计算每一个词元与分词集中各个词元之间的相对距离,具体算法为将当前词元的末字的位序减去另一词元的首字的位序,获得两者之间的相对应距离,公式示
例如下:
[0134][0135]
其中,head代表了词元的开始位置,即其首字所在待识别文本中的位置顺序编号,tail代表了词元的结束位置,即其末字所在待识别文本中的位置顺序编号,i,j分别表示两个词元,前者为当前词元,后者为与其相对的另一词元。
[0136]
经过计算,每个当前词元,均可与分词集中的每一个词元相比较,基于前者末字与后者首字之间相对距离计算出相应的距离数值,将所有距离数值有序组织,即构成当前词元相对应的第三向量,而将所有词元的第三向量拼接在一起,构成一个二维矩阵,便获得相应的第三编码矩阵。
[0137]
步骤s1214、针对每个词元,计算其与任意一个词元之间前者末字与后者末字之间的相对距离,获得每个词元相对应的第四向量,将所有词元的第四向量拼接为第四编码矩阵:
[0138]
适应第四个相对距离尺度,根据词元在待识别文本中的位置所确定的任意两个词元之间的距离信息,计算每一个词元与分词集中各个词元之间的相对距离,具体算法为将当前词元的末字的位序减去另一词元的末字的位序,获得两者之间的相对应距离,公式示例如下:
[0139][0140]
其中,tail代表了词元的结束位置,即其末字所在待识别文本中的位置顺序编号,i,j分别表示两个词元,前者为当前词元,后者为与其相对的另一词元。
[0141]
经过计算,每个当前词元,均可与分词集中的每一个词元相比较,基于彼此末字之间相对距离计算出相应的距离数值,将所有距离数值有序组织,即构成当前词元相对应的第四向量,而将所有词元的第四向量拼接在一起,构成一个二维矩阵,便获得相应的第四编码矩阵。
[0142]
根据本实施例,前文示例语句“南京市长江大桥”的分词集:{南京;南京市;市;市长;长江;长江大桥;江;江大桥;大桥},其对应第一相对距离尺度获得的第一编码矩阵如图6所示。根据该图不难看出,编码形成的编码矩阵是一个方阵。其他相对距离尺度相对应的编码矩阵,与此同理,本领域技术人员可以自行计算得出,请恕从略。
[0143]
根据本实施例,可以理解,通过从不同相对距离尺度将分词集中的词元之间的相对距离信息进行向量化,获得各个相对距离尺度相对应的编码矩阵,每个编码矩阵基于其相应的相对距离尺度对各个词元到任意词元的相对距离进行了有序表征,实现了对词元之间的相对位置关系的有效表示,可被引入本技术的神经网络模型中为自注意力层提供词元间相对位置信息,增强了模型的表示学习能力,使模型更能准确地识别出待识别文本中的命名实体。
[0144]
请参阅图7,具体化的实施例中,所述步骤s1300、以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,包括如下由首个编码网络执行的步骤:
[0145]
步骤s1310、采用当前编码网络中的自注意力层为各个词元的嵌入向量构造其相对应的查询向量、键向量及值向量:
[0146]
请继续结合图2,当前编码网络,在本实施例中,是本技术的所采用的神经网络模型的处于输入前端的第一个编码网络。
[0147]
仍以bert模型的编码网络的固有原理示例,所述的编码网络中的自注意力层,当其接收到词元的嵌入向量的输入后,便可为其构造相应的查询向量(q)、键向量(k)、值向量(v),构造q、k、v向量是多头注意力机制的基本原理,是实现特征层面深度交互的基础手段。
[0148]
步骤s1320、由该自注意力层将所有词元相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他嵌入向量相对应的查询向量的点积的归一化分值:
[0149]
根据自注意力机制固有的算法,对于每个嵌入向量,先计算其键向量与其他嵌入向量相对应的查询向量的点积,然后将点积结果采用softmax函数进行归一化,使多个点积的加和总值为1,以归一化后的数值作为各个嵌入向量相对应的权重。
[0150]
在此基础上,将所有嵌入向量相对应的值向量与其相对应的权重进行相乘后相加,实现加权求和,获得一个加权求和后的求和矩阵。
[0151]
步骤s1330、由该自注意力层将加权求和结果乘以转换权重矩阵与所述相对位置特征信息的加和结果,获得中间信息矩阵,使所述相对位置特征信息构成所述中间信息矩阵的关联权重:
[0152]
自注意力机制固有的算法中,为了标准化输出尺度,将加权求和结果即所述的求和矩阵乘以一个转换权重矩阵,获得一个中间信息矩阵,本技术中,为了使自注意力机制引入词元的相对位置信息以丰富上下文,故在本步骤中,将本技术编码获得的所述相对位置特征信息先与该转换权重矩阵进行矩阵加和,获得加和结果,再以该加和结果与前一步骤的加权求和结果进行相乘,然后获得所述的中间信息矩阵。可以理解,经过q、k、v间运算以及叠加本技术编码所得的相对位置特征信息,所述的中间信息矩阵中,已经实现了各个嵌入向量之间的深度语义特征的充分交互,并且以所述的相对位置特征信息作为关联权重,在特征充分交互的过程中引入了词元之间的相对位置信息,相较于模型固有的算法,在模型固有采用的绝对位置信息的基础上增加了词元的相对距离信息。
[0153]
步骤s1340、经前馈神经层对所述中间信息矩阵进行特征提取,获得文本特征向量,作为下一个编码网络的自注意力层所需的输入:
[0154]
所述的中间信息矩阵被输出至当前编码网络的前馈神经层的多层感知器中进行高层语义特征提取,获得文本特征向量,然后,便可将其输出给下一编码网络,对于下一编码网络来说,其与第一个编码网络具有相同的结构,便无需再引入所述的相对位置特征信息,因此,该文本特征向量即按照第一编码网络的的过程做固有算法的qkv运算,如果输出文本特征向量的编码网络是最后一个编码网络,则直接将该文本特征向量作为结果输出接入条件随机场进行词性标注即可。
[0155]
在后的编码网络,尽管无需再单独引入所述的相对位置特征信息,但由于第一个编码网络中已经将所述相对位置特征信息作为生成文本特征向量的关联权重,因此,仍然是在携带了相对位置特征信息的文本特征向量的基础上做深度的特征交互,因此,在第一个编码网络的自注意力层中引入所述的相对位置特征信息,可以确保本技术的神经网络模型的所有特征提取过程均参考预先编码的相对位置特征信息,从而,确保该相对位置特征信息为命名实体识别过程提供重要的参考。
[0156]
本实施例中,详细揭示了本技术对待识别文本中的各个词元编码所得的相对位置
特征信息与自注意力层固有算法的有机结合,将该相对位置特征信息作为影响文本特征向量生成的关联权重,能够综合汇总地对自注意力层的所有嵌入向量的运算结果产生全面的影响和控制,确保对文本特征向量的生成有效,而该相对位置特征信息又携带了可学习权重,因此,方便模型训练时修正,从而可使模型更易于训练,确保在所述相对位置特征信息的作用下,快速将模型训练至收敛状态,并且使模型习得准确识别出命名实体的能力。
[0157]
请参阅图8,具体化的实施例中,所述步骤s1400、根据所述文本特征向量从待识别文本中识别出其中的命名实体,包括如下步骤:
[0158]
步骤s1411、采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性:
[0159]
请继续结合图2,图中所示的条件随机场模型(crf)用于实现对bert模型的最后一个编码网络所处理获得的文本特征向量进行词性标注。具体而言,bert模型输出一个概率矩阵,而条件随机场模型则输出一个状态矩阵,将两者相乘转换后,便可完成词性标注,获得所述待识别文本中标注了词性的各个词元,作为识别出的命名实体。
[0160]
步骤s1412、根据词性将各个命名实体输出至与词性相应的存储位置,以构成商品信息中词性相应的属性数据:
[0161]
由于条件随机场模型输出的待识别文本中的命名实体包含有词性的标注,因此,可以根据这些词性用做商品信息的属性数据,存储到词性相应的数据库中,实现对商品对象的打标。示例而言,用户在电商平台的智能客服系统通信界面中输入一个用于执行下单的摘要文本作为待识别文本,例如“xx手机,广州某地,135xxxxxxxx”,经本技术的神经网络模型识别后,其中“xx手机”即为商品信息的订单中的目标商品字段相对应的属性数据,“广州某地”即为该订单信息中的送货地址字段相对应的属性数据,“135xxxxxxxx”即为该订单的联系电话字段相对应的属性数据,根据这些词性一一对应存储即可。
[0162]
本实施例示例出本技术的执行命名实体任务的神经网络模型应用于为商品信息获取其属性数据的示例,通过该示例可以看出,基于本技术的技术方案精准识别出待识别文本中的命名实体后,便可自动地将其匹配到相应的存储位置,从而提升人机交互效率和准确度,对于电商之类的大型网络平台而言,能够大大提升服务效率,更能改善用户体验。
[0163]
请参阅图9,具体化的实施例中,所述步骤s1400、根据所述文本特征向量从待识别文本中识别出其中的命名实体,包括如下步骤:
[0164]
步骤s1421、采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性:
[0165]
同理,请继续参阅图2,条件随机场模型(crf)用于实现对bert模型的最后一个编码网络所处理获得的文本特征向量进行词性标注。具体而言,bert模型输出一个概率矩阵,而条件随机场模型则输出一个状态矩阵,将两者相乘转换后,便可完成词性标注,获得所述待识别文本中标注了词性的各个词元,作为识别出的命名实体。
[0166]
步骤s1422、根据词性提取出其中的目标词性相对应的命名实体,将该命名实体与预设的实体词典精准匹配,将实现精准匹配的命名实体输出为所述待识别文本的关键词:
[0167]
可以通过预构造多个属于不同分类的实体词典,来对所述的命名实体进行匹配,以便归类识别出所述命名实体中的各种功能不同的关键词。例如,预设有多个所述的实体词典,分别对应收录地理名词、商品名词、商品特征名词。当条件随机场识别出词性为地理
名词的命名实体后,可将其中地理名词相对应的命名实体与所述收录地理名词的实体词典进行匹配,一般为精准匹配,其中,实现精准匹配的命名实体即可确认为所述待识别文本中包含的关键词,其他词性的实体名词的匹配也同理。
[0168]
本实施例示例出本技术的执行命名实体任务的神经网络模型应用于关键词识别的示例,通过该示例可以看出,基于本技术的技术方案精准识别出待识别文本中的命名实体后,便可进一步用于进行关键词匹配识别,对于搜索引擎、商品推荐之类的具体应用场景,能够起到精准匹配的辅助效果,对于电商之类的大型网络平台而言,能够大大提升服务效率,更能改善用户体验。
[0169]
本技术的编码思想是一种非常基础的方法,适于所有基于bert模型及其衍生模型,对此类模型的改进,在自然语言处理领域将带来深远的影响,因此,除了本技术示例性给出的各种具体应用之外,本领域技术人员当然还可将其应用于解决其他具体的技术问题,对此,应当理解,仍不脱离本技术的创造精神所应涵盖的保护范围。
[0170]
请参阅图10,适应本技术的目的之一而提供的一种命名实体识别装置,包括:词嵌入模块1100、距离编码模块1200、特征交互模块1300、标注识别模块1400,其中,所述词嵌入模块1100,用于根据待识别文本分词获得的多个词元编码生成相应的嵌入向量;所述距离编码模块1200,用于根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息;所述特征交互模块1300,用于以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,其中,所述相对位置特征信息作为生成所述文本特征向量的关联权重;所述标注识别模块1400,用于根据所述文本特征向量从待识别文本中识别出其中的命名实体。
[0171]
具体化的实施例中,所述词嵌入模块1100,包括:标题获取子模块,用于获取待识别文本,所述待识别文本为用于描述商品信息的标题文本;分词处理子模块,用于采用预训练的分词模型对所述待识别文本进行分词,获得相对应的多个词元,所述词元为由英文单词或中文汉字为单字构成的词汇;向量编码子模块,用于分别编码各个词元的嵌入向量,每个词元的嵌入向量包括该词元的令牌嵌入、位置嵌入以及段嵌入。
[0172]
具体化的实施例中,所述距离编码模块1200,包括:尺度编码子模块,用于根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵;编码拼接子模块,用于将各个相对距离尺度相对应的编码矩阵拼接为多通道编码矩阵;编码合成子模块,用于对所述多通道编码矩阵匹配可学习权重进行非线性变换以激活输出,获得相对位置特征信息。
[0173]
深化的实施例中,所述尺度编码子模块,包括:第一编码单元,用于针对每个词元,计算其与任意一个词元之间前者首字与后者首字之间的相对距离,获得每个词元相对应的第一向量,将所有词元的第一向量拼接为第一编码矩阵;第二编码单元,用于针对每个词元,计算其与任意一个词元之间前者首字与后者末字之间的相对距离,获得每个词元相对应的第二向量,将所有词元的第二向量拼接为第二编码矩阵;第三编码单元,用于针对每个词元,计算其与任意一个词元之间前者末字与后者首字之间的相对距离,获得每个词元相对应的第三向量,将所有词元的第三向量拼接为第三编码矩阵;第四编码单元,用于针对每个词元,计算其与任意一个词元之间前者末字与后者末字之间的相对距离,获得每个词元相对应的第四向量,将所有词元的第四向量拼接为第四编码矩阵。
[0174]
具体化的实施例中,所述特征交互模块1300中的首个编码网络包括:向量构造单元,用于采用当前编码网络中的自注意力层为各个词元的嵌入向量构造其相对应的查询向量、键向量及值向量;加权求和单元,用于由该自注意力层将所有词元相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他嵌入向量相对应的查询向量的点积的归一化分值;距离关联单元,用于由该自注意力层将加权求和结果乘以转换权重矩阵与所述相对位置特征信息的加和结果,获得中间信息矩阵,使所述相对位置特征信息构成所述中间信息矩阵的关联权重;前馈处理单元,用于经前馈神经层对所述中间信息矩阵进行特征提取,获得文本特征向量,作为下一个编码网络的自注意力层所需的输入。
[0175]
具体化的实施例中,所述标注识别模块1400,包括:词性标注子模块,用于采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性;信息录入子模块,用于根据词性将各个命名实体输出至与词性相应的存储位置,以构成商品信息中词性相应的属性数据。
[0176]
具体化的实施例中,所述标注识别模块1400,包括:词性标注子模块,用于采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性;关键词提取子模块,用于根据词性提取出其中的目标词性相对应的命名实体,将该命名实体与预设的实体词典精准匹配,将实现精准匹配的命名实体输出为所述待识别文本的关键词。
[0177]
词嵌入模块1100、距离编码模块1200、特征交互模块1300、标注识别模块1400,其中,所述词嵌入模块1100,用于根据待识别文本分词获得的多个词元编码生成相应的嵌入向量;所述距离编码模块1200,用于根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息;所述特征交互模块1300,用于以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,其中,所述相对位置特征信息作为生成所述文本特征向量的关联权重;所述标注识别模块1400,用于根据所述文本特征向量从待识别文本中识别出其中的命名实体。
[0178]
具体化的实施例中,所述词嵌入模块1100,包括:标题获取子模块,用于获取待识别文本,所述待识别文本为用于描述商品信息的标题文本;分词处理子模块,用于采用预训练的分词模型对所述待识别文本进行分词,获得相对应的多个词元,所述词元为由英文单词或中文汉字为单字构成的词汇;向量编码子模块,用于分别编码各个词元的嵌入向量,每个词元的嵌入向量包括该词元的令牌嵌入、位置嵌入以及段嵌入。
[0179]
具体化的实施例中,所述距离编码模块1200,包括:尺度编码子模块,用于根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵;编码拼接子模块,用于将各个相对距离尺度相对应的编码矩阵拼接为多通道编码矩阵;编码合成子模块,用于对所述多通道编码矩阵匹配可学习权重进行非线性变换以激活输出,获得相对位置特征信息。
[0180]
深化的实施例中,所述尺度编码子模块,包括:第一编码单元,用于针对每个词元,计算其与任意一个词元之间前者首字与后者首字之间的相对距离,获得每个词元相对应的第一向量,将所有词元的第一向量拼接为第一编码矩阵;第二编码单元,用于针对每个词元,计算其与任意一个词元之间前者首字与后者末字之间的相对距离,获得每个词元相对应的第二向量,将所有词元的第二向量拼接为第二编码矩阵;第三编码单元,用于针对每个词元,计算其与任意一个词元之间前者末字与后者首字之间的相对距离,获得每个词元相
对应的第三向量,将所有词元的第三向量拼接为第三编码矩阵;第四编码单元,用于针对每个词元,计算其与任意一个词元之间前者末字与后者末字之间的相对距离,获得每个词元相对应的第四向量,将所有词元的第四向量拼接为第四编码矩阵。
[0181]
具体化的实施例中,所述特征交互模块1300中的首个编码网络包括:向量构造单元,用于采用当前编码网络中的自注意力层为各个词元的嵌入向量构造其相对应的查询向量、键向量及值向量;加权求和单元,用于由该自注意力层将所有词元相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他嵌入向量相对应的查询向量的点积的归一化分值;距离关联单元,用于由该自注意力层将加权求和结果乘以转换权重矩阵与所述相对位置特征信息的加和结果,获得中间信息矩阵,使所述相对位置特征信息构成所述中间信息矩阵的关联权重;前馈处理单元,用于经前馈神经层对所述中间信息矩阵进行特征提取,获得文本特征向量,作为下一个编码网络的自注意力层所需的输入。
[0182]
具体化的实施例中,所述标注识别模块1400,包括:词性标注子模块,用于采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性;信息录入子模块,用于根据词性将各个命名实体输出至与词性相应的存储位置,以构成商品信息中词性相应的属性数据。
[0183]
具体化的实施例中,所述标注识别模块1400,包括:词性标注子模块,用于采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性;关键词提取子模块,用于根据词性提取出其中的目标词性相对应的命名实体,将该命名实体与预设的实体词典精准匹配,将实现精准匹配的命名实体输出为所述待识别文本的关键词。
[0184]
为解决上述技术问题,本技术实施例还提供计算机设备。如图11所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种命名实体识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本技术的命名实体识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0185]
本实施方式中处理器用于执行图10中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的命名实体识别装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
[0186]
本技术还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本技术任一实施例的命名实体识别方法的步骤。
[0187]
本技术还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令
被一个或多个处理器执行时实现本技术任一实施例所述方法的步骤。
[0188]
本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等计算机可读存储介质,或随机存储记忆体(random access memory,ram)等。
[0189]
综上所述,本技术通过改进编码方式,对待识别文本中的词元进行多个距离尺度的编码获得相应的相对位置特征信息,使用于命名实体识别的编码网络中的自注意力层能够利用该相对位置特征信息控制表示学习过程,获得相应的文本特征向量,使该文本特征向量参考了词元之时的相对位置信息,从而提升命名实体识别的准确度,适于处理电商领域中为商品文本信息执行关键词提取之类的下游任务,具有基础和宽广的应用前景。
[0190]
本技术领域技术人员可以理解,本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0191]
以上所述仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献