一种地域实体的识别方法及装置与流程

2022-02-20 14:39:56 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其涉及一种地域实体的识别方法及装置。

背景技术：

2.地域相关实体识别主要是从百科、新闻等文本中提取出与地域相关的特定地域实体，例如可以从杭州市的百度百科描述中抽取出杭州市交通领域的火车站、机场、地铁线路等地域实体，也可以抽取出杭州市的历史文化、自然资源、科技产业等领域的相关地域实体。从而为构建城市大脑、知识图谱、网络舆论热点检测、城市宣传等提供支持。
3.传统的地域相关地域实体识别多为通过人工总结地域实体名称包含的特定字或地域实体上下文蕴含的特定规律来识别出文本中的地域实体，例如：对于城市的火车站可以采用“城市名” “站”；例如：对于城市的地铁线路可以采用“城市名” “地铁”这样的规则进行地域实体识别。一部分采用了基于深度学习的地域实体识别方法。
4.然而这些方法仅仅是将深度学习中的地域实体识别模型直接搬运过来，采用 bert等预训练模型将文本中的每个字编码为向量，再结合crf进行序列标注对每个字进行分类，判断其是否为地域实体。因此上述现有技术存在下述缺陷：
5.需要人工对地域实体的规律进行总结，由于不同的地域实体所存在的规律可能难以归纳尽，因此需要不断投入人力去开发；另一方面，总结的规则较为具体时虽然能保证识别地域实体的准确性，但是这样的规则泛化能力较差，容易造成召回不足；规则较为宽泛时虽然能囊括很多种情况，但是精度较低，容易将很多非地域实体抽取出来。同时，复杂的规则也为后期的维护带来了压力。
6.大多采用的是主流的命名地域实体识别模型，由于基于深度学习的命名地域实体识别研究多聚焦于英文数据集，而中英文之间存在着巨大的差异，英文表达意思的基本粒度是单词且句子中每个单词之间会用空格隔开；而中文表达意思的基本粒度是词而非字，中文地域实体的边界一般也是词的边界，因此准确识别出词的边界在中文地域实体识别中至关重要。简单的使用字信息的序列标注方案忽视了中文的词汇信息，容易出现抽取的地域实体残缺或包含多余字的问题。
7.并没有考虑结合地域信息，因此难以区分不同地域对应的地域实体。例如，在杭州市的百度百科介绍中的句子“杭州东站位于上城区天城路，建于1992年；改扩建后的杭州东站于2013年7月1日启用，为上海铁路局下辖特等站，车站体量与上海虹桥站相当。”，地域相关地域实体识别任务希望仅抽取出与杭州市相关的火车站实体即“杭州东站”。但是对于综合全国各地数据训练的模型来说，“杭州东站”和“上海虹桥站”均是火车站类实体，因此难以在关于杭州市的描述中仅仅将“杭州东站”识别出来。针对不同地域分别进行模型训练确实可以做到让模型适用于该地域，但这样一来每识别一个城市就需要单独训练一个模型，造成了数据标注和模型训练上的巨大工作量。

技术实现要素：

8.本技术提供了一种地域实体的识别方法及装置，实现了让地域文本实体识别模型找到与输入的地域实体描述最相关的地域实体，即实现在最终分类中更加倾向于与地域实体描述相关的地域实体，进而实现通过词向量、字特征和地域实体描述提高地域文本实体识别模型的识别准确率，以此提高地域实体识别的准确度。
9.一种地域实体的识别方法，其中，包括以下步骤：
10.将待训练地域文本中的待训练地域实体对应的词向量和待训练地域实体中的每个字对应的字特征进行融合，以得到待训练地域实体中的每个字对应的字向量；
11.根据待训练地域实体对应的地域实体描述和字向量对第一预训练模型进行训练，得到地域文本实体识别模型；
12.利用地域文本实体识别模型，识别待识别地域文本的地域实体。
13.优选的，识别方法，其中，得到待训练地域实体中的每个字对应的字向量之前，包括：
14.根据待训练地域文本的地域文本类型获取得到待训练地域文本的待训练地域实体和待训练地域实体的位置标记；
15.根据位置标记对待训练地域实体进行标记转换，以得到待训练地域实体的序列标注。
16.优选的，识别方法，其中，根据待训练地域文本的地域文本类型获取得到待训练地域文本的待训练地域实体和待训练地域实体的位置标记，具体包括以下步骤：
17.获取待识别地域文本，将待训练地域文本进行分类以获取得到待训练地域文本的地域文本类型；
18.根据地域文本类型从待识别地域文本中获取待训练地域实体的位置，并对待训练地域实体的位置进行标记，以得到每个待训练地域实体对应的标记位置。
19.优选的，识别方法，其中，得到待训练地域实体中的每个字对应的字向量之前，包括：
20.对待训练地域文本按照句子进行切分，并将切分后的短句进行拼接，以得到符合第一预训练模型的输入文本。
21.优选的，识别方法，其中，得到字向量，具体包括以下步骤：
22.采用字级别的第一预训练模型提取待训练地域文本中的待训练地域实体中的每个字对应的字特征；
23.采用词级别的第二预训练模型提取待训练地域文本中的待训练地域实体对应的词向量；
24.将词向量输入到第一预训练模型中，以将词向量和字特征进行融合后得到字向量。
25.优选的，识别方法，其中，将词向量和字特征进行融合后得到字向量，具体包括以下步骤：
26.将词向量输入到第一预训练模型中，以得到融合有词向量的第一预训练模型，并将融合有词向量的第一预训练模型记为融合模型；
27.融合模型对待训练地域文本构建字词对，并将字词对中的字信息和词信息融合，
以得到待训练地域实体中的每个字对应的字向量。
28.优选的，识别方法，其中，将词向量和字特征进行融合后得到字向量，具体包括以下步骤：
29.将经第二预训练模型中获取得到的词向量进行维度转换，以得到符合第一预训练模型的词向量；
30.获取得到待训练地域实体中的每个字对应的符合第一预训练模型的词向量集合；
31.采用注意力加权机制将字特征和与字特征对应的词向量集合进行融合，以计算得到字特征的词向量权重：
32.将每个字特征的词向量权重进行加权处理，以得到每个字的字特征对应的加权词向量；
33.将字特征和加权词向量相加，以得到字向量。
34.优选的，识别方法，其中，第一预训练模型为bert模型。
35.优选的，识别方法，其中，得到地域文本实体识别模型，具体包括以下步骤：
36.将待训练地域实体对应的地域实体描述输入到神经网络模型中，以输出得到地域实体描述向量；
37.将地域实体描述向量输入到第一预训练模型中，根据地域实体描述向量和字向量对第一预训练模型进行训练，得到地域文本实体识别模型。
38.还包括一种地域实体的识别装置，其中，包括：
39.融合单元，配置用于将待训练地域文本中的待训练地域实体对应的词向量和待训练地域实体中的每个字对应的字特征进行融合，以得到待训练地域实体中的每个字对应的字向量；
40.训练单元，配置用于根据待训练地域实体对应的地域实体描述和字向量对第一预训练模型进行训练，得到地域文本实体识别模型；
41.识别单元，配置用于利用地域文本实体识别模型，识别待识别地域文本的地域实体。
42.本技术能让地域文本实体识别模型找到与输入的地域实体描述最相关的地域实体，即实现在最终分类中更加倾向于与地域实体描述相关的地域实体，进而实现通过词向量、字特征和地域实体描述提高地域文本实体识别模型的识别准确率，以此提高地域实体识别的准确度。
43.应当理解，本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征，也不用于限制本技术的范围。本技术的其他特征将通过以下的说明书而变得容易理解。
附图说明
44.参考所附附图，以更加充分地描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。
45.图1为本发明地域实体的识别方法的实施例的得到字向量的流程图。
具体实施方式
46.以下结合附图对本技术的示范性实施例作出说明，其中包括本技术实施例的各种
细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本技术的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
47.一种地域实体的识别方法，包括以下步骤：
48.步骤s1，将待训练地域文本中的待训练地域实体对应的词向量和待训练地域实体中的每个字对应的字特征进行融合，以得到待训练地域实体中的每个字对应的字向量；
49.步骤s2，根据待训练地域实体对应的地域实体描述和字向量对第一预训练模型进行训练，得到地域文本实体识别模型；
50.步骤s3，利用地域文本实体识别模型，识别待识别地域文本的地域实体。
51.实际应用中，为了提高最终的地域文本实体识别模型的识别准确率，可以采用大规模的训练样本。因此，本技术实施例中，待训练地域文本可包含多个文本。
52.在上述实施例中，通过将待训练地域文本中的词向量和待训练地域文本中的字特征融合，得到字向量，从而克服了传统算法仅仅利用了字信息导致地域实体边界判断不准确的问题，并且能够更准确地识别待训练地域文本中的地域实体的边界。
53.通过将待训练地域文本所属于的地域实体描述融入第一预训练模型中，该地域实体描述为地域信息，即根据待训练地域实体对应的地域实体描述和字向量对第一预训练模型进行训练，得到地域文本实体识别模型。这样就能达到通过地域信息影响和控制模型输出的目的，也就能让地域文本实体识别模型根据不同的地域信息自适应的调整识别地域实体的倾向，找到与输入的地域信息最相关的地域实体，即实现在最终分类中更加倾向于与地域信息相关的地域实体。
54.需要说明的是，本技术涉及到的所有地域信息均为地域实体描述。
55.作为优选的实施方式，在步骤s1之前还包括：
56.步骤a1，根据待训练地域文本的地域文本类型获取得到待训练地域文本的待训练地域实体和待训练地域实体的位置标记；
57.进一步地，对待训练地域文本进行分类处理，以得到待训练地域文本的地域文本类型，根据地域文本类型获取得到待训练地域文本的核心词，并获取得到核心词的位置标记；
58.步骤a2，根据位置标记对待训练地域实体进行标记转换，以得到待训练地域实体对应的序列标注。
59.在上述实施例中，对于一个地域文本类型中的待训练地域文本，按照待训练地域文本中的待训练地域实体和待训练地域实体存在的位置标记进行序列标注的转化。
60.例如，对于交通领域，使用tra表示火车站，air表示机场，port表示港口，metro表示地铁，rail表示铁路，road表示公路。由于中文的地域实体通常是由多个字组成的词，而地域实体识别方案以字为基本单位进行预测，因此一般将一个地域实体的第一个字表示为b-，其他部分表示为i-，对于非地域实体的字使用o表示。根据以上地域实体类型，共有b-tra、i-tra、b-air、 i-air、b-port、i-port、b-metro、i-metro、b-rail、i-rail、b-road、 i-road、o，13类字符标记分别用来表示文本中每个字的属性。例如，对于文本“杭州市最大的火车站是杭州东站，机场是萧山国际机场。”，其转换后的标记如下表1所示。
[0061][0062]
表1
[0063]
通过数据处理，根据标注中地域实体的位置将文本均转换为上述的标记结果。
[0064]
步骤a1具体包括以下步骤：
[0065]
步骤a11，获取待识别地域文本，将待识别地域文件进行分类以获取得到待识别地域文件的地域文本类型；
[0066]
由于不同类别的文本需要抽取的地域实体类型也是不同的，例如：交通领域需要抽取如下类型的地域实体：1)火车站2)机场3)港口4)地铁5)铁路6) 公路等；
[0067]
而自然资源需要抽取如下类型的地域实体：1)国家i级保护动物2)国家 ii级保护动物3)主要树种4)国家保护树种5)矿产资源。
[0068]
因此需要首先对地域文本进行分类，具体的类别可根据需求而定。
[0069]
分类采用规则方法，作为优选的实施方式，可以直接采用可信资料中的类别分类。
[0070]
例如，由于在百度百科中对于省、市、县或区等地域的交通、自然资源、历史文化等类别均已进行了区分并分别描述，因此可以直接采用百度百科中对于省、市、县或区的描述的规律设计规则对地域文本进行分类。
[0071]
需要说明的是，可信资料除了上述的官方认证的百度百科之外还有其他可信资料，例如维基百科、大英百科全书及其电子版和中国大百科全书及其电子版等。
[0072]
步骤a12，根据地域文本类型从待识别地域文本中获取待训练地域实体的位置，并对待训练地域实体的位置进行标记，以得到每个待训练地域实体对应的标记位置。
[0073]
对于不同类别的文本，标出每一类需要抽取的地域实体在文本中的位置。
[0074]
作为优选的实施方式，在步骤s1之前还包括：
[0075]
步骤b1，对待训练地域文本按照句子进行切分，并将切分后的短句进行拼接，以得到符合第一预训练模型的输入文本。
[0076]
例如，bert模型限制了输入的文本最大长度为512，而地域的描述文本长度一般都超过512，所以需要对文本进行分割。为了保证文本整体的结构不变，本技术首先以句号、感叹号、问号等符号对输入的文本进行分句。再按顺序组合若干句子，保证总长度不超过512。这样就可以将一段文本切分成若干总长度小于512的短文本，同时保证了句子的完整性。最终，将模型在各个子块上的地域实体识别结果综合起来即为完整文本的地域实体结果。
[0077]
作为优选的实施方式，步骤s1具体包括以下步骤：
[0078]
步骤s11，采用字级别的第一预训练模型取待训练地域文本中的待训练地域实体中的每个字对应的字特征；
[0079]
步骤s12，采用词级别的第二预训练模型提取待训练地域文本中的待训练地域实
体对应的词向量；
[0080]
步骤s13，将词向量输入到第一预训练模型中，以将词向量和字特征进行融合后得到字向量。
[0081]
在上述实施例中，通过将词级别的第二预训练模型将待训练地域文本中的词向量和字级别的第一预训练模型得到待训练地域文本中的字特征融合，得到字向量，从而克服了传统算法仅仅利用了字信息导致地域实体边界判断不准确的问题，并且能够更准确地识别待训练地域文本中的地域实体的边界。
[0082]
通过将待训练地域文本所属于的地域信息融入第一预训练模型中，根据待训练地域实体对应的地域实体描述和字向量对第一预训练模型进行训练，得到地域文本实体识别模型。这样就能达到通过地域信息影响和控制模型输出的目的，也就能让模型根据不同的地域信息自适应的调整识别地域实体的倾向，找到与输入的地域信息最相关的地域实体，即实现在最终分类中更加倾向于与地域信息相关的地域实体。
[0083]
作为优选的实施方式，步骤s1具体包括以下步骤：
[0084]
步骤s14，将词向量输入到第一预训练模型中，以得到融合有词向量的第一预训练模型，并将融合有词向量的第一预训练模型记为融合模型；
[0085]
步骤s15，融合模型对待训练地域文本构建字词对，并将字词对中的字信息和词信息融合，以得到待训练地域实体中的每个字对应的字向量。
[0086]
例如，构建字词对的具体实施可以为：
[0087]
对于一个中文句子s＝{c1,c2,
…
,cn}，其中ci表示句子中的第i个字。通过现有的词典可以得到当前句子中每个字与其相邻字所能构成的词的集合。将句子中每个字和由该字匹配到的词集合组成一个字词对，表示为
[0088]scw
＝{(c1,ws1),(c2,ws2),
…
,(cn,wsn)}，其中wsi表示句子中的第i个字构成的词的集合。
[0089]
举例说明，“杭州市民”中的“杭”可以构成的词有(杭州、杭州市)，“州”可以构成的词有(杭州、杭州市)，“市”可以构成的词有(杭州市、市民)，“民”可以构成的词有(市民)。
[0090]
其中，步骤s15具体包括以下步骤：
[0091]
步骤s151，将经第二预训练模型中获取得到的词向量维度进行转换，以得到符合第一预训练模型的词向量；
[0092]
具体的，对于句子中第i个位置的字词对(cn,wsn)的向量表示为(hi,wi)，其中hi是第i个字的特征，wi＝{w
i1
,w
i2
,
…
,w
im
}为第由第i个字符对应的词构成的词向量，这个词向量可以通过单独训练的词向量模型(该词向量模型为第二预训练模型)得到。
[0093]
通俗地说，在句子“杭州市民”中“州”这个字即为hi，“州”所对应的词有两个[杭州，杭州市]，因此通过第二预训练模型生成的词向量也有两个，记为 wi0,wi1，也就是说“wi0”对应于“杭州”，“wi1”对应于“杭州市”；
[0094]
但是由于词向量wi是通过第二预训练模型获取得到的，而字特征hi是通过第一预训练模型获取得到的，因此，wi和hi向量长度可能不同，此时就需要将wi 进行维度转换，使得wi和hi向量长度一致，具体方式如图1和下文所示：
[0095]
首先，使用一个非线性变换将词向量维度与字向量维度对齐，如下述公式(1) 所示：
[0096]vij
＝tan(h(w1w
ij
b))； (1)
[0097]
其中，w1用于表示神经网络中一层全连接层的参数，并且表示一个dc行，dw列的矩阵，且矩阵中每个数字都是实数，用于表示表示实数域；
[0098]
dc用于表示字向量维度；
[0099]dw
用于表示词向量维度；
[0100]wij
用于表示第i个字对应的第j个第二预训练模型获取得到的词向量；
[0101]vij
用于表示第i个字对应的第j个第一预训练模型获取得到的词向量；
[0102]
步骤s152，获取得到待训练地域实体中的每个字对应的符合第一预训练模型的词向量集合；
[0103]
此时，对于句子中第i个字，其对应的词经维度变换后的集合如下述公式(2) 所示：
[0104]vi
＝{v
i1
,v
i2
,v
i3
,
……
,v
im
}； (2)
[0105]
其中，vi用于表示第i个字对应的第一预训练模型获取得到的词向量集合。
[0106]
步骤s153，采用注意力加权机制将字特征和与字特征对应的词向量集合进行融合，以计算得到字特征的词向量权重，如下述公式(3)所示：
[0107][0108]
其中，
[0109]
αi用于表示第i个字的字特征的词向量权重；
[0110]hi
用于表示第i个字的字特征；
[0111]
w2用于表示神经网络中另一个参数；
[0112]vit
用于表示第i个字对应的多个词融合后的向量的转置，t用于表示转置参数。
[0113]
在上述实施例中，每个字存在多个词向量，通过上述公式计算得到的数字表示字特征的词向量权重，其中，词向量权重用于表示该词向量权重对应的词向量对这个字的重要程度，重要的权重值高，不重要的权重值低。
[0114]
步骤s154，将每个字特征的词向量权重进行加权处理，以得到每个字的字特征对应的加权词向量，如下述公式(4)所示：
[0115][0116]
在上述公式(4)中，采用权重对字对应的各个词向量加权，将加权后的词向量相加即得到融合的词向量，并将该融合的词向量记为加权词向量；
[0117]
α
ij
用于表示词向量权重αi中的第j个值；
[0118]vij
为第i个字对应的第j个向量；
[0119]
zi用于表示加权词向量。
[0120]
步骤s155，将字特征hi和加权词向量zi相加，以得到融合结果。
[0121]
在上述实施例中，词级别的第二预训练模型将该句子中的词信息与字级别的第一预训练模型得到的字向量融合，能够更准确地识别地域实体的边界。
[0122]
在本技术实施例中，第一预训练模型可以为bert模型，第二预训练模型可以为wobert模型。
[0123]
第一预训练模型可以为bert模型，bert模型是由多层transformer堆叠而成的，假设有l层，在中间的第k层将词信息融合，由第k-1层transformer 输出得到字向量，再根据上述计算得到对应的词向量，将第i个位置的字向量与词向量相加后的融合结果作为该位置的信息输入下一层transformer中。
[0124]
在本技术实施例中，通过引入条件层标准化(conditional layer normalization， conditional ln)将文本中的地域实体所属于的地域信息融入地域文本实体识别模型中。由于bert等预训练模型中都是以transformer作为基础架构，而 transformer中的网络深层特征使用了层标准化(layer normalization,ln)，条件层标准化就是将地域信息变成特征加到ln的参数中，这样就能达到通过地域信息影响或控制模型输出的目的，也就能让模型在最终分类中更加倾向于与地域信息相关的地域实体。使用地域信息作为特征输入的条件层标准化模型可以仅训练一个模型就能根据不同的地域信息作出不同倾向的结果。
[0125]
在本技术实施例中，步骤s2具体包括以下步骤：
[0126]
步骤s21，将待训练地域实体对应的地域实体描述输入到神经网络模型中，以输出得到地域实体描述向量；
[0127]
步骤s22，将地域实体描述向量输入到第一预训练模型中，根据地域实体描述向量和字向量对第一预训练模型进行训练，得到地域文本实体识别模型。
[0128]
优选的，由于识别的地域实体与地域信息相关，需要将地域相关的描述信息融合到模型中以指导模型正确识别出与地域相关的地域实体。本技术将地域信息 (可以是省市区名称、地域简短介绍等)做embedding(词嵌入，即将文字变为数字向量)得到地域信息向量r，再将地域信息向量r加入层标准化(layernormalization，ln)中改变ln的参数，再使用融合地域信息的ln对上一节的字词信息融合后的bert输出结果进行层标准化。
[0129]
其中，ln是深度学习中常用的一种标准化方法，用来将深层网络的特征调整到一个激活函数的合适范围，它能在很大程度上避免梯度消失、梯度爆炸等问题，并且加速模型收敛。
[0130]
其中，计算各隐藏层的期望和标准差如下述公式(5)和(6)所示：
[0131][0132][0133]
其中，在上述公式(5)和(6)中：
[0134]
h用于表示隐藏层的节点数；
[0135]
a用于表示向量；
[0136]
中的右上角l表示第l层，右下角i表示a中的第i个值；
[0137]
μ
l
用于表示第l层隐藏层的期望；
[0138]
用于表示第l层隐藏层的标准差。
[0139]
将地域信息向量r加入层标准化如下述公式(7)所示：
[0140][0141]
g用于表示增益参数；
[0142]
b用于表示偏置参数；
[0143]
经激活函数输出地输出结果如下述公式(8)所示：
[0144][0145]
其中，h用于表示一个样本经过ln后的输出结果。
[0146]
公式(5)－公式(8)中的“l”是小写的l。
[0147]
本技术将地域信息r经线性变换后加到上述的可训练参数g和b中，以得到如下述公式(9)和(10)所示的经过ln转换后的增益参数g’和偏置参数b’。
[0148]
g’＝wg*r g； (9)
[0149]
b’＝wb*r b； (10)
[0150]
如此，即可实现对于不同地域的针对性地域实体识别。
[0151]
进一步地，将模型结果对序列上的每个字做分类，类别为(b-tra、i-tra、 b-air、i-air、b-port、i-port、b-metro、i-metro、b-rail、i-rail、 b-road、i-road、o)，取类别概率最大的作为结果。最终根据分类结果提取出其中的地域实体。
[0152]
还提供一种地域实体的识别装置，包括：
[0153]
融合单元，配置用于将待训练地域文本中的待训练地域实体对应的词向量和待训练地域实体中的每个字对应的字特征进行融合，以得到待训练地域实体中的每个字对应的字向量；
[0154]
训练单元，配置用于根据待训练地域实体对应的地域实体描述和字向量对第一预训练模型进行训练，得到地域文本实体识别模型；
[0155]
识别单元，配置用于利用地域文本实体识别模型，识别待识别地域文本的地域实体。
[0156]
需要说明的是，地域实体的识别装置的各实施例与地域实体的识别方法的各实施例一致，在此不做详细赘述。
[0157]
以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于公有链的绿色金融业务合规性“监管雷达”系统的制作方法

一种地域实体的识别方法及装置与流程

相关文献

最热文献