一种文化资源实体识别训练数据的自动标注系统及方法与流程

2022-02-19 14:56:13 来源：中国专利 TAG：

1.本公开属于计算机、人工智能技术领域，特别涉及一种文化资源实体识别训练数据的自动标注系统及方法。

背景技术：

2.近几年，人工智能技术发展迅速，各行各业都开始融合人工智能技术进行创新和发展。人工智能的核心内容在于它的算法或者说是模型，一个模型往往需要大量的数据来进行模型训练，以此来提高它的智能性。所以数据的格式化标注就是人工智能应用第一阶段的任务。目前的格式化标注方式以人工为主，一种是全人工标注，另一种是在标注工具辅助下的人工标注。不管是哪种标注方式，当遇到大规模的数据需要标注时，按以往的标注方式人工成本将会非常高，而且效率低下，准确度也得不到保证。这是在标注时面临的一大难题。
3.人工智能技术的目的就是让机器拥有人类的认知能力。人类的认知能力是通过不断的学习得到的，同理机器的认知能力也需要通过不断的学习来获得，而标注好的数据就是机器的学习资料。比如我们想让机器识别“狗”图片，直接拿一张小狗的图片给它，它是没有办法分辨出这是小狗。当我们把大量标注好的“狗”的图片拿给机器，让它进行识别、学习，机器通过提取大量图片的特征并对应到“狗”这个标签上。这时我们再拿一张机器没有见过的图片给它，机器就会根据图片的特征识别出对应的标签。统称为数据集的训练集和测试集是机器学习模型训练的基础，机器学习模型的精确度建立在数据集的规模和标注准确度之上。一个高性能的人工智能应用，除了优质模型之外，还需要高质量的数据集对模型进行训练，数据集的质量越高，模型的精确度就越高，人工智能应用的价值就越高。所以高效的制作高质量的训练集是人工智能的基础。传统的人工标注方式制作训练集效率非常低，尤其在对文本内容进行标注时。

技术实现要素：

4.为了解决上述问题，本公开提供了一种文化资源实体识别训练数据的自动标注系统，其包括前缀集合构建模块、关键词匹配模块、区间合并模块、工具调用模块和格式转换模块，其中，
5.前缀集合构建模块通过读入的关键词字典，采用前缀集合构建算法将关键词字典转换为前缀集合；
6.关键词匹配模块接收所述前缀集合以及原始文本，通过关键词匹配算法将原始文本中的领域关键词识别出来并将其在原始文本中的位置区间记录到信息集中；
7.区间合并模块接收所述信息集，通过区间合并算法解决关键词区间包含和相交的问题，最终生成新的信息集，并将所述新的信息集中的元素保存到分析文本中；
8.工具调用模块用于识别文化领域内通用专有名词，并将其添加到所述新的信息集中，并将所述新的信息集中的元素保存到分析文本中；
9.格式转换模块将所述分析文本和原始文本通过格式转换算法转换为成熟的标注文本。
10.本公开还提供了一种文化资源实体识别训练数据的自动标注方法，其包括如下步骤：
11.s100：通过读入的关键词字典，采用前缀集合构建算法将关键词字典转换为前缀集合；
12.s200：接收所述前缀集合以及原始文本，通过关键词匹配算法将原始文本中的领域关键词识别出来并将其在原始文本中的位置区间记录到信息集中；
13.s300：接收所述信息集，通过区间合并算法解决关键词区间包含和相交的问题，最终生成新的信息集，并将所述新的信息集中的元素保存到分析文本中；
14.s400：识别文化领域内通用专有名词，并将其添加到所述新的信息集中，并将所述新的信息集中的元素保存到分析文本中；
15.s500：将所述分析文本和原始文本通过格式转换算法转换为成熟的标注文本。
16.通过上述技术方案，本方法能够显著提高了标注效率，大大降低了错误率以及标注成本。
附图说明
17.图1是本公开一个实施例中所提供的一种文化资源实体识别训练数据的自动标注方法流程图；
18.图2是本公开一个实施例中所提供的一种文化资源实体识别训练数据的自动标注方法结构图；
19.图3是本公开一个实施例中前缀集合构建算法流程图；
20.图4是本公开一个实施例中关键词匹配算法流程图；
21.图5是本公开一个实施例中区间合并算法流程图；
22.图6是本公开一个实施例中格式转换算法流程图。
具体实施方式
23.文化领域实体识别模型的训练需要大量训练数据，传统的训练数据制作方法以人工标注为主，人工标注会存在标注效率低下、标注错误率高以及标注成本高的问题。为了解决这一问题，我们针对文化领域内资源实体识别数据集标注任务，提出了一种基于关键字匹配以及现有工具调用的bioes自动化标注系统及方法。
24.在一个实施例中，如图1所示，本公开提供了一种文化资源实体识别训练数据的自动标注方法，其包括如下步骤：
25.s100：通过读入的关键词字典，采用前缀集合构建算法将关键词字典转换为前缀集合；
26.s200：接收所述前缀集合以及原始文本，通过关键词匹配算法将原始文本中的领域关键词识别出来并将其在原始文本中的位置区间记录到信息集中；
27.s300：接收所述信息集，通过区间合并算法解决关键词区间包含和相交的问题，最终生成新的信息集，并将所述新的信息集中的元素保存到分析文本中；
28.s400：识别文化领域内通用专有名词，并将其添加到所述新的信息集中，并将所述新的信息集中的元素保存到分析文本中；
29.s500：将所述分析文本和原始文本通过格式转换算法转换为成熟的标注文本。
30.就该实施例而言，该方法是以前缀集合构造算法、关键词匹配算法、区间合并算法和格式转换算法以及现有自然语言处理工具为核心，以biofs标签体系作为实体标注方案来实现实体识别训练数据的自动化标注。通过关键词词典构建前缀集合，在前缀集合上执行关键词匹配算法实现对生语料中领域专有名词的识别；通过自然语言处理工具的使用实现对生语料中通用专有名词的识别；通过区间合并算法解决关键词区间相交和包含的问题；通过格式转换算法结合分析文件将原始文本转换为标注文本。该方法的结构图如图2所示。
31.转换为前缀集合的目的是方便进行关键词匹配，提高关键词匹配效率。
32.以往的关键词匹配算法主要是基于关键词列表，通过遍历关键词列表，对列表中的每一个关键词在全文中进行查找，判断该关键词是否存在于原始文本中，这种方式复杂度高效率低下。而本关键词匹配算法是在前缀集合的基础上提出的，配合前缀集合只需按字符遍历一次原始文本，就可以将原始文本中的关键词匹配出来，提高了匹配效率。
33.以往的区间合并算法首先需要对区间进行排序，需要额外的排序时间，增加了时间开销。而本区间合并算法并不需要对区间进行排序，本区间合并算法的输入是来自关键词匹配算法的输出。在关键词匹配算法中，是按顺序遍历一次原始文本，所以得到的关键词区间信息已经是排好序的。所以在该区间合并算法中剔除了排序步骤，从而减少了时间升销，提高了区间合并效率。
34.在另一个实施例中，所述前缀集合构建算法是将相同前缀的关键词放在同一组。
35.就该实施例而言，用w＝{w0，w1，...，w
n
}表示关键词集合，其中w
i
＝{c
i，0
，c
i，1
，...，c
i，len
‑1}表示第i个关键词，其中c
i，j
表示组成关键词的字符，其中0≤j≤len
‑
1，len表示第i个关键词的长度。
36.在集合w中可能存在具有公共前缀的关键词，为了提高关键词的匹配效率，将相同前缀的关键词放在同一组。定义前缀集合p，将具有公共前缀的关键词组合在一起，其递归定义如下所示：
37.p＝{{c0，p
0，1
，f}，{c1，p
0，2
，f}，...，{c
n
，p
0，n
，f}}
38.p
i，j
＝{{c0，p
i 1，0
，f}，{c1，p
i 1，1
，f}，...，{c
m
，p
i 1，m
，f}}
39.p表示所有关键词对应的前缀集合，c
i
表示第i个前缀集合p
0，i
的公共前缀，其中0≤i≤n，f表示标志位，用来判断当前字符c
i
是否单独构成一个关键词。p
i，j
表示第i层的第j个前缀集合，c0，...，c
n
表示在第i层所有的公共前缀共n个，j代表标志位。例如有3个关键词w1＝{a，b，c，d}，w2＝{a，b，e，g，h}和w3＝{h，i，j}，其中w1和w2的公共前缀是
‘
ab’；w3和其他关键词没有公共前缀。所以这3个关键词的前缀集合用字典的形式表示如下：
40.[0041][0042]
算法1是前缀集合构建算法。
[0043]
输入：关键词集合w
[0044]
输出：前缀集合p
[0045]
[0046][0047]
算法1的流程图如图3所示。算法1的初始输入为关键词集合w，输出为前缀集合p。首先初始化集合p，最外层循环从关键词集合中读取每一个关键词w
i
，内层循环遍历当前关键词w
i
的每个字符c
j
。初始时令p
′
＝p，表示当前指向的前缀集合为p，后面为p
′
的每一次赋值都表示其指向新的前缀集合。如果在当前的前缀集合p
′
中存在以c
j
为局部前缀的前缀集合p，那么令p
′
＝p，表明下一个字符c
j 1
作为局部前缀只可能存在于前缀集合p中，或者作为新的局部前缀被添加到p中；否则判断是否读取到w
i
的最后一个字符，如果c
j
是最后一个字符，则令标志位f＝1，否则令f＝0，令p＝{}表示以字符c
j
为局部前缀的前缀集合，此时p为空，将c
j
，p和f加入到p
′
中。当循环结束，关键词集合w对应的前缀集合p就被完整的构建了出来，最后返回前缀集合p即可。
[0048]
本模块是整个系统的核心模块，在本模块开始之前，我们已经搜集整理得到文化领域中各个类别的关键词，并且按类别存储在不同的文件中。不同的类别关键词对应不同的前缀集合，通过多次执行前缀集合构建算法，构建出所有类别的前缀集合。然后针对每一个前缀集合，在原始文本上执行关键词匹配算法获得信息集。
[0049]
在另一个实施例中，所述信息集中的元素采用二元组(b，e)的形式来表示，其中b表示领域关键词在原始文本中的开始索引，e表示领域关键词在原始文本中的结束索引。
[0050]
就该实施例而言，将文本分割成单个字符用集合c＝{c0，c1，...，c
m
}表示，用p＝
{p0，p1，...，p
n
}表示融入标志位后的第0层前缀集合。假设表示一个关键词，若c
x
∈p
z
，则表明关键词w只能出现在前缀集合p
z
中，c
x 1
必定在p
z
的下一层前缀集合中，一直到c
y
进入到了p
z
的第y
‑
x层的前缀集合中，当然这一层的前缀集合包含字符c
y
、标志位f＝1以及前缀集合表明这个关键词被匹配成功了。按照同样的方式匹配所有的关键词，用二元组(b，e)表示关键词w在文本中开始索引b和结束索引e。用集合r＝{r0，r1，...，r
n
}表示文本中所有关键词对应的位置信息，其中r
i
＝(b，e)。
[0051]
算法2是关键词匹配算法。
[0052]
输入：前缀集合p，文本的字符集合c
[0053]
输出：关键词匹配结果r
[0054]
[0055][0056]
算法2的流程图如图4所示。算法2的初始输入为前缀集合p和原始文本字符集合c，将关键词识别出来后，构造关键词信息二元组(b，e)，将所有关键词二元组组成的信息集r返回。
[0057]
首先算法是一个最外层的循环，遍历字符集合c中的每个字符c
i
；初始化当前前缀集合p
x，y
为p
0，０
，判断当前字符c
i
是否属于前缀集合p
x，y
，如果c
i
不属于前缀集合，表明p
x，y
没有以字符c
i
为开头的关键词，继续读取下一个字符；如果c
i
属于前缀集合p
x，y
，并且当前标志位f值为1，表明当前字符c
i
单独构成一个关键词，将当前关键词对应的二元组(i，i)加入到结果集r中；如果c
i
属于前缀集合p
x，y
，表明可能存在以当前字符c
i
为首的由多个字符构成的关键词，所以令p
x，y
＝p
x 1z
，其中p
x 1，z
表示以当前字符c
i
为局部前缀的前缀集合，继续通过一个循环来读取集合c中当前字符c
i
之后的字符用c
k
表示，得到所有以字符c
i
为首的由多个字符构成的关键词二元组(i，k)并放入信息集r中。当最外层循环结束之后，所有的关键词二元组信息都会存储在信息集r中，最后返回r。
[0058]
在另一个实施例中，所述新的信息集中的元素采用三元组(b，e，k)表示，其中b表示领域关键词在原始文本中的开始索引，e表示领域关键词在原始文本中的结束索引，k表示实体的类别信息。
[0059]
就该实施例而言，信息集r＝{r0，r1，...，r
n
}，r
i
＝(b，e)表示文本中第i个关键词起始位置索引为b，结束位置索引为e。位置索引组成的区间可能会出现包含和相交的情况，例如，现有两个区间(b1，e1)和(b2，e2)，如果e1＞b2并且e1＜e2表明如果b1≤b2并且e2＜e1，或b1＜b2并且e2≤e1，或b1＜b2并且e2＜e1，表明对于前者需要将二者取并集对于后者只需要保留大区间(b1，e1)即可。
[0060]
算法3是区间合并算法。
[0061]
输入：信息集r
[0062]
输出：区间合并之后的信息集r
′
[0063]
将(b，e)0加入到结果集r
′
中
[0064][0065][0066]
算法3的流程图如图5所示。算法3的初始输入为算法2得到的信息集r，输出为进行区间合并之后的信息集r
′
。
[0067]
利用算法2得到的信息集r，其中的所有元素是按照升序排列的，即对于所有元素按照b的值升序排列，如果b的值相同则按照e的值升序排列，因为有这样天然的属性，所以在区间合并过程中不需要额外进行排序。排序的目的是减少判断分支，比如有两个区间(b1，e1)和(b2，e2)，可能b1＜b2并且e2＜e1，表明也可能b2＜b1并且e1＜e2，表明通过排序减少可能的情况，这是区间合并的一个优化。首先用信息集r中的第一个元素(b，e)0初始化信息集r
′
，利用循环遍历r中的所有元素，设置一个标志值f＝0，用信息集r
′
中的最后一个元素初始化变量r
′
同时从信息集r
′
中移除最后一个元素。然后进行相交判断，如果r
′
(e)＞r(b)并且r
′
(e)＜r(e)，表明两区间相交，令变量同时将标志值f置为1。
[0068]
如果两区间不相交，则判断两区间是否是包含关系。如果r(b)≥r
′
(b)并且r
′
(e)
≥r(e)，表明将标志值f置为1。以上两种情况不管成立与否都需要将r
′
加入到信息集r
′
中。最后再判断标志值是否为0，如果为0，表明两区间既不相交也不包含，此时就把新元素r加入到信息集r
′
中。循环结束，就会得到新的信息集r
′
，最后将其返回即可。
[0069]
本模块的核心是区间合并算法，在算法2中得到的信息集中的元素为二元组(b，e)，经过区间合并之后解决了区间相交和包含的问题。本方法的目的是要得到标注文本，也就是对原始文本中找到的实体进行分类并且打标签。所以仅仅有实体的在原始文本中的位置信息还不够，在这里引入变量k表示实体的类别信息，同时扩展二元组(b，e)为三元组(b，e，k)，最后将全部实体对应的三元组信息写入分析文本中，为后续格式转换做准备。
[0070]
在另一个实施例中，调用自然语言处理工具将文化领域内涉及到的通用实体识别出来，同时将这些实体在原始文本中的位置起止信息以及实体类别信息记录下来用三元组(b，e，k)来表示，其中b表示该实体在原始文本中开始位置的索引，e表示该实体在原始文本中结束位置的索引，在识别过程中同时会获得领域关键词的类别信息k，表示该实体所属的类别。最后将三元组写入到分析文本中。
[0071]
就该实施例而言，目前比较成熟的自然语言处理工具有很多，可以直接用来对原始文本进行分句、分词、词性标注以及通用领域命名实体识别等操作。这些自然语言处理工具能够识别的通用领域的命名实体类别有人名、地名、组织名、机构名、时间、方位、作品、处所等。对于文化领域内涉及到的通用实体，可以直接用现有的工具来进行实体识别。本方法通过调用现有的自然语言处理工具对文化领域内涉及到的通用专有名词进行识别。
[0072]
为了方便对自动标注方法的研究，本方法确定了陕西省饮食文化领域的七个实体类别，在所获得的陕西省饮食文化生语料中按照这七个实体类别进行自动标注。实体类别包括：美食名称，美食类别，原料，相关人物，发源地点，流传地域，起源朝代。美食名称，比如有蜜汁南瓜、玫瑰镜糕、横山羊肉等；美食类别，比如有特色菜，创新菜，仿古菜等；原料，比如有油、盐、酱、醋、糖等；相关人物，比如与水晶饼的制作与发展相关的人物有寇准，张彩凤，乃姜体等；发源地点，比如有烙面的发源地礼泉，御面的发源地彬县，小奶糕的发源地钟楼等；流传地域，比如有陕南，关中，陕北等；起源朝代，比如水晶饼起源于宋代、水盆羊肉起源于商周时代、麻什起源于元代等。
[0073]
比如文化领域中涉及到的通用实体“人物”、“发源地点”以及“起源朝代”这三种特殊类别，“人物”可以转换为“人名”类别，“发源地点”可以转换为“地点”类别，“起源朝代”可以转换为“时间”类别，这三种类别属于通用的实体类别。对于前两类实体，直接调用工具来识别。在调用工具进行测试时，对于“起源朝代”这个类别，如果只把它当做“时间”类来识别，那么就会扩大识别范围，比如“今天”、“明天”、“2015年”、“本月”以及“本季度”等的词都会被识别为“时间”类别，但是它们并不是朝代。在测试过程中发现的另一个问题是“朝代”关键词被识别出来的同时，有时候会将其前后的无关字也一起识别为“朝代”关键词，所以对于朝代我们仍需维持一个关键词字典以及该字典所对应的前缀集合，只有属于关键词字典或者能够在前缀集合中匹配成功的“时间”类关键词才能被标记为“起源朝代”类别。
[0074]
在另一个实施例中，所述格式转换算法使用的是bioes标签体系。
[0075]
就该实施例而言，本模块的核心是格式转换算法，该算法的作用是利用分析文本
将原始文本转化为标注文本。本方法中使用的是bioes标签体系，以下是bioes各个标签的含义：
[0076]
·
b，即begin，表示开始
[0077]
·
i，即intermediate，表示中间
[0078]
·
e，即end，表示结尾
[0079]
·
s，即single，表示单个字符
[0080]
·
0，即other，表示其他，用于标记无关字符
[0081]
集合t＝{b，i，e，s，o}表示标签集，集合m＝{m0，m1，...，m
n
}，其中m
i
＝(b，e，k)表示该文本中第i个关键词起始位置b，结束位置e，类别k，代表文本分析集；集合c＝{c0，c1，...，c
n
}表示原始文本，其中c
i
表示文本中的字符；集合q＝{q0，q1，...，q
n
}表示转换结果集，其中q
i
＝(c，k，t)表示该文本中的第i个字符c对应的转换信息，该字符所属类别为k，对应标签为t。
[0082]
算法4是格式转换算法。
[0083]
输入：标签集t，文本分析集m，原始文本集c
[0084]
输出：转换结果q
[0085]
[0086][0087]
算法4的流程图如图6所示。算法4的初始输入为标签集t，文本分析集m，原始文本字符集c，输出为格式转换结果q。
[0088]
首先将字符集c中的每个字符c
i
构造成三元组q
i
＝(c
i
，k，o)，用来初始化w。初始的k表示空类型，o表示在初始状态下所有的字符c
i
都是无关字符。从文本分析集m中循环读取关键词三元组信息m
i
＝(b，e，k)。如果b和e相等，表明m
i
代表的关键词是由单个字符组成，更新如果b和e不相等，表明m
i
代表的关键词是由多个字符组成，该关键词首字符对应的尾字符对应的除首尾之外的字符对应的q
j
＝(c
j
，m
i
(k)，i)，其中m
i
(b)＜j＜m
i
(e)。
[0089]
在另一个实施例中，一种文化资源实体识别训练数据的自动标注系统，其包括前缀集合构建模块、关键词匹配模块、区间合并模块、工具调用模块和格式转换模块，其中，
[0090]
前缀集合构建模块通过读入的关键词字典，采用前缀集合构建算法将关键词字典转换为前缀集合；
[0091]
关键词匹配模块接收所述前缀集合以及原始文本，通过关键词匹配算法将原始文本中的领域关键词识别出来并将其在原始文本中的位置区间记录到信息集中；
[0092]
区间合并模块接收所述信息集，通过区间合并算法解决关键词区间包含和相交的问题，最终生成新的信息集，并将所述新的信息集中的元素保存到分析文本中；
[0093]
工具调用模块用于识别文化领域内通用专有名词，并将其添加到所述新的信息集中，并将所述新的信息集中的元素保存到分析文本中；
[0094]
格式转换模块将所述分析文本和原始文本通过格式转换算法转换为成熟的标注文本。
[0095]
尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种纹路识别基板、其驱动方法及装置与流程

一种文化资源实体识别训练数据的自动标注系统及方法与流程

相关文献

最热文献