一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

动作标签标注方法及装置与流程

2022-05-21 14:25:22 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,具体而言,涉及一种动作标签标注方法及装置。


背景技术:

2.数字人(又称虚拟人)为现有技术一种智能展示方式,其主要具有语音识别、语音播放、动作展示等功能。目前其主要的功能之一是将文本结合语音和特定的动作声情并茂的展示出来。为文本设置合理的动作标签,能够使数字人的表达更加自然生动,能够提升数字人的亲和力,增强用户体验。目前对数字人的文本进行标注通常采用后台技术人员手动在文本中打上动作标签,使数字人在特定的地方表现出特定的动作。
3.目前这种手动打动作标签的方式存在费时费力、人工成本太高的问题,针对该问题现有技术缺少一种解决方案。


技术实现要素:

4.本发明为了解决上述背景技术中的至少一个技术问题,提出了一种动作标签标注方法及装置。
5.为了实现上述目的,根据本发明的一个方面,提供了一种动作标签标注方法,该方法包括:
6.获取待标注文本数据;
7.将所述待标注文本数据输入到预设的动作标签标注模型中,得到所述动作标签标注模型输出的所述待标注文本数据对应的动作标签标注结果,其中,所述动作标签标注模型为根据预设的训练样本对预设的机器学习模型进行训练得到的,所述训练样本包括标注出动作标签的文本数据,所述动作标签包括:动作起始标签和动作延续标签。
8.可选的,该动作标签标注方法,还包括:
9.获取所述训练样本;
10.根据所述训练样本对所述机器学习模型进行训练,得到所述动作标签标注模型。
11.可选的,所述机器学习模型包含:词向量转化层和标签标注层;
12.所述词向量转化层,用于将文本数据转化为词向量;
13.所述标签标注层,用于基于所述词向量进行动作标签标注,得到动作标签标注结果。
14.可选的,所述机器学习模型还包含:词向量融合层;
15.所述词向量融合层,用于对所述词向量进行特征融合,得到特征融合后的词向量;
16.所述标签标注层,具体用于基于所述特征融合后的词向量进行动作标签标注,得到动作标签标注结果。
17.可选的,所述机器学习模型还包含:标注结果优化层;
18.所述标注结果优化层,用于对所述标签标注层输出的动作标签标注结果进行优
化,得到优化后的动作标签标注结果。
19.可选的,所述词向量转化层采用bert网络或者word2vec神经网络。
20.可选的,所述标签标注层采用门控循环单元网络或者长短期记忆网络。
21.可选的,所述标注结果优化层采用条件随机场网络或者马尔科夫模型。
22.为了实现上述目的,根据本发明的另一方面,提供了一种动作标签标注装置,该装置包括:
23.待标注文本数据获取单元,用于获取待标注文本数据;
24.动作标签标注单元,用于将所述待标注文本数据输入到预设的动作标签标注模型中,得到所述动作标签标注模型输出的所述待标注文本数据对应的动作标签标注结果,其中,所述动作标签标注模型为根据预设的训练样本对预设的机器学习模型进行训练得到的,所述训练样本包括标注出动作标签的文本数据,所述动作标签包括:动作起始标签和动作延续标签。
25.为了实现上述目的,根据本发明的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述动作标签标注方法的步骤。
26.为了实现上述目的,根据本发明的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述动作标签标注方法的步骤。
27.为了实现上述目的,根据本发明的另一方面,还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述动作标签标注方法的步骤。
28.本发明的有益效果为:
29.本发明实施例通过训练出动作标签标注模型,进而根据动作标签标注模型自动对待标注文本数据进行标注,有效的提升了对数字人的文本进行标注的效率和准确性。
附图说明
30.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
31.图1是本发明实施例动作标签标注方法的第一流程图;
32.图2是本发明实施例动作标签标注方法的第二流程图;
33.图3是本发明实施例动作标签标注模型结构示意图;
34.图4是本发明实施例transformer编码器结构示意图;
35.图5是gru结构示意图;
36.图6是本发明实施例标注数据示意图;
37.图7是本发明实施例模型评估结果示意图;
38.图8是本发明实施例动作标签标注装置的第一结构框图;
39.图9是本发明实施例动作标签标注装置的第二结构框图;
40.图10是本发明实施例计算机设备示意图。
具体实施方式
41.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
42.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
43.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
44.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
45.需要说明的是,本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
46.需要说明的是,本发明的动作标签标注方法及装置可以应用于金融领域,也可以应用于其他技术领域。
47.图1是本发明实施例动作标签标注方法的第一流程图,如图1所示,在本发明一个实施例中,本发明的动作标签标注方法包括步骤s101和步骤s102。
48.步骤s101,获取待标注文本数据。
49.在本发明一个实施例中,所述待标注文本数据具体为文本序列,所述文本序列具体为文本字序列。
50.步骤s102,将所述待标注文本数据输入到预设的动作标签标注模型中,得到所述动作标签标注模型输出的所述待标注文本数据对应的动作标签标注结果,其中,所述动作标签标注模型为根据预设的训练样本对预设的机器学习模型进行训练得到的,所述训练样本包括标注出动作标签的文本数据,所述动作标签包括:动作起始标签和动作延续标签。
51.在本发明一个实施例中,本发明的动作标签包括多种预设动作的动作标签,每种预设动作的动作标签包括对应的动作起始标签和动作延续标签。
52.在本发明一个实施例中,所述多种预设动作可以包括:

bow’(鞠躬)、

ok’(ok手势)、

hello’(挥手)、

up’(向上指)以及

introl’(讲解)。
53.在本发明一个实施例中,动作起始标签可以用b标记和动作延续标签可以用i标记。在本发明一个实施例中,所述动作标签标注模型具体用于以bio的格式来打动作标签,其中b标记动作起始标签,i标记动作延续标签,o标记无动作标签,动作标签标注结果具体
可以见图6所示的实施例。
54.本发明通过训练出动作标签标注模型,进而根据动作标签标注模型自动对待标注文本数据进行标注,有效的提升了对数字人的文本进行标注的效率和准确性。
55.图2是本发明实施例动作标签标注方法的第二流程图,如图2所示,在本发明一个实施例中,上述步骤s102的动作标签标注模型的具体训练流程包括步骤s201和步骤s202。
56.步骤s201,获取所述训练样本;
57.步骤s202,根据所述训练样本对所述机器学习模型进行训练,得到所述动作标签标注模型。
58.在本发明一个实施例中,所述机器学习模型包含:词向量转化层和标签标注层。
59.所述词向量转化层,用于将文本数据转化为词向量;
60.所述标签标注层,用于基于所述词向量进行动作标签标注,得到动作标签标注结果。
61.本发明先将文本数据转化为词向量,进而在词向量上进行动作标签标注,由于本发明数字人的动作都是基于词的,例如在“谢谢你”这个词上作出特定动作,因此在词向量上进行动作标签标注有效的提高了动作标签标注的准确性。
62.在本发明一个实施例中,所述词向量转化层采用bert网络或者word2vec神经网络。
63.在本发明一个实施例中,所述标签标注层采用门控循环单元(gru)网络或者长短期记忆(lstm)网络。
64.在本发明一个实施例中,所述机器学习模型还包含:词向量融合层。
65.所述词向量融合层,用于对所述词向量进行特征融合,得到特征融合后的词向量;
66.所述标签标注层,具体用于基于所述特征融合后的词向量进行动作标签标注,得到动作标签标注结果。
67.在本发明一个实施例中,若相邻两个词向量的特征接近,则进行特征融合,由此减少了词向量的数量,有效的提高了模型训练以及标注的效率。
68.在本发明一个实施例中,所述机器学习模型还包含:标注结果优化层;
69.所述标注结果优化层,用于对所述标签标注层输出的动作标签标注结果进行优化,得到优化后的动作标签标注结果。
70.在本发明一个实施例中,对动作标签标注结果进行优化具体包括:核验每个标注动作标签的词向量的动作标签中是否只有动作起始标签或者只有动作延续标签,若是,则删除该词向量的动作标签。
71.在本发明一个实施例中,所述标注结果优化层采用条件随机场(crf)网络或者马尔科夫模型。
72.如图3所示,在本发明一个实施例中,所述词向量转化层采用bert网络,所述词向量融合层采用卷积神经网络(cnn),所述标签标注层采用门控循环单元(gru)网络,所述标注结果优化层采用条件随机场(crf)网络。本发明使用bert cnn gru crf方法,首先使用bert生成词向量;继而采用卷积神经网络融合词向量;然后利用gru进行标注,最终利用crf模块对gru模块的输出结果进行优化,得到标注序列,从而完成数字人文本标注的整个流程。
73.对于bert而言,其关键部分是transformer结构的编码器部分,是一个基于“自我注意力机制”的深度网络,结构图如图4所示。
74.transformer主要是通过同一个句子中的词与词之间的关联程度调整权重系数矩阵获取词的表征:
[0075][0076]
其中q、k、v是字向量矩阵,分别代表查询矩阵、键矩阵和值矩阵,用以计算各个字之间的关联程度。
[0077]
多头(multihead)注意力,则是通过多个不同线性变换对qkv进行映射,得到多个attention,最后将多个attention拼接到一起并和权重矩阵w相乘得到的mulitiheadattention。
[0078]
mulitiheadattention=concat(attention1,...,attentionn)
×w[0079]
transformer结构中的全连接前馈网络中,包含了两次dense:第一层的激活函数是relu,第二层是一个线性激活函数。
[0080]
卷积神经网络(convolutional neural network,cnn)是一种前馈型的神经网络,与全连接神经网络不同的是,卷积神经网络相邻的两层中只有部分节点相连,各层神经元之间进行局部连接以实现对输入的分层特征提取与转换。卷积又分为一维卷积、二维卷积。其中二维卷积在图像分类领域展现出其卓越的性能,而一维卷积更适用于文本,本发明采用一维卷积提取相邻词向量之间的融合特征。
[0081]
首先,对相邻的n个向量采用concat操作,将邻近的字向量拼接为一个特征,记为l。
[0082]
l=concat[l1,...,ln]
[0083]
接着,采用一维卷积网络,对拼接后的特征进行提取,提取后的特征记为f,根据一维卷积操作有:
[0084]
f=f(∑
i∈mhi
*wi b)
[0085]
其中h为字序列,w为卷积平移算子的权重矩阵,b为偏执,f(
·
)为激活函数。
[0086]
在一维卷积神经网络中,每一个卷积平移算子代表一个用于提取词向量特征的系统,卷积平移算子的权重参数在训练过程中,通过误差反向传播方式不断调整,最终学习到最好的词向量相关特征。
[0087]
门循环神经网络gru能够很好捕捉序列间的非线性关系,因此常用于对文本序列数据的建模。然而,由于步长的增加,传统rnn结构存在梯度消失现象,这使网络无法有效地对时序数据进行学习。为了克服该问题,出现了一系列rnn的变体,主要有长短时记忆模型(lstm,long short-term memory)和门控循环单元模型(gru,gated recurrent unit)。
[0088]
gru是lstm的一个变体,其结构如图5所示。gru只采用两个门:更新门和重置门,更新门用于控制前一时刻的状态信息被代入到当前状态的程度,更新门的值越大说明前一时刻的状态信息带入越多;重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。
[0089]
图5中,h
t-1
为上一个节点的状态信息,x
t
为当前节点的输入。通过这两个信息,来获取gru结构中的两个门控状态,分别为重置控制门r和控制更新的门控z。
[0090]
r=sigmoid(wr*[x
t
,h
t-1
l)
[0091]
z=sigmoid(wz*[x
t
,h
t-1
])
[0092]
得到门控信号之后,首先使用重置门控与h
t-1
相乘来得到重置后的数据h,再将重置后的数据与输入x
t
进行拼接,在通过一个tanh激活函数,得到图5中的h


[0093]
h'=tanh(w*[x
t
,h])
[0094]
最后进入更新记忆阶段,利用上式中得到的信号,得到更新后的状态信息,更新表达式:
[0095]ht
=z
⊙ht-1
(1-z)

h'
[0096]
gru简化了lstm的门控结构,同时保留了与lstm相关的预测效果,因此采用了gru结构的循环神经网络处理卷积模块生成的词向量特征,进行动作标签的标注。
[0097]
本发明利用条件随机场(crf)网络,处理gru模块输出的结果,得到最终的输出序列。对于任一个序列x(x1,x2,...,xn),经过gru模块输出矩阵o,其中o
ij
代表第i个词为第j个标签的置信度。对预测序列y而言,它的分数函数可写作下式,其中a表示转移分数矩阵。
[0098][0099]
得到最大分数输出序列:
[0100]ybest
=argmax(s(x,oi))
[0101]
oi∈o
[0102]
在本发明一个实施例中,训练过程中,采用adam优化器,学习率选取0.001;一维卷积核大小采用(5,1),卷积步长为1,并采用zeropadding的方式进行填充,保证卷积前后的特征向量维度不变;同时还设置gru的dim为100,batch_size为128。
[0103]
训练模型后,将没有添加到训练集的真实话术文本作为验证数据,对模型的性能进行测试。
[0104]
针对数字人语义分类问题的特殊性,对评价指标也相应的进行了如下改进。其中

label_pre’为该句子对应标签类别是否正确(不考虑位置信息)。考虑到数字人只会在遇到第一个起始字符标签“b”的位置时做动作,不受后续标签的影响,因此只需考虑标签分类的正确性和标签的第一个位置是否正确,因此提出新的评价指标

l&f_pre’,用以评价首个标签出现位置及label是否正确。评价结果表明,该发明提出的方案能够帮助数字人较为准确的打上动作标签。结果如图7所示。
[0105]
由以上实施例可见,本发明针对数字人的实际情况,利用上述算法,学习文本中的语义信息,从而为数字人文本生成合理的动作标签,使数字人的表达更加自然生动,能够提升数字人的亲和力,增强用户体验。
[0106]
本发明至少实现了以下有益效果:
[0107]
1、本发明将语言预训练模型bert应用到数字人的文本实体识别中,不仅能够减少下游任务的工作量而且能够得到更好的结果;
[0108]
2、本发明创新的将bert、cnn、gru和crf模块融合到一起,形成了一种新型的实体识别模型,使用cnn gru模块,不但能够处理长距离的文本信息,而且能够在处理相邻标签之间依赖关系时得到更好的效果;
[0109]
3、本发明将模型输出结果与数字人系统有机结合,数字人在播报话术文本时,会根据打好的标签做出相应的动作,经过实验验证,能够在相似的语境正确的打上标签,丰富了数字人形象,提高了数字人的亲和力。
[0110]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0111]
基于同一发明构思,本发明实施例还提供了一种动作标签标注装置,可以用于实现上述实施例所描述的动作标签标注方法,如下面的实施例所述。由于动作标签标注装置解决问题的原理与动作标签标注方法相似,因此动作标签标注装置的实施例可以参见动作标签标注方法的实施例,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0112]
图8是本发明实施例动作标签标注装置的第一结构框图,如图8所示,在本发明一个实施例中,本发明的动作标签标注装置包括:
[0113]
待标注文本数据获取单元1,用于获取待标注文本数据;
[0114]
动作标签标注单元2,用于将所述待标注文本数据输入到预设的动作标签标注模型中,得到所述动作标签标注模型输出的所述待标注文本数据对应的动作标签标注结果,其中,所述动作标签标注模型为根据预设的训练样本对预设的机器学习模型进行训练得到的,所述训练样本包括标注出动作标签的文本数据,所述动作标签包括:动作起始标签和动作延续标签。
[0115]
图9是本发明实施例动作标签标注装置的第二结构框图,如图9所示,在本发明一个实施例中,本发明的动作标签标注装置还包括:
[0116]
训练样本获取单元3,用于获取所述训练样本;
[0117]
模型训练单元4,用于根据所述训练样本对所述机器学习模型进行训练,得到所述动作标签标注模型。
[0118]
为了实现上述目的,根据本技术的另一方面,还提供了一种计算机设备。如图10所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。
[0119]
处理器可以为中央处理器(central processing unit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
[0120]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
[0121]
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至
少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0122]
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
[0123]
上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
[0124]
为了实现上述目的,根据本技术的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述动作标签标注方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
[0125]
为了实现上述目的,根据本技术的另一方面,还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述动作标签标注方法的步骤。
[0126]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0127]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献