一种电话场景下热词在线定制更新的自动语音记录方法与流程

2022-04-07 04:02:25 来源：中国专利 TAG：

1.本发明属于信号处理技术领域，具体涉及一种电话场景下热词在线定制更新的自动语音记录方法。

背景技术：

2.电话客服、电话咨询等通讯行业，其大部分通过语音通话进行交流。特别地，对于如电话客服等行业，在通话时需要进行通话录音进行备份，以便在未来需要时可以进行翻阅。这种录音备份方式虽然简单易行，但是相比较于采用文本进行记录备份的方式，录音备份占用更多的存储空间；且在进行翻阅时，查阅者无法进行快速的定位。
3.得益于深度学习技术的出现，自动语音识别系统得到了快速的发展，其将语音信号自动转换为文本的精准度和速度得了快速的提升。因此，通过自动语音识别系统将通话录音转录成文本，可以有效减少存储空间，且利于查阅。
4.然而目前存在的自动语音识别模型是在通用数据集上训练获得，往往缺乏针对不同领域，不同场景的差异化定制，如何依据不同场景定制化语音识别模型，提高语音识别的准确率是一个亟待解决的问题。同时，目前语音识别中的热词定制技术只有对于专门领域内的热词或者名词来进行定制，并且需要手动添加热词进行上传与更新，而人工采集定制各行各业场景的热词表也是不现实的，尤其一些热门词汇和个性化词汇存在时效性与特异性，导致即使领域和场景一致，但是热词表发生了更新，旧的热词表无法适应当下，从而在一些特定场景下的语音识别不准确。此外，电话音频文件多为8k采样率音频，而主流语音识别模型使用的是16k音频文件，直接使用会导致正确率下降。

技术实现要素：

5.本发明要解决的技术问题是，基于不同行业的电话场景下可定制语音识别系统，使得能够进行差异化语音识别系统定制，提高语音识别的准确率。
6.针对上述问题，本发明提供了一种电话场景下热词在线定制更新的自动语音记录方法，将热词针对不同场景进行实时定制，并通过热词词频算法对语音识别解码阶段的权重进行实时更新，用于解决以上缺陷。
7.一种电话场景下热词在线定制更新的自动语音记录方法，步骤如下：
8.s1：采用公开的通用语音数据集训练基于深度神经网络的自动语音识别模型：
9.所述的自动语音识别模型的训练包括确定自动语音识别模型的基本参数；初始化自动语音识别模型的各层权重和确定优化方法。
10.s2：通过电话场景下采集的8k的电话音频文件对自动语音识别模型进行再训练，生成基于8k电话场景的自动语音识别模型的预训练模型。
11.s3：将预训练模型部署运行。在运行过程中，利用预训练模型对通话语音进行识别，并将获得的文本数据进行存储，用于热词在线定制。
12.s4：定制差异化语言模型自更新模型与热词表，并实时调整解码阶段的权重，组成
自适应语音识别热词系统。
13.优选的，所述的自动语音识别模型采用transformer模型，其以attention的seq2seq模型为基础，由编码器encoder和解码器decoder组成，通过多头注意力attention模块进行训练。
14.transformer模型具体训练流程如下：
15.s1-1：首先对公开的通用语音数据集中的音频数据进行预处理，转化成fbank音频特征，通过embedding词嵌入对数据进行宽度进行扩维，并转化成三维张量。
16.s1-2：transformer编码器中没有针对词汇位置信息的处理，在张量导入encoder层前加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到嵌入三维张量中，用来弥补位置信息的缺失；
[0017][0018]
其中，pe
(pos,2i)
,pe
(pos,2i 1)
分别是位置pos的编码向量的第2i,2i 1个分量，d
model
表示词向量的维度。
[0019]
s1-3：tranformer模型将预处理过后的经过位置编码器处理后的三维张量导入encoder层。attention层是encoder层的主体部分，通过三个可训练的数组参数q、k、v使用attention对张量w进行训练。为了使transformer模型关注不同方面的信息，transformer模型将张量分成h个头向量，形成多个子空间，通过h个线性变换对q，k，v进行投影，最后将不同的attention结果拼接起来。其公式如下：
[0020][0021]
head
t
＝attention(qw
tq
，kw
tk
，vw
tv
)
[0022]
multihead(q，k，v)＝concat(head1，...，head
t
)
[0023]
其中，dk表示模型的维度，head
t
表示对第t个头向量multihead表示多头注意力的输出结果，concat表示对模型进行拼接操作。
[0024]
s1-4：通过feed forword层将attention提取的特征向量进行特征转换，增加的模型的可表达能力。feed forward有两层，第一层的激活函数是relu，第二层是一个线性激活函数，其公式如下：
[0025]
ffn＝max(0，xw1 b1)w2 b2[0026]
其中，x表示上一层的输出，w1，w2，b1，b2为可训练参数。
[0027]
经过encoder层训练之后，将训练完成得到的三维张量作为decoder层的k、v的输入。
[0028]
s1-5：对公开的通用语音数据集中与音频数据对应的文本文件进行embedding词嵌入，对数据进行扩维成三维张量，并加入位置编码后导入decoder层。decoder层将三维张量传入attention层和feed forward层进行训练。decoder层的q来自decoder层的输入，k、v来自encoder层输出；encoder的q、k、v来源均是encoder层的输入。
[0029]
s1-6：经过decoder层之后，将decoder层输出的三维张量传入线性层和softmax层得到文本数据，与通用语音数据集中与音频数据对应的文本文件进行比较训练，计算损失
函数，计算模型每次迭代的前向计算结果与真实值的差距，指导下一步的训练向正确的方向进行，直到模型收敛。
[0030]
s2具体方法如下：
[0031]
电话场景下采集的8k的电话音频文件对上述在采样频率为16k的公开标准数据音频上训练得到的自动语音识别模型(称之为老师模型)进行再训练，微调模型，用老师模型指导学生模型进行训练。学生模型在训练过程中，尽量使其逼近老师模型的后验概率分布；生成基于8k电话场景的自动语音识别模型的预训练模型。
[0032]
s4具体方法如下：
[0033]
s4-1：对文本数据进行分词，去掉停用词，对词频进行提取。
[0034]
s4-2：对于词频进行归一化，依据概率差异，其归一化使用词频如下：
[0035][0036]
wf表示词频，wf
*
为归一化后的词频，μ表示词频均值，σ表示词频标准差。
[0037]
s4-3：提取出不同场景下的通用热词表与差异热词表，并根据词频的中位数数值确定相对应的激活阈值与差异阈值，若某热词在当前场景下使用频率超过激活阈值且小于不同场景下的差异阈值时，将其作为差异热词。若该词被作为差异热词，表示只在特定的一个或者几个场景出现。只在超过差异阈值的场景下对模型的解码阶段进行权重调整；若某热词在当前场景下使用频率超过激活阈值且超过不同场景下的差异阈值时，将其作为通用热词。若该词被作为通用热词，表示该词其在较多的场景出现。在所有场景下模型的解码阶段提高权重。判定公式如下：
[0038][0039]
word为进行判别的词，hotword
common
为通用热词，hotword
particulary
为差异化热词。wf表示词频，acth表示激活阈值，diffth表示差异阈值。
[0040]
s4-4：系统对音频的解码生成文本数据时，依照热词权重表对解码结果进行参数调整与优化。当transformer模型的解码器输出文字的拼音与热词表中热词相同时，进行热词判别模式，新增一条含有热词的路径，在该路径解码分数中加入偏移分数，重新进行打分，其公式如下：
[0041]
δk＝log(1 wf)
[0042][0043]
其中，score(y1，...，ys)为beam search解码下第一个字y1到最后一个字ys的路径上的最终分数，p
lm
(yk|y1，...，y
k-1
，x)表示第k个字出现在输出中的概率，δk表示参数的偏移分数。
[0044]
将得到新路径与其他路径进行比较，依据得分高低，得到一条分数最高的路径作为最优路径，保存文本结果。将实时保存的文本数据作为新的语料进行补充，在线更新激活阈值与差异化阈值。
[0045]
s4-5：设计自适应语音识别热词系统的更新频率，通过用户调整更新权重的间隔
时间或者设置在空闲时自动更新。
[0046]
s4-6：本发明还提供一种可互动的热词更新方式，同时可以将自己的常用热词依照“热词-词性-权重等级”的格式生成json文件上传至系统中，依据权重等级调整偏移分数，进行热词的用户自定义，以满足自己的需求。上述自定义热词具有初始权重，并可在系统使用过程中动态调整权重、激活阈值与差异阈值，使其能够在语音识别中提升效率，同时更好的对用户语音进行识别。
[0047]
本发明有益效果如下：
[0048]
1、针对目前存在的技术只有对于专门领域内的热词或者名词来进行定制的问题，本发明提出了基于不同场景的电话客服可在线定制热词的语音识别系统，生成不同场景下的热词表，提高了语音转写成文本效率的准确性；
[0049]
2、针对一些热门词汇和个性化词汇存在时效性与特异性，目前的方法无法实时更新热词权重的问题，本发明提出了热词权重实时更新算法，在线统计热词词频，依据词频在声学模型的解码阶段实时更新模型参数；
[0050]
3、针对电话通讯等数据与主流语音识别模型采样率不匹配的问题，本发明采用迁移学习的方式对8k电话音频进行再学习，提高了电话场景下音频语音识别的准确率；
附图说明
[0051]
图1是本发明的总体流程示意图；
[0052]
图2是本发明的语音识别模型流程示意图。
具体实施方式
[0053]
下面通过结合附图，对本发明的技术方案作进一步的具体描述。以下结合附图，详细说明本发明中各实施例提供的技术方法。
[0054]
参照图1，示出了本发明的步骤流程图，具体包括如下步骤：
[0055]
s1：针对语音数据集，将其作为语料打包整理成文本样本，导入语音识别模型中。本专利的语音数据集使用录音时长178小时aishell1的数据集进行训练。
[0056]
对所述语音数据集进行如下预处理；
[0057]
s1.1：获取公开的通用语音数据集中的音频数据的地址，生成“文件名地址”的索引文件；
[0058]
s1.2：获取语音数据集中语音文件所对应的文本文件，生成“文件名语音文本”的索引文件；
[0059]
s1.3：获取语音数据中语音文件所对应的文本文件中的汉字索引表，并在开头引入“beg”，“end”，“ukw”索引，分别指语音数据的开头、结尾与未知词。
[0060]
s2：采用transformer模型作为自动语音识别模型，transformer模型以attention的seq2seq模型为基础，由编码器encoder和解码器decoder组成，通过多头attention模块进行训练初始化参数权重，确定模型有6层encoder和6层decoder组成，设置迭代次数为60轮，模型中使用adam优化器。
[0061]
transformer广泛应用在语音识别模型中，相比于cnn、rnn模型能直接计算每个词之间的相关性，具有训练速度快，识别精准等优点。transformer模型主要由attention层以
及feed forward层组成，图2展示了transformer模型的结构。transformer模型具体训练流程如下：
[0062]
s2.1：将音频文件进行预加重加窗分帧，消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等因素对语音信号质量的影响。提取长度为帧数，宽度为80的fbank特征，通过embedding层对fbank特征进行词嵌入处理，保持fbank特征长度不变，将其拓展成一个宽度为280的矩阵，转化成三维张量。
[0063]
s2.2：将特征向量进行位置编码，即在音频文件导入encoder层前加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到嵌入三维张量中，用来弥补位置信息的缺失。其公式如下：
[0064][0065]
其中，pe
(pos，2i)
，pe
(pos，2i 1)
分别是位置pos的编码向量的第2i，2i 1个分量，d
model
表示词向量的维度。
[0066]
s2.3：系统将预处理过后的张量导入encoder层。attention层是encoder层的主体部分，通过三个可训练的数组参数q、k、v使用attention对张量w进行训练。为了让模型去关注不同方面的信息，该模型将张量分成8个头向量，通过8个线性变换对q，k，v进行投影，最后将不同的attention结果拼接起来模型实际训练中。其公式如下：
[0067][0068]
head
t
＝attention(qw
tq
，kw
tk
，vw
tv
)
[0069]
multihead(q，k，v)＝concat(head1，...，head
t
)
[0070]
其中，dk表示模型的维度，head
t
表示对第t个头向量，multihead表示多头注意力的输出结果，concat表示对模型进行拼接操作。
[0071]
经过encoder层训练之后，将结果作为decoder层的k、v的输入。
[0072]
s2.4：feed forword层将attention提取的特征向量特征转换，增加的模型的可表达能力；feed forward层第一层的激活函数是relu，第二层是一个线性激活函数，其公式如下：
[0073]
ffn＝max(0，xw1 b1)w2 b2[0074]
其中，x表示上一层的输出，w1，w2，b1，b2为可训练参数。
[0075]
s2.5：将文本文件经过embedding词嵌入后，对数据进行扩维，并加入位置编码后导入decoder层。decoder层将三维张量传入attention层和feedforward层的进行训练。但是decoder模块的q来自decoder的输入，k、v来自encoder层输出；encoder的q、k、v来源均是encoder层的输入。
[0076]
s2.6：经过decoder层之后，将输出的结果与数据集的文本进行比较训练。训练自动语音识别模型直到模型收敛；验证离线字错误率、实时率等指标。
[0077]
s3：由于电话录音上存在大量噪声，对电话音频文件进行降噪；将电话场景下的8k音频转化为频谱图，通过迁移学习将频谱图进行训练，在采样频率为16k的公开标准数据音频上训练得到的自动语音识别模型(称之为老师模型)进行再训练获得学生模型，微调模
型，用老师模型指导学生模型进行训练。学生模型在训练过程中，尽量使其逼近老师模型的后验概率分布，生成基于8k电话场景的自动语音识别模型的预训练模型。生成的预训练模型可以有效的识别通用场景下的电话客服对话，但对于不同对话场景的语音识别准确率较差，且无法实现自适应功能；
[0078]
s4：将预训练模型部署至服务器上运行，针对不同场景的电话客服与用户的交流对话缓存至服务器上利用好模型进行语音识别。同时确定电话客户客服不同对话场景：如针对电信通信服务行业的对话场景，针对电商服务行业的对话场景，针对教育行业的与家长之间的对话场景；并将获得的文本数据进行存储，用于热词在线定制。
[0079]
s5：依照不同场景的的特征生成相应的热词表，导入到预训练模型中进行语言模型训练，针对不同场景定制差异化语言模型自更新模型与热词表，并调整权重；
[0080]
针对s4所述语言模型的差异化定制，本发明实施例还公开了一种基于可交互热词的权重修改方法，具体包括如下步骤：
[0081]
s5.1：将对话语音数据导入预训练模型，转化为文本数据并进行缓存，同时对不同场景下的数据进行分类；
[0082]
s5.2：对文本进行预处理,并对字频进行处理。由于初始的文本数据不符合提取热词的规范，需要对其进行预处理:
[0083]
将“beg”，“end”，“ukw”的标识删去，如文档为“eng客户你好，您所购买的套餐已经成功办理end”，去除除标志位后为“客户好，您所购买的套餐已经成功办理”；
[0084]
对文本数据进行使用分词插件进行分词，如所述例句分词后为
“”
客户/好/您/所/购买/的/套餐/已经/成功/办理
″
；
[0085]
去掉停用词，即在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。引入停用词表常用表来对分词后的停用词进行删除。所述例句去除停用词后为“客户/购买/套餐/已经/成功/办理”。
[0086]
s5.3：对文本数据进行预处理后，对词频进行提取，将离散符号表示的文本转换成数字表示，以提供给后续模型的使用；
[0087]
s5.4：对于词频进行归一化；
[0088][0089]
wf
*
表示归一化后词频，wf表示词频，μ表示词频均值，σ表示标准差。
[0090]
依据概率差异，提取出不同场景下的通用热词表与差异化热词表，热词表格式如下表1所示，其中假设热词为客户、套餐、成功三种。：
[0091][0092]
s5.5：根据词频的较大分位数数值确定相对应的激活阈值与差异阈值，激活阈值指某个热词在所有场景中的出现频率达到了一个阈值；差异阈值指某个热词在某个场景中的出现频率达到了一个阈值。
[0093]
若某热词在当前场景下使用频率超过激活阈值且小于不同场景下的差异阈值时，或大于所有场景的差异阈值时，将其作为通用热词。
[0094]
若某热词在当前场景下使用频率超过激活阈值且超过某个场景下的差异阈值时，将其作为差异化热词。
[0095]
若某热词在当前场景下使用频率没有超过激活阈值且超过不同场景下的差异阈值时，在热词表中删除。
[0096]
例如表1中，若通用阈值为0.04，场景1的差异化阈值为0.05，场景1的差异化阈值为0.04，场景1的差异化阈值为0.03，则“客户”这个单词为场景2和场景3的差异化热词，“套餐”为场景1的差异化热词，“成功”为通用热词。
[0097]
s5.6-1：当其为通用热词时，在所有场景下的语音识别模型的解码阶段提高权重，
[0098]
s5.6-2：当其为差异化热词时，则只在超过差异阈值的场景下在语音识别模型的解码阶段进行权重调整。
[0099]
优选的，用户可以将自己的常用热词依照一定的格式上传至服务端，进行热词的用户自定义，以满足自己的需求，上述自定义热词将一开始具有初始权重，在用户的使用过程中动态调整，使其能够在语音识别中增加效率，同时更好的对用户语音进行识别。
[0100]
s6：进行线上预测时，预加载模型，针对不同场景，设定各个模型的差异化权重更新模型，再依照所预测的语音数据进行缓存,将得到新路径与其他路径进行比较，据得分高低，得到一条分数最高的路径作为最优路径，保存文本结果。将实时保存的文本数据作为新的语料进行补充，在线更新激活阈值与差异化阈值。重复上述步骤进行更新模型参数。
[0101]
以上对发明的具体实施例进行了描述。需要理解的是，本发明所述技术领域的技术人员可以对所描述的具体实施例多各种各样的修改或采用补充或采用类似方法替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多媒体文本识别的评测方法、装置、设备及可读存储介质与流程

一种电话场景下热词在线定制更新的自动语音记录方法与流程

相关文献

最热文献