语音识别系统、方法、装置及设备

2022-11-30 08:19:46 来源：中国专利 TAG：

1.本技术涉及语音处理技术领域，具体涉及语音识别系统、方法和装置，语音识别模型处理方法和装置，会议记录生成系统，语音交互系统，以及电子设备。

背景技术：

2.语音识别是将语音转换为文字的技术。在线语音识别(实时语音识别)可将实时采集的语音快速准确识别为文字。随着端到端技术在语音识别中的应用，实时语音识别得到了更多的关注。
3.实时语音识别存在早终点问题，即预测的句子终点早于用户停止说话的时间。解决该问题的传统方式是，通过语音活性检测(voice activity detection，vad)，探测语音信号中长时间的空白，以此作为说话的终点。但是，长时间的空白并不直接与结束说话相关，这也受到说话人节奏的影响，而且这种传统方法忽略了一些暗示说话结束的语音信号,如语气词等。为了更好的解决早终点问题，目前主要采用模型预测方式进行处理。例如，训练模型可识别早/中/晚的空白，将晚空白作为句子的终点。再例如，在准备训练数据时，可标注句子的真实终点，标注数据需包括句子结尾词对应的时间信息；在训练模型时，以句子的真实终点作为标准，惩罚过早或过晚结束的情况。
4.然而，在实现本发明过程中，发明人发现上述基于预先标注的句子真实终点数据进行模型学习的处理方式，虽然可以较好地解决语音识别中存在的早终点问题，但是需要预先标注句子真实的终点，如采用人工标注方式等，这样就会出现早终点问题的解决受限于句子真实终点标注数据的准确性，如果句子真实终点标注数据的准确率较低，则仍无法较好地解决语音识别中的早终点问题。

技术实现要素：

5.本技术提供语音识别系统，以解决现有技术存在的语音识别中早终点问题的解决效果受限于句子真实终点标注数据的准确性的问题。本技术另外提供语音识别模型处理方法和装置，语音识别方法和装置，会议记录生成系统，语音交互系统，以及电子设备。
6.本技术提供一种语音识别系统，包括：
7.语音采集模块，用于采集语音数据，发送所述语音数据；
8.语音识别模块，用于确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词；调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；根据调整的梯度，从训练样本中学习得到语音识别模型；以及，接收所述语音数据，通过语音识别模型，确定所述语音数据的转写文本。
9.本技术还提供一种语音识别模型处理方法，包括：
10.确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词；
11.调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型
对句子结尾词的产生概率；
12.根据调整的梯度，从训练样本中学习得到语音识别模型。
13.可选的，所述语音识别模型的损失函数包括词的产生概率项；
14.所述语音识别模型的梯度函数包括词的产生概率项与梯度缩放尺度项的乘积；
15.所述调整语音识别模型的训练损失值对句子结尾词的第一梯度，包括：
16.将第一梯度的梯度缩放尺度项设置为大于1的第一参数值。
17.可选的，还包括：
18.调整语音识别模型的训练损失值对句子非结尾词的第二梯度，以提升语音识别模型对句子非结尾词的产生概率；
19.所述调整语音识别模型的训练损失值对句子非结尾词的第二梯度，包括：
20.将第二梯度的梯度缩放尺度项设置为大于0且小于1的第二参数值。
21.可选的，所述句子非结尾词包括：
22.正确预测的句子非结尾词和错误预测的句子非结尾词。
23.可选的，所述句子结尾词包括：
24.正确预测的句子结尾词和错误预测的句子结尾词。
25.可选的，所述语音转换文本还包括句子结尾词的标注时间；
26.所述训练损失值包括句子结尾词的标注时间与预测时间之间的差值。
27.本技术还提供一种语音识别方法，包括：
28.从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；
29.接收待识别的语音数据；
30.通过语音识别模型，确定所述语音数据的语音转换文本。
31.本技术还提供一种语音识别方法，包括：
32.采集语音数据；
33.向服务端发送语音数据，以使得服务端采用如下方式处理所述语音数据：
34.从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，确定所述语音数据的语音转换文本。
35.本技术还提供一种语音语音识别模型处理装置，包括：
36.训练数据确定单元，用于确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词；
37.梯度缩放单元，用于调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；
38.模型训练单元，用于根据调整的梯度，从训练样本中学习得到语音识别模型。
39.本技术还提供一种电子设备，包括：
40.处理器和存储器；
41.存储器，用于存储实现上述任一项方法的程序，该设备通电并通过所述处理器运
行该方法的程序。
42.本技术还提供一种会议记录生成系统，包括：
43.客户端，用于采集会议语音数据，发送所述语音数据；
44.服务端，用于确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词；调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；根据调整的梯度，从训练样本中学习得到语音识别模型；以及，接收所述语音数据，通过语音识别模型，确定会议记录。
45.本技术还提供一种语音交互系统，包括：
46.智能音箱，用于采集目标用户的语音数据，发送所述语音数据；
47.服务端，用于确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词；调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；根据调整的梯度，从训练样本中学习得到语音识别模型；以及，接收所述语音数据，通过语音识别模型，确定所述语音数据的转写文本；根据所述语音数据的转写文本，执行语音交互处理。
48.本技术还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。
49.本技术还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。
50.与现有技术相比，本技术具有以下优点：
51.本技术实施例提供的语音识别方法，通过从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，确定语音数据的语音转换文本。采用这种处理方式，使得调整语音识别模型训练损失的梯度，这种缩放梯度方式可降低句子结尾词的产生概率，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注句子真实终点，即可较好地解决语音识别中存在的早终点问题；因此，可以有效提升语音识别性能。
52.本技术实施例提供的会议记录生成系统，通过客户端采集会议语音数据，将会议语音数据发送至服务端；通过服务端从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，根据会议语音数据，确定会议记录。采用这种处理方式，使得调整语音识别模型训练损失的梯度，这种缩放梯度方式可降低句子结尾词的产生概率，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注句子真实终点，即可较好地解决语音识别中存在的早终点问题；因此，可以有效提升会议记录的准确度。
53.本技术实施例提供的语音交互系统，通过智能音箱采集用户语音数据，将用户语音数据发送至服务端；通过服务端从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值
对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，确定用户语音数据的转换文本；根据用户语音数据的转换文本，执行语音交互处理。采用这种处理方式，使得调整语音识别模型训练损失的梯度，这种缩放梯度方式可降低句子结尾词的产生概率，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注句子真实终点，即可较好地解决语音识别中存在的早终点问题；因此，可以有效提升语音交互的准确度。
附图说明
54.图1本技术提供的语音识别系统的实施例的应用场景示意图；
55.图2本技术提供的语音识别模型处理方法的实施例的流程示意图。
具体实施方式
56.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
57.在本技术中，提供了语音识别系统、方法和装置，语音识别模型处理方法和装置，会议记录生成系统，语音交互系统，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。
58.第一实施例
59.请参考图1，其为本技术的语音识别系统的实施例的应用场景示意图。在本实施例中，语音识别系统包括语音采集模块和语音识别模块。所述语音采集模块可部署在客户端，所述语音识别模块可部署在服务端。
60.所述语音识别模块用于确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词；调整语音识别模型的训练损失值中句子结尾词和句子非结尾词的产生概率梯度，以降低语音识别模型对句子结尾词的产生概率；根据调整的梯度，从训练样本中学习得到语音识别模型；所述语音采集模块用于采集语音数据，发送所述语音数据；相应的，所述语音识别模块还用于通过语音识别模型，确定所述语音数据的转写文本。
61.所述客户端包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括智能音箱、智能拾音器、个人电脑、pad、ipad等终端设备，也可包括局域网服务器。所述服务器，可以是部署在云端服务器上的服务端，也可以是专用于实现语音识别系统的服务器。
62.如图1所示，在本实施例中，所述客户端为会议现场的电脑，可通过麦克风装置采集会议现场的语音数据，将实时语音数据流发送至服务端，进行实时语音识别处理。服务端接收到待识别的语音数据后，可通过实时语音识别模型将语音数据转换为对应的文本。在现有技术中，语音识别结果为“绝大部分三线城市房价，仍然下降...”，在“房价”后出现错误的句子终点，进行了错误的断句处理，语音识别出现早终点问题。在本技术实施例提供的方法中，语音识别结果为“绝大部分三线城市房价仍然下降，...”，在“下降”后出现正确的句子终点，进行了正确断句处理，语音识别未出现早终点问题。
63.由图1可见，所述客户端还可为智能音箱，可采集用户语音数据，将用户语音数据流发送至服务端。在现有技术中，语音识别结果为“打开，兔兔灯...”，在“打开”后出现错误
的句子终点，进行了错误的断句处理，语音识别出现早终点问题，由此会导致智能音箱根据错误的用户指令与用户交互。在本技术实施例提供的方法中，语音识别结果为“打开兔兔灯，...”，在“兔兔灯”后出现正确的句子终点，进行了正确断句处理，语音识别未出现早终点问题，智能音箱可根据正确的用户指令与用户交互。
64.本技术实施例提供的语音识别系统改进了语音识别模型的构建方式，通过从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，可不包括句子结尾词的时间标注信息；所述语音识别模型的训练损失值对句子结尾词和句子非结尾词的产生概率梯度不同；通过语音识别模型，确定待识别语音数据的语音转换文本。采用这种处理方式，使得调整语音识别模型训练损失的梯度，这种缩放梯度方式可增大句子结尾词产生概率，使得句子中句子结尾词和句子非结尾词的概率均发生改变，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注句子真实的终点，即可较好地解决语音识别中存在的早终点问题；因此，可以有效提升语音识别性能。
65.关于本技术实施例中语音识别模型的训练方式的具体说明，请见实施例二中的说明，此处不再赘述。
66.第二实施例
67.请参考图2，其为本技术的语音识别模型处理方法的实施例的流程示意图。该方法的执行主体为语音识别模型处理装置，该装置通常部署于服务端，但并不局限于服务端，也可以是能够实现所述语音识别模型处理方法的任何设备。
68.在本实施例中，所述方法可包括如下步骤：
69.步骤s201：确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词。
70.本技术实施例提供的方法用于从训练样本中学习得到语音识别模型，该模型具有解决早终点问题的能力。所述语音识别模型，可采用现有技术中较为成熟的语音识别模型结构，如端到端的语音识别模型结构或者非端到端的语音识别模型结构。由于语音识别模型的结构属于较为成熟的现有技术，因此此处不再赘述。
71.所述训练样本，可包括语音数据和语音转写文本标注数据，如所述语音转写文本为“绝大部分三线城市房价仍然下降
…”
、“公积金带宽最高额度也不同程度上涨
…”
。在解决实时语音识别过程中早终点问题的现有技术中，语音转写文本标注数据需要包括句子真实终点的标注数据，如语音转写文本标注数据为“绝大部分三线城市房价仍然下降(tk，《eos》)
…”
、“公积金带宽最高额度也不同程度上涨(tn，《eos》)
…”
。其中，《eos》表示句子结尾词，又称为句子终点token，tk表示句子结尾词对应的时间信息。
72.与现有技术不同的是，本技术实施例提供的方法的训练样本中，语音转写文本标注数据可不包括句子结尾词对应的时间信息，而只包括句子中非结尾词标注数据。例如，句子中非结尾词为“绝大部分三线城市房价仍然下降”、“公积金带宽最高额度也不同程度上涨”。具体实施时，可采用人工标注方式对语音数据进行句子中非结尾词的标注处理。
73.步骤s203：调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率。
74.本技术实施例提供的方法，通过调整语音识别模型的训练损失值对句子结尾词的
第一梯度，以降低语音识别模型对句子结尾词的产生概率，这样可在一定程度上削弱语音识别模型学习产生句子结尾词的能力，能避免早产生句子终点。
75.在语音识别过程中，对待识别语音中每个要预测的词，可通过语音识别模型计算词表中的每个词为要预测的词的概率，然后可选取概率最高的词作为要预测的词。例如，词表中包括1万个词，要通过语音识别模型计算这1万个词为要预测的词的概率。
76.损失函数在机器学习中被用于语音识别模型的参数估计。在本实施例中，语音识别模型的损失函数可以为交叉熵损失函数，该函数可包括通过模型预测的词的产生概率项，如损失函数为：
[0077][0078]
第j个词为句子结尾词
[0079]
在上述公式中，j表示词表中的第j个词，|v|表示词表中词的数量，j＝k表示词表中的第j个词为要预测的词，即正确的词，ii(j＝k)为指示函数，正确词(j＝k)的指示函数值为1，错误词(j≠k)的指示函数值为0；pj表示通过模型预测的第j个词为要预测的词的概率(即：词的产生概率)；γ表示用于缩放损失值对句子结尾词的梯度的尺度项，γ为句子结尾词的产生概率的超参数；表示第j个词的缩放后的产生概率。
[0080]
在求解机器学习算法的语音识别模型参数，即无约束优化问题时，梯度下降(gradient descent)是最常采用的方法之一。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和语音识别模型参数值。反过来，如果需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。
[0081]
在本实施例中，上述损失函数对词的梯度函数可以为：
[0082][0083]
由上述公式可见，所述语音识别模型的梯度函数可包括词的产生概率项与梯度缩放尺度项的乘积。在本实施例中，通过设置梯度缩放尺度项来调整模型训练时的损失值对句子结尾词的第一梯度。
[0084]
在一个示例中，第一梯度可采用如下方式调整：将第一梯度的梯度缩放尺度项设置为大于1的第一参数值γ(γ》1，如γ＝1.5，2.0，2.5等)。可见，由于句子结尾词的梯度缩放尺度项大于1，因此可放大损失值对句子结尾词的第一梯度，从而可缩小句子结尾词的产生概率。
[0085]
在一个示例中，所述方法还可包括如下步骤：
[0086]
步骤s301：调整语音识别模型的训练损失值对句子非结尾词的第二梯度，以提升语音识别模型对句子非结尾词的产生概率。
[0087]
通过执行步骤s301，使得句子中句子结尾词和句子非结尾词的概率均发生改变，句子结尾词的产生概率变小，句子非结尾词的产生概率变大，这样可鼓励语音识别模型学
习不断生成非句子结尾词，因此可进一步避免早产生句子终点。
[0088]
具体实施时，第二梯度可采用如下方式调整：将第二梯度的梯度缩放尺度项设置为大于0且小于1的第二参数值αi(0《αi《＝1)。例如，可通过人工方式设定第一参数值，对于要预测的词，使得词表中所有词的概率和为1，采用正则化(归一化，如softmax函数)方式计算第二参数值。可见，由于句子结尾词的梯度缩放尺度项为0到1之间的数值，因此可缩小损失值对句子非结尾词的梯度，从而可提升句子非结尾词的产生概率。
[0089]
在本实施例中，梯度缩放尺度项用于缩放梯度，具体梯度缩放方式可如下式：
[0090][0091]
由上式可见，对于要预测的词可以分为四种情况：
[0092]
1、词表中的第i个词是要预测的正确词k且为句子结尾词e，这时梯度为γ.p
i-1，即降低语音识别模型对句子结尾词的产生概率。
[0093]
2、词表中的第i个词是要预测的正确词k且为句子非结尾词，这时梯度为αi.p
i-1，即提升语音识别模型对句子非结尾词的产生概率。
[0094]
3、词表中的第i个词为句子结尾词e但并非要预测的正确词k，这时梯度为γ.pi，即降低语音识别模型对句子结尾词的产生概率。
[0095]
4、词表中的第i个词为句子非结尾词但并非要预测的正确词k，这时梯度为αi.pi，即提升语音识别模型对句子非结尾词的产生概率。
[0096]
在一个示例中，所述训练文本中的语音转换文本还可包括句子结尾词的标注时间；相应的，所述训练损失值还可包括句子结尾词的标注时间与预测时间之间的差值。采用这种处理方式，可根据句子结尾词的时间标注数据更好地避免早终点问题。
[0097]
步骤s205：根据调整的梯度，从训练样本中学习得到语音识别模型。
[0098]
本步骤基于上述缩放的梯度，调整语音识别模型的参数，直至损失值达到优化目标时，即可确定语音识别模型的参数。
[0099]
从上述实施例可见，本技术实施例提供的语音识别模型处理方法，通过调整语音识别模型训练损失的梯度，可增大句子结尾词产生概率，使得句子中句子结尾词和句子非结尾词的概率均发生改变，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注句子真实的终点，即可较好地解决语音识别中存在的早终点问题。
[0100]
第三实施例
[0101]
在上述的实施例中，提供了一种语音识别模型处理方法，与之相对应的，本技术还提供一种语音识别模型处理装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0102]
本技术另外提供一种语音识别模型处理装置，包括：
[0103]
训练数据确定单元，用于确定语音识别模型的训练样本，所述训练样本中的语音
转换文本包括句子非结尾词；
[0104]
梯度缩放单元，用于调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；
[0105]
模型训练单元，用于根据调整的梯度，从训练样本中学习得到语音识别模型。
[0106]
第四实施例
[0107]
在上述的实施例中，提供了一种语音识别模型处理方法，与之相对应的，本技术还提供一种语音识别方法。该方法是与上述方法实施例相对应。由于该方法实施例基本相似于与上述方法实施例，所以描述得比较简单，相关之处参见上述方法实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。
[0108]
本技术提供语音识别方法，该方法的执行主体为语音识别装置，该装置通常部署于服务端，但并不局限于服务端，也可以是能够实现所述语音识别方法的任何设备。在本实施例中，所述方法可包括如下步骤：
[0109]
步骤1：从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率。
[0110]
步骤2：接收待识别的语音数据。
[0111]
在本实施例中，可接收客户端发送的语音数据，如智能音箱或者是会议现场的智能拾音器发送的语音数据。
[0112]
步骤3：通过语音识别模型，确定所述语音数据的语音转换文本。
[0113]
从上述实施例可见，本技术实施例提供的语音识别方法，通过从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，确定语音数据的语音转换文本。采用这种处理方式，使得调整语音识别模型训练损失的梯度，这种缩放梯度方式可降低句子结尾词的产生概率，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注句子真实终点，即可较好地解决语音识别中存在的早终点问题；因此，可以有效提升语音识别性能。
[0114]
第五实施例
[0115]
在上述的实施例中，提供了一种语音识别方法，与之相对应的，本技术还提供一种语音识别装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0116]
本技术另外提供一种语音识别装置，包括：
[0117]
模型构建单元，用于从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；
[0118]
数据接收单元，用于接收待识别的语音数据；
[0119]
语音转换单元，用于通过语音识别模型，确定所述语音数据的语音转换文本。
[0120]
第六实施例
[0121]
本技术还提供语音识别方法，该方法的执行主体包括语音采集装置，该装置通常部署于客户端，如智能音箱等终端设备，但并不局限于客户端，也可以是能够实现所述语音增强方法的任何设备。在本实施例中，所述方法可包括如下步骤：
[0122]
步骤1：采集语音数据；
[0123]
步骤2：向服务端发送语音数据，以使得服务端采用如下方式处理所述语音数据：
[0124]
从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，确定所述语音数据的语音转换文本。
[0125]
从上述实施例可见，本技术实施例提供的语音识别方法，通过从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，确定语音数据的语音转换文本。采用这种处理方式，使得调整语音识别模型训练损失的梯度，这种缩放梯度方式可降低句子结尾词的产生概率，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注句子真实终点，即可较好地解决语音识别中存在的早终点问题；因此，可以有效提升语音识别性能。
[0126]
第七实施例
[0127]
在上述的实施例中，提供了一种语音识别方法，与之相对应的，本技术还提供一种语音识别装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0128]
本技术另外提供一种语音识别装置，包括：
[0129]
语音数据采集单元，用于采集语音数据；
[0130]
语音数据发送单元，用于向服务端发送语音数据，以使得服务端采用如下方式处理所述语音数据：
[0131]
从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，确定所述语音数据的语音转换文本。
[0132]
第八实施例
[0133]
在上述的实施例中，提供了一种语音增强方法，与之相对应的，本技术还提供一种电子设备。该装置是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
[0134]
本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现上述方法的程序，该设备通电并通过所述处理器运行该方法的程序。
[0135]
第九实施例
[0136]
在上述的实施例中，提供了一种语音识别模型处理方法，与之相对应的，本技术还
提供一种会议记录生成系统。该系统是与上述方法的实施例相对应。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的步骤
[0137]
本技术提供一种会议记录生成系统，包括：客户端和服务端。所述客户端可以是智能拾音器等设备。
[0138]
其中，所述客户端用于采集会议语音数据，发送所述语音数据；所述服务端用于确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词；调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；根据调整的梯度，从训练样本中学习得到语音识别模型；以及，接收所述语音数据，通过语音识别模型，确定会议记录。
[0139]
从上述实施例可见，本技术实施例提供的会议记录生成系统，通过客户端采集会议语音数据，将会议语音数据发送至服务端；通过服务端从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，根据会议语音数据，确定会议记录。采用这种处理方式，使得调整语音识别模型训练损失的梯度，这种缩放梯度方式可降低句子结尾词的产生概率，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注句子真实终点，即可较好地解决语音识别中存在的早终点问题；因此，可以有效提升会议记录的准确度。
[0140]
第十实施例
[0141]
在上述的实施例中，提供了一种语音识别模型处理方法，与之相对应的，本技术还提供一种语音交互系统。该系统是与上述方法的实施例相对应。由于系统实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的步骤
[0142]
本技术提供一种语音交互系统，包括：智能音箱和服务端。
[0143]
其中，所述智能音箱用于采集目标用户的语音数据，发送所述语音数据；所述服务端用于确定语音识别模型的训练样本，所述训练样本中的语音转换文本包括句子非结尾词；调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；根据调整的梯度，从训练样本中学习得到语音识别模型；以及，接收所述语音数据，通过语音识别模型，确定所述语音数据的转写文本；根据所述语音数据的转写文本，执行语音交互处理。
[0144]
从上述实施例可见，本技术实施例提供的语音交互系统，通过智能音箱采集用户语音数据，将用户语音数据发送至服务端；通过服务端从训练样本中学习得到语音识别模型，所述训练样本中的语音转换文本包括句子非结尾词，在训练所述模型时，调整语音识别模型的训练损失值对句子结尾词的第一梯度，以降低语音识别模型对句子结尾词的产生概率；通过语音识别模型，确定用户语音数据的转换文本；根据用户语音数据的转换文本，执行语音交互处理。采用这种处理方式，使得调整语音识别模型训练损失的梯度，这种缩放梯度方式可降低句子结尾词的产生概率，一定程度上削弱了模型学习产生句子结尾词的能力，这样可鼓励模型学习不断生成非句子结尾词，避免早产生句子终点，由此实现无需标注
句子真实终点，即可较好地解决语音识别中存在的早终点问题；因此，可以有效提升语音交互的准确度。
[0145]
本技术虽然以较佳实施例公开如上，但其并不是用来限定本技术，任何本领域技术人员在不脱离本技术的精神和范围内，都可以做出可能的变动和修改，因此本技术的保护范围应当以本技术权利要求所界定的范围为准。
[0146]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0147]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0148]
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0149]
2、本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于音频渲染的预渲染信号的方法、设备和系统与流程

语音识别系统、方法、装置及设备

相关文献

最热文献