一种噪声提取及指令识别方法和电子设备与流程

2021-10-29 22:38:00 来源：中国专利 TAG：人工智能噪声电子设备指令提取

1.本发明涉及人工智能技术领域，特别是涉及一种噪声提取及指令识别方法和电子设备。

背景技术：

2.当前，随着人工智能算法的不断发展，自然语言处理任务的需求越来越多，例如，命名实体识别、意图识别等。其中，根据用户的语言习惯，用户所表达的待处理的文本中可能包含无意义的词组，例如，待处理的文本为：“我要去徐汇大厦不知何时什么”，其中，“不知何时什么”即为无意义的词组。
3.通常，文本中所包括的无意义的词组被认为文本中的噪声，而在自然语言处理任务中，待处理的文本中的噪声将可以影响所得到的处理结果的准确性。
4.基于此，为了提高自然语言处理任务的处理结果的准确性，需要提取待处理的文本中的噪声，进而，利用噪声提取后所得到的不包括噪声的待处理的文本进行自然语言处理，以提高所得到的处理结果的准确性。
5.相关技术中，提取待处理的文本中的噪声的方式为：预先构建包括多个噪声的停用词表，从而，将待处理的文本中的各个词组与停用词表中的各个噪声进行对比，以确定待处理的文本中的噪声，进而，提取所确定的噪声。
6.然而，在上述相关技术中，由于停用词表中所包括的噪声的数量有限，因此，并不能枚举出待处理的文本中可能包括的全部噪声，从而，在很多情况下，无法提取出待处理的文本中的噪声。

技术实现要素：

7.本发明实施例的目的在于提供一种噪声提取及指令识别方法和电子设备，以实现在不借助停用词表的情况下，提取待进行自然语言处理的文本中的噪声。具体技术方案如下：
8.第一方面，本发明实施例提供了一种噪声提取方法，所述方法包括：
9.获取目标语音数据对应的目标文本信息；
10.将所述目标文本信息输入到预先训练的噪声识别模型中，获得所述目标文本信息映射到各个预设噪声标签的预测概率；其中，所述预设噪声标签用于表示预测噪声文本的索引位置，所述预测噪声文本为所述目标文本信息中的词组，所述词组为所述目标文本信息中一个字或连续的多个字的组合；
11.将所述预测概率最大的预设噪声标签对应的所述预测噪声文本确定为所述目标噪声文本。
12.可选的，一种具体实现方式中，所述各个预设噪声标签是由预设文本长度确定的，所述各个预设噪声标签的生成方式包括：
13.确定形成预设文本长度的各个位的位置标号；
14.将所述任一位的位置标号或者任一连续多个位的位置标号作为预设噪声标签。
15.可选的，一种具体实现方式中，所述获取目标语音数据对应的目标文本信息包括：
16.获取目标语音数据对应的语音数据文本；
17.若所述语音数据文本的长度等于所述预设文本长度，则将所述目标文本信息依次填入所述形成预设文本长度的各个位，得到所述目标文本信息；
18.若所述语音数据文本的长度大于所述预设文本长度，则获取所述语音数据文本中，从第一个字开始且长度等于所述预设文本长度的文本信息，并依次填入形成所述形成预设文本长度的各个位，得到所述目标文本信息；
19.若所述语音数据文本的长度小于所述预设文本长度，则在所述语音数据文本的最后一个字之后添加至少一个指定字符，依次填入所述形成预设文本长度的各个位，得到所述目标文本信息；其中，所述语音数据文本的长度与所述至少一个指定字符的长度之和为所述预设文本长度。
20.可选的，一种具体实现方式中，所述将所述目标文本信息输入到预先训练的噪声识别模型中，获得所述目标文本信息映射到各个预设噪声标签的预测概率包括：
21.将所述目标文本信息输入至噪声识别模型中的特征提取网络，获取所述目标文本信息的目标特征；
22.将所述目标特征输入至所述噪声识别模型中的分类网络，获得所述目标文本信息的特征映射到各个预设噪声标签的预测概率。
23.可选的，一种具体实现方式中，所述特征提取网络包括：输入层、字嵌入层、卷积层、激活层、池化层和融合层；
24.所述输入层，用于生成与所述目标文本信息对应的目标数组；其中，所述目标数组中的各元素为：所述目标文本信息中每个字的索引值；
25.所述字嵌入层，用于生成所述目标数组对应的编码矩阵；其中，所述编码矩阵中的各元素为：所述目标数组中的每个索引值所表征的字的字向量；
26.所述卷积层，用于利用多种卷积核，分别对所述编码矩阵进行特征提取，得到所述目标文本信息的多个初始特征矩阵；
27.所述激活层，用于利用预设激活函数，分别对各个初始特征矩阵进行激活，得到所述目标文本信息的多个激活特征矩阵；
28.所述池化层，用于按照预设的下采样方式，分别对各个激活特征矩阵进行预设维度的压缩，得到所述目标文本信息的多个压缩维度后的下采样特征矩阵；
29.所述融合层，用于对所述多个下采样特征矩阵进行融合，得到所述目标文本信息的目标特征矩阵，作为所述目标文本信息的目标特征。
30.可选的，一种具体实现方式中，所述分类网络包括：全连接层和归一化层；
31.所述全连接层，用于利用所述目标特征矩阵计算初始概率矩阵；其中，所述初始概率矩阵中的各元素用于表征各个预设噪声标签对应的所述目标文本信息中的词组为目标噪声文本的初始概率值；
32.所述归一化层，用于对所述初始概率矩阵中的各元素进行归一化，得到所述目标文本信息的目标概率矩阵；其中，所述目标概率矩阵中的各元素为：所述目标文本信息映射到各个预设噪声标签的预测概率。
33.可选的，一种具体实现方式中，所述噪声识别模型的训练方式，包括：
34.获取预设的添加有噪声标注的样本文本信息；其中，所述噪声标注为噪声文本在所述样本文本信息中的索引位置；
35.针对每一样本文本信息，将该样本文本信息输入到待训练的初始模型中，获得该样本文本信息映射到各个预设噪声标签的概率；
36.若概率最大的预设噪声标签与该样本文本信息的噪声标注匹配，则进行下一条样本文本信息训练；
37.若概率最大的预设噪声标签与该样本文本信息的噪声标注不匹配，则调整所述初始模型的参数，返回所述将该样本文本信息输入到待训练的初始模型中，获得该样本文本信息映射到各个预设噪声标签的概率的步骤，直至所述初始模型收敛。
38.可选的，一种具体实现方式中，所述方法还包括：
39.删除所述目标文本信息中的目标噪声文本，得到待处理文本信息；
40.按照预设处理方式，对所述待处理文本信息进行自然语言处理，得到关于所述待处理文本信息的处理结果。
41.第二方面，本发明实施例提供了一种指令识别方法，所述方法包括：
42.利用上述第一方面提供的任一噪声提取方法，确定目标指令对应的指令文本信息中的噪声文本信息；
43.删除所述指令文本信息中的所述噪声文本信息，得到待识别文本信息；
44.将所述待识别文本信息输入到预先训练的意图识别模型中，获得所述待识别文本信息所表征的目标用户意图；
45.将所述待识别文本信息输入到预先训练的命名实体识别模型中，获得所述待识别文本信息的目标命名实体识别结果；
46.基于所述目标用户意图和所述目标命名实体识别结果，执行所述目标指令。
47.第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
48.存储器，用于存放计算机程序；
49.处理器，用于执行存储器上所存放的程序时，实现上述第一方面和第二方面提供的任一方法的步骤。
50.第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面和第二方面提供的任一方法的步骤。
51.第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行实现上述第一方面和第二方面提供的任一方法的步骤。
52.本发明实施例有益效果：
53.以上可见，应用本发明实施例提供的方案，可以预先训练噪声识别模型。在获取到目标语音数据后，可以首先获取目标语音数据对应的目标文本信息，进而，便可以将所获取到的目标文本信息输入到上述预先训练的噪声识别模型中，得到目标文本信息映射到各个预设噪声标签的预测概率。这样，便可以将预测概率最大的预设噪声标签对应的预测噪声文本确定为目标噪声文本。
54.基于此，应用本发明实施例提供的方案，由于每个预设噪声标签对应于一个预测噪声文本的索引位置，而每个预测噪声文本为目标文本信息中的一个词组，因此，所得到的目标文本信息映射到各个预设噪声标签的预测概率，即为目标文本信息中的各个词组作为目标噪声文本的预测概率。从而，对于目标语音数据对应的目标文本信息，可以直接利用预先训练的噪声识别模型，得到该目标文本信息中的各个词组作为目标噪声文本的预测概率，并将预测概率最大的词组确定为目标噪声文本。这样，在提取待处理的文本中的噪声时，可以在不借助停用词表的情况下，确定该文本中的噪声，进而，得到噪声提取后的文本，提高所得到的处理结果的准确性。
附图说明
55.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。
56.图1为本发明实施例提供的一种噪声提取方法的流程示意图；
57.图2为各个预设噪声标签的一种生成方式的流程示意图；
58.图3(a)为一种形成预设文本长度的各个位的位置标号的示意图；
59.图3(b)为图3(a)对应的全部预设噪声标签的示意图；
60.图4(a)为一种利用形成预设文本长度的各个位生成的目标文本信息的示意图；
61.图4(b)为在图4(a)所示的目标文本信息的基础上，各个预设噪声标签对应的预测噪声文本的示意图；
62.图5为图1中s102的一种具体实现方式的流程示意图；
63.图6为本发明实施例提供的一种噪声识别模型的结构示意图；
64.图7为图6中卷积层的原理示意图；
65.图8为一种激活函数relu的示意图；
66.图9为本发明实施例提供的另一种噪声提取方法的流程示意图；
67.图10为一种意图识别模型的结构示意图；
68.图11为一种命名实体识别模型的结构示意图；
69.图12为本发明实施例提供的一种指定识别方法的流程示意图；
70.图13为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
71.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本技术所获得的所有其他实施例，都属于本发明保护的范围。
72.相关技术中，提取待处理的文本中的噪声的方式为：预先构建包括多个噪声的停用词表，从而，将待处理的文本中的各个词组与停用词表中的各个噪声进行对比，以确定待处理的文本中的噪声，进而，提取所确定的噪声。由于停用词表中所包括的噪声的数量有
限，因此，并不能枚举出待处理的文本中可能包括的全部噪声，从而，在很多情况下，无法提取出待处理的文本中的噪声。
73.为了解决上述技术问题，本发明实施例提供了一种噪声提取方法。
74.其中，该噪声提取方法可以应用于各种类型的电子设备，例如，台式电脑、笔记本电脑、手机等，对此，本发明实施例不做具体限定，以下简称电子设备。
75.此外，该噪声提取方法可以适用于各种需要执行自然语言处理任务的场景。例如，利用意图识别实现对设备的语音控制的场景；又例如，利用命名实体识别在文本中添加ner(named entity recognition，命名实体识别)标签的场景等。这都是合理的。
76.本发明实施例提供的一种噪声提取方法，可以包括如下步骤；
77.获取目标语音数据对应的目标文本信息；
78.将所述目标文本信息输入到预先训练的噪声识别模型中，获得所述目标文本信息映射到各个预设噪声标签的预测概率；其中，所述预设噪声标签用于表示预测噪声文本的索引位置，所述预测噪声文本为所述目标文本信息中的词组，所述词组为所述目标文本信息中一个字或连续的多个字的组合；
79.将所述预测概率最大的预设噪声标签对应的所述预测噪声文本确定为所述目标噪声文本。
80.以上可见，应用本发明实施例提供的方案，可以预先训练噪声识别模型。在获取到目标语音数据后，可以首先获取目标语音数据对应的目标文本信息，进而，便可以将所获取到的目标文本信息输入到上述预先训练的噪声识别模型中，得到目标文本信息映射到各个预设噪声标签的预测概率。这样，便可以将预测概率最大的预设噪声标签对应的预测噪声文本确定为目标噪声文本。
81.基于此，应用本发明实施例提供的方案，由于每个预设噪声标签对应于一个预测噪声文本的索引位置，而每个预测噪声文本为目标文本信息中的一个词组，因此，所得到的目标文本信息映射到各个预设噪声标签的预测概率，即为目标文本信息中的各个词组作为目标噪声文本的预测概率。从而，对于目标语音数据对应的目标文本信息，可以直接利用预先训练的噪声识别模型，得到该目标文本信息中的各个词组作为目标噪声文本的预测概率，并将预测概率最大的词组确定为目标噪声文本。这样，在提取待处理的文本中的噪声时，可以在不借助停用词表的情况下，确定该文本中的噪声，进而，得到噪声提取后的文本，提高所得到的处理结果的准确性。
82.下面，结合附图，对本发明实施例提供的一种噪声提取方法进行具体说明。
83.图1为本发明实施例提供的一种噪声提取方法的流程示意图，如图1所示，该方法可以包括如下步骤s101
‑
s103：
84.s101：获取目标语音数据对应的目标文本信息；
85.通常，在进行意图识别、命名实体识别等自然语音处理时，所针对的待处理数据为用户的语音数据，而在对用户的语音数据进行自然语音处理时，可以首先将该语音数据转换为文本信息。
86.例如，在智能设备的语音控制过程中，智能设备需要将用户的语音指令转换为文本信息，从而，对该文本信息进行意图识别和命名实体识别，并根据上述识别结果，执行用户的语音指令。
87.基于此，在执行本发明实施例提供的一种噪声提取方法时，首先获取目标语音数据对应的目标文本信息。
88.其中，可以通过多种方式获取上述目标文本信息，例如，可以直接采集用户的目标语音数据，进而，借助语音转换算法等方式，将该目标语音数据转换为目标文本信息；又例如，可以在其他设备采集到用户的目标语音数据，并将该目标语音数据转换为目标文本信息后，从该其他设备处获取该目标文本信息等。这都是合理的。
89.s102：将目标文本信息输入到预先训练的噪声识别模型中，获得目标文本信息映射到各个预设噪声标签的预测概率；
90.其中，预设噪声标签用于表示预测噪声文本的索引位置，预测噪声文本为目标文本信息中的词组，词组为目标文本信息中一个字或连续的多个字的组合；
91.通常，目标文本信息中的噪声可以是目标文本信息中的某个字，或者，目标文本信息中的连续的多个字的组合。
92.例如，目标文本信息为：我要去徐汇大厦不知何时什么，则该目标文本信息中，“不知何时什么”即为该目标文本信息中的噪声。
93.这样，在提取目标文本信息中的噪声时，便可以首先确定目标文本信息中的各个词组能够作为目标文本信息中的噪声的可能性。其中，目标文本信息中的每个词组可以为目标文本信息中的一个字或连续的多个字的组合。
94.例如，目标文本信息为：我要去徐汇大厦不知何时什么，则该目标文本信息中的各个词组包括：我、我要、我要去、徐汇大厦等。
95.由于不同的目标文本信息的长度不同，导致不同的目标文本信息中的各个词组的数量不同，因此，为了能够从任一的目标文本信息中获取可以作为目标文本信息中的噪声的全部词组，可以预先生成各个预设噪声标签。
96.其中，预设噪声标签用于表示预测噪声文本的索引位置，而预测噪声文本为目标文本信息中的词组，也就是说，每个预设噪声标签对应于目标文本信息中的一个词组，并且，该词组在目标文本信息中的位置与该预设噪声标签所表示的预测噪声文本的索引位置相匹配，进而，每个预设噪声标签对应目标文本信息中的一个词组。
97.这样，针对每个预设噪声标签，目标文本信息映射到该预设噪声标签的预测概率即为：目标文本信息中位置与该预设噪声标签所表示的预测噪声文本的索引位置相匹配的词组，作为目标文本信息中的目标噪声文本的预测概率。
98.也就是说，目标文本信息映射到各个预设噪声标签的预测概率，即为各个预设噪声标签对应的目标文本信息中的词组为目标噪声文本的预测概率，从而，得到目标文本信息映射到各个预设噪声标签的预测概率，即可以得到目标文本信息中的各个词组为目标噪声文本的预测概率。
99.为了行文清晰，后续将对上述各个预设噪声标签的生成方式进行具体说明。
100.基于此，在获取到目标文本信息后，便可以将目标文本信息输入到预先训练的噪声识别模型中，获得目标文本信息映射到各个预设噪声标签的预测概率。
101.也就是说，利用上述噪声识别模型，可以确定目标文本信息中的各个词组为目标噪声文本的预测概率。
102.s103：将预测概率最大的预设噪声标签对应的预测噪声文本确定为目标噪声文
本。
103.由于目标文本信息映射到各个预设噪声标签的预测概率，即为目标文本信息中的各个词组为目标噪声文本的预测概率，因此，针对每个预设噪声标签，目标文本信息映射到该预设噪声标签的预测概率越大，则该预设噪声标签对应的目标文本信息中的词组越可能作为目标噪声文本。
104.这样，由于每个预设噪声标签对应的目标文本信息中的词组为；每个预设噪声标签对应的预测噪声文本；因此，在得到目标文本信息映射到各个预设噪声标签的预测概率后，便可以确定预测概率最大的预设噪声标签，从而，将该预测概率最大的预设噪声标签对应的预测噪声文本确定为目标噪声文本。
105.也就是说，预测概率最大的预设噪声标签对应的预测噪声文本即为从目标文本信息中提取到的噪声，其中，预测概率最大的预设噪声标签对应的预测噪声文本为目标文本信息中的一个词组，该词组在目标文本信息中的位置与预测概率最大的预设噪声标签对应的预测噪声文本的索引位置相匹配。
106.可选的，在确定出上述目标噪声文本后，可以删除目标文本信息中的目标噪声文本，从而，得到不包括噪声的待处理的目标文本信息。这样，便可以对所得到的不包括噪声的待处理的目标文本信息进行进一步的自然语音处理，得到相应的处理结果。
107.例如，可以对不包括噪声的待处理的目标文本信息进行意图识别，得到目标文本信息的用户意图；又例如，可以对不包括噪声的待处理的目标文本信息进行命名实体识别，得到目标文本信息的命名实体识别结果。
108.基于此，应用本发明实施例提供的方案，由于每个预设噪声标签对应于一个预测噪声文本的索引位置，而每个预测噪声文本为目标文本信息中的一个词组，因此，所得到的目标文本信息映射到各个预设噪声标签的预测概率，即为目标文本信息中的各个词组作为目标噪声文本的预测概率。从而，对于目标语音数据对应的目标文本信息，可以直接利用预先训练的噪声识别模型，得到该目标文本信息中的各个词组作为目标噪声文本的预测概率，并将预测概率最大的词组确定为目标噪声文本。这样，在提取待处理的文本中的噪声时，可以在不借助停用词表的情况下，确定该文本中的噪声，进而，得到噪声提取后的文本，提高所得到的处理结果的准确性。
109.可选的，一种具体实现方式中，各个预设噪声标签是由预设文本长度确定的；图2为各个预设噪声标签的一种生成方式的流程示意图，如图2所示，该生成方式可以包括如下步骤：
110.s201：确定形成预设文本长度的各个位的位置标号；
111.s202：将任一位的位置标号或者任一连续多个位的位置标号作为预设噪声标签。
112.由于不同用户的语言习惯和语言能力不同，导致不同的目标语音数据对应的目标文本信息中所包括的字的数量不同，并且，在利用预先训练的噪声识别模型获取不同的目标文本信息映射到各个预设噪声标签的预测概率时，该噪声识别模型中的模型参数是确定的，因此，为了能够统一的利用上述噪声识别模型，获取不同的目标文本信息映射到各个预设噪声标签的预测概率，因此，针对不同的目标文本信息，所利用的各个预设噪声标签的数量和结构应该一致。
113.这样，考虑到通常用户一次讲话时所包括的字的数量，可以预先设定文本长度，例
如，由于通常人一次讲话所包括的字的数量不超过70个字，则预先文本长度可以为70。
114.在得到预设文本长度后，便可以确定形成预设文本长度的各个位的位置标号，进而，便可以将任一位的位置标号或者任一连续的多个位的位置标号作为预设噪声标签。
115.也就是说，在得到预设文本长度后，可以为该预设文本长度中的各个位置设置一个位置标号，从而，每个位置标号即可以作为一个预设噪声标签，而每组连续的多个位置的位置标号可以也可以形成一个预设噪声标签。
116.其中，可选的，可以将形成预设文本长度的各个位中的第一位的位置标号确定为1，从而，按照预设文本长度中，各个位的排列顺序，从第二位开始，依次将每个位的位置标号确定为该位的前一位的位置标号加1的和值。
117.也就是说，可以从1开始，按照自然数的顺序，从形成预设文本长度的各个位中的第一位开始，依次为形成预设文本长度的各个位是指位置标号。
118.例如，假设预设文本长度为70，则如图3(a)所示，图中的数字1
‑
70即为形成预设文本长度的各个位的位置标号，从而，任一位的位置标号即可以作为一个预设噪声标签，例如，位置标号1、位置标号2、位置标号3等；而任一祖连续的多个位置的位置标号可以也可以形成一个预设噪声标签，例如，位置标号1和2组成的预设噪声标签1
‑
2，位置标号1、2和3组成的预设噪声标签1
‑
3等。
119.这样，当将全部的位置标号分别确定为预设噪声标签，并将全部的连续多个位的位置标号的组合分别确定为预设噪声标签后，便可以得到如图3(b)所示的全部的预设噪声标签。
120.考虑到目标语音数据对应的语音数据文本的长度与上述预设文本长度的数量关系存在各种可能，并且，考虑到噪声识别模型的输出结果的准确性，需要使得输入至噪声识别模型中的目标文本信息的长度与上述预设文本长度相同，在获取上述目标文本信息时，可能需要对目标语音数据对应的语音数据文本进行文本删减或者文本添加等处理。
121.基于此，可选的，一种具体实现方式中，在上述图2所示具体实现方式的基础上，上述步骤s101，获取目标语音数据对应的目标文本信息可以包括如下步骤11
‑
14：
122.步骤11：获取目标语音数据对应的语音数据文本；
123.步骤12：若语音数据文本的长度等于预设文本长度，则将语音数据文本依次填入形成预设文本长度的各个位，得到目标文本信息；
124.步骤13：若语音数据文本的长度大于预设文本长度，则获取语音数据文本中，从第一个字开始且长度等于预设文本长度的文本信息，并依次填入形成形成预设文本长度的各个位，得到目标文本信息；
125.步骤14：若语音数据文本的长度小于预设文本长度，则在语音数据文本的最后一个字之后添加至少一个指定字符，并依次填入形成预设文本长度的各个位，得到目标文本信息；
126.其中，语音数据文本的长度与至少一个指定字符的长度之和为预设文本长度。
127.在本具体实现方式中，可以首先获取目标语音数据，进而，借助语音转换算法等方式，将目标语音数据转换成文本数据，即得到目标语音数据对应的语音数据文本。这样，便可以根据上述语音数据文本的长度与上述预设文本长度的数量关系，确定对语音数据文本进行处理的方式，以得到长度为上述预设文本长度的目标文本信息。
128.其中，若语音数据文本的长度等于上述预设文本长度，则可以确定语音数据文本中的每个字均对应于形成预设文本长度的各个位中的一个位，则可以从语音数据文本中的第一个字开始，依次将语音数据文本中的各个字填入形成预设文本长度的各个位中的第一位至最后一位，从而，填入字的形成预设文本长度的各个位的组合即为目标文本信息。
129.若语音数据文本的长度大于上述预设文本长度，则可以确定语音数据文本中将有部分字无法填入形成预设文本长度的各个位中，从而，可以丢弃语音数据文本中，长度超过上述预设文本长度的各个字，也就是说，可以获取语音数据文本中，从第一个字开始且长度等于上述预设文本长度的文本信息，进而，从语音数据文本中的第一个字开始，依次将所获取的文本信息中的各个字填入形成预设文本长度的各个位中的第一位至最后一位，从而，填入字的形成预设文本长度的各个位的组合即为目标文本信息。
130.例如，当语音数据文本的长度为n，且上述预设文本长度为p(p<n)时，那么，可以丢弃语音数据文本中的第p 1个字至第n个字，即获取语音数据文本中的第1个至第p个字。进而，将所获取到的语音文本信息中的第1个字至第p个字，依次填入形成预设文本长度的各个位中的第一位至第p位，则填入字的p位的组合即为目标文本信息。
131.若语音数据文本的长度小于上述预设文本长度，则可以确定形成预设文本长度的各个位中存在部分位无法被语音数据文本中的字所填入，从而，可以根据语音数据文本的长度与上述预设文本长度的差距，在语音数据文本的最后一个字之后添加至少一个指定字符，使得语音数据文本的长度与所添加的至少一个指定字符的数量之和为上述预设文本信息。这样，便可以从语音数据文本的第一个字开始，依次将语音数据文本中的各个字和所添加的至少一个指定字符填入形成预设文本长度的各个位中的第一位至最后一位，从而，填入字或者指定字符的形成预设文本长度的各个位的组合即为目标文本信息。
132.例如，当语音数据文本的长度为m，且上述预设文本长度为p(p>m)时，那么，可以在语音数据文本的第m个字之后，添加p
‑
m个指定字符，进而，从语音文本信息中的第1个字开始，依次将语音数据文本中的m个字和所添加的p
‑
m个指定字符，依次填入形成预设文本长度的各个位中的第一位至第p位，则填入字的p位的组合即为目标文本信息。
133.可选的，上述指定字符可以为：null(空)字符。
134.示例性的，假设预设文本长度为70，以语音数据文本“我要去徐汇大厦不知何时什么”为例，则可以确定目标文本信息如图4(a)所示，各个预设噪声标签对应的预测噪声文本如图4(b)所示。
135.可选的，一种具体实现方式中，如图5所示，上述步骤s102，将目标文本信息输入到预先训练的噪声识别模型中，获得目标文本信息映射到各个预设噪声标签的预测概率，可以包括如下步骤s1021
‑
s1022：
136.s1021：将目标文本信息输入至噪声识别模型中的特征提取网络，获取目标文本信息的目标特征；
137.s1022：将目标特征输入至噪声识别模型中的分类网络，获得目标文本信息的特征映射到各个预设噪声标签的预测概率。
138.在本具体实现方式中，上述噪声识别模型可以包括特征提取网络和分类网络，在将目标文本信息输入到上述噪声识别模型时，是将目标文本信息输入至噪声识别模型中的特征提取网络，进而，该特征提取网络便可以提取目标文本信息的目标特征，并输入该目标
特征；进而，便可以将目标文本信息的目标特征输入至噪声识别模型中的分类网络，从而，分类网络便可以利用目标文本信息的目标特征，得到目标文本信息的特征映射到各个预设噪声标签的预测概率。
139.可选的，一种具体实现方式中，在上述图5所示具体实现方式的基础上，上述特征提取网络可以包括：输入层、字嵌入层、卷积层、激活层、池化层和融合层。
140.输入层，用于生成与目标文本信息对应的目标数组；其中，目标数组中的各元素为：目标文本信息中每个字的索引值；
141.字嵌入层，用于生成目标数组对应的编码矩阵；其中，编码矩阵中的各元素为：目标数组中的每个索引值所表征的字的字向量；
142.卷积层，用于利用多种卷积核，分别对编码矩阵进行特征提取，得到目标文本信息的多个初始特征矩阵；
143.激活层，用于利用预设激活函数，分别对各个初始特征矩阵进行激活，得到目标文本信息的多个激活特征矩阵；
144.池化层，用于按照预设的下采样方式，分别对各个激活特征矩阵进行预设维度的压缩，得到目标文本信息的多个压缩维度后的下采样特征矩阵；
145.融合层，用于对多个下采样特征矩阵进行融合，得到目标文本信息的目标特征矩阵，作为目标文本信息的目标特征。
146.可选的，一种具体实现方式中，在上述图5所示具体实现方式的基础上，上述分类网络可以包括：全连接层和归一化层；
147.全连接层，用于利用目标特征矩阵，计算初始概率矩阵；其中，初始概率矩阵中的各元素用于表征各个预设噪声标签对应的目标文本信息中的词组为目标噪声文本的初始概率值；
148.归一化层，用于对初始概率矩阵中的各元素进行归一化，得到目标文本信息的目标概率矩阵；其中，目标概率矩阵中的各元素为：目标文本信息映射到各个预设噪声标签的预测概率。
149.基于此，可选的，一种具体实现方式中，如图6所示，上述噪声识别模型可以包括：输入层、字嵌入层、卷积层、激活层、池化层、融合层、全连接层和归一化层；其中，输入层、字嵌入层、卷积层、激活层、池化层和融合层构成该噪声识别模型的特征提取网络，全连接层和归一化层构成该噪声识别模型的分类网络。在本具体实现方式中，具体的：
150.(1)输入层：
151.在获取到上述目标文本信息后，便可以将该目标文本信息输入到上述预先训练的噪声识别模型中，即将目标文本信息输入到噪声识别模型中的输入层。
152.在上述噪声识别模型中，输入层中预先设定了每个字的索引值。其中，可选的，每个字的索引值的格式可以为one
‑
hot格式。
153.这样，输入层在接收到目标文本信息后，可以首先从目标文本信息的第一个字开始，依次确定目标文本信息中的每个字的one
‑
hot格式的索引值。进而，输出层便可以生成与目标文本信息对应的目标数组。其中，可选的，所生成的目标数组中的每个索引值可以为整数数值。
154.其中，该目标数组中的各元素为：目标文本信息中每个字的索引值，且所包括的索
引值的数量与上述目标文本信息中包括的字的数量。
155.可选的，输入层在生成与目标文本信息对应的目标数组时，可以首先确定目标文本信息的长度与上述预设文本长度的数量关系。
156.当目标文本信息的长度等于上述预设文本长度时，则输入层可以直接确定目标文本信息中的每个字的one
‑
hot格式的索引值，进而，生成与目标文本信息对应的目标数组；
157.当目标文本信息的长度大于上述预设文本长度时，则输入层可以丢弃目标文本信息中，长度超过上述预设文本长度的各个字，进而，输入层可以确定目标文本信息中剩余的每个字的one
‑
hot格式的索引值，进而，生成与目标文本信息对应的目标数组；
158.当目标文本信息的长度小于上述预设文本长度时，则输入层在确定目标文本信息中的每个字的one
‑
hot格式的索引值后，可以在最后一个字的one
‑
hot格式的索引值之后，添加至少一个预设字符，以使得目标文本信息的长度与所添加的至少一个预设字符的和值为上述预设文本长度，从而，目标文本信息中的每个字的one
‑
hot格式的索引值与所添加的至少一个预设字符所构成的数组即为与目标文本信息对应的目标数组。
159.这样，所得到的目标数组中所包括的元素的数量即为上述预设文本长度。
160.在生成上述目标数组后，输入层便可以将该目标数组作为输出，从而，将该目标数组输入到上述字嵌入层。
161.示例性的，当预设文本长度为70时，则输入层可以输出一个包括70个元素的目标数组。
162.(2)字嵌入层：
163.所谓字嵌入是指用一个多维的数据表示每个字。例如，利用一个包括多个元素的一维数组表示每个字，其中，每个元素为一个数字，示例性的，可以利用包括32个元素的一维数组表示每个字，即可以利用包括32个数字的一维数组表示每个字。
164.这样，由于每个字的索引值可以表征一个字，而每个字对应于一字向量，从而，每个字的索引值对应一字向量，因此，字嵌入层可以确定所得到的目标数组中的各个索引值所表征的字的字向量，从而，基于所确定的各个字向量，生成目标数组对应的编码矩阵，并且，该编码矩阵中的各元素为目标数组中的每个索引值所表征的字的字向量。其中，所确定的每个索引值对应的字向量中所包括的元素的数量均为预设数量。
165.进而，在生成上述编码矩阵后，字嵌入层便可以将该编码矩阵作为输出，从而，将该编码矩阵输入到上述卷积层。
166.示例性的，当上述预设文本长度为70，且利用包括32个元素的一维数组表示每个字时，则字嵌入层可以输出一个维度为[70,32]的编码矩阵。
[0167]
(3)卷积层：
[0168]
卷积层的实质是用预设的核函数，即卷积核，对输入数据进行特征提取，得到所提取出来的特征。其中，卷积计算可以理解为一种乘累加的过程。例如，如图7所示，利用中间的卷积核，对左侧的输入数据进行特征提取，得到右侧输出的特征，并且，图7中的计算公式可以特征提取过程中的卷积计算方式。
[0169]
在上述噪声识别模型中，卷积层的作用是将所输入的编码矩阵中的特征放大且提取出来。其中，卷积层在进行特征提取时，可以将若干个连续的字作为一个整体进行分析，例如，可以将连续的3个字作为一个整体，也可以将连续的4个字作为一个整体，还可以将连
续的5个字作为一个整体等。
[0170]
其中，当若干个连续的字可以构成词语或短语时，则可以将该若干个连续的字作为一个整体进行特征提取；当若干个连续的字均为单字词时，则可以根据该若干个连续的字中每个字的上下文，进行特征提取。
[0171]
具体的，可以根据作为一个整体分析的若干个连续的字中所包括的字的数量，设置多种卷积核，从而，利用每种卷积核对所输入的编码矩阵分别进行特征提取，得到目标文本信息的多个初始特征矩阵。
[0172]
进而，在生成上述多个初始特征矩阵后，卷积层便可以将该多个初始特征矩阵作为输出，从而，将该多个初始特征矩阵输入到上述激活层。
[0173]
示例性的，当所输入的编码矩阵为维度为[70,32]的矩阵，存在卷积核[3,32]、[4,32]和[5,32]共三种卷积核，且每种卷积核的数量为128个时，可以得到128个维度为[68,1]的矩阵，128个维度为[67,1]的矩阵以及128个维度为[66,1]的矩阵。进而，对每种卷积核对应的128个矩阵进行合并，便可以得到维度分别为[68,128]、[67,128]和[66,128]的三个矩阵，该维度分别为[68,128]、[67,128]和[66,128]的三个矩阵即为目标文本信息的三个初始特征矩阵。则卷积层便可以输出三个维度分别为[68,128]、[67,128]和[66,128]的初始特征矩阵。
[0174]
(4)激活层
[0175]
由于噪声识别模型中的卷积层和全连接层等各层不能为噪声识别模型带来非线性特征，而噪声识别模型的实质是：把输入数据变换为期望的输出数据，并且，没有非线性特征的噪声识别模型不能够实现上述数据变换，因此，需要利用激活层中的激活函数为噪声识别模型带来非线性特征。
[0176]
基于此，激活层便可以利用预设激活函数，对各个初始特征矩阵分别进行激活，得到目标文本信息的多个激活特征矩阵。并且，激活层可以不改变各个初始特征矩阵进行激活的维度。也就是说，目标文本信息的多个初始特征矩阵与目标文本信息的多个激活特征矩阵的维度相同。
[0177]
可选的，上述预设激活函数可以为relu(rectified linear unit，线性整流函数)。如图8所示，为relu的示意图，其中，横轴表示函数输入，纵轴表示函数输出。并且，利用relu对各个初始特征矩阵分别进行激活可以不改变各个初始特征矩阵的维度。
[0178]
进而，在得到上述多个激活特征矩阵后，激活层便可以将该多个激活特征矩阵作为输出，从而，将该多个激活特征矩阵输入到上述池化层。
[0179]
示例性的，当目标文本信息具有三个激活特征矩阵，且该三个激活特征矩阵的维度分别[68,128]、[67,128]和[66,128]时，则激活层便可以输出三个维度分别为[68,128]、[67,128]和[66,128]的激活特征矩阵。
[0180]
(5)池化层
[0181]
池化层的目的是：忽略卷积层所提取到的特征中的不重要的特征，且池化层所采用的手段即为“下采样”。
[0182]
基于此，在噪声识别模型中，池化层的目的是：利用预设的池化方式，即下采样方式，对各个激活特征矩阵分别进行预设维度的压缩，以忽略各个激活特征矩阵所表征的目标文本信息的某些不重要的特征。
[0183]
可选的，上述池化方式可以为平均池化或者最大池化。
[0184]
其中，所谓平均池化是指：计算预设尺寸的原始数据中的全部数据的平均值，并用所计算得到的平均值替代原始数据，从而，达到缩小原始数据维度且保留原始数据的数据特征的目的。例如，预设尺寸为4*4，则原始数据中存在16个数据，平均池化后变成1个数据，从而，可以认为原始数据缩小了16倍。
[0185]
所谓最大池化是指：利用预设尺寸的原始数据中的最大数据替代原始数据。例如，预设尺寸为4*4，则原始数据中存在16个数据，则确定该16个数据中的最大值，并用该最大值替换该16个数据，也就是说，最大池化后变成1个数据，从而，可以认为原始数据缩小了16倍。
[0186]
进而，在得到上述多个下采样特征矩阵后，池化层便可以将该多个下采样特征矩阵作为输出，从而，将该多个下采样特征矩阵输入到上述融合层。
[0187]
示例性的，当目标文本信息具有三个激活特征矩阵，且该三个激活特征矩阵的维度分别[68,128]、[67,128]和[66,128]时，假设对三个下采样特征矩阵进行池化的池化尺寸分别为68、67和66，则池化层便可以输出三个维度分别为[1,128]、[1,128]和[1,128]的下采样特征矩阵。
[0188]
(6)融合层
[0189]
对目标文本信息的多个下采样特征矩阵进行融合，得到目标文本信息的目标特征矩阵，并且，目标文本信息的目标特征矩阵的维度为[1,k]，其中，k是根据目标文本信息的多个下采样特征矩阵的维度确定的。进而，便可以将所得到的目标特征矩阵作为输出，从而，将该目标特征矩阵输入到上述全连接层。
[0190]
示例性的，当目标文本信息具有三个下采样特征矩阵，且该三个下采样特征矩阵的维度分别[1,128]、[1,128]和[1,128]时，则融合层可以输出维度为[1,384]的目标特征矩阵。
[0191]
(7)全连接层：
[0192]
全连接层的作用是将目标文本信息的目标特征矩阵投影到各个预设噪声标签的维度上。其中，全连接层中包括预设的权重矩阵，且该权重矩阵的维度为[k,m]，其中，k与目标文本信息的目标特征矩阵的维度[1,k]中的k相同，m为各个预测噪声标签的数量。
[0193]
其中，假设预设文本长度为t，则m＝t*(t 1)/2。
[0194]
也就是说，全连接层可以利用目标特征矩阵，计算初始概率矩阵；其中，初始概率矩阵中的各元素用于表征各个预设噪声标签对应的目标文本信息中的词组为目标噪声文本的初始概率值。
[0195]
其中，全连接层便可以利用如下公式，计算初始概率矩阵。
[0196]
y＝x*w b；
[0197]
其中，y为初始概率矩阵，其维度为[1,k]；x为目标文本信息的目标特征矩阵，其维度为[1,k]；w为预先训练得到的权重矩阵，其维度为[k,m]；b为预先训练得到的偏置数组，其为包括m个元素的一维数组。
[0198]
其中，初始概率矩阵中的各元素可以用于表征各个预设噪声标签对应的目标文本信息中的词组为目标噪声文本的初始概率值。也就是说，所计算得到的初始概率矩阵中的每个元素对应于一个预设噪声标签，从而，每个元素即为该元素对应的预设噪声标签的语
义，即每个元素即为该预设噪声标签对应的预测噪声文本在目标文本信息中的语义，从而，该元素便可以表示该预设噪声标签对应的目标文本信息中的词组为目标噪声文本的可能性。
[0199]
在得到初始概率矩阵后，全连接层便可以将该初始概率矩阵作为输出，从而，将该初始概率矩阵输入到归一化层。
[0200]
示例性的，当预设文本信息的长度为70，且目标文本信息的目标特征矩阵的维度为[1,384]时，则全连接层可以输出维度为[1,2485]的初始概率矩阵。
[0201]
(8)归一化层
[0202]
归一化层的作用是通过等比例缩小，对初始概率矩阵中各元素的元素值进行归一化，从而，将初始概率矩阵中的各个元素转化为百分比形式的概率，得到目标文本信息的目标概率矩阵，并且，目标概率矩阵中的各个元素之和为1。
[0203]
其中，目标概率矩阵中的各元素为：目标文本信息映射到各个预设噪声标签的预测概率。
[0204]
当全连接层输出维度为[1,m]的初始概率矩阵时，则可以将该初始概率矩阵中的各个元素等比例缩小为百分比形式的概率值，得到目标文本信息的目标概率矩阵。其中，目标文本信息的目标概率矩阵中的各个元素可以分别为c0、c1、c2、
……
、c
m
‑1。其中，c
x
为目标文本信息映射到第x个预设噪声标签的预测概率。
[0205]
可选的，归一化层可以使用softmax(归一化)函数，对目标文本信息的初始概率矩阵中的各元素进行归一化，得到目标文本信息的目标概率矩阵。
[0206]
可选的，一种具体实现方式中，在上述各个具体实现方式的基础上，上述噪声识别模型的训练方式，包括如下步骤21
‑
24：
[0207]
步骤21：获取预设的添加有噪声标注的样本文本信息，其中，噪声标注为噪声文本在样本文本信息中的索引位置；
[0208]
步骤22：针对每一样本文本信息，将该样本文本信息输入到待训练的初始模型中，获得该样本文本信息映射到各个预设噪声标签的概率；若概率最大的预设噪声标签与该样本文本信息的噪声标注匹配，则执行步骤23；若概率最大的预设噪声标签与该样本文本信息的噪声标注不匹配，则执行步骤24；
[0209]
步骤23：进行下一条样本文本信息训练；
[0210]
步骤24：调整初始模型的参数，返回步骤22，直至初始模型收敛。
[0211]
其中，该噪声识别模型可以是任一类型电子设备的训练得到的，例如，笔记本电脑、台式电脑、平板电脑等，对此，本发明实施例不做具体限定，以下简称训练设备。其中，训练设备与上述执行本发明实施例提供的一种噪声提取方法的电子设备可以是同一电子设备，也可以是不同的电子设备。其中，将上述执行本发明实施例提供的一种噪声提取方法的电子设备简称为执行设备。
[0212]
当训练设备和执行设备是同一设备时，即可以在同一电子设备中训练得到上述噪声识别模型，进而，在该电子设备上，利用所得到的噪声识别模型实现本发明实施例提供的一种噪声提取方法；当上述训练设备和执行设备不是同一电子设备时，训练设备在训练得到上述噪声识别模型后，可以将所得到的噪声识别模型发送给执行设备。这样，在得到噪声识别模型后，执行设备便可以利用所得到的噪声识别模型实现本发明实施例提供的一种噪
声提取方法。
[0213]
训练设备可以首先获取预设的添加有噪声标注的样本文本信息，其中，每个样本文本信息的噪声标注为：噪声文本在该样本文本信息中的索引位置。
[0214]
其中，上述样本文本信息可以是句子，也可以是由多个词语组成的词组或者短语，这都是合理的。并且，可以通过多种方式获取上述样本文本信息。例如，可以直接获取保存在本地存储空间中的样本文本信息；也可以从其他非本地的存储空间中获取样本文本信息。这都合理的。
[0215]
此外，在本发明实施例中，为了保证训练得到的噪声识别模型的准确率，在噪声识别模型的训练过程中，可以利用大量的样本文本信息。因此，可以获取多个样本文本信息。其中，样本文本信息的数量可以根据实际应用中的需求进行设定，本发明中不做具体限定。且样本文本信息的类型可以仅仅包括句子、短语或者词组，也可以包括句子、短语和词组中的至少两类。这都是合理的。
[0216]
在获取到上述样本文本信息后，可以进一步通过人工识别等方法，确定每个样本文本信息中的噪声文本，并将噪声文本在所在的样本文本信息中的索引位置作为噪声文本所在的样本文本信息的噪声标注，从而，为每个样本文本信息添加噪声标注。
[0217]
这样，针对每一样本文本信息，便可以将该样本文本信息输入到待训练的初始模型中，并获得该样本文本信息映射到各个预设噪声标签的概率。进而，便可以根据所获得的该样本文本信息映射到各个预设噪声标签的概率，确定概率最大的预设噪声标签，即获得该样本文本信息中的噪声文本的索引位置的预测值。
[0218]
其中，针对每一样本文本信息，该样本文本信息的噪声标注可以视为该样本文本信息中的噪声文本的索引位置的真值。
[0219]
从而，针对每一样本文本信息，便可以根据该样本文本信息中的噪声文本的索引位置的预测值和真值之间的匹配程度，确定上述初始模型是否收敛，进而，确定是否可以停止训练，得到上述噪声识别模型。
[0220]
基于此，针对每一样本文本信息，当概率最大的预设噪声标签与该样本文本信息的噪声标注匹配时，便可以确定针对该样本文本信息，上述初始模型收敛，从而，可以进行下一条样本文本信息训练。
[0221]
其中，进行下一条样本文本信息训练的方式，与针对该条样本文本信息训练的方式相同，在此不再赘述。这样，当针对全部的样本文本信息，上述初始模型均收敛时，便可以确定噪声识别模型已经训练完成，则可以停止训练，得到训练完成的噪声识别模型。
[0222]
当概率最大的预设噪声标签与该样本文本信息的噪声标注不匹配时，则可以确定上述初始模型还未收敛，从而，噪声识别模型还未训练完成，需要继续训练，这样，便可以调整上述初始模型的参数，从而，返回执行上述步骤22，即将该样本文本信息输入参数调整后的初始模型，再次获得该样本文本信息映射到各个预设噪声标签的概率。
[0223]
循环执行上述过程，直至初始模型收敛，便可以得到上述噪声识别模型。
[0224]
通常，对目标文本信息进行噪声提取的目的是对去除了噪声后的目标文本信息进行自然语言处理，以提高所得到的处理结果的准确性，也就是说，对目标文本信息进行噪声提取是对目标文本信息进行自然语言处理的预处理过程。
[0225]
基于此，可选的，一种具体实现方式中，如图9所示，本发明实施例提供的一种噪声
提取方法，还可以包括如下步骤s104
‑
s105：
[0226]
s104：删除目标文本信息中的目标噪声文本，得到待处理文本信息；
[0227]
s105：按照预设处理方式，对待处理文本信息进行自然语言处理，得到关于待处理文本信息的处理结果。
[0228]
在本具体实现方式中，可以根据实际应用中的需求，预先设定对目标文本信息进行自然语言处理的处理方式，例如，命名实体识别、意图识别等。
[0229]
从而，在确定出目标文本信息中的目标噪声文本后，便可以删除目标文本信息中的目标噪声文本，得到去除噪声后的目标文本信息，即得到待处理文本信息。进而，便可以按照预设处理方式，对所得到待处理文本信息进行自然语言处理，得到关于待处理文本信息的处理结果。其中，所得到的处理结果即可以作为关于目标文本信息的处理结果。
[0230]
这样，由于在进行自然语言处理时，所利用的待处理文本信息为去除了噪声后的目标文本信息，从而，可以减少目标文本信息中的噪声对自然语言处理过程的干扰，提高所得到的关于目标文本信息的处理结果的准确性。
[0231]
可选的，一种具体实现方式中，上述步骤s105，可以包括如下步骤31：
[0232]
步骤31：将待处理文本信息输入到预先训练的意图识别模型中，获得待处理文本信息所表征的用户意图。
[0233]
其中，如图10所示，意图识别模型包括：输入层、字嵌入层、卷积层、池化层、融合层、全连接层和输出层。
[0234]
在本具体实现方式中，可以将待处理文本信息输入到预先训练的意图识别模型中，从而，通过该意图识别模型对该待处理文本的识别，得到待处理文本信息所表征的用户意图。
[0235]
可选的，一种具体实现方式中，上述步骤s105，可以包括如下步骤32：
[0236]
步骤32：将待处理文本信息输入到预先训练的命名实体识别模型中，获得待处理文本信息的命名实体识别结果。
[0237]
其中，如图11所示，命名实体识别模型包括：输入层、字嵌入层、双向长短期记忆网络lstm层、全连接层、条件随机场crf层和输出层。
[0238]
在本具体实现方式中，可以将待处理文本信息输入到预先训练的命名实体识别模型中，从而，通过该命名实体识别模型对该待处理文本的识别，得到待处理文本信息的命名实体识别结果。
[0239]
相应于上述本发明实施例提供的一种噪声提取方法，本发明实施例提供了一种指令识别方法。
[0240]
图12为本发明实施例提供的一种指定识别方法的流程示意图，如图12所示，该指令识别方法可以包括如下步骤s1201
‑
s1205：
[0241]
s1201：利用上述本发明实施例提供的任一噪声提取方法，确定目标指令对应的指令文本信息中的噪声文本；
[0242]
s1202：删除所确定的指令文本信息中的噪声文本，得到待识别文本信息；
[0243]
s1203：将待识别文本信息输入到预先训练的意图识别模型中，获得待识别文本信息所表征的目标用户意图；
[0244]
s1204：将待识别文本信息输入到预先训练的命名实体识别模型中，获得待识别文
本信息的目标命名实体识别结果；
[0245]
s1205：基于目标用户意图和目标命名实体识别结果，执行目标指令。
[0246]
用户通常可以通过各类控制指令对智能设备进行控制，例如，通过语音控制智能家居设备等。从而，在控制过程中，智能设备需要对用户所发送的控制指令进行意图识别和命名实体识别，从而，根据所得到的识别结果，执行用户所发送的控制指令。
[0247]
这样，在检测到目标指令后，可以首先获取目标指令对应的指令文本信息，进而，为了避免指令文本信息中所存在的噪声对指令文本信息的识别结果的准确率的影响，可以进一步利用上述本发明实施例提供的任一噪声提取方法，确定该指令文本信息中的噪声文本。
[0248]
进而，便可以删除指令文本信息中所确定的的噪声文本，得到待识别文本信息。这样，便可以将待识别文本信息输入到预先训练的意图识别模型中，获得待识别文本信息所表征的目标用户意图，并将待识别文本信息输入到预先训练的命名实体识别模型中，获得待识别文本信息的目标命名实体识别结果。
[0249]
在得到上述目标用户意图和目标命名实体识别结果后，便可以基于上述目标用户意图和目标命名实体识别结果，执行所检测到的目标指令。
[0250]
基于此，应用本发明实施例提供的方案，在执行目标指令时，可以通过上述本发明实施例提供的任一噪声提取方法，去除目标指令中的噪声，从而，提高对目标指令的识别的准确率，以实现更准确地执行所检测的目标指令。
[0251]
相应于上述本发明实施例提供的一种噪声提取方法和一种指令识别方法，本发明实施例还提供了一种电子设备，如图13所示，包括处理器1301、通信接口1302、存储器1303和通信总线1304，其中，处理器1301，通信接口1302，存储器1303通过通信总线1304完成相互间的通信，
[0252]
存储器1303，用于存放计算机程序；
[0253]
处理器1301，用于执行存储器1303上所存放的程序时，实现上述本发明实施例提供的任一噪声提取方法的步骤，和/或，上述本发明实施例提供的指令识别方法。
[0254]
上述电子设备提到的通信总线可以是外设部件互连标注(peripheralcomponent interconnect，pci)总线或扩展工业标注结构(extended industrystandard architecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0255]
通信接口用于上述电子设备与其他设备之间的通信。
[0256]
存储器可以包括随机存取存储器(random access memory，ram)，也可以包括非易失性存储器(non
‑
volatile memory，nvm)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0257]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integratedcircuit，asic)、现场可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0258]
在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可
读存储介质内存储有计算机程序，所述计算机程序被处理器执行时上述本发明实施例提供的任一噪声提取方法的步骤，和/或，上述本发明实施例提供的指令识别方法。
[0259]
在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一噪声提取方法的步骤，和/或，上述本发明实施例提供的指令识别方法。
[0260]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstate disk(ssd))等。
[0261]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0262]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于电子设备实施例、计算机可读存储介质以及计算机程序产品而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0263]
以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于车载式语音识别系统的制作方法

一种噪声提取及指令识别方法和电子设备与流程

相关文献

最热文献