语音识别方法、装置、计算机设备及存储介质与流程

2021-10-20 00:10:00 来源：中国专利 TAG：语音识别装置特别计算机方法

1.本技术涉及语音识别技术领域，特别涉及一种语音识别方法、装置、计算机设备及存储介质。

背景技术：

2.语音识别是一种将语音识别为文本的技术，其在各种人工智能(artificial intelligence，ai)场景中具有广泛的应用。
3.在相关技术中，为了保证语音识别的准确性，语音识别模型对输入的语音进行识别的过程中，需要参考语音的上下文信息，也就是说，在对语音数据进行识别时，需要同时结合该语音数据的历史信息和未来信息进行识别。
4.在上述技术方案中，由于语音识别模型在语音识别过程中引入了未来信息，会导致一定的延时，从而限制来语音识别模型在流式语音识别中的应用。

技术实现要素：

5.本技术实施例提供了一种语音识别方法、装置、计算机设备及存储介质，可以降低在流式语音识别场景下的识别时延，提高流式语音识别的效果，该技术方案如下：
6.一方面，提供了一种语音识别方法，所述方法包括：
7.接收流式语音数据；
8.通过语音识别模型对所述流式语音数据进行处理，获得所述流式语音数据对应的语音识别文本；所述语音识别模型是基于网络搜索模型构建的；所述网络搜索模型是通过语音训练样本对初始网络进行神经网络结构搜索获得的；所述初始网络中包含通过操作元相连的多个特征聚合节点，所述多个特征聚合节点之间的操作元中包括第一类型操作元，所述第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；所述第一操作空间中的一种或者多种操作的组合用于实现所述第一类型操作元；所述指定操作为依赖上下文信息的神经网络操作；所述语音训练样本中包含语音样本，以及所述语音样本对应的语音识别标签；
9.输出所述语音识别文本。
10.又一方面，提供了一种语音识别方法，所述方法包括：
11.获取语音训练样本，所述语音训练样本中包含语音样本，以及所述语音样本对应的语音识别标签；
12.基于所述语音训练样本，在初始网络进行神经网络结构搜索，获得网络搜索模型；所述初始网络中包含通过操作元相连的多个特征聚合节点，所述多个特征聚合节点之间的操作元中包括第一类型操作元，所述第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；所述第一操作空间中的一种或者多种操作的组合用于实现所述第一类型操作元；所述指定操作为依赖上下文信息的神经网络操作；
13.基于所述网络搜索模型构建语音识别模型；所述语音识别模型用于对输入的流式
语音数据进行处理，获得所述流式语音数据对应的语音识别文本。
14.又一方面，提供了一种语音识别装置，所述装置包括：
15.语音数据接收模块，用于接收流式语音数据。
16.语音数据处理模块，用于通过语音识别模型对所述流式语音数据进行处理，获得所述流式语音数据对应的语音识别文本；所述语音识别模型是基于网络搜索模型构建的；所述网络搜索模型是通过语音训练样本对初始网络进行神经网络结构搜索获得的；所述初始网络中包含通过操作元相连的多个特征聚合节点，所述多个特征聚合节点之间的操作元中包括第一类型操作元，所述第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；所述第一操作空间中的一种或者多种操作的组合用于实现所述第一类型操作元；所述指定操作为依赖上下文信息的神经网络操作；所述语音训练样本中包含语音样本，以及所述语音样本对应的语音识别标签。
17.文本输出模块，用于输出所述语音识别文本。
18.在一种可能的实现方式中，所述初始网络包含n个单元网络，所述n个单元网络中包含至少一个第一单元网络，所述第一单元网络中包含输入节点、输出节点、以及由所述第一类型操作元相连的至少一个所述特征聚合节点。
19.在一种可能的实现方式中，所述n个单元网络之间通过以下连接方式中的至少一种相连：
20.双链接方式、单链接方式、以及密集链接方式。
21.在一种可能的实现方式中，所述n个单元网络中包含至少一个第二单元网络，所述第二单元网络中包含输入节点、输出节点、以及由第二类型操作元相连的至少一个所述特征聚合节点；所述第二类型操作元对应的第二操作空间中包含依赖未来数据的所述指定操作；所述第二操作空间中的一种或者多种操作的组合用于实现所述第二类型操作元。
22.在一种可能的实现方式中，至少一个所述第一单元网络之间共享拓扑结构，或者，至少一个所述第一单元网络之间共享拓扑结构和网络参数；
23.至少一个所述第二单元网络之间共享拓扑结构，或者，至少一个所述第二单元网络之间共享拓扑结构和网络参数。
24.在一种可能的实现方式中，所述不依赖未来数据的指定操作是基于因果的所述指定操作；
25.或者，
26.所述不依赖未来数据的指定操作是基于掩膜的所述指定操作。
27.在一种可能的实现方式中，所述特征聚合节点用于对输入数据执行求和操作、拼接操作以及乘积操作中的至少一种。
28.在一种可能的实现方式中，所述指定操作包括卷及操作、池化操作、基于长短期记忆人工神经网lstm络的操作、以及基于门控循环单元gru的操作。
29.在一种可能的实现方式中，所述语音识别模型中包含声学模型以及解码图，所述声学模型是基于所述网络搜索模型构建的；
30.所述语音数据处理模块，用于，
31.通过所述声学模型对所述流式语音数据进行处理，获得所述流式语音数据的声学识别信息；所述声学识别信息包括音素、音节或者半音节；
32.通过所述解码图对所述流式语音数据的声学识别信息进行处理，获得所述语音识别文本。
33.又一方面，提供了一种语音识别装置，所述装置包括：
34.样本获取模块，用于获取语音训练样本，所述语音训练样本中包含语音样本，以及所述语音样本对应的语音识别标签；
35.网络搜索模块，用于基于所述语音训练样本，在初始网络进行神经网络结构搜索，获得网络搜索模型；所述初始网络中包含通过操作元相连的多个特征聚合节点，所述多个特征聚合节点之间的操作元中包括第一类型操作元，所述第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；所述第一操作空间中的一种或者多种操作的组合用于实现所述第一类型操作元；所述指定操作为依赖上下文信息的神经网络操作；
36.模型构建模块，用于基于所述网络搜索模型构建语音识别模型；所述语音识别模型用于对输入的流式语音数据进行处理，获得所述流式语音数据对应的语音识别文本。
37.在一种可能的实现方式中，所述语音识别标签包括所述语音样本的声学识别信息；所述声学识别信息包括音素、音节或者半音节；
38.所述模型构建模块，用于，
39.基于所述网络搜索模型构建声学模型；所述声学模型用于对所述流式语音数据进行处理，获得所述流式语音数据的声学识别信息；
40.基于所述声学模型以及所述解码图，构建所述语音识别模型。
41.再一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现上述的语音识别方法。
42.又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行以实现上述语音识别方法。
43.又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述语音识别方法。
44.本技术提供的技术方案可以包括以下有益效果：
45.通过将初始网络中的第一类型操作元的操作空间中，需要依赖上下文信息的指定操作设置为不依赖未来数据的指定操作，然后对该初始网络进行神经网络结构搜索，以构建语音识别模型。由于模型中引入了不依赖未来数据的指定操作，且通过神经网络结构搜索可以搜索出准确性较高的模型结构，因此，通过上述方案，能够在保证语音识别的准确性的情况下，降低在流式语音识别场景下的识别时延，提高流式语音识别的效果。
附图说明
46.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
47.图1是根据一示例性实施例示出的一种模型搜索及语音识别框架图；
48.图2是根据一示例性实施例示出的一种语音识别方法的流程示意图；
49.图3是根据一示例性实施例示出的一种语音识别方法的流程示意图；
50.图4是根据一示例性实施例示出的一种语音识别方法的流程示意图；
51.图5是图4所示实施例涉及的网络结构示意图；
52.图6是图4所示实施例涉及的卷积操作示意图；
53.图7是图4所示实施例涉及的另一种卷积操作示意图；
54.图8是图4所示实施例涉及的一种因果卷积的示意图；
55.图9是图4所示实施例涉及的另一种因果卷积的示意图；
56.图10是根据一示例性实施例示出的一种模型构建及语音识别框架示意图；
57.图11是根据一示例性实施例示出的一种语音识别装置的结构方框图；
58.图12是根据一示例性实施例示出的一种语音识别装置的结构方框图；
59.图13是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
60.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
61.在对本技术所示的各个实施例进行说明之前，首先对本技术涉及到的几个概念进行介绍：
62.1)人工智能(artificial intelligence，ai)
63.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
64.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
65.2)计算机视觉(computer vision，cv)
66.计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(optical character recognition，ocr)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d(3dimensional，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
67.3)机器学习(machine learning，ml)
68.机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
69.4)神经网络结构搜索(neural architecture search，nas)
70.神经网络结构搜索，是一种用算法来设计神经网络的策略，也就是在不确定网络的长度和结构的情况下，人为设定一定的搜索空间，并按照设计的搜索策略从搜索空间中寻找在验证集上表现最好的网络结构。
71.神经网络结构搜索技术从组成上包括搜索空间，搜索策略，评价预估三个部分，从实现上又分为基于强化学习的nas，基于基因算法的nas(也称为基于进化的nas)，以及可微分的nas(也称为基于梯度的nas)。
72.基于强化学习的nas使用一个循环神经网络作为控制器来产生子网络，再对子网络进行训练和评估，得到其网络性能(如准确率)，最后更新控制器的参数。然而，子网络的性能是不可导的，无法直接对控制器进行优化，只能采用强化学习的方式，基于策略梯度的方法更新控制器参数。然而受限于其离散优化的本质，这类方法太耗费计算资源，原因在于在该类nas算法中，为了充分挖掘每个子网络的“潜力”，控制器每次采样一个子网络，都要初始化其网络权重从头训练然后验证其性能。对比之下，基于梯度优化的可微分nas显示出了极大的效率优势。基于梯度优化的可微分nas将整个搜索空间构建为一个超网(super
‑
net)，然后将训练和搜索过程建模为双级优化(bi
‑
level optimization)问题,它并不会单独采样一个子网再从头开始训练验证其性能，由于超网本身就是由子网集合组成因此其利用当前超网的准确率近似当前概率最大的子网的性能，因此其具有极高的搜索效率和性能，逐渐成为主流的神经网络结构搜索方法。
73.5)超网(super
‑
network)
74.超网是在可微分nas中包含所有可能的子网络的集合。开发人员可以设计一个大的搜索空间，这个搜索空间便组成一个超网，这个超网中包含多个子网，每个子网(sub
‑
network)经过训练后都可以被评测性能指标，神经网络结构搜索需要做的便是从这些子网中找出性能指标最好的子网。
75.6)语音技术(speech technology，st)
76.语音技术的关键技术有自动语音识别技术(automaticspeechrecognition，asr)和语音合成技术(text to speech，tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
77.本技术实施例的方案包括模型搜索阶段和语音识别阶段。图1是根据一示例性实施例示出的一种模型搜索及语音识别框架图。如图1所示，在模型搜索阶段，模型训练设备110通过预先设置好的语音训练样本在预设的初始网络中进行神经网络结构搜索，基于搜索结果构建出准确度较高的语音识别模型，在语音识别阶段，语音识别设备120根据构建的语音识别模型以及输入的流式语音数据，识别出流式语音数据中的语音识别文本。
78.其中，上述初始网络可以是指神经网络结构搜索中的搜索空间或者超网。上述搜索出的语音识别模型可以是超网中的一个子网。
79.其中，上述模型训练设备110和语音识别设备120可以是具有机器学习能力的计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。
80.可选的，上述模型训练设备110和语音识别设备120可以是同一个设备，或者，模型训练设备110和语音识别设备120也可以是不同的设备。并且，当模型训练设备110和语音识别设备120是不同的设备时，模型训练设备110和语音识别设备120可以是同一类型的设备，比如模型训练设备110和语音识别设备120可以都是个人电脑；或者，模型训练设备110和语音识别设备120也可以是不同类型的设备。比如模型训练设备110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。而语音识别设备120可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
81.在本技术各个实施例所示的方案中，上述模型训练设备通过在初始网络中进行神经网络结构搜索，并基于搜索结果构建得到的语音识别模型，其应用场景可以包括且不限于以下应用场景：
82.1、网络会议场景。
83.在跨国网络会议中，通常涉及到语音识别的应用，例如，对于流式的会议语音，通过语音识别模型识别出语音识别文本，并将语音识别文本展示在网络会议的显示屏中，在有需要的情况下，还可以对识别出的语音识别文本进行翻译后展示(比如，通过文字或者语音进行展示)。通过本技术涉及的语音识别模型，可以低延时的语音识别，从而满足网络会议场景中的即时语音识别。
84.2、视频/语音直播场景。
85.在网络直播中，也会涉及到语音识别的应用，例如，直播场景通常需要在直播画面中添加字幕。通常本技术涉及的语音识别模型，可以实现对直播流中的语音进行低延时的识别，从而能够尽快生成字幕并添加在直播数据流中，对于降低直播的时延有着很重要的意义。
86.3、即时翻译场景。
87.在很多会议中，当与会双方或多方使用不同的语言时，往往需要专门的翻译人员进行口译。通过本技术涉及的语音识别模型，可以实现对与会者发言的语音进行低延时的识别，从而快速展示识别出的文本并通过显示屏或者翻译后的语音进行展示，从而实现自动化的即时翻译。
88.请参考图2，其是根据一示例性实施例示出的一种语音识别方法的流程示意图。该方法可以由上述图1所示实施例中的语音识别设备执行。如图2所示，该语音识别方法可以包括如下步骤：
89.步骤21，接收流式语音数据。
90.步骤22，通过语音识别模型对该流式语音数据进行处理，获得该流式语音数据对应的语音识别文本；该语音识别模型是基于网络搜索模型构建的；该网络搜索模型是通过
语音训练样本对初始网络进行神经网络结构搜索获得的；该初始网络中包含通过操作元相连的多个特征聚合节点，该多个特征聚合节点之间的操作元中包括第一类型操作元，该第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；该第一操作空间中的一种或者多种操作的组合用于实现该第一类型操作元；该指定操作为依赖上下文信息的神经网络操作；该语音训练样本中包含语音样本，以及该语音样本对应的语音识别标签。
91.其中，上述未来数据，是指在时域上位于当前识别的语音数据之后的其它语音数据。对于依赖未来数据的指定操作，通过该指定操作对当前语音数据进行识别时，需要等待未来数据到达，才能完成对当前语音数据的识别，这会导致一定的延时，且随着此类操作的增加，对当前语音数据完成识别的延时也会随之增加。
92.而对于不依赖未来数据的指定操作，通过该指定操作对当前语音数据进行识别时，不需要等待未来数据到达即可以完成对当前语音数据的识别，在此过程中不会引入等待未来数据而导致的延时。
93.在一种可能的实现方式中，上述不依赖未来数据的指定操作，是指在对语音数据进行特征处理过程中，基于当前语音数据，以及当前语音数据的历史数据即可以完成处理过程的操作。
94.步骤23，输出该语音识别文本。
95.综上所述，本技术实施例所示的方案，通过将初始网络中的第一类型操作元的操作空间中，需要依赖上下文信息的指定操作设置为不依赖未来数据的指定操作，然后对该初始网络进行神经网络结构搜索，以构建语音识别模型。由于模型中引入了不依赖未来数据的指定操作，且通过神经网络结构搜索可以搜索出准确性较高的模型结构，因此，通过上述方案，能够在保证语音识别的准确性的情况下，降低在流式语音识别场景下的识别时延，提高流式语音识别的效果。
96.请参考图3，图3是根据一示例性实施例示出的一种语音识别方法的流程示意图。该方法可以由上述图1所示实施例中的模型训练设备执行，该语音识别方法可以是基于神经网络结构搜索执行的方法。如图3所示，该语音识别方法可以包括如下步骤：
97.步骤31，获取语音训练样本，该语音训练样本中包含语音样本，以及该语音样本对应的语音识别标签。
98.步骤32，基于该语音训练样本，在初始网络进行神经网络结构搜索，获得网络搜索模型；该初始网络中包含通过操作元相连的多个特征聚合节点，该多个特征聚合节点之间的操作元中包括第一类型操作元，该第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；该第一操作空间中的一种或者多种操作的组合用于实现该第一类型操作元；该指定操作为依赖上下文信息的神经网络操作。
99.步骤33，基于该网络搜索模型构建语音识别模型；该语音识别模型用于对输入的流式语音数据进行处理，获得该流式语音数据对应的语音识别文本。
100.综上所述，本技术实施例所示的方案，通过将初始网络中的第一类型操作元的操作空间中，需要依赖上下文信息的指定操作设置为不依赖未来数据的指定操作，然后对该初始网络进行神经网络结构搜索，以构建语音识别模型。由于模型中引入了不依赖未来数据的指定操作，且通过神经网络结构搜索可以搜索出准确性较高的模型结构，因此，通过上述方案，能够在保证语音识别的准确性的情况下，降低在流式语音识别场景下的识别时延，
提高流式语音识别的效果。
101.请参考图4，图4是根据一示例性实施例示出的一种语音识别方法的流程示意图。该方法可以由模型训练设备和语音识别设备执行，其中，该模型训练设备和语音识别设备可以实现为单个计算机设备，也可以分属于不同的计算机设备。如图4所示，该方法可以包括以下步骤：
102.步骤401，模型训练设备获取语音训练样本，该语音训练样本中包含语音样本，以及该语音样本对应的语音识别标签。
103.其中，语音训练样本是开发人员预先收集的样本集合，该语音训练样本中包含各个语音样本，以及语音样本对应的语音识别标签，该语音识别标签用于在后续的网络结构搜索过程中进行模型的训练和评估。
104.在一种可能的实现方式中，该语音识别标签包括该语音样本的声学识别信息；该声学识别信息包括音素、音节或者半音节。
105.其中，当本技术所示的方案中，通过对初始网络进行模型搜索的目的是构建准确性较高的声学模型时，该语音识别标签可以是与声学模型的输出结果相对应的信息，比如，音素、音节或者半音节等等。
106.在一种可能的实现方式中，上述语音样本可以预先切分为若干个带有重叠的短时语音片段(也称为语音帧)，每个语音帧对应有各自的音素、音节或半音节。例如，一般对于采样率为16k的语音，切分后一帧语音长度为25ms，帧间重叠为15ms，此过程也称为“分帧”。
107.步骤402，模型训练设备基于该语音训练样本，在初始网络进行神经网络结构搜索，获得网络搜索模型。
108.其中，该初始网络中包含通过操作元相连的多个特征聚合节点，该多个特征聚合节点之间的操作元中包括第一类型操作元，该第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；该第一操作空间中的一种或者多种操作的组合用于实现该第一类型操作元；该指定操作为依赖上下文信息的神经网络操作。
109.在本技术实施例中，上述第一操作空间中除了包含依赖上下文信息的指定操作之外，还可以包含不依赖上下文的操作，比如残差连接操作等，本技术实施例对于第一操作空间中包含的操作类型不做限定。
110.在一种可能的实现方式中，该初始网络包含n个单元网络，该n个单元网络中包含至少一个第一单元网络，该第一单元网络中包含输入节点、输出节点、以及由该第一类型操作元相连的至少一个该特征聚合节点。
111.在一个示例性的方案中，上述初始网络可以按照单元网络进行划分，每个单元网络包含输入节点和输出节点，以及输入节点和输出节点之间的一个或多个特征聚合节点。
112.其中，初始网络中的各个单元网络的搜索空间可以相同，也可以不同。
113.在一种可能的实现方式中，该n个单元网络之间通过以下连接方式中的至少一种相连：
114.双链接方式(bi
‑
chain
‑
styled)、单链接方式(chain
‑
styled)、以及密集链接方式(densely
‑
connected)。
115.在一个示例性的方案中，上述初始网络中的单元网络之间通过预先设置的链接方式相连，且不同的单元网络之间的链接方式可以相同，也可以不同。
recurrent unit，gru)的操作。或者，上述指定操作也可以包含其他依赖上下文信息的卷积神经网络操作，本技术实施例对于指定操作的操作类型不做限定。
133.在本技术实施例中，模型训练设备基于初始网络进行神经网络结构搜索，以确定准确性较高的网络搜索模型，在上述搜索过程中，模型训练设备通过语音训练样本，对初始网络中的各个子网进行机器学习训练和评估，以确定初始网络中的特征聚合节点是否保留、保留的特征聚合节点之间的各个操作元是否保留、保留的操作元对应的操作类型、各个操作源以及特征聚合节点的参数等信息，以从初始网络中确定出拓扑结构合适且准确性满足要求的子网，作为搜索获得的网络搜索模型。
134.请参考图5，其示出了本技术实施例涉及的一种网络结构示意图。如图5所示，以基于cell结构的传统神经网络结构搜索(neural architecture search，nas)方法为例，图5给出了一种nasnet
‑
based搜索空间的示意图，其中宏观(macro)部分51的cell(单元网络)之间的连接方式为bi
‑
chain
‑
styled方式，微观(micro)部分52的节点结构为op_type connection。
135.本技术实施例所示的方案基于图5所示的拓扑结构，下文对于搜索空间的描述均以这种拓扑结构为例进行描述。其中，如图5所示，搜索空间的构建通常分为两步：宏观结构(macro architecture)和微观结构(micro architecture)。
136.其中，macro structure部分的链接方式为bi
‑
chain
‑
styled，每个cell的输入为前两个cell的输出，链接方式为固定的人工设计拓扑，不参与搜索；cell的层数是可变的，搜索阶段与评估阶段(基于已搜索到的结构)可以不一样，面向不同的任务时，cell的层数也可以不一样。
137.需要注意的是，有些nas算中，macro structure的链接方式也可以参与搜索，即非固定的bi
‑
chain
‑
styled链接方式。
138.micro structure为cell内的拓扑结构如图5所示，可以看做一个有向无环图。其中，节点in(1)、in(2)为cell的输入节点(node)，node1、node2、node3、node4为中间节点，对应上述特征聚合节点(数目是可变的)；每个节点的输入为前面所有节点的输出，即节点node1的输入为in(1)、in(2)，节点node2的输入为in(1)、in(2)、node1，以此类推；节点out为输出节点，其输入为所有中间节点的输出。
139.nas算法基于上述初始模型中的链接关系，搜索出一个最佳的链接关系(即拓扑结构)。每两个节点之间预定义了一个固定的候选操作集合(即操作空间)，比如3x3 convolution(卷积)、3x3 average pooling(平均池化)等操作，分别用于对节点的输入进行处理；候选操作对输入进行处理后预定义了一个summarization function集合(即各类特征聚合操作)，比如sum(求和)、concat(合并)、product(乘积)等函数。nas算法在基于训练样本进行神经网络结构搜索时，基于所有候选操作/函数，保留一个最佳的候选操作/函数。需要注意的是，本方案中的应用实例可以固定summarization function＝sum函数，只对cell内的拓扑结构，以及候选操作进行搜索，下文搜索算法描述均为这种搜索空间为例进行介绍。可选的，上述summarization function也可以固定设置为其它函数，或者，summarization function也可以不固定设置。
140.在面向流式语音识别任务中，传统的nas方法很难生成低延时的流式语音识别模型网络结构。以darts
‑
based搜索空间为例，macro structure(宏观结构)设计为两种cell
结构：
141.normal cell，输入和输出的时频域分辨率保持不变；以及，reduction cell，输出的时频域分辨率为输入的一半。
142.其中，reduction cell固定为2层，分别位于整个网络的1/3和2/3处，其他处均为normal cell。本技术实施例所示的应用实例，以macro structure与darts方法相同为例进行介绍，下文对于macro structure的描述均为上述拓扑结构，不再赘述。基于上述搜索空间，搜索算法生成最终的micro structure，其中normal cell共享同一个拓扑结构以及对应的操作，reduction cell共享同一个拓扑结构以及对应的操作。darts
‑
based搜索空间内，卷积操作和池化操作都会依赖未来的信息(相对于当前时刻)，nas算法生成的网络结构中normal cell和reduction cell分别产生固定的延时；针对不同的任务，normal cell的层数会进行改变，那么延时也会随之进行改变；基于上述原理，生成的网络结构延时会随着网络层数的增加而增加。为更加清晰地描述上述延时的概念，以生成的网络结构中normal cell的延时为4帧，reduction cell的延时为6帧为例，计算5层cells的网络延时＝4 6 2*(4 6 2*(4))＝46帧，算式中的数字2是由reduction cell中时频域分辨率减半而添加的乘法计算因子；进一步的，计算8层cells的网络延时＝(4 4) 6 2*((4 4) 6 2*(4 4))＝74帧，以此类推。显而易见，在增加cell的层数时，整个网络的延时也会快速增长。
143.为了清晰地理解nas算法中语音的延时概念，下面以卷积神经网络中的卷积操作为例，介绍指定操作的实现过程。本技术实施例涉及的应用实例中，搜索空间是以卷积神经网络为主，输入的语音特征为feature map(可以理解为一幅图片)，即语音特征为fbank二阶差分特征(40
‑
dimensional log mel
‑
filterbank features with the firstorder and the second
‑
order derivatives)，其中一阶和二阶差分特征分别对应到额外的通道(图片中的channel概念)中，语音特征的feature map，宽对应为频域分辨率(40维)，高对应为语音的长度(帧数)。
144.语音feature map经过传统的候选操作处理时，一般会依赖未来信息。请参考图6，其示出了本技术实施例涉及的一种卷积操作示意图。如图6所示，以3*3卷积操作为例，下侧第一行为输入(每一列为一帧)，中间为隐藏层(每一层经过一次3*3卷积操作)，上侧为输出，左侧有图案填充的圆点为padding(填充)帧，图6所示为应用3层3*3卷积操作的示意图，output(输出)层无填充圆点为第一帧的输出，input(输入)层实线箭头的覆盖范围为所有依赖的信息，即需要未来三帧输入信息。其他候选操作的逻辑类似，未来信息的依赖会随着隐藏层的增加而增加。更加直观地，请参考图7，其示出了本技术实施例涉及的另一种卷积操作示意图。如图7所示，输入的语音数据要经过两个隐层，第一个隐层包含一个3*3卷积操作，第二个隐层包含一个5*5卷积操作；第一个3*3卷积操作，需要使用历史的一帧信息和未来的一帧的信息，来计算当前帧的输出；第二个5*5卷积操作，输入为第一个隐层的输出，需要使用历史的两帧信息和未来的两帧的信息，来计算当前帧的输出。
145.基于以上介绍，传统的nas方法很难去有效地控制搜索得到网络结构的延时，尤其是在大规模语音识别任务中，网络结构的cell层数更多，对应的延时呈线性增加。面向流式语音识别任务，针对传统nas算法中存在的问题，本技术实施例提出了一种延时可控的(latency
‑
controlled)nas算法。不同于传统算法中的normal cell和reduction cell结构设计，本技术实施例所示的算法提出了一种延时可控(latency
‑
controlled)cell结构，替
代了其中的normal cell，即新算法的macro structure由latency
‑
free cell和reduction cell二者组成。latency
‑
free cell结构为无时延结构设计，无论nas算法最终搜索得到的micro structure是什么样的拓扑结构和候选操作，cell本身都不会产生时延。这种结构设计的优势是，搜索得到的网络结构在迁移到各种任务中时，增加和减少latency
‑
free cell的数目都不会改变整个网络的时延，其时延完全由固定数目的reduction cell确定。
146.在本技术实施例的应用实例中，latency
‑
free cell结构设计的实现方案为，cell内的候选操作(即操作空间，例如卷积操作、池化操作等)设计为无时延的操作方式。
147.以卷积操作为例，无时延的设计方案可以为卷积操作由传统的卷积操作变为因果(causal)卷积。传统卷积的操作可以参考上述图6和图7，以及对应依赖未来信息的描述。请参考图8，其示出了本技术实施例涉及的一种因果卷积的示意图。如图8所示，因果卷积与普通卷积方式的不同之处在于，output层白色填充的圆点的输出，对应input层实线箭头的覆盖范围，即当前时刻的计算只依赖过去的信息，不会依赖未来的信息。除了卷积操作之外，其他对未来信息有依赖的候选操作(例如池化操作)，均可以采用上述类似的因果处理方法，也就是，对当前时刻的计算只依赖过去的信息。再例如，请参考图9，其示出了本技术实施例涉及的另一种因果卷积的示意图，如图9所示，与传统的操作进行对比，因果卷积的输入要经过两个隐层，第一个隐层包含一个3*3卷积操作，第二个隐层包含一个5*5卷积操作；第一个3*3卷积操作，需要使用历史的两帧信息，来计算当前帧的输出；第二个5*5卷积操作，输入为第一个隐层的输出，需要使用历史的四帧信息，来计算当前帧的输出。
148.本技术实施例提出的上述latency
‑
controlled nas算法，macro structure由latency
‑
free cell和reduction cell组成，latency
‑
free cell的micro structure由无时延的候选操作构成搜索空间。新算法搜索得到的神经网络结构，模型的时延只由固定数目的reduction cell确定，能够生成低延时的流式识别模型网络结构。
149.如前所述，本技术实施例中的应用实例是以bi
‑
chain
‑
styled cell结构为实现方案，可选的，也可以通过以下方式扩展至更多的结构：
150.1)macro structure层面基于cell结构的设计，cell之间的链接方式还可以包含chain
‑
styled、densely
‑
connected等。
151.2)macro structure层面上，结构的设计类似于cell结构。
152.3)micro structure设计方向上，无时延的候选操作设计，本技术实施例的应用实例为因果方式，可选的，还可以通过mask
‑
based的方式实现无时延的候选操作设计，例如，上述卷积操作可以实现为基于pixel卷积神经网络的卷积操作。
153.步骤403，基于该网络搜索模型构建语音识别模型。
154.其中，该语音识别模型用于对输入的流式语音数据进行处理，获得该流式语音数据对应的语音识别文本。
155.其中，当本技术所示的方案中，通过对初始网络进行模型搜索的目的是构建准确性较高的声学模型时，模型训练设备可以基于该网络搜索模型构建声学模型；该声学模型用于对该流式语音数据进行处理，获得该流式语音数据的声学识别信息；然后基于该声学模型以及解码图，构建语音识别模型。
156.一个语音识别模型，通常包含声学模型和解码图，其中，声学模型用于从输入的语音数据中识别出声学识别信息，例如音素、音节等等，而解码图则用于根据声学模型识别出
的声学识别信息，得到对应的识别文本。
157.其中，解码图通常包括且不限于音素/音节词典以及语言模型，其中，音素/音节词典通常包含字或词到音素/音节序列的映射。例如，输入一串音节序列串，音节词典可以输出对应的字或者词；通常来说，音素/音节词典与文本的领域无关，在不同的识别任务中为通用部分；语言模型通常由n
‑
gram语言模型转换而来，语言模型用来计算一个句子出现的概率，其利用训练数据和统计学方法训练而来。通常来说，不同领域的文本，例如新闻和口语对话的文本，常用词和词间搭配存在较大的差异，因此，当进行不同领域的语音识别时，可以通过改变语言模型来实现适配。
158.本技术实施例提出的latency
‑
controlled nas算法，搜索得到的神经网络结构时延只由固定数目的reduction cell确定，模型结构迁移到各种语音识别应用方向时，迁移后的模型延时不会随着模型结构中cell层数的变化为变化，尤其是面向大规模语音识别任务，迁移后的模型结构非常复杂(cell层数很多)，传统的nas算法很难对延时进行有效地控制。而新算法的设计，能够保证迁移后的模型结构延时固定，适应各种语音识别任务，包括大规模语音识别任务，本技术的应用实例，能够生成面向大规模语音识别任务的低延时流式识别模型网络结构。
159.步骤404，语音识别设备接收流式语音数据。
160.上述语音识别模型构建完成后，可以部署至语音识别设备，执行对流式语音进行识别的任务。在流式语音识别任务中，流式语音识别场景中的语音采集设备可以持续采集流式语音，并输入语音识别设备。
161.步骤405，语音识别设备通过语音识别模型对该流式语音数据进行处理，获得该流式语音数据对应的语音识别文本。
162.在一种可能的实现方式中，该语音识别模型中包含声学模型以及解码图，该声学模型是基于该网络搜索模型构建的；
163.语音识别设备可以通过该声学模型对该流式语音数据进行处理，获得该流式语音数据的声学识别信息；该声学识别信息包括音素、音节或者半音节；然后通过该解码图对该流式语音数据的声学识别信息进行处理，获得该语音识别文本。
164.在本技术实施例中，当上述语音识别模型中的声学模型是通过上述步骤中的神经网络结构搜索构建的模型时，在语音识别过程中，语音识别设备可以通过语音识别模型中的声学模型对流式语音数据进行处理，得到相应的音节或者音素等声学识别信息，然后将声学识别信息输入至由语音词典、语言模型等构成的解码图中进行解码，得到相应的语音识别文本。
165.步骤406，语音识别设备输出该语音识别文本。
166.在本技术实施例中，语音识别设备输出语音识别文本之后，该语音识别文本可以应用于后续的处理，例如，将语音识别文本或者其翻译文本作为字幕进行展示，或者，将语音识别文本的翻译文本转换为语音后进行播放等等。
167.综上所述，本技术实施例所示的方案，通过将初始网络中的第一类型操作元的操作空间中，需要依赖上下文信息的指定操作设置为不依赖未来数据的指定操作，然后对该初始网络进行神经网络结构搜索，以构建语音识别模型。由于模型中引入了不依赖未来数据的指定操作，且通过神经网络结构搜索可以搜索出准确性较高的模型结构，因此，通过上
述方案，能够在保证语音识别的准确性的情况下，降低在流式语音识别场景下的识别时延，提高流式语音识别的效果。
168.以上述图4所示的方案应用于流式语音识别任务为例，请参考图10，其是根据一示例性实施例示出的一种模型构建及语音识别框架示意图。如图10所示：
169.在模型训练设备中，首先从操作空间存储器1011中读取预设的操作空间1012，并在样本集存储器中读取预设的语音训练样本(包括语音样本和对应的音节信息)，根据该预设的语音训练样本与该预设的操作空间1012，对预设的初始网络1013(比如上述图5所示的网络)进行神经网络结构搜索，获得网络搜索模型1014。
170.然后，模型训练设备基于网络搜索模型1014构建声学模型1015，该声学模型1015的输入可以为语音数据以及语音数据的历史识别结果对应的音节，输出为预测的当前语音数据的音节。
171.模型训练设备基于上述声学模型1015，以及预先设置好的解码图1016，构建语音识别模型1017，并将语音识别模型1017部署至语音识别设备中。
172.在语音识别设备中，语音识别设备获取语音采集设备采集到的流式语音数据1018，并对流式语音数据1018进行切分后，将切分得到的各个语音帧输入到语音识别模型1017中，由语音识别模型1017进行识别得到语音识别文本1019，并输出该语音识别文本1019，以便对语音识别文本1019执行展示/翻译/自然语言处理等操作。
173.图11是根据一示例性实施例示出的一种语音识别装置的结构方框图。该语音识别装置可以实现由图2或图4所示实施例提供的方法中的全部或部分步骤，该语音识别装置包括：
174.语音数据接收模块1101，用于接收流式语音数据。
175.语音数据处理模块1102，用于通过语音识别模型对所述流式语音数据进行处理，获得所述流式语音数据对应的语音识别文本；所述语音识别模型是基于网络搜索模型构建的；所述网络搜索模型是通过语音训练样本对初始网络进行神经网络结构搜索获得的；所述初始网络中包含通过操作元相连的多个特征聚合节点，所述多个特征聚合节点之间的操作元中包括第一类型操作元，所述第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；所述第一操作空间中的一种或者多种操作的组合用于实现所述第一类型操作元；所述指定操作为依赖上下文信息的神经网络操作；所述语音训练样本中包含语音样本，以及所述语音样本对应的语音识别标签。
176.文本输出模块1103，用于输出所述语音识别文本。
177.在一种可能的实现方式中，所述初始网络包含n个单元网络，所述n个单元网络中包含至少一个第一单元网络，所述第一单元网络中包含输入节点、输出节点、以及由所述第一类型操作元相连的至少一个所述特征聚合节点。
178.在一种可能的实现方式中，所述n个单元网络之间通过以下连接方式中的至少一种相连：
179.双链接方式、单链接方式、以及密集链接方式。
180.在一种可能的实现方式中，所述n个单元网络中包含至少一个第二单元网络，所述第二单元网络中包含输入节点、输出节点、以及由第二类型操作元相连的至少一个所述特征聚合节点；所述第二类型操作元对应的第二操作空间中包含依赖未来数据的所述指定操
作；所述第二操作空间中的一种或者多种操作的组合用于实现所述第二类型操作元。
181.在一种可能的实现方式中，至少一个所述第一单元网络之间共享拓扑结构和网络参数，且至少一个所述第二单元网络之间共享拓扑结构和网络参数。
182.在一种可能的实现方式中，所述不依赖未来数据的指定操作是基于因果的所述指定操作；
183.或者，
184.所述不依赖未来数据的指定操作是基于掩膜的所述指定操作。
185.在一种可能的实现方式中，所述特征聚合节点用于对输入数据执行求和操作、拼接操作以及乘积操作中的至少一种。
186.在一种可能的实现方式中，所述指定操作包括卷及操作、池化操作、基于长短期记忆人工神经网lstm络的操作、以及基于门控循环单元gru的操作。
187.在一种可能的实现方式中，所述语音识别模型中包含声学模型以及解码图，所述声学模型是基于所述网络搜索模型构建的；
188.所述语音数据处理模块1102，用于，
189.通过所述声学模型对所述流式语音数据进行处理，获得所述流式语音数据的声学识别信息；所述声学识别信息包括音素、音节或者半音节；
190.通过所述解码图对所述流式语音数据的声学识别信息进行处理，获得所述语音识别文本。
191.综上所述，本技术实施例所示的方案，通过将初始网络中的第一类型操作元的操作空间中，需要依赖上下文信息的指定操作设置为不依赖未来数据的指定操作，然后对该初始网络进行神经网络结构搜索，以构建语音识别模型。由于模型中引入了不依赖未来数据的指定操作，且通过神经网络结构搜索可以搜索出准确性较高的模型结构，因此，通过上述方案，能够在保证语音识别的准确性的情况下，降低在流式语音识别场景下的识别时延，提高流式语音识别的效果。
192.图12是根据一示例性实施例示出的一种语音识别装置的结构方框图。该语音识别装置可以实现由图3或图4所示实施例提供的方法中的全部或部分步骤，该语音识别装置包括：
193.样本获取模块1201，用于获取语音训练样本，所述语音训练样本中包含语音样本，以及所述语音样本对应的语音识别标签；
194.网络搜索模块1202，用于基于所述语音训练样本，在初始网络进行神经网络结构搜索，获得网络搜索模型；所述初始网络中包含通过操作元相连的多个特征聚合节点，所述多个特征聚合节点之间的操作元中包括第一类型操作元，所述第一类型操作元对应的第一操作空间中包含不依赖未来数据的指定操作；所述第一操作空间中的一种或者多种操作的组合用于实现所述第一类型操作元；所述指定操作为依赖上下文信息的神经网络操作；
195.模型构建模块1203，用于基于所述网络搜索模型构建语音识别模型；所述语音识别模型用于对输入的流式语音数据进行处理，获得所述流式语音数据对应的语音识别文本。
196.在一种可能的实现方式中，所述语音识别标签包括所述语音样本的声学识别信息；所述声学识别信息包括音素、音节或者半音节；
197.所述模型构建模块1203，用于，
198.基于所述网络搜索模型构建声学模型；所述声学模型用于对所述流式语音数据进行处理，获得所述流式语音数据的声学识别信息；
199.基于所述声学模型以及所述解码图，构建所述语音识别模型。
200.综上所述，本技术实施例所示的方案，通过将初始网络中的第一类型操作元的操作空间中，需要依赖上下文信息的指定操作设置为不依赖未来数据的指定操作，然后对该初始网络进行神经网络结构搜索，以构建语音识别模型。由于模型中引入了不依赖未来数据的指定操作，且通过神经网络结构搜索可以搜索出准确性较高的模型结构，因此，通过上述方案，能够在保证语音识别的准确性的情况下，降低在流式语音识别场景下的识别时延，提高流式语音识别的效果。
201.图13是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为上述各个方法实施例中的模型训练设备和/或语音识别设备。所述计算机设备1300包括中央处理单元1301、包括随机存取存储器(random access memory，ram)1302和只读存储器(read
‑
only memory，rom)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
202.所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者光盘只读存储器(compact disc read
‑
only memory，cd
‑
rom)驱动器之类的计算机可读介质(未示出)。
203.不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、闪存或其他固态存储其技术，cd
‑
rom、或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
204.计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到互联网或者其它网络设备。
205.所述存储器还包括至少一条计算机指令，所述至少一条计算机指令存储于存储器中，处理器通过加载并执行该至少一条计算机指令来实现图2、图3或图4所示的方法的全部或者部分步骤。
206.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本技术各个实施例所示的方法。例如，所述非临时性计算机可读存储介质可以是只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、只读光盘(compact disc read
‑
only memory，cd
‑
rom)、磁带、软盘和光数据存储设备等。
207.在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序
产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例所示的方法。
208.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由权利要求指出。
209.应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：语音合成方法、可读存储介质及计算机程序产品与流程
下一篇：语音分离方法、装置、计算机设备及存储介质与流程

语音识别方法、装置、计算机设备及存储介质与流程

相关文献

最热文献