农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

音频识别方法、装置、计算机设备和存储介质与流程

2021-08-03 14:28:00 来源：中国专利 TAG：数据处理识别装置音频计算机

本申请涉及数据处理领域，尤其涉及一种音频识别方法、装置、计算机设备和存储介质。

背景技术：

随着技术的不断进步，语音交互技术的应用越发的广泛，例如智能外呼机器人、智能客服质检等。

在语音交互过程中，为提高用户体验，需要及时对用户语音输入进行处理，以降低响应延时。比如在智能外呼场景下，就需要产品能够准确、快速地通过语音识别服务器将该语音识别成文字信息，然后再根据自然语言处理得到用户意图后，作出相应的回复，从而完成一轮对话。

然而，目前对不同的应用场景，往往会有不同的语音流的需求，如外呼电话类产生的是8k音频流，会议类产生的是16k的音频流，不同的应用场景、应用设备，往往会有不同的音频流产生。为了支持不同的业务，语音服务需要维护多套相似的系统，会产生大量的资源消耗和人力维护成本。

技术实现要素：

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种音频识别方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种音频识别方法，所述方法包括：

接收音频流信息，所述音频流信息中包括：音频流采样率；

根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；

接收音频流片段；

根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表；

根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。

本申请实施例中，所述输入控制参数包括：预设阈值和预设数据量；

所述根据输入控制参数，将音频流片段输入所述声学模型，获取得分列表，包括：

获取存储器中的所有音频流片段；

判断所述所有音频流片段的总数据量是否大于预设阈值；

如果所有音频流片段的总数据量大于预设阈值，则按照时间戳的顺序从后至前，依次获取多个音频流片段，将多个音频流片段的总和作为所述待识别音频流，使所述待识别音频流的总数据量等于预设数据量，其中，所述最后一个时间戳对应的音频流片段为当前音频流片段；

根据所述声学模型，获取所述待识别音频流对应的第一得分列表；

从所述第一得分列表中，筛选出当前音频流片段对应的第二得分列表。

本申请实施例中，所述根据解码参数，将得分列表输入解码器中，获取识别结果，包括：

将所述第二得分列表和上一时间戳对应的解码参数输入所述解码器，得到当前音频流片段的识别结果；

所述得到当前音频流片段的识别结果之后，所述方法还包括：

生成并存储当前时间戳对应的解码参数。

本申请实施例中，所述接收音频流信息之前，所述方法还包括：

接收长连接申请；

根据所述长连接申请，建立与用户端之间的长连接；

接收所述用户端通过所述长连接发送的验证信息；

根据所述验证信息对所述用户端进行身份验证，如果验证通过，则允许接收所述音频流信息。

本申请实施例中，首次接收的音频流信息中还包括单次传输数据量；

所述根据音频流采样率获取声学模型的输入控制参数和解码器的解码参数，包括：

根据音频流采样率和单次传输数据量，得到初始化解码参数；

根据音频流采样率和单次传输数据量，获取预设阈值和预设数据量。

本申请实施例中，所述接收音频流片段之后，所述将音频流片段输入声学模型之前，所述方法还包括：

将所述音频流片段存储至存储器，存储的所述音频流片段中携带时间戳。

本申请实施例中，如果所有音频预设数据量片段的总数据量小于等于预设阈值，则所述方法还包括：

将存储器中的所有音频流片段作为待识别音频流；

根据所述声学模型，获取所述待识别音频流对应的第三得分列表；

将所述第三得分列表和初始化解码参数输入解码器，得到所述待识别音频流的识别结果，将所述待识别音频流的识别结果作为当前音频流片段的识别结果；

初始化解码参数。

本申请实施例中，所述方法还包括：

判断接收到的所有音频流片段的识别结果是否已经发送结束；

若已发送结束，则判断是否接收到用户端发送的音频流传输结束标志；

若已接收到所述音频流传输结束标志，则断开与所述用户端之间的长连接。

本申请实施例中，所述获取存储器中的所有音频流片段之前，所述方法还包括：

判断接收到的音频流片段是否为静音片段；

如果不是静音片段，则判断所述音频流片段是否完整；

如果完整，则将所述音频流片段存储至所述存储器中。

第二方面，提供给了一种音频识别装置，所述装置包括：

接收单元，用于接收音频流信息，所述音频流信息中包括：音频流采样率；

处理器，用于根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；

接收单元还用于接收音频流片段；

模型单元，用于将所述音频流片段输入声学模型，获取得分列表；

解码单元，用于根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。

第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

上述音频识别方法、装置、计算机设备和存储介质，所述方法包括：接收音频流信息，所述音频流信息中包括：音频流采样率；根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；接收音频流片段；根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表；根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。本申请实施例中，根据接收到的音频流采样率，获取声学模型的输入控制参数以及解码器的解码参数，根据声学模型和解码器获得识别结果，无需根据采样率配备多套系统，可以减少成本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1所示为本发明实施例中音频识别方法的应用环境图；

图2所示为本发明实施例中音频识别方法的流程示意图；

图3所示为本发明实施例中音频识别方法的流程示意图；

图4所示为本发明实施例中音频识别方法的流程示意图；

图5所示为本发明实施例中音频识别方法的流程示意图；

图6所示为本发明实施例中音频识别装置的结构框图；

图7所示为本发明实施例中计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中音频识别方法的应用环境图。参照图1，该音频识别方法应用于音频识别系统。该音频识别系统包括用户端110和服务器120。用户端110和服务器120通过网络连接。用户端110具体可以是台式用户端或移动用户端，移动用户端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种音频识别方法。本实施例主要以该方法应用于上述图1中服务器120来举例说明。参照图2，该音频识别方法包括：

步骤210，接收音频流信息，所述音频流信息中包括：音频流采样率。

在步骤210之前，即在所述接收音频流信息之前，所述方法还包括：

接收长连接申请；

根据所述长连接申请，建立与用户端之间的长连接；

接收所述用户端通过所述长连接发送的验证信息；

根据所述验证信息对所述用户端进行身份验证，如果验证通过，则允许接收所述音频流信息。

如果验证不通过，则不允许接收音频流信息。

步骤220，根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数。

本申请实施例中，音频流采样率不同，但声学模型是相同的。该声学模型初始化建立之后，会根据不同采样率的音频流进行训练，因此本申请的声学模型对不同采样率的音频流，都可以进行音频识别。

声学模型的输入控制参数，包括：输入控制参数包括：预设阈值和预设数据量。解码器的解码参数，将在下文做详细解释。

本申请实施例中，声学模型是指通过训练集训练得到的模型，训练集可以是音频和/或标注。

现有技术中，通常采用的模型结构是cnn transform ctc。上述结构的模型比较多，本申请实施例的声学模型用到的训练方法可以是：

获取与不同采样率的待训练音频对应的第一线性频谱，所述第一线性频谱的横坐标为频谱序列序号，纵坐标为频域序号，横坐标和纵坐标确定的坐标点的值为与所述待训练音频对应的原始幅度值；确定所述不同采样率中的最大采样率和除所述最大采样率以外的其他采样率；确定与所述其他采样率对应的第一线性频谱的最大频域序号为第一频域序号；确定与所述最大采样率对应的第一线性频谱的最大频域序号为第二频域序号；在与所述其他采样率对应的第一线性频谱中，将与大于所述第一频域序号、且小于或等于所述第二频域序号的每个频域序号对应的幅度值设置为零，得到与所述其他采样率对应的第二线性频谱；根据与所述最大采样率对应的第一线性频谱的第一梅尔谱特征，确定所述最大采样率的待训练音频的第一语音特征；根据与所述其他采样率对应的第二线性频谱的第二梅尔谱特征，确定所述其他采样率的待训练音频的第二语音特征；利用所述第一语音特征和所述第二语音特征，训练机器学习模型。

本申请实施例中，声学模型还可以是其他结构，模型的训练方法也可以是其他方法，采用的声学模型结构和训练方法不影响本申请方法的事实，在此不再赘述。

步骤230，接收音频流片段。

本申请实施例中，用户端是不断发送音频流片段的，因此服务器也是不断接收音频流片段的。

首次接收的音频流信息中还包括单次传输数据量；

根据音频流采样率获取声学模型的输入控制参数和解码器的解码参数，包括：

根据音频流采样率和单次传输数据量，得到初始化解码参数；

根据音频流采样率和单次传输数据量，获取预设阈值和预设数据量。

用户端按照单次传输数据量来传输音频流片段，即每一个音频流片段的数据量是等于单次传输数据量的。

基本申请中，预设阈值是根据音频流采样率和单次传输数据量来确认的，采样率例如16k，8k等

采样率，也称为采样速度或者采样频率，是指每秒从连续信号中提取并组成离散信号的采样个数，单位是赫兹(hz)。采样率越高，单位时间内采集的数据量就越大。即，本申请实施例中，采样率越高，用户端单位时间内采集到的数据量就越大，需要识别的数据量就越大。

采集到的数据量和单次传输数据量也是不同的，虽然用户端单位时间内采集到的数据量大，但是从用户端到服务器之间，数据传输速度是受到各种限制的，因此采样率高，不代表单次数据传输量就大；同时，单次数据传输量也和系统的单次传输间隔有关，例如系统的单次传输时间可以是0.1秒，或可以是1秒。

音频流采样率是用户端决定的，而单次数据传输量由用户端和服务端共同决定，可以在系统中预先设定，或可以在用户端和服务端进行通讯握手时共同约定，或可以是其他方式确定，在此不再赘述。

步骤240，根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表。

本申请实施例中，所述接收音频流片段之后，所述将音频流片段输入声学模型之前，即在步骤230之后，在步骤240之前，所述方法还包括：

将所述音频流片段存储至存储器，存储的所述音频流片段中携带时间戳。本申请实施例中，时间戳可以是发送时间戳、接收时间戳、或存储时间戳中的任一种，每一个音频流片段的时间戳类型需要保持一致。

时间戳是表示时间上先后顺序的标记，可以是数字，例如1、2、3、4，以发送时间戳为例，先发送的音频流片段的时间戳为1，下一个发送的音频流片段的时间戳为2。

步骤250，根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。

本申请实施例中，根据接收到的音频流采样率，获取声学模型的输入控制参数以及解码器的解码参数，根据声学模型和解码器获得识别结果，无需根据采样率配备多套系统，可以减少成本。本申请实施例中，步骤240中，根据所述输入控制参数，所述将音频流片段输入所述声学模型，获取得分列表，包括：

获取存储器中的所有音频流片段；

判断所述所有音频流片段的总数据量是否大于预设阈值；

如果所有音频流片段的总数据量大于预设阈值，则按照时间戳的顺序从后至前，依次获取多个音频流片段，将多个音频流片段的总和作为所述待识别音频流，使所述待识别音频流的总数据量等于预设数据量，其中，所述最后一个时间戳对应的音频流片段为当前音频流片段；

根据所述声学模型，获取所述待识别音频流对应的第一得分列表；

从所述第一得分列表中，筛选出当前音频流片段对应的第二得分列表。

本申请实施例中，所述根据解码参数，将得分列表输入解码器中，获取识别结果，包括：

将所述第二得分列表和上一时间戳对应的解码参数输入所述解码器，得到当前音频流片段的识别结果；

所述得到当前音频流片段的识别结果之后，所述方法还包括：

生成并存储当前时间戳对应的解码参数。

本申请实施例中，获取当前音频流片段的识别结果时，是将多个音频流片段的总和输入声学模型，由于输入的数据量较大(时长较长)，可以提高识别的准确度和精确度。

本申请实施例中，如果所有音频预设数据量片段的总数据量小于等于预设阈值，则所述方法还包括：

将存储器中的所有音频流片段作为待识别音频流；

根据所述声学模型，获取所述待识别音频流对应的第三得分列表；

将所述第三得分列表和初始化解码参数输入解码器，得到所述待识别音频流的识别结果，将所述待识别音频流的识别结果作为当前音频流片段的识别结果；

初始化解码参数。

本申请的一个实施例中，时间戳为1、2、3、4、5……，每一个音频流片段的数据量为1k，每一个音频流片段的数据量也可以和时长相转化，例如上述实施例中，也可以设定为每一个音频流片段的持续时长为0.2秒。

本申请实施例中，预设阈值可以设定为数据量，后可以设定为和数据量相关联、相转化的持续时长，因此也可以设定为1秒。

初始化之后，服务器接收用户端发送的音频流片段，每一个为0.2秒。

本申请实施例中，服务器在接收并存储时间戳为1的音频流片段(简称音频流片段1)后，在识别时，判断存储器中的音频流片段的总时长小于预设阈值1秒，因此将时间戳为1的音频流片段作为待识别音频流。将时间戳为1的音频流片段输入声学模型，获取得分列表，将该得分列表和初始化解码参数输入解码器，得到待识别音频流的识别结果，将待识别音频流的识别结果作为时间戳为1的音频流片段的识别结果，并初始化解码参数。

解码器每解码一次，解码参数都会发生改变，本申请实施例中，如果存储器所有音频预设数据量片段的总数据量小于等于预设阈值，流入存储器中只有时间戳为1的音频流片段，那么在获得识别结果之后，都会将解码参数初始化。

本申请实施例中，服务器在接收并存储时间戳为2的音频流片段(简称音频流片段2)后，存储器中有音频流片段1和音频流片段2，在识别时，判断存储器中的音频流片段的总时长为0.4秒，是小于预设阈值1秒，因此将音频流片段1和音频流片段2的总和作为待识别音频流。将音频流片段1和音频流片段2的总和输入声学模型，获取得分列表，将该得分列表和初始化解码参数输入解码器，得到待识别音频流的识别结果，将待识别音频流的识别结果作为时间戳为2的音频流片段的识别结果，并初始化解码参数。

本申请实施例中，服务器获取时间戳为3、4、5的音频流片段的识别结果，如上获取音频流片段2的识别结果相类似，在此不再赘述。

本申请实施例中，本申请实施例中，服务器在接收并存储时间戳为6的音频流片段(简称音频流片段6)后，此时存储器中有音频流片段1-6，在识别时，判断存储器中的音频流片段的总时长为1.2秒，是大于预设阈值1秒，此时，预设数据量为1秒，那么将按照时间戳的顺序从后至前，依次获取多个音频流片段，即获取6、5、4、3、2的音频流片段的总和作为待识别音频流，根据声学模型，获取待识别音频流对应的第一得分列表；从所述第一得分列表中，筛选出音频流片段6对应的第二得分列表。将音频流片段6对应的第二得分列表和时间戳5对应的解码参数输入所述解码器，得到当前音频流片段的识别结果；生成并存储时间戳6对应的解码参数。

时间戳为5对应的解码参数，是获取音频流片段5的识别结果后初始化的解码参数，因此此时的解码参数是初始化的解码参数。

在获取音频流片段7的识别结果时，用的是时间戳6的解码参数，时间戳6的解码参数并非初始化参数。

本申请如上实施例中，获取时间戳为6的音频流片段的识别结果时，是将音频流片段6、5、4、3、2的总和输入声学模型，由于输入的数据量较大(时长较长)，是可以提高识别的准确度和精确度的。

本申请上述实施例中，预设数据量为1秒，该数据量可以完整囊括多个音频流片段，如果预设数据量为0.9秒，由于每个音频路片段为0.2秒，无法整除，所以该预设数据量设置不合理。

本申请上述实施例中，预设数据量也可以设置为1.2秒或0.8秒，具体影响其设置的因素可参考上述实施例所述，在此不再赘述。

本申请实施例中，所述方法还包括：

判断接收到的所有音频流片段的识别结果是否已经发送结束；

若已发送结束，则判断是否接收到用户端发送的音频流传输结束标志；

若已接收到所述音频流传输结束标志，则断开与所述用户端之间的长连接。

本申请实施例中，所述获取存储器中的所有音频流片段之前，所述方法还包括：

判断接收到的音频流片段是否为静音片段；

如果不是静音片段，则判断所述音频流片段是否完整；

如果完整，则将所述音频流片段存储至所述存储器中。

本申请实施例中，静音片段指的是没有有效的可识别语音的音频，滤除静音片段和不完整音频流片段，只存储非静音完整音频流片段，可以提高后续音频流片段的识别效率。

图3所示为本申请实施例的音频识别方法的流程图，如图3所示，所述方法应用于用户端和服务器，所述方法包括：

步骤310，用户端发来长连接申请；

步骤320，服务器建立与用户端之间的长连接；

步骤330，服务器接收用户端通过长连接发送的验证信息；

步骤340，服务器对用户端进行身份验证，如果验证通过，则转至步骤350，如果不通过，则转至步骤394。

步骤350，用户端发送音频流信息，音频流发送结束后，发送结束标识。

步骤360，服务器根据音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数。

步骤370，服务器接收用户端发送的音频流片段；

步骤380，服务器将所述音频流片段输入声学模型，获取得分列表。

步骤390，服务器将得分列表输入解码器中，获取音频流片段的识别结果。

步骤391，服务器判断识别结果是否已经发送结束，若已发送结束，转至步骤392。

步骤392，判断是否接收到结束标识，如果接收到，则转至步骤393。

步骤393，服务器断开与用户端之间的长连接。

步骤394，服务器反馈验证不通过信息，结束。

本申请实施例中，根据接收到的音频流采样率，获取声学模型的输入控制参数以及解码器的解码参数，根据声学模型和解码器获得识别结果，无需根据采样率配备多套系统，可以减少成本。

图4所示为本申请实施例的音频识别方法的流程图，如图4所示，所述方法包括：

步骤410，首次接收音频流信息；

步骤420，根据音频流采样率和单次传输数据量，得到初始化解码参数；

步骤430，根据音频流采样率和单次传输数据量，获取预设阈值和/或预设数据量。

步骤440，接收音频流片段，判断音频流是否为静音片段，如果不是静音片段(否)，则转至步骤450，如果是静音片段(是)，则转至步骤460。

步骤450，判断系统是否为工作状态，如果是，则转至步骤480，如果不是，则转至步骤470。

步骤460，丢弃该音频流片段，转至步骤440。

步骤470，激活系统，转至步骤480。

步骤480，判断该音频流片段是否完整，如果完整(是)，则转至步骤490，如果不完整，则转至步骤460。

步骤490，将该音频流片段存储至存储器中。

步骤491，进行音频识别。

图5所示为本申请实施例的音频识别方法的流程图，如图5所示，所述方法包括：

步骤510，接收并存储音频流片段。

步骤520，判断存储器中的音频流时长是否大于预设阈值，如果大于(是)，则转至步骤530，如果小于(否)，则转至步骤570。

步骤530，按照时间戳的顺序从后至前，依次获取多个音频流片段，将多个音频流片段的总和作为所述待识别音频流，使所述待识别音频流的总数据量等于预设数据量；

步骤540，根据所述声学模型，获取所述待识别音频流对应的第一得分列表；

步骤550，从所述第一得分列表中，筛选出当前音频流片段对应的第二得分列表；

步骤560，更新解码参数，转至步骤520。

步骤570，将存储器中的所有音频流片段作为待识别音频流；

步骤580，根据所述声学模型，获取所述待识别音频流对应的第三得分列表；

步骤590，将所述第三得分列表和初始化解码参数输入解码器，得到所述待识别音频流的识别结果，将所述待识别音频流的识别结果作为当前音频流片段的识别结果；

步骤591，初始化解码参数，转至步骤520。

图2至图5为一个实施例中音频识别方法的流程示意图。应该理解的是，虽然图2至图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

和上述音频识别方法相对应，本申请还提供了一种音频识别装置，如图6所示，所述装置包括：

接收单元610，用于接收音频流信息，所述音频流信息中包括：音频流采样率；

处理器620，用于根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；

接收单元610还用于接收音频流片段；

模型单元630，用于将所述音频流片段输入声学模型，获取得分列表；

解码单元640，用于根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。

本申请实施例中，所述输入控制参数包括：预设阈值和预设数据量；所述模型单元630还用于：

获取存储器中的所有音频流片段；

判断所述所有音频流片段的总数据量是否大于预设阈值；

如果所有音频流片段的总数据量大于预设阈值，则按照时间戳的顺序从后至前，依次获取多个音频流片段，将多个音频流片段的总和作为所述待识别音频流，使所述待识别音频流的总数据量等于预设数据量，其中，所述最后一个时间戳对应的音频流片段为当前音频流片段；

根据所述声学模型，获取所述待识别音频流对应的第一得分列表；

从所述第一得分列表中，筛选出当前音频流片段对应的第二得分列表。

本申请实施例中，所述解码单元640还用于：

将所述第二得分列表和上一时间戳对应的解码参数输入所述解码器，得到当前音频流片段的识别结果；

所述得到当前音频流片段的识别结果之后，所述方法还包括：

生成并存储当前时间戳对应的解码参数。

本申请实施例中，所述装置还包括长连接建立单元，用于：

接收长连接申请；

根据所述长连接申请，建立与用户端之间的长连接；

接收所述用户端通过所述长连接发送的验证信息；

根据所述验证信息对所述用户端进行身份验证，如果验证通过，则允许接收所述音频流信息。

本申请实施例中，首次接收的音频流信息中还包括单次传输数据量；

本申请实施例中，所述处理器还用于：

根据音频流采样率和单次传输数据量，得到初始化解码参数；

根据音频流采样率和单次传输数据量，获取预设阈值和预设数据量。

本申请实施例中，所述装置还包括存储单元，用于：将所述音频流片段存储至存储器，存储的所述音频流片段中携带时间戳。

本申请实施例中，所述解码器还用于：

如果所有音频预设数据量片段的总数据量小于等于预设阈值，将存储器中的所有音频流片段作为待识别音频流；

根据所述声学模型，获取所述待识别音频流对应的第三得分列表；

将所述第三得分列表和初始化解码参数输入解码器，得到所述待识别音频流的识别结果，将所述待识别音频流的识别结果作为当前音频流片段的识别结果；

初始化解码参数。

本申请实施例中，所述长连接建立单元还用于：

判断接收到的所有音频流片段的识别结果是否已经发送结束；

若已发送结束，则判断是否接收到用户端发送的音频流传输结束标志；

若已接收到所述音频流传输结束标志，则断开与所述用户端之间的长连接。

本申请实施例中，所述存储单元还用于：在获取存储器中的所有音频流片段之前，判断接收到的音频流片段是否为静音片段；

如果不是静音片段，则判断所述音频流片段是否完整；

如果完整，则将所述音频流片段存储至所述存储器中。

本申请实施例中，根据接收到的音频流采样率，获取声学模型的输入控制参数以及解码器的解码参数，根据声学模型和解码器获得识别结果，无需根据采样率配备多套系统，可以减少成本。

图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图7所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现音频识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行音频识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：音频流采样率；根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；接收音频流片段；根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表；根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。

在一个实施例中，处理器执行计算机程序时还实现上述方法的步骤，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：音频流采样率；根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；接收音频流片段；根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表；根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。在一个实施例中，计算机程序被处理器执行时还实现上述方法的步骤，在此不再赘述。

在一个实施例中，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行以下步骤：音频流采样率；根据所述音频流采样率获取声学模型的输入控制参数，以及解码器的解码参数；接收音频流片段；根据所述输入控制参数，将所述音频流片段输入声学模型，获取得分列表；根据所述解码参数，将所述得分列表输入解码器中，获取所述音频流片段的识别结果。在一个实施例中，计算机程序产品或计算机程序执行时还实现上述方法的步骤，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音响解析方法以及音响解析装置与流程

音频识别方法、装置、计算机设备和存储介质与流程

相关文章

最热文献