基于人工智能的语音识别方法、装置、设备和存储介质与流程

2022-02-25 23:58:59 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种基于人工智能的语音识别方法、装置、设备和存储介质。

背景技术：

2.目前语音转文字通常采用语音录入的交互方式，用户按住按钮说话，然后对录音的说话内容进行语音转文字识别。识别的主要有以下方案：
3.第一种方式是先进行音频录入，录入完成后生成音频文件后发送到后端服务器进行识别，这种方式的好处是相对稳定，服务器的负担更低，但无法实现实时语音识别。
4.第二种方案是不断把音频流发送到后端服务器进行识别，再对返回结果进行拼接，用户便可在说话的同时看到转录的文字结果。但这种方案的问题在于当用户手机环境不稳定的时候，建立链接需要一定的时间，当用户按住按钮开始说话时如果链接还未建立，就会造成语音刚开始的一部分内容丢失。为了解决这个问题，可以在用户按下按钮前就建立链接，但这种方案无论用户是否真的在录音，链接都将存在，会带来额外的服务器开销。如果用户量较大，则会大量空闲的通信链接会造成服务器资源浪费。

技术实现要素：

5.为了解决现有技术中无法实现实时语音识别或实时语音识别给服务器带来较大开销的技术问题。本技术提供了一种基于人工智能的语音识别方法、装置、设备和存储介质，其主要目的在于实现实时语音识别的同时能够有效减轻服务器的压力。
6.为实现上述目的，本技术提供了一种实时语音识别方法，该方法包括：
7.若接收到第一录音启动指令，则分配并监听第一存储区域；
8.将第一录音过程生成的音频数据暂存至第一存储区域中；
9.若监听到第一存储区域中存储有音频数据，则建立与服务器端的第一通信链接；
10.若第一通信链接成功建立，则将第一存储区域中的音频数据上传至服务器端，服务器端用于实时地将接收到的音频数据转换为对应的文本数据并返回至终端设备；
11.接收并显示服务器端返回的第一文本数据，第一文本数据为第一存储区域中的音频数据对应的文本数据。
12.此外，为实现上述目的，本技术还提供了一种实时语音识别装置，该装置包括：
13.第一缓存创建模块，用于若接收到第一录音启动指令，则分配并监听第一存储区域；
14.第一缓存模块，用于将第一录音过程生成的音频数据暂存至第一存储区域中；
15.第一链接建立模块，用于若监听到第一存储区域中存储有音频数据，则建立与服务器端的第一通信链接；
16.第一数据上传模块，用于若第一通信链接成功建立，则将第一存储区域中的音频数据上传至服务器端，其中，服务器端用于实时地将接收到的音频数据转换为对应的文本
数据并返回至终端设备；
17.接收显示模块，用于接收并显示服务器端返回的第一文本数据，其中，第一文本数据为第一存储区域中的音频数据对应的文本数据。
18.为实现上述目的，本技术还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时执行如前面任一项的实时语音识别方法的步骤。
19.为实现上述目的，本技术还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如前面任一项的实时语音识别方法的步骤。
20.本技术提出的基于人工智能的语音识别方法、装置、设备和存储介质，通过将用户的录音行为与链接的建立进行解耦，用户的录音操作仅控制录音的开启和关闭，而通信链接的建立由音频数据的存在与否进行驱动。仅当有音频数据时才建立通信链接，既保证了用户可以随时按下按钮进行录音，不会出现信息丢失，同时不会出现空闲链接，造成服务器的浪费。能在实现实时语音识别的同时，不受网络影响而丢失信息，并且能够有效减轻服务器的压力。用户的操作不依赖网络，操作体验上将会更加通畅。同时针对某些边界问题处理上，会更加简单稳定，例如用户反复点击录音按钮又不说话的场景中，由于音频数据为空，因此不需要去处理多次无效录音情况下反复建立和断开长链接的冲突，提高了应用的稳定性，既降低了开发过程中问题的复杂性，也提高了用户实际应用的体验。
附图说明
21.图1为本技术一实施例中实时语音识别方法的应用场景图；
22.图2为本技术一实施例中实时语音识别方法的流程示意图；
23.图3为本技术一实施例中实时语音识别装置的结构框图；
24.图4为本技术一实施例中计算机设备的内部结构框图。
25.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
26.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
27.本技术提供的实时语音识别方法，可应用在如图1的实时语音识别系统中。该实时语音识别系统包括通过网络通信的终端设备110和服务器端120。其中，终端设备110可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器端120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端设备110中安装有应用程序。终端设备110若接收到第一录音启动指令，则分配并监听第一存储区域；将第一录音过程生成的音频数据暂存至第一存储区域中；若监听到第一存储区域中存储有音频数据，则建立与服务器端120的第一通信链接；若第一通信链接成功建立，则将第一存储区
域中的音频数据上传至服务器端120，服务器端120用于实时地将接收到的音频数据转换为对应的文本数据并返回至终端设备110；接收并显示服务器120端返回的第一文本数据，第一文本数据为第一存储区域中的音频数据对应的文本数据。
28.图2为本技术一实施例中实时语音识别方法的流程示意图。参考图2，以该方法应用在图1中的终端设备为例进行说明。该实时语音识别方法包括以下步骤s100-s500。
29.s100：若接收到第一录音启动指令，则分配并监听第一存储区域。
30.具体地，本实施例具体应用于安装有应用程序的终端设备，应用程序具体可以为应用程序上的小程序或应用程序app等不局限于此。该应用程序具有语音通话功能，当用户按住应用程序上的语音录音按钮时，则生成了录音启动指令。例如，在微信app上当用户需要发送语音时，必须先长按“按住说话”这个按钮，并通过终端设备的语音模块接收用户的语音并录音。
31.第一存储区域可以是从终端设备的内存中分配的。
32.s200：将第一录音过程生成的音频数据暂存至第一存储区域中。
33.具体地，第一录音过程为接收到第一录音启动指令到接收到第一录音停止指令期间的录音过程。音频数据具体为一种音频流，更具体是一种二进制数据流。终端设备接收用户的语音，并将接收到的用户语音转换为音频流。由于在接收到录音启动指令后快速建立对应的数据缓存，实现了对音频数据的缓存，因为不论通信链接是否建立，都不会丢失音频数据。
34.本实施例在接收到录音启动指令后，迅速创建对应的数据缓存，可以及时存储生成的音频数据，减少音频数据的丢失。
35.s300：若监听到第一存储区域中存储有音频数据，则建立与服务器端的第一通信链接。
36.具体地，本实施例在接收到第一录音启动指令之前，终端设备没有与服务器端建立用于语音识别的通信链接，而是在监听到第一存储区域中存储有音频数据的时候才会建立第一通信链接。第一通信链接用于终端设备与服务器端的语音识别。第一通信链接是一种长链接，具体可以是一种基于websocket协议的websocket链接。本实施例在有音频数据产生时才建立通信链接，可以减少空闲通信链接对网络资源的占用和消耗。
37.s400：若第一通信链接成功建立，则将第一存储区域中的音频数据上传至服务器端，其中，服务器端用于实时地将接收到的音频数据转换为对应的文本数据并返回至终端设备。
38.具体地，第一存储区域遵循先进先出的策略，先进入第一存储区域的音频数据优先上传至服务器端。本实施例通过第一通信链接对应的通信通道将第一存储区域中的音频数据实时地上传至服务器端，服务器端根据语音转文本技术将接收到的音频数据转换为对应的文本数据，并将转换得到的文本数据返回至终端设备。这样保证了先产生的语音优先识别，且返回的文本数据能够根据语音顺序有序显示。
39.s500：接收并显示服务器端返回的第一文本数据，其中，第一文本数据为第一存储区域中的音频数据对应的文本数据。
40.具体地，在应用程序对应的语音下方或旁边、按照语音发出的先后顺序、有序地显示对应的文本数据。使得一条完整语音对应的完整文本语句通顺、有条理。
41.本技术将用户的录音行为与链接的建立进行解耦，用户的录音操作仅控制录音的开启和关闭，而通信链接的建立由音频数据的存在与否进行驱动。仅当有音频数据时才建立通信链接，既保证了用户可以随时按下按钮进行录音，同时由于录音的同时创建了数据缓存，因此不论通信链接是否已建立，都不会出现语音数据的丢失，克服了现有技术中由于没有缓存导致产生的音频数据必须通过通信链接即时发送出去，导致出现通信链接没有成功建立之前或网络不稳定的情况下语音数据丢失的问题，有效保证了语音数据的完整性。由于在有音频数据产生时才会建立通信链接，在没有音频数据前不会建立通信链接，因此不会出现空闲链接，减少了对服务器资源和网络资源的浪费。本实施例能在实现实时语音识别的同时，不受网络影响而丢失信息，并且能够有效减轻服务器的压力。用户的操作不依赖网络，操作体验上将会更加通畅。同时针对某些边界问题处理上，会更加简单稳定，例如用户反复点击录音按钮又不说话的场景中，由于音频数据为空，因此不需要去处理多次无效录音情况下反复建立和断开长链接的冲突，提高了应用的稳定性，既降低了开发过程中问题的复杂性，也提高了用户实际应用的体验。
42.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。例如，本技术实施例中服务器端将语音转换为文本使用到了人工智能技术。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
43.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
44.在一个实施例中，在步骤s500之后，该方法还包括：
45.若第一通信链接为空闲状态，则断开第一通信链接。
46.具体地，如果没有数据传输，则断开第一通信链接，数据包括音频数据和文本数据。如果第一存储区域中的音频数据全部上传至服务器端，且接收到服务器端返回的全部文本数据，且没有其他数据缓存需要通过该第一通信链接对应的通信通道上传音频数据或接收文本数据，则判断该第一通信链接为空闲状态，可以断开。在通信链接处于空闲状态时及时断开链接，可以有效降低对服务器资源的占用和浪费，降低服务器的额外无效开销。
47.在一个实施例中，该方法还包括：将第一存储区域中已成功上传至服务器端的音频数据从第一存储区域的头部移出。
48.具体地，终端设备将第一存储区域中的音频数据上传至服务器端的过程还会接收到服务器端返回的确认接收到数据包的响应，因此，通过该确认收包响应可以确定哪些音频数据被顺利接收，进而将已成功顺利接收的音频数据从缓存中移出，以减少对内存的占用。
49.在一个实施例中，在步骤s200之后，该方法还包括：
50.若在第一录音结束之后，接收到第二录音启动指令，则分配并监听第二存储区域；
51.将第二录音过程生成的音频数据暂存至第二存储区域中；
52.若第一通信链接已断开，则若监听到第二存储区域中存储有音频数据，建立与服
务器端的第二通信链接，
53.若第二通信链接成功建立，则通过第二通信链接将第二存储区域中的音频数据上传至服务器端，
54.通过第二通信链接接收并显示服务器端返回的第二文本数据，其中，第二文本数据为第二存储区域中的音频数据对应的文本数据；
55.若第一通信链接未断开，则通过第一通信链接将第二存储区域中的音频数据上传至服务器端，
56.通过第一通信链接接收并显示服务器端返回的第二文本数据。
57.具体地，在语音聊天或通信中，往往一段连续的语音是有时间限制的，因此，用户需要在不同发送时刻发送多段语音。每一段语音都由一个录音启动指令发起，由对应的录音停止指令结束。本实施例每接收到一个录音启动指令，则分配并监听一个对应的数据缓存；将录音过程生成的音频数据暂存至对应的数据缓存中；若监听到数据缓存中存储有音频数据且未建立与服务器端的通信链接，则建立与服务器端的通信链接；若通信链接成功建立，则将数据缓存中的音频数据上传至服务器端用以将音频数据转换为对应的文本数据。如果已建立与服务器端的通信链接，则直接通过该通信链接对应的通信通道将数据缓存中的音频数据上传至服务器端，而无需再建立新的通信链接。
58.本实施例解决的是在不同次的录音过程生成的音频数据的存储，每新启动的一个录音过程生成的音频数据存储在对应新创建的数据缓存中。解决了相邻两段录音过程间隔时长过长导致对数据缓存的占用。
59.另外，如果相邻两段录音过程间隔时长比较短，则可能前面建立的通信链接还没有断开，此情况则不需要重新建立新的通信链接而是沿用未断开的通信链接来进行数据的传输。如果通信链接已断开，则需要重新建立新的通信链接来传输音频数据至服务器端，并接收服务器端经语音识别得到的文本数据。
60.同理，如果没有数据传输，则断开第二通信链接，数据包括音频数据和文本数据。如果第二存储区域中的音频数据全部上传至服务器端，且接收到服务器端返回的全部文本数据，且没有其他数据缓存需要通过该第二通信链接对应的通信通道上传音频数据或接收文本数据，则判断该第二通信链接为空闲状态，可以断开。在通信链接处于空闲状态时及时断开链接，可以有效降低对服务器资源的占用和浪费，降低服务器的额外无效开销。
61.同理，该方法还包括：将第二存储区域中已成功上传至服务器端的音频数据从第二存储区域的头部移出。
62.具体地，终端设备将第二存储区域中的音频数据上传至服务器端的过程还会接收到服务器端返回的确认接收到数据包的响应，因此，通过该确认收包响应可以确定哪些音频数据被顺利接收，进而将已成功顺利接收的音频数据从缓存中移出，以减少对内存的占用。
63.在一个实施例中，在步骤s200之后，该方法还包括：
64.若在第一录音结束之后，在预设时长内接收到第二录音启动指令，则将第二录音过程生成的音频数据暂存至第一存储区域中。
65.具体地，接收到录音启动指令后在录音一段时长后，用户会发送录音停止指令，例如，松开录音按钮，则生成了录音停止指令。
66.在第一录音停止之后，用户还可以继续开启新一段的第二录音。
67.如果第二录音的开启时刻与第一录音的结束时刻相距时长小于预设时长，则将第二录音过程生成的音频数据继续缓存至第一存储区域中。此时，第一存储区域中可能还存在第一录音生成的音频数据，也可能为空，但是第一存储区域依然存在并没有被移除，且由于服务器端需要通过第一通信链接返回文本数据和/或第一存储区域中的音频数据没有全部上传至服务器端，因此第一通信链接还未断开，即在预设时长内第一通信链接未断开。
68.新增加至第一存储区域中的音频数据会通过第一通信链接对应的通信通道上传至服务器端，服务器端也会根据第一通信链接对应的通信通道将转换得到的文本数据返回至终端设备。
69.本实施例在一定的条件下可以实现不同录音过程生成的音频数据存储在同一个存储区域，而在本实施例的上一个实施例中不同录音过程生成的音频数据均独立存储在不同的存储区域，即，不同录音过程生成的音频数据都不共存于同一个存储区域。本实施例和本实施例的上一个实施例择一执行。
70.在一个实施例中，该方法还包括：
71.若在第一录音结束之后，在预设时长之后接收到第二录音启动指令，则分配并监听第二存储区域；
72.将第二录音过程生成的音频数据暂存至第二存储区域中；
73.若第一通信链接未断开，则通过第一通信链接将第二存储区域中的音频数据上传至服务器端，其中，服务器端用于实时地将接收到的音频数据转换为对应的文本数据并返回至终端设备，
74.通过第一通信链接接收并显示服务器端返回的第二文本数据，其中，第二文本数据为第二存储区域中的音频数据对应的文本数据；
75.若第一通信链接已断开，则若监听到第二存储区域中存储有音频数据，则建立与服务器端的第二通信链接，
76.若第二通信链接成功建立，则通过第二通信链接将第二存储区域中的音频数据上传至服务器端，服务器端用于实时地将接收到的音频数据转换为对应的文本数据并返回至终端设备，
77.通过第二通信链接接收并显示服务器端返回的第二文本数据。
78.具体地，若在第一录音结束之后，在预设时长内未接收到第二录音启动指令，且在第一录音结束之后的预设时长内，第一存储区域中的音频数据已全部上传至服务器端，则第一存储区域会被清空并销毁或移除。因此，在预设时长之后，如果接收到第二录音启动指令，则会新建第二存储区域，并监听该第二存储区域中是否存在音频数据。
79.在预设时长之后，第一通信链接可能未断开，也可能已断开。如果在接收到第二录音启动指令时，服务器端还没有向终端设备返回全部的文本数据，则第一通信链接不会断开。第二存储区域中的音频数据可以继续通过该第一通信链接上传至服务器端，服务器端也会通过该第一通信链接返回至对应的文本数据。
80.如果监测到第二存储区域中已开始存储音频数据，且第一通信链接已断开，则需要重新建立终端设备与服务器端的第二通信链接。在同一时间第一通信链接和第二通信链接最多只会存在一个。
81.本实施例尽可能减少了相邻两段语音时间间隔较长时对内存的无效占用，同时根据实际任务的完成情况来断开通信链接，在有新的任务加入时沿用未断开的通信链接或新建新的通信链接，实现了网络资源和服务器资源的充分利用、减少资源浪费。
82.本实施例在超过预设时长后新启动的录音过程生成的音频数据存储在新分配的存储区域。本实施例与本实施例的上一个实施例的区别在于：在不同的时间节点新启动的录音过程生成的音频数据是否能够共存在一个存储区域。本实施例和本实施例的上一个实施例择一执行。
83.在一个实施例中，步骤s200具体包括：
84.每当录音过程新生成的音频数据的累计数据量达到预设的回调数据量时，调用录音接口，以对达到回调数据量的该新生成的音频数据进行一次回调并暂存入第一存储区域中。
85.具体地，回调数据量为预先配置的，单位为kb。录音接口为终端设备提供的，例如微信提供的录音接口，录音接口用于接收用户的语音并生成音频数据。每当音频数据累积到回调数据量，则进行一次音频流回调。回调的目的是将生成的音频数据存进数据缓存。回调后重新累计新生成的音频数据直到达到回调数据量再次被回调存入数据缓存。当然，如果最后一次累计的音频数据没有达到回调数据量就接收到了录音停止指令，则直接调用录音接口执行数据回调。
86.在一个实施例中，步骤s300中建立与服务器端的第一通信链接，具体包括：
87.将预设的语音转换规则、认证信息以及用户身份信息加密后发送至服务器端，以建立与服务器端的第一通信链接。
88.具体地，建立通信链接的目的是权限认证和用户身份认证，以及达成一致的转换共识，使服务器端根据预设的语音转换规则转换成终端设备所要求格式的文本数据。建立通信链接后，服务器端能够知道音频数据是哪个用户所在的终端设备发送的，也知道转换的文本数据该回传给哪个用户所在的终端设备。后续使用该通信链接对应的通信通道发送音频数据不需要每次都携带用户身份信息，也不需要每次都需要认证。
89.当然，本实施例终端设备与服务器端不论是建立第一通信链接还是建立第二通信链接都是采用本实施例的方法。
90.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
91.图3为本技术一实施例中实时语音识别装置的结构框图。参考图3，该装置包括：
92.第一缓存创建模块100，用于若接收到第一录音启动指令，则分配并监听第一存储区域；
93.第一缓存模块200，用于将第一录音过程生成的音频数据暂存至第一存储区域中；
94.第一链接建立模块300，用于若监听到第一存储区域中存储有音频数据，则建立与服务器端的第一通信链接；
95.第一数据上传模块400，用于若第一通信链接成功建立，则将第一存储区域中的音频数据上传至服务器端，其中，服务器端用于实时地将接收到的音频数据转换为对应的文本数据并返回至终端设备；
96.接收显示模块500，用于接收并显示服务器端返回的第一文本数据，其中，第一文本数据为第一存储区域中的音频数据对应的文本数据。
97.在一个实施例中，该装置还包括：
98.链接断开模块，用于若第一通信链接为空闲状态，则断开第一通信链接。
99.在一个实施例中，该装置还包括：
100.第二缓存创建模块，用于若在第一录音结束之后，接收到第二录音启动指令，则分配并监听第二存储区域；
101.第二缓存模块，用于将第二录音过程生成的音频数据暂存至第二存储区域中；
102.第二链接建立模块，用于若第一通信链接已断开，则若监听到第二存储区域中存储有音频数据，建立与服务器端的第二通信链接，
103.第二数据上传模块，用于若第二通信链接成功建立，则通过第二通信链接将第二存储区域中的音频数据上传至服务器端，
104.接收显示模块500，还用于通过第二通信链接接收并显示服务器端返回的第二文本数据，其中，第二文本数据为第二存储区域中的音频数据对应的文本数据；
105.第一数据上传模块400，还用于若第一通信链接未断开，则通过第一通信链接将第二存储区域中的音频数据上传至服务器端，
106.接收显示模块500，还用于通过第一通信链接接收并显示服务器端返回的第二文本数据。
107.在一个实施例中，第一缓存模块200，还用于若在第一录音结束之后，在预设时长内接收到第二录音启动指令，则将第二录音过程生成的音频数据暂存至第一存储区域中。
108.在一个实施例中，该装置还包括：
109.第二缓存创建模块，用于若在第一录音结束之后，在预设时长之后接收到第二录音启动指令，则分配并监听第二存储区域；
110.第二缓存模块，用于将第二录音过程生成的音频数据暂存至第二存储区域中；
111.第一数据上传模块，还用于若第一通信链接未断开，则通过第一通信链接将第二存储区域中的音频数据上传至服务器端，服务器端用于实时地将接收到的音频数据转换为对应的文本数据并返回至终端设备，
112.接收显示模块500，还用于通过第一通信链接接收并显示服务器端返回的第二文本数据，其中，第二文本数据为第二存储区域中的音频数据对应的文本数据；
113.第二链接建立模块，用于若第一通信链接已断开，则若监听到第二存储区域中存储有音频数据，则建立与服务器端的第二通信链接，
114.第二数据上传模块，用于若第二通信链接成功建立，则通过第二通信链接将第二存储区域中的音频数据上传至服务器端，服务器端用于实时地将接收到的音频数据转换为对应的文本数据并返回至终端设备；
115.接收显示模块500，还用于通过第二通信链接接收并显示服务器端返回的第二文本数据。
116.在一个实施例中，第一缓存模块200具体用于：每当录音过程新生成的音频数据的累计数据量达到预设的回调数据量时，调用录音接口，以对达到回调数据量的该新生成的音频数据进行一次回调并暂存入第一存储区域中。
117.在一个实施例中，第一链接建立模块300具体用于：将预设的语音转换规则、认证信息以及用户身份信息加密后发送至服务器端，以建立与服务器端的第一通信链接。
118.其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本技术中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。
119.关于实时语音识别装置的具体限定可以参见上文中对于实时语音识别方法的限定，在此不再赘述。上述实时语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
120.图4为本技术一实施例中计算机设备的内部结构框图。该计算机设备具体可以是图1中的终端设备。如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质，也可以是易失性存储介质。存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现实时语音识别方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行实时语音识别方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
121.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序)，处理器执行计算机可读指令时实现上述实施例中实时语音识别方法的步骤，例如图2所示的步骤s100至步骤s500及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机可读指令时实现上述实施例中实时语音识别装置的各模块/单元的功能，例如图3所示模块100至模块500的功能。为避免重复，这里不再赘述。
122.处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。
123.存储器可用于存储计算机可读指令和/或模块，处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块，以及调用存储在存储器内的数据，实现计算机装置的
各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
124.存储器可以集成在处理器中，也可以与处理器分开设置。
125.本领域技术人员可以理解，图4中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
126.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中实时语音识别方法的步骤，例如图2所示的步骤s100至步骤s500及该方法的其它扩展和相关步骤的延伸。或者，计算机可读指令被处理器执行时实现上述实施例中实时语音识别装置的各模块/单元的功能，例如图3所示模块100至模块500的功能。为避免重复，这里不再赘述。
127.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指示相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双倍速率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
128.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
129.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
130.以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种对声调建模的声音转换方法及系统、计算机设备与流程

基于人工智能的语音识别方法、装置、设备和存储介质与流程

相关文献

最热文献