一种语音数据量控制方法、装置和电子设备与流程

2022-04-30 06:09:33 来源：中国专利 TAG：

1.本公开涉及语音识别技术领域，尤其涉及一种语音数据量控制方法、装置和电子设备。

背景技术：

2.相关技术的语音解决方案中都涉及客户端采集用户语音数据并上传至服务端识别成文本的过程，此过程通常称之为语音识别，语音识别分为一次性识别和长时间持续识别。在长时间持续识别场景中，不同厂商或不同技术栈的语音识别引擎对输入的语音数据的要求不同，其中语音数据的发送频率会极大影响语音识别引擎的准确度和性能。单次发送的语音数据量越大，识别的准确度越高，但是性能越差，因为需要更长的识别时间；单次发送的语音数据量越小，识别时间越短，但识别的准确度低。因此，兼顾语音识别引擎识别准确度与性能的平衡，一直是相关领域的研究课题，也是本公开要解决的技术问题。

技术实现要素：

3.本公开提供一种语音数据量控制方法、装置和电子设备，以至少解决现有技术中存在的以上技术问题。
4.本公开一方面提供一种语音数据量控制方法，应用于电子设备，所述方法包括：
5.向服务端发送第一语音数据报文，并记录所述第一语音数据报文的发送时间戳，所述第一语音数据报文的数据量大小为第一数据量，且所述第一语音数据报文有对应的基准响应时间；
6.接收所述服务端返回的对应所述第一语音数据报文的第一响应，并记录所述第一响应的接收时间戳；
7.计算所述第一响应的接收时间戳与所述第一语音数据报文的发送时间戳之间的差值，并将所述差值与所述第一语音数据报文对应的基准响应时间进行比较，获得比较结果；
8.根据所述比较结果调整向服务端发送的第二语音数据报文的数据量大小，所述第二语音数据报文为在所述第一语音数据报文之后发送的报文。
9.在一可实施方式中，所述根据比较结果调整向服务端发送的第二语音数据报文的数据量大小，包括：
10.所述比较结果为所述差值大于所述第一语音数据报文对应的基准响应时间，且差值与所述基准响应时间之差的绝对值大于等于第一阈值，则确定所述第二语音数据报文的数据量大小为所述第一数据量减去第一调整量；
11.所述比较结果为所述差值大于所述第一语音数据报文对应的基准响应时间，且差值与所述基准响应时间之差的绝对值小于所述第一阈值，则确定所述第二语音数据报文的数据量大小等于所述第一数据量。
12.在一可实施方式中，所述根据比较结果调整向服务端发送的第二语音数据报文的
数据量大小，包括：
13.所述比较结果为所述差值小于所述第一语音数据报文对应的基准响应时间，且所述差值与所述基准响应时间之差的绝对值大于等于第二阈值，则确定所述第二语音数据报文的数据量大小为所述第一数据量加上第二调整量；
14.所述比较结果为所述差值小于所述第一语音数据报文对应的基准响应时间，且所述差值与所述基准响应时间之差的绝对值小于所述第二阈值，则确定所述第二语音数据报文的数据量大小等于所述第一数据量。
15.在一可实施方式中，所述方法还包括：
16.向服务端发送的所述第一语音数据报文为与所述服务端建立传输链接后发送的首个语音数据报文，则所述第一数据量为预设的基准数据量，所述第一语音数据报文对应的基准响应时间为预设值。
17.在一可实施方式中，所述首个语音数据报文对应的基准响应时间的预设值通过以下方式确定：
18.所述电子设备与所述服务端建立本次传输链接的发起时间戳、与所述电子设备与所述服务端断开前一次传输链接的时间戳相减，相减结果小于等于第三阈值，则取所述前一次传输链接过程中最后一次语音数据报文的发送时间戳与对应响应的接收时间戳差值的绝对值为所述预设值；相减结果大于所述第三阈值，则取默认值为所述预设值。
19.在一可实施方式中，所述方法还包括：
20.将所述第二语音数据报文对应的基准响应时间更新为：所述第一响应的接收时间戳与所述第一语音数据报文的发送时间戳之间的差值的绝对值。
21.在一可实施方式中，所述方法还包括：
22.将所述第二语音数据报文对应的基准响应时间更新为：对在所述第二语音数据之前发送的预设数量的各语音数据报文对应的发送时间戳与响应的接收时间戳之间的差值的绝对值求和，再取平均值。
23.本公开另一方面提供一种语音数据量控制装置，包括：
24.发送单元，用于向服务端发送第一语音数据报文，并记录所述第一语音数据报文的发送时间戳，所述第一语音数据报文的数据量大小为第一数据量，且所述第一语音数据报文有对应的基准响应时间；
25.接收单元，用于接收所述服务端返回的对应所述第一语音数据报文的第一响应，并记录所述第一响应的接收时间戳；
26.比较单元，用于计算所述第一响应的接收时间戳与所述第一语音数据报文的发送时间戳之间的差值，并将所述差值与所述第一语音数据报文对应的基准响应时间进行比较，获得比较结果；
27.调整单元，用于根据所述比较结果调整向服务端发送的第二语音数据报文的数据量大小，所述第二语音数据报文为在所述第一语音数据报文之后发送的报文。
28.在一可实施方式中，所述比较单元进一步用于，
29.所述比较结果为所述差值大于所述第一语音数据报文对应的基准响应时间，且差值与所述基准响应时间之差的绝对值大于等于第一阈值，则确定所述第二语音数据报文的数据量大小为所述第一数据量减去第一调整量；
30.所述比较结果为所述差值大于所述第一语音数据报文对应的基准响应时间，且差值与所述基准响应时间之差的绝对值小于所述第一阈值，则确定所述第二语音数据报文的数据量大小等于所述第一数据量。
31.在一可实施方式中，所述比较单元进一步用于，
32.所述比较结果为所述差值小于所述第一语音数据报文对应的基准响应时间，且所述差值与所述基准响应时间之差的绝对值大于等于第二阈值，则确定所述第二语音数据报文的数据量大小为所述第一数据量加上第二调整量；
33.所述比较结果为所述差值小于所述第一语音数据报文对应的基准响应时间，且所述差值与所述基准响应时间之差的绝对值小于所述第二阈值，则确定所述第二语音数据报文的数据量大小等于所述第一数据量。
34.在一可实施方式中，向服务端发送的所述第一语音数据报文为与所述服务端建立连接后发送的首个语音数据报文，则所述第一数据量为预设的基准数据量，所述第一语音数据报文对应的基准响应时间为预设值。
35.在一可实施方式中，所述首个语音数据报文对应的基准响应时间的预设值通过以下方式确定：
36.所述电子设备与所述服务端建立本次传输链接的发起时间戳、与所述电子设备与所述服务端断开前一次传输链接的时间戳相减，相减结果小于等于第三阈值，则取所述前一次传输链接过程中最后一次语音数据报文的发送时间戳与对应响应的接收时间戳差值的绝对值为所述预设值；相减结果大于所述第三阈值，则取默认值为所述预设值。
37.在一可实施方式中，所述调整单元进一步用于，将所述第二语音数据报文对应的基准响应时间更新为：所述第一响应的接收时间戳与所述第一语音数据报文的发送时间戳之间的差值的绝对值。
38.在一可实施方式中，所述调整单元进一步用于，将所述第二语音数据报文对应的基准响应时间更新为：
39.将所述第二语音数据报文对应的基准响应时间更新为：对在所述第二语音数据之前发送的预设数量的各语音数据报文对应的发送时间戳与响应的接收时间戳之间的差值的绝对值求和，再取平均值。
40.本公开再一方面提供一种电子设备，包括：
41.至少一个处理器；以及
42.与所述至少一个处理器通信连接的存储器；其中，
43.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。
44.通过实施本公开的语音数据量控制方法、装置和电子设备，根据第一语音数据报文从发送到响应的时间相比基准响应时间的变化，能够灵活调整下一次发送给服务端的语音数据的数据量大小，从而使电子设备发送的语音数据量大小能够根据网络状况和识别引擎性能的随时变化灵活的进行调整，以使电子设备发送的语音数据量大小更好的适应当前的网络状况和识别引擎性能，更加合理，从而既兼顾了语音识别引擎识别准确度，也灵活适应网络状况和识别引擎性能。
附图说明
45.附图用于更好地理解本公开，不构成对本公开的限定。其中：
46.图1示出了本公开实施例提供的一种语音数据量控制方法的流程示意图；
47.图2示出了本公开实施例提供的一种传输链路建立过程示意图；
48.图3示出了本公开实施例提供的一种语音数据量控制装置的结构示意图；
49.图4示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
50.为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开的一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
51.本公开实施例提供的一种语音数据量控制方法，应用于电子设备，如图1所示，该方法主要包括：
52.步骤101，向服务端发送第一语音数据报文，并记录第一语音数据报文的发送时间戳，第一语音数据报文的数据量大小为第一数据量，且第一语音数据报文有对应的基准响应时间。
53.本公开实施例的实施场景涉及电子设备与服务端的交互过程，用作对电子设备发送的语音数据的语音识别，电子设备向服务端发送语音数据报文，报文中携带待识别的语音数据；服务端通过语音识别引擎对收到的语音数据进行语音识别，将识别结果通过响应消息反馈给电子设备，已达到语音识别的目的。服务端可以由具备语音识别功能的服务器来提供，该服务器可以部署在本地，也可以部署在云端，本公开的实施例不限制服务端的实现方式，实际应用中任何可行的服务端实现方式应当都属于本公开实施例的保护范围。
54.本公开实施例的电子设备为语音识别的需求端，即电子设备为语音数据的获得端或提供端。电子设备向服务端发送第一语音数据报文时，记录第一语音数据报文的发送时间戳，第一语音数据报文中携带本次待识别的语音数据。电子设备需要按照规定的数据量大小来发送第一语音数据报文，第一数据报文中的语音数据量大小为第一数据量。其中，第一语音数据报文有对应的基准响应时间，基准响应时间给出了一次数据报文从发送到响应的参考时间，该基准响应时间从某种程度上也可以体现当前网络状况和识别引擎性能所对应的一次语音数据报文从发送到响应的完整处理时长。
55.步骤102，接收服务端返回的对应第一语音数据报文的第一响应，并记录第一响应的接收时间戳。
56.服务端接收到电子设备发送的第一语音数据报文后，通过服务端的语音识别引擎对第一语音数据报文中携带的语音数据进行语音识别处理，获得识别结果，并将识别结果通过与第一语音数据报文对应的第一响应返回给电子设备。电子设备在收到服务端返回的第一响应时，记录第一响应在电子设备接收的时间戳。
57.步骤103，计算第一响应的接收时间戳与第一语音数据报文的发送时间戳之间的差值，并将差值与第一语音数据报文对应的基准响应时间进行比较，获得比较结果。
58.计算第一响应的接收时间戳与第一语音数据报文的发送时间戳之间的差值，具体
为：将上述第一响应的接收时间戳减去对应第一语音数据报文的发送时间戳，取两者相减的结果。
59.将上述差值与对应的基准响应时间进行比较，是为比较该差值与对应基准响应时间的大小。
60.步骤104，根据比较结果调整向服务端发送的第二语音数据报文的数据量大小，第二语音数据报文为在第一语音数据报文之后发送的报文。
61.上述差值与对应的基准响应时间的比较结果，作为电子设备下一次向服务端发送语音数据报文的数据量大小的决定因素。因为上述比较结果反映了第一语音数据报文从发送到响应过程的网络状况和识别引擎性能的变化趋势，如果比较结果表明上述差值大于对应的基准响应时间，则表明当前网络状况和识别引擎性能在下降，从而在发送第二语音数据报文时可以调小数据量；如果比较结果表明上述差值小于对应的基准响应时间，则表明当前网络状况和识别引擎性能在提升，从而在发送第二语音数据报文时可以调大数据量；如果比较结果表明上述差值等于对应的基准响应时间，则表明当前网络状况和识别引擎性能稳定，从而在发送第二语音数据报文时相比第一语音数据报文的数据量不变。
62.那么相应的，步骤104一种可实施的数据量调整方式为：
63.比较结果为上述差值大于第一语音数据报文对应的基准响应时间，则确定第二语音数据报文的数据量大小为第一数据量减去第一调整量；
64.比较结果为上述差值小于第一语音数据报文对应的基准响应时间，则确定第二语音数据报文的数据量大小为第一数据量加上第二调整量；
65.比较结果为上述差值等于第一语音数据报文对应的基准响应时间，则确定第二语音数据报文的数据量大小为第一数据量。
66.例如：第一语音数据报文中语音数据的第一数据量为3200字节，第一语音数据报文对应的基准响应时间为100毫秒；在上述差值为200 毫秒时，确定第二语音数据报文的数据量大小为3200字节 3200字节，即6400字节，第一调整量为3200字节；在上述差值为60毫秒时，确定第二语音数据报文的数据量大小为3200字节-1600字节，即1600字节，第二调整量为1600字节；在上述差值为100毫秒时，确定第二语音数据报文的数据量大小为3200字节，即相比第一语音数据报文的数据量大小不变。其中，第一调整量和第二调整量的大小可以相同，也可以设置成不同，根据实际需要可以灵活设定。
67.通过上述的具体实施方式，根据第一语音数据报文从发送到响应的时间相比基准响应时间的变化，能够灵活调整下一次发送给服务端的语音数据的数据量大小，从而使电子设备发送的语音数据量大小能够根据网络状况和识别引擎性能的随时变化灵活的进行调整，以使电子设备发送的语音数据量大小更好的适应当前的网络状况和识别引擎性能，更加合理，从而既兼顾了语音识别引擎识别准确度，也灵活适应网络状况和识别引擎性能。
68.另外，上述实施方式在差值大于或小于第一语音数据报文对应的基准响应时间时，即做调整，数据量调整的灵敏度较高。如果面对灵敏度要求不高的应用场景，也可以采用以下的调整方式：
69.比较结果为上述差值大于第一语音数据报文对应的基准响应时间，且差值与基准响应时间之差的绝对值大于等于第一阈值，则确定第二语音数据报文的数据量大小为第一数据量减去第一调整量；
70.比较结果为差值大于第一语音数据报文对应的基准响应时间，且差值与基准响应时间之差的绝对值小于第一阈值，则确定第二语音数据报文的数据量大小等于第一数据量；
71.比较结果为差值小于第一语音数据报文对应的基准响应时间，且差值与基准响应时间之差的绝对值大于等于第二阈值，则确定第二语音数据报文的数据量大小为第一数据量加上第二调整量；
72.比较结果为差值小于第一语音数据报文对应的基准响应时间，且差值与基准响应时间之差的绝对值小于第二阈值，则确定第二语音数据报文的数据量大小等于第一数据量。
73.例如：第一语音数据报文中语音数据的第一数据量为3200字节，第一语音数据报文对应的基准响应时间为100毫秒；
74.在上述差值为200毫秒，且该差值与基准响应时间之差的绝对值为100毫秒，大于第一阈值(50毫秒)时，确定第二语音数据报文的数据量大小为3200字节-1600字节，即1600字节，第一调整量为1600字节；在上述差值为120毫秒，且该差值与基准响应时间之差的绝对值为20 毫秒，小于第一阈值(50毫秒)时，确定第二语音数据报文的数据量大小为3200字节，即相比第一语音数据报文的数据量大小不变；
75.在上述差值为40毫秒，且该差值与基准响应时间之差的绝对值为 60毫秒，大于第二阈值(40毫秒)时，确定第二语音数据报文的数据量大小为3200字节 3200字节，即6400字节，第二调整量为3200字节；在上述差值为90毫秒，且该差值与基准响应时间之差的绝对值为10毫秒，小于第二阈值(40毫秒)时，确定第二语音数据报文的数据量大小为3200字节，即相比第一语音数据报文的数据量大小不变。
76.需要说明的是，本公开实施例中的第一调整量和第二调整量仅为区分数据量调小的调整量和数据量调大的调整量，并不用于限定调整量的具体取值。实际应用中，第一调整量和第二调整量也可以取相同的值。
77.通过上述的具体实施方式，根据第一语音数据报文从发送到响应的时间相比基准响应时间的变化，能够灵活调整下一次发送给服务端的语音数据的数据量大小，从而使电子设备发送的语音数据量大小能够根据网络状况和识别引擎性能的随时变化灵活的进行调整，以使电子设备发送的语音数据量大小更好的适应当前的网络状况和识别引擎性能，更加合理，从而既兼顾了语音识别引擎识别准确度，也灵活适应网络状况和识别引擎性能。另外，本实施方式允许在第一语音数据报文从发送到响应的时间相比基准响应时间小幅变化时，不对下一次发送给服务端的语音数据的数据量进行调整，避免由于网络状况和识别引擎性能的轻微变化导致数据量大小的频繁调整，是调整的灵敏度能够适应不同的应用场景需要。
78.在一可实施方式中，本公开实施例的方法还包括：
79.向服务端发送的第一语音数据报文为与服务端建立传输链接后发送的首个语音数据报文，则第一数据量为预设的基准数据量，第一语音数据报文对应的基准响应时间为预设值。
80.也就是说，如果是电子设备与服务端建立传输链接后发送给服务端的首个需要进行语音识别的语音数据报文，由于没有在先语音数据报文从发送到响应的时间差作为参考
的基准响应时间，那么，首个语音数据报文的基准响应时间可取预设值；并且，第一数据量大小可以为预设的基准数据量，此基准数据量可以是根据实验提炼的结果或者其他实际场景的设定值。
81.在一可实施方式中，首个语音数据报文对应的基准响应时间的预设值通过以下方式确定：
82.电子设备与服务端建立本次传输链接的发起时间戳、与电子设备与服务端断开前一次传输链接的时间戳相减，相减结果小于等于第三阈值，则取前一次传输链接过程中最后一次语音数据报文的发送时间戳与对应响应的接收时间戳差值的绝对值为预设值；相减结果大于第三阈值，则取默认值为预设值。
83.也就是说，如果上述相减结果小于等于第三阈值，表明建立本次传输链接的发起时间，与前一次传输链接断开的时间相隔不远，从而默认在这段较短时间内的网络状况和识别引擎性能变化不明显，则取前一次传输链接过程中最后一次语音数据报文的发送时间戳与对应响应的接收时间戳差值的绝对值为预设值；反之，如果上述相减结果大于第三阈值，则认为建立本次传输链接的发起时间，与前一次传输链接断开的时间相隔较远，若取前一次传输链接过程中最后一次语音数据报文的发送时间戳与对应响应的接收时间戳差值的绝对值为预设值误差较大，则取默认值为预设值。
84.通过以上实施方式，使首个语音数据报文的第一数据量、及对应的基准响应时间尽量初值合理，避免在一开始传输的语音数据报文的数据量和基准响应时间存在较大误差，与实际的网络状况和识别引擎性能差别较大。
85.在一可实施方式中，作为第一语音数据报文对应的基准响应时间预设值的默认取值可以参照以下方式来获得。如图2所示，图2示出了电子设备与服务端建立传输链接并基于建立的传输链接进行报文传输的过程。在传输链接建立初始，电子设备向服务端发送连接请求消息的时间戳是传输层可知的，记为t0；而在链路建立完成后电子设备向服务端发送第一次请求报文的时间戳t1是传输层未知的，但是电子设备收到第一次响应报文的时间戳t2是传输层可知的；t3表示电子设备收到第二个响应报文的时间戳，也是传输层可知的。rtt1＝t2-t1，rtt2＝t3-t2； rtt和rtt表示请求往返时间，理论上，rtt1＝rtt2；因此， tcp＝t2-t0-rtt1＝t2-t0-rtt2。由于rtt2＝t3-t2可计算得出，因此，可通过以上计算方式计算出tcp，tcp为电子设备与服务端之间建立传输链路的时长。本公开的一实施方式可选取tcp的值作为第一语音数据报文对应的基准响应时间预设值的默认取值，能体现传输层完成一次链路建立传输过程所需时长，传输层的传输时长更接近真值，更具参照性。
86.在一可实施方式中，将第二语音数据报文对应的基准响应时间更新为：第一响应的接收时间戳与第一语音数据报文的发送时间戳之间的差值的绝对值。
87.在调整第二语音数据包的数据量大小同时，也将第二语音数据报文对应的基准响应时间更新为第一响应的接收时间戳与第一语音数据报文的发送时间戳之间的差值的绝对值；从而将第二语音数据报文对应的基准响应时间用作后面第三语音数据报文发送时进行比较的基准响应时间，从而决定第三语音数据报文的发送数据量调整方案。以此类推，这样，保证了每次发送语音数据报文时参照的基准响应时间都是最能准确反映最新网络状况和识别引擎性能的取值，从而保证了数据量调整策略实施的准确性。
88.在另一可实施方式中，将第二语音数据报文对应的基准响应时间更新为：对在第
二语音数据之前发送的预设数量的各语音数据报文对应的发送时间戳与响应的接收时间戳之间的差值的绝对值求和，再取平均值。
89.区别于前一实施方式中的基准响应时间调整方案，本实施方式是对在第二语音数据之前发送的预设数量的各语音数据报文对应的发送时间戳与响应的接收时间戳之间的差值的绝对值求和，再取平均值，将该平均值作为第二语音数据报文对应的基准响应时间。这种实施方式，取在先一段时间内的均值作为每次更新的基准响应时间，除了保证每次发送语音数据报文时参照的基准响应时间都是最能准确反映最新网络状况和识别引擎性能的取值，保证数据量调整策略实施的准确性之外，区间均值的方法更加准确合理。
90.本公开实施例还提供了一种语音数据量控制装置，如图3所示，该装置包括：
91.发送单元10，用于向服务端发送第一语音数据报文，并记录第一语音数据报文的发送时间戳，第一语音数据报文的数据量大小为第一数据量，且第一语音数据报文有对应的基准响应时间；
92.接收单元20，用于接收服务端返回的对应第一语音数据报文的第一响应，并记录第一响应的接收时间戳；
93.比较单元30，用于计算第一响应的接收时间戳与第一语音数据报文的发送时间戳之间的差值，并将差值与第一语音数据报文对应的基准响应时间进行比较，获得比较结果；
94.调整单元40，用于根据比较结果调整向服务端发送的第二语音数据报文的数据量大小，第二语音数据报文为在第一语音数据报文之后发送的报文。
95.在一可实施方式中，比较单元30进一步用于，
96.比较结果为差值大于第一语音数据报文对应的基准响应时间，且差值与基准响应时间之差的绝对值大于等于第一阈值，则确定第二语音数据报文的数据量大小为第一数据量减去第一调整量；
97.比较结果为差值大于第一语音数据报文对应的基准响应时间，且差值与基准响应时间之差的绝对值小于第一阈值，则确定第二语音数据报文的数据量大小等于第一数据量。
98.在一可实施方式中，比较单元30进一步用于，
99.比较结果为差值小于第一语音数据报文对应的基准响应时间，且差值与基准响应时间之差的绝对值大于等于第二阈值，则确定第二语音数据报文的数据量大小为第一数据量加上第二调整量；
100.比较结果为差值小于第一语音数据报文对应的基准响应时间，且差值与基准响应时间之差的绝对值小于第二阈值，则确定第二语音数据报文的数据量大小等于第一数据量。
101.在一可实施方式中，向服务端发送的第一语音数据报文为与服务端建立连接后发送的首个语音数据报文，则第一数据量为预设的基准数据量，第一语音数据报文对应的基准响应时间为预设值。
102.在一可实施方式中，首个语音数据报文对应的基准响应时间的预设值通过以下方式确定：
103.电子设备与服务端建立本次传输链接的发起时间戳、与电子设备与服务端断开前一次传输链接的时间戳相减，相减结果小于等于第三阈值，则取前一次传输链接过程中最
后一次语音数据报文的发送时间戳与对应响应的接收时间戳差值的绝对值为预设值；相减结果大于第三阈值，则取默认值为预设值。
104.在一可实施方式中，调整单元40进一步用于，将第二语音数据报文对应的基准响应时间更新为：第一响应的接收时间戳与第一语音数据报文的发送时间戳之间的差值的绝对值。
105.在一可实施方式中，调整单元40进一步用于，将所述第二语音数据报文对应的基准响应时间更新为：
106.将第二语音数据报文对应的基准响应时间更新为：对在第二语音数据之前发送的预设数量的各语音数据报文对应的发送时间戳与响应的接收时间戳之间的差值的绝对值求和，再取平均值。
107.本公开的实施例，根据第一语音数据报文从发送到响应的时间相比基准响应时间的变化，能够灵活调整下一次发送给服务端的语音数据的数据量大小，从而使电子设备发送的语音数据量大小能够根据网络状况和识别引擎性能的随时变化灵活的进行调整，以使电子设备发送的语音数据量大小更好的适应当前的网络状况和识别引擎性能，更加合理，从而既兼顾了语音识别引擎识别准确度，也灵活适应网络状况和识别引擎性能。另外，本公开的实施例适用于android、ios、web app、windows 等异构系统，基于应用层协议，实现应用层与tcp层的网络延迟状态监测，本公开的实施例运行在网络模型的应用层，不需依赖任何底层库，实现系统级的native调用，其兼容性强。
108.根据本公开的实施例，本公开还提供了一种可读存储介质，用于执行本公开实施例的语音数据量控制方法。
109.图4示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。在一些实施例中，电子设备800可以是终端设备，也可以是服务器。在一些实施例中，电子设备800可以通过运行计算机程序来实现本技术实施例提供的语音数据量控制方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(native)应用程序 (application，app)，即需要在操作系统中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意app中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。
110.在实际应用中，电子设备800可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。电子设备800可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。
111.电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
112.如图4所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
113.电子设备800中的多个部件连接至i/o接口805，包括：输入单元 806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800 通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。
114.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如语音数据量控制方法。例如，在一些实施例中，语音数据量控制方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的语音数据量控制方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为语音数据量控制方法。
115.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
116.用于实施本公开的语音数据量控制方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/ 操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
117.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
118.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
119.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan) 和互联网。
120.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
121.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
122.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频信号处理设备、音频信号处理方法和存储介质与流程

一种语音数据量控制方法、装置和电子设备与流程

相关文献

最热文献