一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

人声检测方法和设备与流程

2022-03-26 02:07:47 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,尤其涉及一种人声检测方法和设备。


背景技术:

2.随着人工智能(artificial intelligence,ai)技术的不断发展,让人与机器之间能够通过语音信号进行交互的语音识别变得越来越重要。自动语音识别(automatic speech recognition,asr)作为一种人机交互的手段,能够将输入的语音转换成相应的文字序列,广泛应用于语音助手、智能音箱、智能会议系统等中。然而,asr会对输入的语音进行无差别的处理,例如,对于一段语音,其可能包含无人声的语音段,但是asr仍会对这一段无人声的语音段进行语音转换为文字序列的处理,导致asr的功耗较高。
3.因此,目前提出了一种语音激活检测(voice activity detection,vad)方式,其在进行asr之前,将语音中包含人声的语音段提前识别出来,再对包含人声的语音段进行asr处理,从而降低asr的功耗。
4.然而,上述方式中可能会将一些噪声检测为包含人声的语音段,例如,关门声,拍桌子声等噪声,造成人声的检测准确率不高,影响到asr的功耗。


技术实现要素:

5.本技术实施例提供一种人声检测方法和设备,可以准确识别出人声和噪声,提高人声检测的抗噪能力,从而提高人声检测的准确率。
6.第一方面,本技术实施例提供一种人声检测方法,包括:
7.获取语音信号;
8.获取语音信号中每帧语音帧的功率谱;
9.将每帧语音帧的功率谱在频域上进行分频段划分,获得m个频段的子功率谱,m为大于等于2的整数;
10.根据m个频段的子功率谱,获得语音信号中每帧语音帧包含人声的概率。
11.在一种可能的实现方式中,将每帧语音帧的功率谱在频域上进行分频段划分,获得m个频段的子功率谱,包括:
12.按照梅尔刻度,将功率谱在频域上进行分频段划分,获得m个频段的子功率谱;
13.其中,每个频段的梅尔刻度等长。
14.在一种可能的实现方式中,将每帧语音帧的功率谱在频域上进行分频段划分,获得多个频段的子功率谱,包括:
15.按照梅尔刻度,将功率谱的频域进行分频段划分,获得m个中间频段,每个中间频段的梅尔刻度等长;
16.根据功率谱,获得m个中间频段中最高频段的子功率谱以及将m个中间频段中除最高频段的m-1个中间频段的上限频率增大,以获得m-1个频段的子功率谱;或者,
17.根据功率谱,获得m个中间频段中最低频段的子功率谱以及将m个中间频段中除最
低频段的m-1个中间频段的下限频率减小,以获得m-1个频段的子功率谱;
18.其中,相邻两频段间在频域上部分重叠。
19.在一种可能的实现方式中,根据m个频段的子功率谱,获得语音信号中每帧语音帧包含人声的概率,包括:
20.对每个频段的子功率谱,提取k个不同次数的谐波分量,k为大于等于1;
21.根据每个频段的子功率谱及k个不同次数的谐波分量,获得语音信号中每帧语音帧包含人声的概率。
22.在一种可能的实现方式中,根据每个频段的子功率谱及k个不同次数的谐波分量,获得语音信号中每帧语音帧包含人声的概率,包括:
23.提取每个频段的子功率谱对应的特征,以及k个不同次数的谐波分量分别对应的特征;
24.将各个频段的子功率谱对应的特征,以及k个不同次数的谐波分量分别对应的特征进行拼接,获得每帧语音帧的频谱增强特征;
25.根据每帧语音帧的频谱增强特征,获得语音信号中每帧语音帧包含人声的概率。
26.在一种可能的实现方式中,所述方法还包括:
27.获取每个频段的子功率谱对应的对数平均能量及k个不同次数的谐波分量分别对应的对数平均能量;
28.将各个频段的子功率谱对应的对数平均能量,以及k个不同次数的谐波分量分别对应的对数平均能量进行拼接,获得每帧语音帧的能量增强特征;
29.根据每帧语音帧的频谱增强特征,获得语音信号中每帧语音帧包含人声的概率,包括:
30.根据每帧语音帧的频谱增强特征以及每帧语音帧的能量增强特征,获得语音信号中每帧语音帧包含人声的概率。
31.在一种可能的实现方式中,根据m个频段的子功率谱,获得语音信号中每帧语音帧包含人声的概率,包括:
32.根据m个频段的子功率谱,获得每帧语音帧的频谱增强特征;
33.获取每帧语音帧的能量增强特征;
34.根据每帧语音帧的频谱增强特征以及每帧语音帧的能量增强特征,获得语音信号中每帧语音帧包含人声的概率。
35.在一种可能的实现方式中,获取每帧语音帧的能量增强特征,包括:
36.根据m个频段的子功率谱,获得每帧语音帧的能量增强特征。
37.在一种可能的实现方式中,根据m个频段的子功率谱,获得每帧语音帧的频谱增强特征和每帧语音帧的能量增强特征,包括:
38.对每个频段的子功率谱,提取k个不同次数的谐波分量,k为大于等于1;
39.根据每个频段的子功率谱及k个不同次数的谐波分量,获得每帧语音帧的频谱增强特征和每帧语音帧的能量增强特征。
40.在一种可能的实现方式中,k个不同次数的谐波分量包括2次谐波分量、3次谐波分量和5次谐波分量。
41.在一种可能的实现方式中,根据每帧语音帧的频谱增强特征以及每帧语音帧的能
量增强特征,获得语音信号中每帧语音帧包含人声的概率,包括:
42.根据连续多帧语音帧的频谱增强特征,获得连续多帧中每帧对应的第一输出结果,连续多帧的第一输出结果用于表示不同频段的频谱在时间上的关联关系;
43.根据连续多帧语音帧的能量增强特征,获得连续多帧中每帧对应的第二输出结果,连续多帧的第二输出结果用于表示不同频段的能量在时间上的关联关系;
44.根据每帧对应的第一输出结果和第二输出结果,获得每帧语音帧包含人声的概率。
45.在一种可能的实现方式中,根据连续多帧语音帧的频谱增强特征,获得连续多帧中每帧对应的第一输出结果,包括:
46.将连续多帧语音帧的频谱增强特征输入至采用语音激活检测方式的神经网络中,获得连续多帧中每一帧对应的第一输出结果。
47.在一种可能的实现方式中,根据连续多帧语音帧的能量增强特征,获得连续多帧中每帧对应的第二输出结果,包括:
48.将连续多帧帧语音帧的能量增强特征输入至采用注意力机制的神经网络中,获得连续多帧中每一帧对应的第二输出结果。
49.在一种可能的实现方式中,第一输出结果与第二输出结果为维度相同的向量。
50.在一种可能的实现方式中,根据每帧对应的第一输出结果以及第二输出结果,获得每帧语音帧包含人声的概率,包括:
51.将第一输出结果以及第二输出结果输入至结果融合网络,获得输出的语音信号中每帧语音帧包含人声的概率;
52.其中,结果融合网络包括逐点相乘计算层以及至少一个全连接层。
53.在一种可能的实现方式中,结果融合网络输出的结果为2维向量,2维向量包括每帧语音帧包含人声的概率以及每帧语音帧包含非人声的概率。
54.第二方面,本技术实施例提供一种人声检测设备,包括:
55.获取模块,用于获取语音信号,以及获取语音信号中每帧语音帧的功率谱;
56.划分模块,用于将每帧语音帧的功率谱在频域上进行分频段划分,获得m个频段的子功率谱,m为大于等于2的整数;
57.处理模块,用于根据m个频段的子功率谱,获得语音信号中每帧语音帧包含人声的概率。
58.第三方面,本技术实施例提供一种人声检测设备,包括:存储器、处理器和通信接口;
59.存储器用于存储程序指令;
60.处理器用于调用存储器中的程序指令执行如第一方面任一所述的人声检测方法。
61.第四方面,本技术实施例提供一种芯片,包括至少一个处理器和通信接口,通信接口和至少一个处理器通过线路互联,至少一个处理器用于运行计算机程序或指令,以进行如第一方面任一所述的人声检测方法。
62.第五方面,本技术实施例提供一种计算机可读存储介质,包括指令,当指令在计算机上运行时,使得计算机执行如第一方面任一所述的人声检测方法。
63.第六方面,本技术实施例提供一种包含指令的计算机程序产品,当指令在计算机
上运行时,使得计算机执行如第一方面任一所述的人声检测方法。
64.综上,本技术实施例提供的人声检测方法和设备,通过将全频段的功率谱在频域上进行频段划分,获得语音信号中每帧语音帧包含人声的概率,可以准确识别出人声和噪声,提高人声检测的抗噪能力,提高人声检测的准确率。另外,由于近场人声与远场人声在能量上存在差异,因此,根据能量增强特征可以区分近场人声与远场人声,从而提高对远场人声的抵抗能力,提高用户的人声检测的准确率。
附图说明
65.图1为本技术一实施例提供的语音识别系统的示意图;
66.图2为本技术一实施例提供的人声检测方法的流程图;
67.图3为本技术一实施例提供的将功率谱划分为m个频段的示意图;
68.图4为本技术一实施例提供的提取2、3、5次谐波分量的示意图;
69.图5为本技术一实施例提供的使用cnn提取频谱增强特征的示意图;
70.图6为本技术另一实施例提供的人声检测方法的流程图;
71.图7为本技术另一实施例提供的人声检测方法的框图;
72.图8为本技术一实施例提供的获得能量增强特征的示意图;
73.图9为本技术另一实施例提供的人声检测方法的流程图;
74.图10为本技术一实施例提供的采用语音激活检测方式的神经网络获得第一输出结果的示意图;
75.图11为本技术一实施例提供的采用注意力机制的神经网络获得第二输出结果的示意图;
76.图12为本技术一实施例提供的结果融合网络的示意图;
77.图13为本技术一实施例提供的神经网络处理器的硬件结构示意图;
78.图14为本技术一实施例提供的人声检测设备的结构示意图;
79.图15为本技术另一实施例提供的人声检测设备的结构示意图;
80.图16为本技术一实施例提供的一种芯片的结构示意图。
具体实施方式
81.图1为本技术一实施例提供的语音识别系统的示意图,如图1所示,本技术的应用场景以图1所示的例子为例进行描述,语音识别系统可以包括多个终端设备110,用户120可以对上述各终端设备110发出语音,相应地,各终端设备110采集到用户120的语音信号,对该语音信号进行语音识别处理,比如先对语音信号进行人声检测,获得各语音帧的人声概率,从而区分人声区间和非人声区间,再将纯人声区间的语音信号进行asr处理,以获得用户120发出的信息。然后终端设备110根据asr处理的结果执行相应的处理,比如终端设备110根据结果做出相应的响应,或者,终端设备110将结果发送给服务器,由服务器对结果做出相应的响应。
82.终端设备110可以安装并运行相关的应用(或app)。终端设备通过安装的应用为用户提供相关服务。终端设备110可以包括但不限于任一种车辆,手持电子设备等,其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互。车辆例
如可以是智能驾驶车辆,或者可以是安装有语音处理应用的普通车辆等。电子设备例如可以是智能手机、平板电脑、智能音箱等。
83.用户120是发出语音的说话人或者发音者。该发音者例如可以是机器人等智能发音设备。
84.本应用场景中,语音识别处理由终端设备110本端完成,不需要与服务器交互。另外,本技术还可以适用于另一应用场景中,在这一应用场景,语音识别处理由终端设备110和服务器交互来完成。比如,各终端设备110采集到用户120的语音信号,将语音信号发送给服务器,由服务器对该语音信号进行语音识别处理,比如先对语音信号进行人声检测,获得各语音帧的人声概率,从而区分人声区间和非人声区间,再将纯人声区间的语音信号进行asr处理。或者,各终端设备110采集到用户120的语音信号,先对语音信号进行人声检测,获得各语音帧的人声概率,从而区分人声区间和非人声区间,再由终端设备110将纯人声区间的语音信号发送给服务器,由服务器对纯人声区间的语音信号进行asr处理。
85.下面以终端设备110是车辆为例进行说明,例如驾驶人员在开车时,眼睛要看向路面,手需要握住方向盘,驾驶人员可以通过语音交互方式来操作车辆,比如进行语音导航、语音呼叫等等。人机之间能够通过语音信号进行交互,就需要语音识别系统能够识别出语音信号的具体含义。比如,驾驶人员对上述车辆发出语音“开往目的地a”,相应地,车辆采集到驾驶人员发出的上述语音信号,对语音信号进行人声检测,获得各语音帧的人声概率,从而区分人声区间和非人声区间,再将纯人声区间的语音信号进行asr处理,以获得驾驶人员发出的信息“开往目的地a”。然后车辆导航由当前位置到目的地a的路径,并根据该路径行驶。
86.下面以终端设备110是智能音箱为例进行说明,例如用户需要智能音箱播放歌曲时,用户可以通过语音交互方式来控制智能音箱。智能音箱需要语音识别系统能够识别出语音信号的具体含义。比如,用户对上述智能音箱发出语音“播放歌曲b”,相应地,智能音箱采集到用户发出的上述语音信号,对语音信号进行人声检测,获得各语音帧的人声概率,从而区分人声区间和非人声区间,再将纯人声区间的语音信号进行asr处理,以获得用户发出的信息“播放歌曲b”。然后智能音箱播放歌曲b。
87.下面以终端设备110是智能手机为例进行说明,例如用户需要智能手机启动应用时,用户可以通过语音交互方式来控制智能手机。智能手机要语音识别系统能够识别出语音信号的具体含义。比如,用户对上述智能手机发出语音“打开应用c”,相应地,智能手机采集到用户发出的上述语音信号,对语音信号进行人声检测,获得各语音帧的人声概率,从而区分人声区间和非人声区间,再将纯人声区间的语音信号进行asr处理,以获得用户发出的信息“打开应用c”。然后智能手机启动应用c并在界面显示应用c的启动界面。
88.其中,上述对语音信号进行人声检测,获得各语音帧的人声概率的具体实现过程可以参见本技术下述各实施例的方案。
89.目前现有技术中,在获取到语音信号后,提取语音信号中的功率谱,再将整个功率谱进行vad检测,以获得人声概率。但是,现有技术中做vad检测时,是将功率谱的全频段一起做vad检测,实际上vad检测主要是对低频段做检测,但是有些噪声与人声在低频段很接近,所以vad检测很容易将噪声误判为人声。所以本技术提供了人声检测方法,由于噪声与人声在高频段的特征不同,所以通过将功率谱的全频段进行分频段处理,以将低频段与高
频段划分在不同的频段内,从而针对不同的频段对应的功率谱做人声检测,可以准确识别出人声和噪声,提高人声检测的抗噪能力。
90.另外,用户一般是在近距离在对终端设备发出语音,在此过程中,很可能容易远距离的人声干扰,近距离发出的语音与远距离发出的语音对应的能量特征不同,所以可以通过语音信号的能量特征区分远场人声与近场人声,将近场人声识别为人声,而将远场人声不识别为人声,提高对远场人声的抵抗能力。
91.为便于理解,首先对本技术所涉及到的相关术语进行说明。
92.自动语音识别(automatic speech recognition,asr),简称语音识别,是指通过计算机自动地将语音信号波形转化为相应的文本或指令的技术,在语音助手、智能音箱、智能会议系统中有广泛的应用。通俗来说,语音识别就是赋予计算机听觉,使其能够像人与人之间交流一样,准确识别、理解语音信号所承载的信息。语音识别技术以语音信号作为输入,与传统的键盘、鼠标等输入方式相比,操作简单,不需要通过专门的训练,使用方便;而且,人们说话速度较快,可以达到毫秒量级,比打字机大约快3、4倍,并且可以直接使用麦克风作为输入。
93.语音激活检测(voice activity detection,vad),又叫做人声检测,或者端点检测,是一种检测音频中是否存在人声的技术,广泛应用于语音信号的前处理。
94.图2为本技术一实施例提供的人声检测方法的流程图,如图2所示,本实施例的方法可以包括:
95.s201、获取语音信号。
96.本实施例中,语音信号是一维时间序列可以为实时采集的语音信号,也可以为录制好的语音信号,该语音信号是最原始获得到的语音信号,是指待采用人声检测方法进行识别的语音信号。
97.在一种可能的实现方式中,语音信号可以由终端设备实时采集得到。在另一种可能的实现方式中,语音信号可以是预先采集得到的,比如获取终端设备本地存储的语音信号,或者,接收来自其它终端设备发送的语音信号,或者,接收服务器下发的语音信号,等等。
98.s202、获取语音信号中每帧语音帧的功率谱。
99.本实施例中,语音信号本质上是非平稳信号,但一般假定语音信号在10ms到30ms之间是一个平稳信号,即具有短时平稳特性,也就是说在10ms到30ms时间段内,其频谱特性和物理特征可以近似看成不变的。因此采用短时分析方法,将待识别语音信号划成帧进行处理,其中,每一个帧的时间在10ms到30ms时间段内,本实施例也并不限于此。例如,可以采用帧长为20ms,也就是说,将20ms的语音信号划分为一帧语音帧。
100.本实施例中,每帧语音帧的功率谱描述的是一帧语音(一般为10ms-30ms之间)在频域上对应的功率。在获得每帧语音帧后,再获取每帧语音帧的功率谱。具体地,将每帧语音帧进行加窗处理,使得每帧语音帧变得连续。再对加窗后的每帧语音帧进行傅里叶变换,以便将加窗后的语音帧从时域上变换到频域,获得相对于时域上的频谱。在获取到相对于时域上的频谱后,可以根据该频谱获得语音帧的功率谱。
101.可选的,在获取语音信号中每帧语音帧的功率谱之前,还可以对语音信号作预加重处理,以便对语音信号进行高频分量补偿,使语音信号的频谱变得平坦。
102.s203、将每帧语音帧的功率谱在频域上进行分频段划分,获得m个频段的子功率谱。
103.本实施例中,每帧语音帧的功率谱指的是语音信号的每一个帧从时域转换到频域后的功率谱,代表的是频域里面全频段的功率谱。将每帧语音帧的功率谱在频域上进行分频段划分,如图3所示,获得m个频段的子功率谱,其中,m为大于等于2的整数,也就是将全频段的功率谱分成m个频段,然后针对m个频段中的每个频段从语音帧的功率谱中获得每个频段的功率谱,每个频段的功率谱为语音帧的功率谱中的部分功率谱,所以此处将每个频段的功率谱称为子功率谱。例如,将每帧语音帧的功率谱的频域可以分成三个频段,这三频段比如是频域上的低、中、高三个频段,然后从功率谱中分别获得低、中、高三个频段的子功率谱。
104.在一种实现方式中,相邻两频段间不存在重叠的频率。在另一种实现方式中,相邻两频段间存在重叠的频率。
105.s204、根据m个频段的子功率谱,获得语音信号中每帧语音帧包含人声的概率。
106.本实施例中,人声检测的结果包括两类,一类是包含人声的语音帧,一类是不包含人声的语音帧。因此语音信号中每帧语音帧的人声检测结果包括两个概率值,一个是包含人声的概率值,另一个是不包含人声的概率值。其中,包含人声的概率值与不包含人声的概率值分别是小于等于1的数,并且包含人声的概率值与不包含人声的概率值加起来等于1。
107.可选的,在获得语音信号中每帧语音帧包含人声的概率后,可以对该概率进行门限判断和平滑处理,得到人声区间。
108.在一种实现方式中,可以选择一个预定阈值,当每帧语音帧包含人声的概率大于预定阈值,则判断输出为人声,反之,则认为为非人声。例如,预定阈值为0.5,当包含人声的概率大于0.5,则认为该语音帧包含人声,否则认为该语音帧不包含人声。其中,对人声概率进行门限判断和平滑处理可以参见相关技术中的描述,此处不在赘述。
109.本实施例提供的人声检测方法,通过将全频段的功率谱在频域上进行频段划分,获得各频段的子功率谱,再根据各个频段的子功谱获得语音信号中每帧语音帧包含人声的概率。由于噪声与人声在高频段的功率谱存在差异,所以通过将功率谱的全频段进行分频段处理,以将低频段与高频段划分在不同的频段内,从而针对不同的频段对应的功率谱,可以准确识别出人声和噪声,提高人声检测的抗噪能力,提高人声检测的准确率。
110.在上述图2所示实施例的基础上,在一些实施例中,上述s203的一种可能的实现方式为:按照梅尔刻度,将功率谱在频域上进行分频段划分,获得m个频段的子功率谱。其中,每个频段的梅尔刻度等长。
111.具体地,使用梅尔刻度对每帧语音帧的功率谱进行分频段处理的方式如下:
112.假设每帧语音帧中计算傅里叶变换fft的点数为n,采样率为fs,假设在频域上进行分频段划分后的频段个数为m,根据频率-梅尔频率变换公式,参见如下公式一:
113.b=1125ln(1 f/700)
ꢀꢀꢀ
公式一
114.其中b为梅尔频率,f为频率。
115.根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,结合上述公式一,可以得到最高梅尔频率为:
116.b
max
=1125ln(1 fs/1400)
117.其中,b
max
为最高梅尔频率。
118.然后获得在梅尔刻度上m等分后的频率点fi满足如下公式二:
[0119][0120]
由上述公式二,可以得到fi=700[(1 fs/1400)
i/m-1],i=1,2,...,m-1
[0121]
由于功率谱是长度为的一个向量,其中每一个值表示的分辨率fr=fs/(n-1),则可以得到频率点fi对应的功率谱的索引值如公式三:
[0122]
indexi=fi/fr=700[(1 fs/1400)
i/m-1](n-1)/fs,i=1,2,...,m-1
ꢀꢀꢀ
公式三
[0123]
由此,将整个功率谱的频域划分为m个区间,分别为:
[0124]
[0,index1],[index
1 index2],

[index
(m-1)
,n/2-1]。
[0125]
举例来说,假如计算fft的点数为400,采样率为16khz,功率谱划分为3个频段,则得到的3个频段范围为[0:23]、[23:76]、[76:200]。
[0126]
在上述图2所示实施例的基础上,在另一些实施例中,上述s203的一种可能的实现方式为:按照梅尔刻度,将功率谱的频域进行分频段划分,获得m个中间频段,每个中间频段的梅尔刻度等长。根据功率谱,获得m个中间频段中最高频段的子功率谱以及将m个中间频段中除最高频段的m-1个中间频段的上限频率增大,以获得m-1个频段的子功率谱;或者,根据功率谱,获得m个中间频段中最低频段的子功率谱以及将m个中间频段中除最低频段的m-1个中间频段的下限频率减小,以获得m-1个频段的子功率谱;其中,相邻两频段间在频域上部分重叠。
[0127]
按照梅尔刻度,将功率谱的频域进行分频段划分,获得m个中间频段的具体实现过程可以参见上述记载,此处不再赘述。
[0128]
举例来说,假如计算fft的点数为400,采样率为16khz,功率谱划分为3个频段,则得到的3个中间频段范围为[0:23]、[23:76]、[76:200]。
[0129]
其中,上述3个中间频段中最高频段为[76:200],除最高频段外的其它频段为[0:23]、[23:76],将[0:23]的上限频率23增大10个值得到频段[0:33]以及将[23:76]的上限频率76增大10个值得到频段[23:86],最终获得的3个频段为[0:33]、[23:86]、[76:200]。从功率谱获得[0:33]的子功率谱、[23:86]的子功率谱、[76:200]的子功率谱。
[0130]
举例来说,假如计算fft的点数为400,采样率为16khz,功率谱划分为3个频段,则得到的3个中间频段范围为[0:23]、[23:76]、[76:200]。
[0131]
其中,上述3个中间频段中最低频段为[0:23],除最低频段外的其它频段为[23:76]、[76:200],将[23:76]的下限频率23减小10个值得到频段[13:76]以及将[76:200]的下限频率76减小10个值得到频段[66:200],最终获得的3个频段为[0:23]、[13:76]、[66:200]。从功率谱获得[0:23]的子功率谱、[13:76]的子功率谱、[66:200]的子功率谱。
[0132]
因此,除了最后一个频段外,其他每个频段的上限可以再向上扩展,或除第一个频段外,其它每个频段的下限可以再向下扩展x个值,x为大于0的整数,也就是说相邻频段重叠的采样点个数是x个。从而保证相邻两个频段之间过渡的稳定性,改善人声的识别效果。
[0133]
在上述各实施例的基础上,作为一个可选的实施例,上述s204的一种可能的实现方式为:对每个频段的子功率谱,提取k个不同次数的谐波分量,k为大于等于1;根据每个频
段的子功率谱及k个不同次数的谐波分量,获得语音信号中每帧语音帧包含人声的概率。
[0134]
本实施例中,谐波分量是指一个周期内,傅里叶级数大于1的整数倍分量,也就是说谐波分量的频率比信号基频高,没有小于基频的,对于谐波分量,按照频率可分为两种不同的谐波,一种是频率为基波的1、3、5倍等等的谐波,称为奇次谐波,另一种是频率为2、4、6倍等的谐波,称为偶次谐波。在对输入的功率谱进行了分频段处理,得到了m个频段之后,对m个频段的每一个频段都提取不同次数的谐波分量,本实施例对次数的取值不做限定。
[0135]
在一种可实现的方案中,k的取值为3,k个不同次数的谐波分量包括2次谐波分量,3次谐波分量和5次谐波分量,如图4所示。
[0136]
例如,假设输入的每个频段的频谱用spec表示,提取3个不同次数的谐波分量,用h表示谐波次数,则提取的谐波结果可表示为:
[0137]
harmonic=stridedslice(spec,h),h=2,3,5
[0138]
其中stridedslice(spec,h)表示在spec中,每h个值取一个值,也就是说,当h=2时,对m个频段的每一个频段的起点开始计算,每2个值取一个分量。当h=3时,对m个频段的每一个频段的起点开始计算,每3个值取一个分量,当h=5时,对m个频段的每一个频段的起点开始计算,每5个值取一个分量。
[0139]
应注意,由于划分的m个频段中,频段1的第一个值表示直流分量,不存在谐波分量,因此频段1的输入修改为spec[1:]。
[0140]
在上述实施例的基础上,作为一个可选的实施例,根据每个频段的子功率谱及k个不同次数的谐波分量,获得语音信号中每帧语音帧包含人声的概率的一种可能的实现方式为:提取每个频段的子功率谱对应的特征,以及k个不同次数的谐波分量分别对应的特征;将各个频段的子功率谱对应的特征,以及k个不同次数的谐波分量分别对应的特征进行拼接,获得每帧语音帧的频谱增强特征;根据每帧语音帧的频谱增强特征,获得语音信号中每帧语音帧包含人声的概率。
[0141]
本实施例中,由于每个频段之间、每个频段对应的k个不同次数的谐波分量之间的输出是孤立的,那么提取每个频段的子功率谱对应的特征,以及k个不同次数的谐波分量分别对应的特征后,特征输出之间也是独立的,因此对各个频段的子功率谱对应的特征,以及k个不同次数的谐波分量分别对应的特征进行拼接,获得每帧语音帧的频谱增强特征。
[0142]
在一种可实现的方式中,可以使用卷积神经网络(convolutional neural networks,cnn)为每个频段的功率谱及每个频段不同次数的谐波分量均提取对应的特征。如图5所示,图5为本技术一实施例提供的使用cnn提取频谱增强特征的示意图。假设有m个频段,对于每个频段,与一个cnn网络连接,cnn的输入为每个频段的功率谱值,cnn的输出为每个频段的子功率谱对应的特征。对于m个频段中每个频段的不同次数的谐波分量,每个谐波分量与一个cnn连接,cnn的输入为谐波分量,cnn的输出为谐波分量对应的特征。将所有cnn输出的特征进行拼接(比如concat),获得该帧语音帧的频谱增强特征。
[0143]
在上述各实施例的基础上,在获取语音信号中每帧语音帧的功率谱之后,还可以获取每帧语音帧的能量增强特征。然后根据上述获得的每帧语音帧的频谱增强特征和能量增强特征,获得每帧语音帧包含人声的概率。一般用户在与终端设备进行人机交互时,用户会近距离向终端设备发出语音。由于用户所处环境不同,不排除有其它人员同时发生声音,这些声音实际上是背景人声。这些其它人员与用户相比,距离终端设备一般较远,远处的人
声与近处的人声在能量上存在差异,因此,本技术通过获取语音帧的能量增强特征,来区分近场人声与远场人声。
[0144]
图6为本技术另一实施例提供的人声检测方法的流程图,图7为本技术另一实施例提供的人声检测方法的框图,如图6和图7所示,本实施例的方法可以包括:
[0145]
s601、获取语音信号。
[0146]
s602、获取语音信号中每帧语音帧的功率谱。
[0147]
s603、将每帧语音帧的功率谱在频域上进行分频段划分,获得m个频段的子功率谱。
[0148]
本实施例中,s601-s603可以参见上述各实施例中的相关描述,此处不再赘述。
[0149]
s604、根据m个频段的子功率谱,获得每帧语音帧的频谱增强特征和能量增强特征。
[0150]
其中,根据m个频段的子功率谱,获得每帧语音帧的频谱增强特征可以参见上述实施例中的相关描述,此处不再赘述。
[0151]
获得能量增强特征的一种可能的实现方式为:在根据m个频段的子功率谱,获取每个频段的k个不同次数的谐波分量之后,获取每个频段的子功率谱对应的对数平均能量及k个不同次数的谐波分量分别对应的对数平均能量;将各个频段的子功率谱对应的对数平均能量,以及k个不同次数的谐波分量分别对应的对数平均能量进行拼接,获得每帧语音帧的能量增强特征。
[0152]
本实施例中,对数平均能量的表达式为logmeansquare(),具体的计算过程如下:对功率谱或其谐波分量的每个值进行平方运算,再按帧维度求均值,最后进行对数运算。获取每个频段的子功率谱对应的对数平均能量及k个不同次数的谐波分量分别对应的对数平均能量,表示将每个频段的子功率谱输入logmeansquare(),每个频段对应的不同的谐波分量输入logmeansquare()。
[0153]
由于每个频段之间、每个频段对应的k个不同次数的谐波分量之间的输出是孤立的,那么提取每个频段的子功率谱对应的对数平均能量,以及k个不同次数的谐波分量分别对应的对数平均能量后,对数平均能量输出之间也是独立的,因此对各个频段的子功率谱对应的对数平均能量,以及k个不同次数的谐波分量分别对应的对数平均能量进行拼接,获得每帧语音帧的能量增强特征。
[0154]
如图8所示,图8为本技术一实施例提供的获得能量增强特征的示意图。假设有m个频段,对于每个频段,与一个logmeansquare()连接,logmeansquare()的输入为每个频段的功率谱值,logmeansquare()的输出为每个频段的子功率谱对应的对数平均能量。对于m个频段中每个频段的不同次数的谐波分量,每个谐波分量与一个logmeansquare()连接,logmeansquare()的输入为谐波分量,logmeansquare()的输出为谐波分量对应的对数平均能量。将所有logmeansquare()输出的对数平均能量进行拼接(比如concat),获得该帧语音帧的能量增强特征。
[0155]
应注意,由于频段1的第一个值表示直流分量,因此不参与能量计算。
[0156]
s605、根据每帧语音帧的频谱增强特征以及每帧语音帧的能量增强特征,获得语音信号中每帧语音帧包含人声的概率。
[0157]
本实施例中,在获得每帧语音帧的频谱增强特征以及每帧语音帧的能量增强特征
networks,lstm)。
[0174]
例如,使用cnn网络作为采用语音激活检测方式的神经网络,假设语音的采样率为16khz,在输入前对该语音信号进行窗长为320个采样点,窗移为160个采样点的短时傅里叶变换,提取其频率特征,由于是一整句话,每一帧都不是孤立的,有一定的上下文信息,所以以当前帧为中心,取前7帧和后8帧,共16帧作为该卷积神经网络的输入,即卷积神经网络的输入为[16,160]的图像,那么经过卷积神经网络后,输出的第一输出结果为连续16帧的输出结果。在此说明的是,采用语音激活检测方式的神经网络相关内容的具体实现过程可参见相关技术的描述,此处不在赘述。
[0175]
s908、获取每个频段的子功率谱对应的对数平均能量及k个不同次数的谐波分量分别对应的对数平均能量。
[0176]
s909、将各个频段的子功率谱对应的对数平均能量,以及k个不同次数的谐波分量分别对应的对数平均能量进行拼接,获得每帧语音帧的能量增强特征。
[0177]
s910、根据连续多帧语音帧的能量增强特征,获得连续多帧中每帧对应的第二输出结果。
[0178]
本实施例中,连续多帧的第二输出结果用于表示不同频段的能量在时间上的关联关系。
[0179]
连续多帧语音帧比如可以指连续的10帧语音帧,本技术对数量不做限定。本实施例中的根据连续多帧语音帧的能量增强特征,获得连续多帧中每帧对应的第二输出结果,其中,每帧对应的第二输出结果是参考了连续多帧语音帧的能量增强特征而获得有关该帧的结果,由于连续的多帧语音帧在时间上是连续的,因此连续多帧的第二输出结果可以表示不同频段的能量在时间上的关联关系。因此,能够有效识别清/浊音以及远近场之间的音频能量关系。
[0180]
可选的,作为一个可选的实施例,上述s910可以包括:将连续多帧语音帧的能量增强特征输入至采用注意力机制的神经网络中,获得连续多帧中每一帧对应的第二输出结果。
[0181]
本实施例中,第二输出结果是采用注意力机制的神经网络的输出结果,该采用注意力机制的神经网络的输入是连续多帧语音帧的能量增强特征,由于输入是连续多帧语音帧的能量增强特征,因此可以获得每一帧对应的第二输出结果。
[0182]
在一种可能的实现方式中,采用注意力机制的神经网络使用三层transformer结构,如图11所示,图11为本技术一实施例提供的采用注意力机制的神经网络获得第二输出结果的示意图,其输入为连续多帧的能量增强特征,输出为连续多帧中每帧的第二输出结果。
[0183]
需要说明的是,本实施例对s905-s907与s908-s910的执行顺序不做限定。
[0184]
s911、根据每帧对应的第一输出结果和第二输出结果,获得每帧语音帧包含人声的概率。
[0185]
本实施例中,在获得每帧对应的第一输出结果和每帧对应的第二输出结果后,将每帧的第一输出结果与第二输出结果进行融合,获得每帧语音帧包含人声的概率。作为一个可选的实施方式,s911可以包括:将第一输出结果以及第二输出结果输入至结果融合网络,获得输出的语音信号中每帧语音帧包含人声的概率;其中,结果融合网络包括逐点相乘
计算层以及至少一个全连接层。以结果融合网络包括逐点相乘计算层以及两个全连接层为例,如图12所示,图12为本技术一实施例提供的结果融合网络的示意图,该结果融合网络的输入有两个,一个是第一输出结果,一个是第二输出结果,输出的结果包括每帧语音帧包含人声的概率。
[0186]
可选的,结果融合网络输出的结果可以是2维向量,2维向量中一维为每帧语音帧包含人声的概率,另一维为每帧语音帧包含非人声的概率。其中,包含人声的概率值与不包含人声的概率值分别是小于等于1的数,并且包含人声的概率值与不包含人声的概率值加起来等于1。
[0187]
可选的,第一输出结果与第二输出结果为维度相同的向量。
[0188]
举例来说,上述的连续多帧为t帧,m为3,k次不同的谐波分量包括2次谐波分量、3次谐波分量和5次谐波分量,提取的每个频段的功率谱对应的特征以及各次谐波分量对应的特征的维度为[t,32],则语音激活检测方式的神经网络的输入为12个[t,32]的拼接结果,即为[t,384],如图10所示;采用注意力机制的神经网络的输入为12个[t,1]的拼接结果,即为[t,12],如图11所示。语音激活检测方式的神经网络的输出为[t,64],采用注意力机制的神经网络的输出[t,64],从而保证第一输出结果与第二输出结果为维度相同的向量,如图12所示。最终结果融合网络的输出为[t,2],表示每帧语音帧包含人声的概率以及每帧语音帧包含非人声的概率。
[0189]
需要说明的是,上述任一实施例可以单独实施,也可以是上述各实施例中至少两个任意结合来实施,对此不做限定。
[0190]
在一种实现方式中,本技术实施例提供的人声检测方法涉及人工智能领域,与asr的前处理有关,需要用到多个神经网络来计算和处理相关的数据,因此本技术实施例提供的人声检测方法可以是由神经网络处理器(neural-network processing unit,npu)协助中央处理器(central processing unit,cpu)来完成。图13为本技术一实施例提供的神经网络处理器的硬件结构示意图。
[0191]
在图13中,神经网络处理器1300作为协处理器挂载到cpu上,由cpu分配任务。神经网络处理器1300的核心部分为运算电路1301,通过控制器1302控制运算电路1301提取存储器中的数据进行运算。
[0192]
在一些实现中,运算电路1301内部包括多个处理单元(process engine,pe)。在一些实现中,运算电路1301可以是能够执行例如乘法和加法这样的数字运算的电子线路,或者可以是通用的矩阵处理器。
[0193]
举例来说,假设有输入矩阵a,权重矩阵b,输出矩阵c。运算电路1301从权重存储器1303中取矩阵b相应的数据,并缓存在运算电路中每一个pe上。运算电路从输入存储器1304中取矩阵a数据与矩阵b进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器1305中。
[0194]
例如,本技术实施例中,语音信号的功率谱和逐点相乘运算可以由运算电路1301来完成。
[0195]
存储单元访问控制器1306主要用于将外部存储器中的输入数据搬运到统一存储器1307或将权重数据搬运到权重存储器1303中或将输入数据搬运到输入存储器1304中。
[0196]
统一存储器1307用于存放输入数据以及输出数据。权重数据通过存储单元访问控
制器1306被搬运到权重存储器1303中。输入数据也通过存储单元访问控制器1306被搬运到统一存储器1307中。总线接口单元1308,用于先进可扩展口(advanced extensible interface,axi)总线与存储单元访问控制器1306和取指存储器1309的交互。
[0197]
总线接口单元1308,还用于取指存储器1309从外部存储器获取指令,还用于存储单元访问控制器1306从外部存储器获取输入矩阵a或者权重矩阵b的原数据。
[0198]
本技术实施例中,上述需要从外部存储器获取的数据例如可以是语音信号的功率谱。
[0199]
向量计算单元1310包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘、向量加、指数运算、对数运算、大小比较等等。主要用于神经网络中非卷积或全连接层网络计算,如池化,批归一化等。
[0200]
在一些实现中,向量计算单元1310将经处理的输出向量存储到统一存储器1307。例如,向量计算单元1310可以将非线性函数应用到运算电路1301的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1310生成归一化的值、合并值或者二者均有。在一些实现中,处理过的输出向量能够用作到运算电路1301的激活输入,例如用于在神经网络中的后续层中的使用。
[0201]
控制器1302连接的取指存储器1309,用于存储控制器使用的指令。
[0202]
统一存储器1307,输入存储器1304,权重存储器1303以及取指存储器1309均为npu内部存储器。外部存储器私有于该npu硬件架构。
[0203]
图14为本技术一实施例提供的人声检测设备的结构示意图,如图14所示,该人声检测设备可以是终端设备,也可以是终端设备的部件(例如,集成电路,芯片等等),或者,可以是服务器,也可以是服务器的部件(例如,集成电路,芯片等等)。本实施例的人声检测设备1400包括:获取模块1401、划分模块1402和处理模块1403。
[0204]
获取模块1401,用于获取语音信号,以及获取语音信号中每帧语音帧的功率谱。
[0205]
划分模块1402,用于将每帧语音帧的功率谱在频域上进行分频段划分,获得m个频段的子功率谱,m为大于等于2的整数。
[0206]
处理模块1403,用于根据m个频段的子功率谱,获得语音信号中每帧语音帧包含人声的概率。
[0207]
在一种可能的实施方式中,划分模块1402具体用于:按照梅尔刻度,将功率谱在频域上进行分频段划分,获得m个频段的子功率谱;其中,每个频段的梅尔刻度等长。
[0208]
在一种可能的实施方式中,划分模块1402具体用于:按照梅尔刻度,将功率谱的频域进行分频段划分,获得m个中间频段,每个中间频段的梅尔刻度等长。根据功率谱,获得m个中间频段中最高频段的子功率谱以及将m个中间频段中除最高频段的m-1个中间频段的上限频率增大,以获得m-1个频段的子功率谱;或者,根据功率谱,获得m个中间频段中最低频段的子功率谱以及将m个中间频段中除最低频段的m-1个中间频段的下限频率减小,以获得m-1个频段的子功率谱。其中,相邻两频段间在频域上部分重叠。
[0209]
在一种可能的实施方式中,处理模块1403具体用于:对每个频段的子功率谱,提取k个不同次数的谐波分量,k为大于等于1。根据每个频段的子功率谱及k个不同次数的谐波分量,获得语音信号中每帧语音帧包含人声的概率。
[0210]
在一种可能的实施方式中,处理模块1403具体用于:提取每个频段的子功率谱对
应的特征,以及k个不同次数的谐波分量分别对应的特征。
[0211]
将各个频段的子功率谱对应的特征,以及k个不同次数的谐波分量分别对应的特征进行拼接,获得每帧语音帧的频谱增强特征。
[0212]
根据每帧语音帧的频谱增强特征,获得语音信号中每帧语音帧包含人声的概率。
[0213]
在一种可能的实施方式中,处理模块1403还用于:获取每个频段的子功率谱对应的对数平均能量及k个不同次数的谐波分量分别对应的对数平均能量。
[0214]
将各个频段的子功率谱对应的对数平均能量,以及k个不同次数的谐波分量分别对应的对数平均能量进行拼接,获得每帧语音帧的能量增强特征。
[0215]
其中,处理模块1403根据每帧语音帧的频谱增强特征,获得语音信号中每帧语音帧包含人声的概率时,具体用于:
[0216]
根据每帧语音帧的频谱增强特征以及每帧语音帧的能量增强特征,获得语音信号中每帧语音帧包含人声的概率。
[0217]
在一种可能的实施方式中,处理模块1403具体用于:
[0218]
根据m个频段的子功率谱,获得每帧语音帧的频谱增强特征。
[0219]
获取每帧语音帧的能量增强特征。
[0220]
根据每帧语音帧的频谱增强特征以及每帧语音帧的能量增强特征,获得语音信号中每帧语音帧包含人声的概率。
[0221]
在一种可能的实施方式中,处理模块1403具体用于:
[0222]
根据m个频段的子功率谱,获得每帧语音帧的能量增强特征。
[0223]
在一种可能的实施方式中,处理模块1403具体用于:
[0224]
对每个频段的子功率谱,提取k个不同次数的谐波分量,k为大于等于1。
[0225]
根据每个频段的子功率谱及k个不同次数的谐波分量,获得每帧语音帧的频谱增强特征和每帧语音帧的能量增强特征。
[0226]
可选的,k个不同次数的谐波分量包括2次谐波分量、3次谐波分量和5次谐波分量。
[0227]
在一种可能的实施方式中,处理模块1403具体用于:
[0228]
根据连续多帧语音帧的频谱增强特征,获得连续多帧中每帧对应的第一输出结果,连续多帧的第一输出结果用于表示不同频段的频谱在时间上的关联关系。
[0229]
根据连续多帧语音帧的能量增强特征,获得连续多帧中每帧对应的第二输出结果,连续多帧的第二输出结果用于表示不同频段的能量在时间上的关联关系。
[0230]
根据每帧对应的第一输出结果和第二输出结果,获得每帧语音帧包含人声的概率。
[0231]
在一种可能的实施方式中,处理模块1403具体用于:
[0232]
将连续多帧语音帧的频谱增强特征输入至采用语音激活检测方式的神经网络中,获得连续多帧中每一帧对应的第一输出结果。
[0233]
在一种可能的实施方式中,处理模块1403具体用于:
[0234]
将连续多帧帧语音帧的能量增强特征输入至采用注意力机制的神经网络中,获得连续多帧中每一帧对应的第二输出结果。
[0235]
可选的,第一输出结果与第二输出结果为维度相同的向量。
[0236]
在一种可能的实施方式中,处理模块1403具体用于:
[0237]
将第一输出结果以及第二输出结果输入至结果融合网络,获得输出的语音信号中每帧语音帧包含人声的概率。
[0238]
其中,结果融合网络包括逐点相乘计算层以及至少一个全连接层。
[0239]
可选的,结果融合网络输出的结果为2维向量,2维向量包括每帧语音帧包含人声的概率以及每帧语音帧包含非人声的概率。
[0240]
本实施例的人声检测设备可以实现如上述任一方法实施例的方案,其实现原理和技术效果类似,此处不再赘述。
[0241]
图15为本技术另一实施例提供的人声检测设备的结构示意图,如图15所示,该人声检测设备可以是上述方法实施例中的终端设备,也可以是终端设备的部件(例如,集成电路,芯片等等)。本实施例的人声检测设备1500包括:存储器1501、处理器1502和通信接口1503。存储器1501、处理器1502以及通信接口1503可以相互连接或者通过总线1504相互连接。
[0242]
可选的,存储器1501用于存储程序指令,存储器1501可以包括但不限于是随机存储记忆体、只读存储器、可擦除可编程只读存储器或者便携式只读存储器。通信接口1503用于支持人声检测设备1500进行通信。
[0243]
可选的,处理器1502可以是中央处理单元、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。处理器也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。处理器1502可以用于读取上述存储器1501中存储的程序,执行上述任一方法实施例的方案。
[0244]
图16为本技术一实施例提供的一种芯片的结构示意图,如图16所示。芯片1600可以包括:处理器1601,以及与处理器通过线路互联的通信接口1602。其中:
[0245]
处理器1601用于运行计算机程序或指令。具体实现中,处理器1601可主要包括控制器、运算器和寄存器。其中,控制器主要负责指令译码,并为指令对应的操作发出控制信号。运算器主要负责执行定点或浮点算数运算操作、移位操作以及逻辑操作等,也可以是执行地址和转换。寄存器主要负责保存指令执行过程中临时存放的寄存器操作数和中间操作结果等。具体实现中,处理器1601的硬件架构可以是专用集成电路架构,无互锁管道阶段架构的微处理器架构,进阶精简指令集机器架构或者np架构等等。处理器1601可以是单核的,也可以是多核的。
[0246]
通信接口1602可以用于输入待处理的数据至处理器1601,并且可以向外输出处理器1601的处理结果。在一种具体实现中,通信接口1602可以是通用输入输出接口,可以和多个外围设备(如显示器、射频模块等等)连接。通信接口1602可以通过总线1603与处理器1601相连。
[0247]
本技术中,处理器1601可以用于从存储器中调用本技术的一个或者多个实施例提供的人声检测方法在终端侧的实现程序,并执行该程序包含的指令。存储器可以和处理器1601集成在一起,这种情况下,存储器是作为芯片1600的一部分。或者,存储器作为芯片1600外部的元件,处理器1601通过通信接口1602调用存储器中存储的指令或数据。
[0248]
通信接口1602可用于输出处理器1601的执行结果。关于本技术的一个或多个实施例提供的人声检测方法可参考前述各个实施例,此处不再赘述。
[0249]
在一种可能的实施例中,上述芯片1600可以是系统芯片。需要说明的是,处理器1601,以及与处理器通过线路互联的通信接口1602各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不不作限制。
[0250]
本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质包括指令,当指令在计算机上运行时,将会执行任一方法实施例的方案。
[0251]
需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。在本技术的实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0252]
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0253]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献