声音解析系统、声音解析方法及程序与流程

2022-03-01 23:01:50 来源：中国专利 TAG：

1.本发明涉及声音解析系统、声音解析方法及程序。

背景技术：

2.公开有用户从脖子悬吊可穿戴终端且具备设置于距用户的嘴巴不同的距离的2个声压传感器的语音解析系统(例如，参照日本专利第6191747号公报)。声压解析系统基于由各语音传感器取得的声压比来判定其声压产生源是用户还是周围的说话。

技术实现要素：

3.然而有时，因设置有语音传感器的悬吊绳扭转等理由，用户的嘴巴与各语音传感器的距离变化，由各语音传感器取得的声压也会变化。在该情况下，声压的检测精度下降，语音解析的精度也可能会下降。
4.本发明为了解决这样的问题点而完成，主要目的在于提供能够抑制声压的检测精度下降而高精度地进行语音解析的声音解析系统、声音解析方法及程序。
5.用于达成上述目的的本发明的一方案是一种声音解析系统。具备：
6.第一声压取得单元及第二声压取得单元，分别配置于用户穿戴的装备，在所述用户穿戴了所述装备的状态下分别配置于距所述用户的嘴巴不同的距离的位置，分别取得所述用户的语音的声压；
7.距离推定单元，基于由所述第一声压取得单元取得的声压和由所述第二声压取得单元取得的声压来推定所述第一声压取得单元或第二声压取得单元与用户的嘴巴之间的距离；及
8.声压修正单元，算出所述第一声压取得单元或第二声压取得单元与用户的嘴巴的距离的基准值与由所述距离推定单元推定出的距离的差值，基于该差值来修正由所述第一声压取得单元及第二声压取得单元中的至少一方取得的声压。
9.在该一方案中，可以是，所述距离推定单元基于由所述第一声压取得单元及第二声压取得单元取得的声压和表示由所述第一声压取得单元及第二声压取得单元取得的声压与所述第一声压取得单元或第二声压取得单元与用户的嘴巴之间的距离的关系的距离对应映射、函数或学习器来推定所述第一声压取得单元或第二声压取得单元与用户的嘴巴之间的距离。
10.在该一方案中，可以是，所述声压修正单元基于所述差值和表示所述差值与声压的修正量的关系的修正量对应映射、函数或学习器来算出由第一声压取得单元及第二声压取得单元中的至少一方取得的声压的修正量，对由所述第一声压取得单元及第二声压取得单元中的至少一方取得的声压加上该算出的修正量而算出修正声压。
11.在该一方案中，可以是，还具备基于由所述第一声压取得单元及第二声压取得单元取得的声压之比来判定所述声压的产生源是否是所述用户的说话判定单元。
12.在该一方案中，可以是，还具备：加速度检测单元，设置于所述用户穿戴的终端主
体，检测所述终端主体的加速度；算出单元，基于由所述加速度检测单元检测到的加速度来算出所述终端主体的振幅及周期中的至少一方；及修正单元，基于所述差值来修正由所述算出单元算出的所述终端主体的振幅及周期中的至少一方。
13.用于达成上述目的的本发明的一方案是也可以是一种声音解析方法，包括以下步骤：
14.利用分别配置于用户穿戴的装备且在所述用户穿戴了所述装备的状态下分别配置于距所述用户的嘴巴不同的距离的位置的第一声压取得单元及第二声压取得单元来分别取得所述用户的语音的声压；
15.基于由所述第一声压取得单元取得的声压和由所述第二声压取得单元取得的声压来推定所述第一声压取得单元或第二声压取得单元与用户的嘴巴之间的距离；及
16.算出所述第一声压取得单元或第二声压取得单元与用户的嘴巴的距离的基准值与所述推定出的距离的差值，基于该差值来修正由所述第一声压取得单元及第二声压取得单元中的至少一方取得的声压。
17.用于达成上述目的的本发明的一方案也可以是一种程序，使计算机执行以下处理：
18.利用分别配置于用户穿戴的装备且在所述用户穿戴了所述装备的状态下分别配置于距所述用户的嘴巴不同的距离的位置的第一声压取得单元及第二声压取得单元来分别取得所述用户的语音的声压；
19.基于由所述第一声压取得单元取得的声压和由所述第二声压取得单元取得的声压来推定所述第一声压取得单元或第二声压取得单元与用户的嘴巴之间的距离；及
20.算出所述第一声压取得单元或第二声压取得单元与用户的嘴巴的距离的基准值与所述推定出的距离的差值，基于该差值来修正由所述第一声压取得单元及第二声压取得单元中的至少一方取得的声压。
21.根据本发明，能够提供能够抑制声压的检测精度下降而高精度地进行语音解析的声音解析系统、声音解析方法及程序。
22.本公开的上述和其他的目的、特征及优点将会通过下文给出的详细描述和仅以图解的方式给出的附图而被更充分地理解，因此不应被认为是限制本公开。
附图说明
23.图1是示出本实施方式1的声音解析系统的概略性的系统结构的框图。
24.图2是示出终端主体的图。
25.图3是示出本实施方式1的信息处理装置的概略性的系统结构的框图。
26.图4是示出声压的特性的图。
27.图5是示出距离对应映射的一例的图。
28.图6是示出修正量对应映射的一例的图。
29.图7是示出本实施方式1的声音解析方法的流程的一例的流程图。
30.图8是示出本实施方式2的终端主体的图。
31.图9是示出本实施方式2的信息处理装置的概略性的系统结构的框图。
32.图10是示出说话判定部、距离推定部及声压修正部设置于终端主体的结构的图。
具体实施方式
33.实施方式1
34.以下，参照附图来对本发明的实施方式进行说明。图1是示出本实施方式1的声音解析系统的概略性的系统结构的框图。本实施方式的声音解析系统1具备终端主体2和经由无线通信线路而连接于终端主体2的信息处理装置3。
35.无线通信线路包括wi-fi(注册商标)(wireless fidelity：无线保真)、bluetooth(注册商标)、uwb(ultra wideband：超宽频)等。终端主体2和信息处理装置3也可以经由互联网等通信网而通信连接。也可以是多个终端主体2和信息处理装置3经由通信网而通信连接。
36.例如如图2所示，用户穿戴的装备构成为将终端主体2从脖子悬吊的可穿戴终端。在终端主体2设置有提绳。用户能够将脖子穿过提绳，将终端主体2从脖子吊挂而穿戴。
37.终端主体2具有取得用户的语音等周围的声音的声压的第一及第二声压取得部21、22和将由第一及第二声压取得部21、22取得的声压向信息处理装置3发送的数据发送部23。
38.在终端主体2中，第一声压取得部21及第二声压取得部22隔开规定距离而设置。第一及第二声压取得部21、22是第一及第二声压取得单元的一具体例。第二声压取得部22在用户将终端主体2从脖子吊挂而穿戴的状态下，配置于比第一声压取得部21距用户的嘴巴远的位置。
39.需要说明的是，第一声压取得部21也可以在用户将终端主体2从脖子吊挂而穿戴的状态下，配置于比第二声压取得部22距用户的嘴巴远的位置。第一及第二声压取得部21、22中的至少一方也可以设置于提绳等。
40.第一及第二声压取得部21、22由收集语音等的麦克风等构成。第一及第二声压取得部21、22将取得的声压向数据发送部23输出。数据发送部23将从第一及第二声压取得部21、22输出的声压数据向信息处理装置3发送。
41.信息处理装置3例如具有具备cpu(central processing unit：中央处理单元)、gpu(graphics processing unit：图形处理单元)等处理器3a、ram(random access memory：随机存取存储器)、rom(read only memory：只读存储器)等内部存储器3b、hdd(hard disk drive：硬盘驱动器)、sdd(solid state drive：固态驱动器)等存储设备3c、用于连接显示器等周边设备的输入输出i/f3d及与装置外部的设备进行通信的通信i/f3e的通常的计算机的硬件结构。
42.信息处理装置3例如通过处理器3a一边利用内部存储器3b一边执行保存于存储设备3c、内部存储器3b等的程序，能够实现后述的各功能。
43.图3是示出本实施方式1的信息处理装置的概略性的系统结构的框图。信息处理装置3具有判定说话者的说话判定部31、推定第一声压取得部21与用户的嘴巴之间的距离的距离推定部32及修正声压的声压修正部33。
44.说话判定部31判定从第一及第二声压取得部21、22输出的声压的产生源(以下，称作声压产生源)是否是穿戴终端主体2的用户(以下，称作穿戴用户)。即，说话判定部31判定是否产生了穿戴用户的说话。通过该判定，能够将声压产生源确定为穿戴用户，能够进行更高精度的声压修正。
45.如图4所示，声压具有根据与其声压产生源的距离而衰减的特性。因而，穿戴用户说话而产生源近的情况下的声压比比其他用户说话而产生源远的情况下的声压比大。
46.将第一及第二声压取得部21、22与声压产生源的距离近的情况下的第一声压取得部21的声压设为v
1n
，将第二声压取得部22的声压设为v
2n
，将第一声压取得部21与声压产生源的距离设为r
1n
，将第二声压取得部22与声压产生源的距离设为r
2n
。另外，将第一及第二声压取得部21、22与声压产生源的距离远的情况下的第一声压取得部21的声压设为v
1f
，将第二声压取得部22的声压设为v
2f
，将第一声压取得部21与声压产生源的距离设为r
1f
，将第二声压取得部22与声压产生源的距离设为r
2f
。
47.在该情况下，如图4所示，第一及第二声压取得部21、22与声压产生源的距离近的情况下的声压比v
1n
/v
2n
比第一及第二声压取得部21、22与声压产生源的距离远的情况下的声压比v
1f
/v
2f
大(v
1n
/v
2n
》v
1f
/v
2f
)。
48.利用这样的声压的特性，说话判定部31基于从第一及第二声压取得部21、22输出的声压的比来判定声压产生源是否是穿戴用户。
49.例如，说话判定部31算出将从第一声压取得部21输出的声压在规定时间δt的期间进行积分而得到的第一积分值。说话判定部31算出将从第二声压取得部22输出的声压在规定时间δt的期间进行积分而得到的第二积分值。规定时间δt是提取了用户说话的时间中的一部分的时间，该时间对第一及第二声压取得部21、22预先设定。说话判定部31在判断为第一积分值与第二积分值之比比预先设定的阈值大的情况下，判定为其声压产生源是穿戴用户。
50.如上所述，说话判定部31将由第一及第二声压取得部21、22取得的声压的积分值之比与阈值进行比较来进行声压产生源的判定，但不限定于此，也可以应用任意的判定方法。例如，说话判定部31也可以将由第一及第二声压取得部21、22取得的声压的平均值之比与阈值进行比较来进行声压产生源的判定。而且，说话判定部31还可以将由第一及第二声压取得部21、22取得的声压的积分值或平均值的差值与阈值进行比较来进行声压产生源的判定。
51.距离推定部32推定第一声压取得部21与穿戴用户的嘴巴之间的距离。距离推定部32是距离推定单元的一具体例。在此，声压v具有由以声压产生源的音量v及声压产生源与声压取得部的距离r为变量的函数(v＝f(v、r))决定这一性质。因而，通过使用2个独立的声压(v1、v2)，能够唯一地决定声压产生源与声压取得部的距离r。
52.因此，距离推定部32基于由第一声压取得部21取得的声压v1及由第二声压取得部22取得的声压v2和预先设定的距离对应映射来推定第一声压取得部21与穿戴用户的嘴巴之间的距离r。
53.图5是示出距离对应映射的一例的图。如图5所示，实际将穿戴用户的嘴巴与第一声压取得部21之间的距离设为r，将此时由第一及第二声压取得部21、22取得的声压v1、v2与该距离r建立对应而制作距离对应映射。距离对应映射也可以预先设定于距离推定部32。
54.例如，在由第一声压取得部21取得的声压v1＝3.0且由第二声压取得部22取得的声压v2＝2.8的情况下，距离推定部32参照图5所示的距离对应映射，推定为第一声压取得部21与穿戴用户的嘴巴之间的距离r＝4.2cm。
55.距离推定部32也可以基于由第一及第二声压取得部21、22取得的声压v1、v2和预
先设定的函数来推定第一声压取得部21与穿戴用户的嘴巴之间的距离r。表示用户的嘴巴与第一声压取得部21之间的距离r与由第一及第二声压取得部21、22取得的声压v1、v2的关系的上述函数r＝f(v1、v2)也可以设定于距离推定部32。
56.距离推定部32也可以使用学习了用户的嘴巴与第一声压取得部21之间的距离r与由第一及第二声压取得部21、22取得的声压v1、v2的关系的学习器来推定第一声压取得部21与穿戴用户的嘴巴之间的距离r。
57.将由第一及第二声压取得部21、22取得的声压v1、v2设为学习器的输入值，将用户的嘴巴与第一声压取得部21之间的距离r设为学习器的输出，学习器进行机器学习。
58.学习器例如由rnn(recurrent neural network：循环神经网络)等神经网络构成。该rnn也可以在中间层具有lstm(long short term memory：长短期记忆)。学习器也可以取代神经网络而由svm(support vector machine：支持向量机)等其他学习器构成。
59.声压修正部33进行由第一及第二声压取得部21、22取得的声压v1、v2中的至少一方的修正。声压修正部33是声压修正单元的一具体例。例如，声压修正部33算出第一声压取得部21与穿戴用户的嘴巴的距离的基准值与由距离推定部32推定出的距离r的差值δr。第一声压取得部21与穿戴用户的嘴巴的距离的基准值(以下，称作距离基准值)例如是在利用提绳将终端主体2从脖子无扭转等地笔直地悬吊时计测到的成为基准的第一声压取得部21与穿戴用户的嘴巴的距离。距离基准值预先设定于声压修正部33。
60.声压修正部33基于算出的差值δr和修正量对应映射来算出由第一及第二声压取得部21、22取得的声压的修正量δv。差值δr与由第一及第二声压取得部21、22取得的声压的修正量δv的对应关系预先通过实验而求出，作为修正量对应映射而设定于声压修正部33。图6是示出修正量对应映射的一例的图。
61.声压修正部33通过对由第一及第二声压取得部21、22取得的声压v1、v2加上上述算出的修正量δv来算出修正后的第一及第二声压取得部21、22的声压(以下，称作修正声压)。
62.例如，在差值δr是0.5的情况下，如图6所示，声压修正部33参照修正量对应映射而将修正量δv设为0.1。声压修正部33对由第一声压取得部21取得的声压3.0加上修正量0.1而算出第一声压取得部21的修正声压3.1。
63.距离推定部32也可以推定第二声压取得部22与穿戴用户的嘴巴之间的距离。在该情况下，实际将穿戴用户的嘴巴与第二声压取得部22之间的距离设为r，将此时由第一及第二声压取得部21、22取得的声压v1、v2与距离r建立对应而制作距离对应映射。距离推定部32基于该距离对应映射来推定第二声压取得部22与穿戴用户的嘴巴之间的距离r。
64.声压修正部33算出第二声压取得部22与穿戴用户的嘴巴的距离基准值与由距离推定部32推定出的距离r的差值δr。声压修正部33基于算出的差值δr和修正量对应映射来算出由第一及第二声压取得部21、22取得的声压的修正量δv。
65.声压修正部33也可以基于算出的差值δr和表示差值δr与修正量δv的关系的函数来算出由第一及第二声压取得部21、22取得的声压的修正量δv。
66.声压修正部33也可以使用学习了差值δr与修正量δv的关系的学习器来算出由第一及第二声压取得部21、22取得的声压的修正量δv。将差值δr设为学习器的输入值，将第一及第二声压取得部21、22的声压的修正量δv设为学习器的输出，学习器进行机器学
习。
67.声压修正部33通过对由第一及第二声压取得部21、22取得的声压加上上述算出的修正量δv来算出第一及第二声压取得部21、22的修正声压。声压修正部33也可以通过对由第一或第二声压取得部21、22取得的声压加上上述算出的修正量δv来算出第一或第二声压取得部21、22的修正声压。
68.例如，在说话者被确定为穿戴用户的情况等环境下，信息处理装置3也可以是不具有说话判定部31的结构。在该情况下，不进行声压产生源的判定，距离推定部32推定第一声压取得部21与穿戴用户的嘴巴之间的距离，声压修正部33算出第一及第二声压取得部21、22的修正声压。由此，处理进一步被简略化。
69.接着，对本实施方式1的声音解析方法进行说明。图7是示出本实施方式1的声音解析方法的流程的一例的流程图。
70.第一及第二声压取得部21、22取得用户的声压(步骤s101)，并向数据发送部23输出。数据发送部23将从第一及第二声压取得部21、22输出的声压向信息处理装置3发送。
71.说话判定部31基于从第一及第二声压取得部21、22输出的声压之比来判定声压产生源是否是穿戴用户(步骤s102)。
72.说话判定部31在判定为声压产生源不是穿戴用户的情况下(步骤s102的否)，结束本处理。
73.另一方面，说话判定部31在判定为声压产生源是穿戴用户的情况下(步骤s102的是)，距离推定部32基于由第一声压取得部21取得的声压及由第二声压取得部22取得的声压和距离对应映射来推定第一声压取得部21与穿戴用户的嘴巴之间的距离(步骤s103)。
74.声压修正部33算出第一声压取得部21与穿戴用户的嘴巴的距离基准值与由距离推定部32推定出的距离的差值(步骤s104)。声压修正部33基于算出的差值和修正量对应映射来算出由第一及第二声压取得部21、22取得的声压的修正量(步骤s105)。
75.声压修正部33通过对由第一及第二声压取得部21、22取得的声压加上上述算出的修正量来算出第一及第二声压取得部21、22的修正声压(步骤s106)。
76.以上，本实施方式1的声音解析系统1具备：第一及第二声压取得部21、22，分别配置于用户穿戴的装备，在用户穿戴了装备的状态下分别配置于距用户的嘴巴不同的距离的位置，分别取得用户的语音的声压；距离推定部32，基于由第一声压取得部21取得的声压和由第二声压取得部22取得的声压来推定第一或第二声压取得部21、22与用户的嘴巴之间的距离；及声压修正部33，算出第一或第二声压取得部21、22与用户的嘴巴的距离的基准值与由距离推定部32推定出的距离的差值，基于差值来修正由第一及第二声压取得部21、22中的至少一方取得的声压。
77.由此，即使在用户的嘴巴与第一及第二声压取得部21、22的距离发生了变化的情况下，也根据该变化后的距离而声压被恰当地修正。因而，能够抑制声压的检测精度下降而高精度地进行语音解析。
78.实施方式2
79.在本实施方式2中，如图8所示，在终端主体20除了第一及第二声压取得部21、22之外还设置有加速度传感器24。加速度传感器24检测终端主体20的加速度。基于由加速度传感器24检测到的加速度来计算终端主体20的振幅、周期，推定穿戴用户的动作(点头等)。此
时，通过摆的原理，即使动作相同，若提绳的长度改变，则终端主体20的振幅、周期也会改变。因而，优选根据提绳的长度来修正终端主体20的振幅、周期。
80.本实施方式2的语音解析系统基于根据提绳的长度而变化的差值δr来修正终端主体20的振幅及周期中的至少一方。
81.图9是示出本实施方式2的信息处理装置的概略性的系统结构的框图。本实施方式2的信息处理装置30除了上述的说话判定部31、距离推定部32及声压修正部33之外，还具有振幅算出部34、振幅修正部35、周期算出部36及周期修正部37。
82.振幅算出部34基于由加速度传感器24检测到的加速度来算出终端主体20的振幅。振幅算出部34是算出单元的一具体例。振幅修正部35进行由振幅算出部34算出的振幅的修正。振幅修正部35是修正单元的一具体例。
83.例如，振幅修正部35基于差值δr和修正量对应映射来算出由振幅算出部34算出的振幅的修正量。差值δr与由振幅算出部34算出的振幅的修正量的对应关系预先通过实验而求出，作为修正量对应映射而设定于振幅修正部35。需要说明的是，振幅修正部35也可以使用表示差值δr与由振幅算出部34算出的振幅的修正量的关系的函数或学习器来算出振幅的修正量。振幅修正部35通过对由振幅算出部34算出的振幅加上上述算出的修正量来算出修正后的振幅。
84.同样，周期算出部36基于由加速度传感器24检测到的加速度来算出终端主体20的周期。周期算出部36是算出单元的一具体例。周期修正部37进行由周期算出部36算出的周期的修正。周期修正部37是修正单元的一具体例。
85.例如，周期修正部37基于差值δr和修正量对应映射来算出由周期算出部36算出的周期的修正量。差值δr与由周期算出部36算出的周期的修正量的对应关系预先通过实验而求出，作为修正量对应映射而设定于周期修正部37。需要说明的是，周期修正部37也可以使用表示差值δr与由周期算出部36算出的周期的修正量的关系的函数或学习器来算出周期的修正量。周期修正部37通过对由周期算出部36算出的周期加上上述算出的修正量来算出修正后的周期。
86.而且，也可以在终端主体20设置有加速度传感器24以外的例如心率传感器、步数传感器等传感器。在该情况下也是，在由该传感器取得的值根据距穿戴用户的嘴巴的距离而变化的情况下，能够通过上述同样的方法来修正。
87.在本实施方式2中，对与上述实施方式1相同的部分标注相同的标号，省略详细的说明。
88.虽然说明了本发明的一些实施方式，但这些实施方式作为例子而展示，未意图限定发明的范围。这些新颖的实施方式能够以其他各种各样的方式来实施，能够在不脱离发明的主旨的范围内进行各种省略、置换、变更。这些实施方式及其变形包含于发明的范围、主旨，并且包含于权利要求书所记载的发明及其均等的范围。
89.例如，在上述实施方式中，也可以是说话判定部31、距离推定部32、声压修正部33、振幅算出部34、振幅修正部35、周期算出部36及周期修正部37中的至少1个设置于终端主体2的结构。
90.图10是示出说话判定部、距离推定部及声压修正部设置于终端主体的结构的图。在该情况下，不需要信息处理装置3的处理，因此终端主体40也可以不具有数据发送部23。
因此，声音解析系统的结构能够进一步简略化。
91.另外，在上述实施方式中，终端主体2构成为能够由提绳从脖子吊挂的可穿戴终端，但不限定于此。终端主体2例如也可以构成为并入于项链、眼镜(包括太阳镜等)、耳机、头饰、手表、手镯、衣物等的可穿戴终端。需要说明的是，不管在哪个结构中，都与上述实施方式1及2同样，第一及第二声压取得部21、22在用户穿戴了可穿戴终端的状态下分别配置于距用户的嘴巴不同的距离的位置。
92.本发明例如也能够将图6所示的处理通过使处理器3a执行计算机程序来实现。
93.程序能够使用各种各样的类型的非暂时性的计算机可读介质(non-transitory computer readable medium)来保存并向计算机供给。非暂时性的计算机可读介质包括各种各样的类型的具有实体的记录介质(tangible storage medium)。非暂时性的计算机可读介质的例子包括磁记录介质(例如软盘、磁带、硬盘驱动器)、光磁记录介质(例如光磁盘)、cd-rom(read only memory：只读存储器)、cd-r、cd-r/w、半导体存储器(例如，掩模rom、prom(programmable rom：可编程rom)、eprom(erasable prom：可擦除prom)、快闪rom、ram(random access memory：随机存取存储器))。
94.程序也可以由各种各样的类型的暂时性的计算机可读介质(transitory computer readable medium)向计算机供给。暂时性的计算机可读介质的例子包括电信号、光信号及电磁波。暂时性的计算机可读介质能够经由电线及光纤等有线通信路或无线通信路而将程序向计算机供给。
95.构成上述的各实施方式的信息处理装置3的各部分不仅能够由程序实现，也能够将其一部分或全部利用asic(application specific integrated circuit：专用集成电路)、fpga(field-programmable gate array：现场可编程门阵列)等专用的硬件来实现。
96.根据这样描述的本公开，显而易见的是，可以以多种方式改变本公开的实施例。此类变化不应被视为背离本公开的精神和范围，并且对于本领域技术人员而言显而易见的所有此类修改旨在包含于所附权利要求的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别系统的测试方法、装置、计算机设备和存储介质与流程

声音解析系统、声音解析方法及程序与流程

相关文献

最热文献