车载装置以及车载装置中的声音处理方法与流程

2021-09-29 00:02:00 来源：中国专利 TAG：装置声音方法

1.本发明涉及车载装置以及车载装置中的声音处理方法。

背景技术：

2.以往，已知有利用声音识别技术、自然语言处理等来理解用户所说的内容，并对用户的指示、请求进行适当的回答或处理的声音辅助功能。声音辅助功能例如搭载在智能手机等终端装置。
3.此外，已知有在起动声音辅助功能时，利用唤醒词(例如参照专利文献1)。唤醒词是成为触发发送指令或命令的给定的词，是发出指令等前从用户发出的给定词。唤醒词例如是“嗨，计算机”、“嘿，大家伙”等。例如，用户进行“嗨，计算机，告诉我附近的咖啡馆。”这样的发声。如果检测到包含唤醒词的短语，则声音辅助功能起动，对通过自动声音识别技术来理解的用户的指示、请求进行适当的回答或处理。
4.在先技术文献
5.专利文献
6.专利文献1：日本特开2019
‑
174778号公报
7.然而，例如已知有将终端装置和车载装置连接的技术，使得能够在车辆的驾驶中安全地利用终端装置。与该技术相关，可考虑经由与终端装置连接的车载装置来利用终端装置的声音辅助功能。即使在经由车载装置来利用终端装置的声音辅助功能的情况下，也希望利用唤醒词的声音辅助功能的起动不会慢到必要以上。

技术实现要素：

8.本发明的目的在于，提供一种如下的技术，即，在与具有声音辅助功能的终端装置连接的车载装置中，能够在短时间内进行使用特定的词语(唤醒词)的声音辅助功能的起动。
9.为了达到上述目的，本发明的车载装置成为如下的结构(第1结构)，即，是一种能够与具有声音辅助功能的终端装置连接的车载装置，其具备：声音检测部，该声音检测部对从麦克风输入的声音信号进行声音识别，并根据其识别结果控制所述车载装置的各种功能；以及接口部，该接口部与所述终端装置进行通信，所述接口部在被通知了所述声音检测部对所述声音信号进行声音识别的结果是检测到所述声音信号中包含有用于起动所述声音辅助功能的特定的词语的情况时，不经由所述声音检测部而将从所述麦克风输入的声音信号传输到所述终端装置。
10.此外，在上述第1结构的车载装置中，也可以是如下的结构(第2结构)，即所述声音检测部在检测到所述特定的词语时，经由所述接口部对所述终端装置通知所述特定的词语的检测，所述接口部根据来自被通知了所述特定的词语的检测的所述终端装置的请求，不经由所述声音检测部而将从所述麦克风输入的声音信号传输到所述终端装置。
11.此外，在上述第1结构或第2结构的车载装置中，也可以是如下的结构(第3结构)，
即所述接口部具有接口部缓存，该接口部缓存暂时蓄积从所述麦克风输入的声音信号，所述接口部接受所述特定的词语的检测的通知，将蓄积在所述接口部缓存的声音信号传输到所述终端装置。
12.此外，在上述第3结构的车载装置中，也可以是如下的结构(第4结构)，即所述接口部将蓄积在所述接口部缓存的声音信号的从接受到所述通知的时刻开始回溯给定时间的时刻开始的声音信号传输到所述终端装置。
13.此外，上述第1结构至第4结构中任一结构的车载装置优选为如下的结构(第5结构)，即，所述车载装置还具备与所述声音检测部所具有的第1回声消除器以及噪声消除器不同的第2回声消除器以及噪声消除器，经由所述第2回声消除器以及噪声消除器向所述接口部输入来自所述麦克风的声音信号。
14.此外，上述第5结构的车载装置中，优选为如下的结构(第6结构)，即，所述第2回声消除器以及噪声消除器兼作在使用了所述终端装置的免提通话时使用的回声消除器以及噪声消除器。
15.此外，在上述第1结构至第6结构中任一结构的车载装置中，也可以是如下的结构(第7结构)，即，所述声音检测部具有：第1回声消除器以及噪声消除器，该第1回声消除器以及噪声消除器被输入来自所述麦克风的声音信号；自动声音识别部，该自动声音识别部设置为被输入通过了所述第1回声消除器以及噪声消除器的声音信号，并能够识别所述特定的词语；以及声音检测部缓存，该声音检测部缓存暂时保持通过了所述第1回声消除器以及噪声消除器的声音信号。
16.此外，为了达到上述目的，本发明的车载装置中的声音处理方法成为如下结构(第8结构)，即是一种能够与具有声音辅助功能的终端装置连接的车载装置中的声音处理方法，所述车载装置具备：声音检测部，该声音检测部对从麦克风输入的声音信号进行声音识别，并根据其识别结果控制所述车载装置的各种功能；以及接口部，该接口部与所述终端装置进行通信，所述声音处理方法具备：第1步骤，向所述声音检测部发送从所述麦克风输入的声音信号；第2步骤，在通过所述声音检测部检测到用于起动所述声音辅助功能的特定的词语的情况下，将所述特定的词语的检测通知给所述接口部；以及第3步骤，根据所述特定的词语的检测的通知，所述接口部将从所述麦克风发送的声音信号不经由所述声音检测部而传输到所述终端装置。
17.根据本发明，在与具有声音辅助功能的终端装置连接的车载装置中，能够在短时间内进行使用特定的词语的声音辅助功能的起动。
附图说明
18.图1是示出声音处理系统的结构的示意图。
19.图2是示出运算处理部的功能结构的框图。
20.图3是例示通过车载装置来利用终端装置的声音辅助功能时的处理流程的流程图。
21.图4是示出用于说明本实施方式的车载装置的效果的比较例的图。
22.符号说明
23.1：车载装置；
24.2：终端装置；
25.4：麦克风；
26.12：声音检测部；
27.111：接口部；
28.112：第2ec/nc；
29.121：第1ec/nc；
30.122：自动声音识别部；
31.123：声音检测部缓存；
32.1111：接口部缓存。
具体实施方式
33.以下，参照附图，对本发明的例示性的实施方式进行详细说明。
34.<1.声音处理系统>
35.图1是示出本发明的实施方式涉及的声音处理系统100的结构的示意图。如图1所示，声音处理系统100大体上具备车载装置1、终端装置2、以及服务器装置3。
36.车载装置1通过有线或无线与麦克风(mic)(麦克风(microphone)的简写)4连接。用户的说话声音通过麦克风4输入到车载装置1。车载装置1对从麦克风4输入的声音信号进行处理。此外，车载装置1通过有线或无线与扬声器5连接。车载装置1进行为了从扬声器5输出声音而需要的声音信号的处理。扬声器5将从车载装置1输入的声音信号转换为声音而输出。
37.另外，在本实施方式中，麦克风4以及扬声器5是与车载装置1不同的装置。但是，麦克风4以及扬声器5也可以包含在车载装置1中。
38.在本实施方式中，车载装置1作为声音处理装置而发挥功能，并搭载在车辆7。麦克风4以及扬声器5也搭载在车辆7。但是，车载装置1并不局限于车载这一文字，而也可以搭载在车辆以外的移动体。车辆以外的移动体例如可以是船舶、飞机等。此外，车载装置1并不局限于车载这一文字，而例如也可以配置在室内等。车载装置1也可以是不仅具有声音处理功能，例如还可以具有音频功能、导航功能或者这两种功能的复合装置。
39.终端装置2通过有线或无线与车载装置1连接。换言之，车载装置1被设置为能够与终端装置2连接。在本实施方式中，终端装置2具有声音辅助功能。终端装置2例如是智能手机或平板终端。终端装置2被设置为能够经由网络6与服务器装置3进行通信。在本实施方式中，设想终端装置2被用户带入车辆7，并与车载装置1连接而使用。通过将终端装置2与车载装置1连接，从而变得用户(驾驶员)在驾驶中无需操作终端装置2自身的情况下，能够安全地利用终端装置2的功能。
40.服务器装置3具备人工智能(ai)。人工智能进行声音的解读，并进行按照声音内容的处理。若终端装置2的声音辅助功能起动，则基于用户的声音的命令经由网络6发送到服务器装置3，人工智能解读该命令，执行按照命令的处理。在此，所谓的按照命令的处理，例如可列举影像、音乐或者调查物等检索处理。
41.另外，在本实施方式中，终端装置2所具有的声音辅助功能在检测到用户的说话声音中包含的特定的词语的情况下起动。特定的词语是所谓的唤醒词。以下，将使终端装置2
所具有的声音辅助功能起动的特定的词语记载为唤醒词。在本实施方式中，若用户朝向麦克风4发出唤醒词，则通过车载装置1的动作来起动终端装置2的声音辅助功能。
42.<2.车载装置的详细结构>
43.如图1所示，车载装置1具备进行声音信号的处理的运算处理部(运算处理电路)10。运算处理部10例如可以是包含cpu(central processing unit，中央处理器)、ram(random access memory，随机存取存储器)以及rom(read only memory，只读存储器)等的计算机。
44.图2是示出本发明的实施方式涉及的运算处理部10的功能结构的框图。在图2中，实线的箭头表示声音信号的流动，虚线的箭头表示指令的流动。图2所示的各模块是通过计算机所具有的cpu按照存储在存储器的程序执行运算处理而实现的功能。
45.如图2所示，运算处理部10具备声音输入输出控制部11、声音检测部12、以及中继部13。换言之，车载装置1具备声音输入输出控制部11、声音检测部12、以及中继部13。
46.声音输入输出控制部11对声音信号的输入输出进行控制。声音输入输出控制部11对从麦克风4输入的声音信号进行控制。声音输入输出控制部11对从扬声器5输出的声音信号进行控制。声音输入输出控制部11例如通过alsa(advanced linux(注册商标)sound architecture，高级linux声音架构)等声音驱动器构成。
47.声音输入输出控制部11具备接口部111。换言之，车载装置1具备接口部111。接口部111能够使与终端装置2进行连接。接口部111与终端装置2进行通信。在本实施方式中，接口部111是用于能够使用终端装置2具备的特定的应用软件的接口用软件。对接口部111的详情将在后面叙述。
48.从麦克风4向声音检测部12输入声音信号。详细地说，从麦克风4经由声音输入输出控制部11向声音检测部12输入声音信号。声音检测部12对从麦克风4输入的声音信号进行声音识别，并根据该识别结果控制车载装置1的各种功能。声音检测部12检测起动终端装置2所具有的声音辅助功能的唤醒词(特定的词语)。详细地说，声音检测部12在从麦克风4输入的声音中包含有唤醒词的情况下，检测该唤醒词。
49.另外，声音检测部12可以是仅检测起动终端装置2的声音辅助功能的唤醒词的结构，但是也可以是还能够检测其他语言的结构。例如可以是除了终端装置2所具有的声音辅助功能用的唤醒词以外，还检测具有与终端装置2不同的声音辅助功能的车载设备用的唤醒词的结构。
50.如图2所示，详细地说，声音检测部12具有第1回声消除器以及噪声消除器121、自动声音识别部122、以及声音检测部缓存123。以下，将回声消除器以及噪声消除器记载为ec/nc。
51.第1ec/nc121被输入来自麦克风4的声音信号。第1ec/nc121从输入的声音信号中进行回音(回声)的去除和噪声的去除，并输出处理后的声音信号。详细地说，为了去除回音，在第1ec/nc121中除了输入从麦克风4输入的声音信号以外，还输入被输出到扬声器5的声音信号。此外，在第1ec/nc121中，例如利用公知的谱减法(ss法)来进行由车辆7的行驶而产生的道路噪声的去除。
52.自动声音识别部122被输入通过第1ec/nc121后的声音信号。自动声音识别部122被设置为对声音信号进行文本转换，而能够识别声音包含的特定的词语。即，自动声音识别
部122被设置为能够识别唤醒词(特定的词语)。再换言之，自动声音识别部122能够识别并检测唤醒词。
53.声音检测部缓存123暂时保持通过第1ec/nc121后的声音信号。在声音检测部缓存123暂时保持的声音信号例如也可以用于对具有与终端装置2不同的声音辅助功能的车载设备传输声音信号。
54.中继部13是软件接口。在通过声音检测部12检测到唤醒词的情况下，中继部13被通知到该情况。此外，中继部13在被通知了检测到唤醒词的状况的情况下，将该状况通知给接口部111。
55.在检测到唤醒词的情况下，接口部111被通知唤醒词的检测。此外，接口部111将唤醒词的检测通知给终端装置2。换言之，声音检测部12在检测到声音信号中包含有唤醒词时，经由接口部111，将唤醒词的检测通知给终端装置2。另外，终端装置2若被通知到唤醒词的检测，则为了使声音辅助功能起动而请求声音信息。
56.接口部111在被通知到声音检测部12对声音信号进行了声音识别的结果是检测到声音信号中包含有唤醒词的情况时，不经由声音检测部12而将从麦克风4输入的声音信号传输到终端装置2。详细地说，接口部111根据来自被通知到唤醒词的检测的终端装置2的请求，不经由声音检测部12而将从麦克风4输入的声音信号传输到终端装置2。另外，接口部111也可以设为不是按照来自终端装置2的请求而是按照车载装置1的内部处理，不经由声音检测部12而将从麦克风4输入的声音信号传输到终端装置2的结构。此外，接口部111具有暂时蓄积从麦克风4输入的声音信号的接口部缓存1111。接口部111接受唤醒词的检测的通知，将蓄积在接口部缓存1111的声音信号传输到终端装置2。
57.在本实施方式中，声音输入输出控制部11还具备与声音检测部12所具有的第1ec/nc121不同的第2ec/nc112。即，车载装置1还具备与声音检测部12所具有的第1ec/nc121不同的第2ec/nc112。在第2ec/nc112从麦克风4输入声音信号。第2ec/nc112从所输入的声音信号中进行回音(回声)的去除和噪声的去除，并输出处理后的声音信号。第2ec/nc112进行回音以及噪声的去除的方法与第1ec/nc121相同。
58.经由第2ec/nc112将来自麦克风4的声音信号输入至接口部111。因此，能够提高从接口部111传输到终端装置2的声音信号的品质。由此，变得在终端装置2中能够精度优异地进行声音的检测。
59.在本实施方式中，声音输入输出控制部11还具备混频器113。混频器113对应于从终端装置2输出多种的声音信号。通过设置有混频器113，从而能够将从终端装置2输出的多种的声音信号汇总后输出到扬声器5。另外，在本实施方式中，为了在第1ec/nc121以及第2ec/nc112中进行回音的去除，从混频器113输出的声音信号除了朝向扬声器5发送以外，还朝向第1ec/nc121以及第2ec/nc112发送。
60.在上述多种的声音信号包含主信号sg1、第1中断信号sg2、以及第2中断信号sg3。主信号sg1例如是播放音乐用的信号等。第1中断信号sg2例如是导航用的声音信号。第2中断信号sg3例如是声音辅助功能用的声音信号。
61.<3.车载装置的作用效果>
62.图3是例示通过本发明的实施方式涉及的车载装置1来利用终端装置2的声音辅助功能时的处理流程的流程图。在图3中，实线是指基于车载装置1的处理，虚线是指基于终端
装置2的处理。
63.在步骤s1中，通过车载装置1的声音检测部12来监视唤醒词的检测。在步骤s1的处理中包含将从麦克风4输入到车载装置1的声音信号朝向声音检测部12和接口部111发送的步骤。声音检测部12根据朝向声音检测部12发送的声音信号，尝试唤醒词的检测。若通过声音检测部12检测到唤醒词(在步骤s1中为“是”)，则处理推进到下一步骤s2。
64.在步骤s2中，进行如下的处理，即在通过声音检测部12检测到唤醒词的情况下，经由接口部111将唤醒词的检测通知给终端装置2。详细地说，声音检测部12中的唤醒词的检测成为触发，而经由中继部13对接口部111通知唤醒词的检测。接受了通知的接口部111将唤醒词的检测通知给终端装置2。被通知到唤醒词的检测的终端装置2进行步骤n1的处理。
65.在步骤n1中，终端装置2对车载装置1请求声音信号。终端装置2对车载装置1请求表示包含唤醒词的用户的说话内容的声音信号。详细地说，终端装置2将接受了唤醒词的检测的通知的时刻的时间戳发送到接口部111。被发送了时间戳的接口部111进行步骤s3的处理。
66.在步骤s3中，根据来自被通知了唤醒词的检测的终端装置2的请求，将从麦克风4朝向接口部111发送的声音信号经由接口部111发送到终端装置2。从麦克风4朝向接口部111发送的声音信号不通过声音检测部12而输入到接口部111。
67.详细地说，接口部111从麦克风4经由第2ec/nc112被输入声音信号。接口部111通过接口部缓存1111暂时保持经由第2ec/nc112输入的声音信号。接口部111根据时间戳回溯到适当决定的时间，将由接口部缓存1111保持的声音信号适当发送到终端装置2。即，接口部111将蓄积在接口部缓存1111的声音信号的、从接受了唤醒词的检测的通知(在本例子中为时间戳)的时刻开始回溯到给定时间的时刻开始的声音信号输出到终端装置2。被发送了声音信号的终端装置2进行步骤n2的处理。
68.在步骤n2中，通过被发送了声音信号的终端装置2检测唤醒词而起动声音辅助功能。若声音辅助功能起动，则终端装置2将从车载装置1收到的声音信号发送到服务器装置3。在服务器装置3中，利用人工智能，进行声音的解读以及按照声音内容的处理。服务器装置3将处理结果返回给终端装置2。若从服务器装置3返回处理结果，则终端装置2进行下一步骤n3的处理。
69.在步骤n3中，终端装置2将按照服务器装置3中的处理结果的回答(声音信号)发送到车载装置1。被发送了回答的车载装置1进行步骤s4的处理。
70.在步骤s4中，在声音输入输出控制部11的控制下，从终端装置2发送的回答从扬声器5输出。通过以上，经由了车载装置1的终端装置2的声音辅助功能的利用处理完成。
71.在本实施方式中，从麦克风4输入到车载装置1的声音信号朝向声音检测部12和接口部111两者发送。即，在本实施方式中，能够从麦克风4不经由声音检测部12，而对接口部111的接口部缓存1111输入并保持声音信号。因此，根据来自终端装置2的声音信息的请求，能够快速地进行声音信息的传输。
72.对此，参照图4所示的比较例进行详细说明。图4是示出用于说明本实施方式的车载装置1的效果的比较例的图。在图4示出了比较例的运算处理部10a。
73.从麦克风4输入到声音检测部12以及接口部111的声音信号优选通过ec/nc。考虑到这一点，如图4所示，可考虑设为将通过第1ec/nc121并在声音检测部缓存123暂时保持的
声音信号发送到接口部111的接口部缓存1111的结构。如果这样，就能够得到省略了第2ec/nc112的声音输入输出控制部11a。即，能够避免增加ec/nc的数目。
74.但是，在图4所示的结构的情况下，从麦克风4输入的声音信号到达接口部111为止的期间，需要经由声音检测部12所具有的声音检测部缓存123。通过声音检测部缓存123例如需要10ms左右的时间，因此在从终端装置2对接口部111有声音信息的发送请求的情况下，担心产生声音信号未到达接口部缓存1111的事态。
75.关于这一点，在本实施方式的车载装置1中，由于成为在相同地设置有接口部111的声音输入输出控制部11设置有第2ec/nc112的结构，所以能够使从麦克风4输入的声音在中途不通过缓存而输入到接口部111。因此，在从终端装置2对接口部111有声音信息的发送请求的情况下，能够使声音信号未到达接口部缓存1111这样的事态的产生不易发生。即，能够在短时间内进行终端装置2的声音辅助功能的起动。
76.另外，在本实施方式中，车载装置1成为能够进行使用终端装置2的免提通话的结构。在该情况下，优选设为从麦克风4输入的声音信号通过ec/nc之后发送到终端装置2的结构，使得容易听懂用户的说话声音。
77.因此，在本实施方式中，作为优选的方式，设第2ec/nc112为兼作在进行使用终端装置2的免提通话时使用的ec/nc的结构。因此，在本实施方式中，变得能够在不使电路规模、软件规模增加到必要以上的情况下，实现多个功能。另外，在本实施方式中，在使用免提通话的情况下，设为不能利用声音辅助功能的结构。
78.<4.注意事项等>
79.在本说明书中公开的各种技术的特征，除了上述实施方式以外，能够在不脱离其技术创作的主旨的范围内施加各种变更。即，应认为，上述实施方式在所有的方面均为例示，而不是限制性的，并且应理解，本发明技术范围不是由上述实施方式的说明示出，而是由权利要求书示出，并包含与权利要求书等同的意思以及属于范围内的全部的变更。此外，在本说明书中示出的多个实施方式以及变形例可以在可能的范围内适当组合而实施。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音报表生成方法、装置、设备及存储介质与流程

车载装置以及车载装置中的声音处理方法与流程

相关文章

最热文献