语音响应装置、语音响应方法以及存储介质与流程

2022-07-10 14:05:00 来源：中国专利 TAG：

1.本发明的实施方式涉及语音响应装置、语音响应方法以及语音响应程序。

背景技术：

2.ai扬声器(智能扬声器)等语音对话装置(语音响应装置)将用户发出的声音作为输入语音而输入，并对所输入的输入语音的内容进行语音识别。语音对话装置将根据相对于输入语音的语音识别的结果生成的响应内容作为响应语音而输出。通常，语音对话装置在输入语音的音量过大的情况下或者在输入语音的音量过小的情况下，不易得到基于语音识别的正确的识别结果。认为语音对话装置可能能够通过控制所输出的响应语音的音量来控制说话者(用户)发出的声音的大小。这是因为说话者可以根据谈话对象的声音的大小控制发出的声音的大小。
3.但是，以往的语音对话装置由于响应语音是预先设定的音量或者是用户指定的音量，所以无法灵活地变更响应语音的音量。另外，语音对话装置使用麦克风不仅收集说话者的声音还收集除说话者的声音以外的声音。因此，语音对话装置存在如下问题：即便能够简单地设定与输入语音的音量对应的响应语音的音量，也不易提高语音识别的精度。

技术实现要素：

4.为了解决上述课题，提供能够实现精度高的语音响应的语音响应装置、语音响应方法以及语音响应程序。
5.根据实施方式，语音响应装置具有麦克风、处理器、扬声器。麦克风输入声音。处理器生成与从由麦克风输入的声音检测出的用户发出的声音对应的语音形式的响应内容，并根据作为用户发出的声音的音量的输入音量和除用户发出的声音以外的环境声音的音量来确定用于将响应内容作为响应语音而输出的音量。扬声器以处理器确定的音量输出响应语音。
6.根据实施方式，一种用于语音响应装置的语音响应方法，包括以下步骤：获取输入至麦克风的声音，从输入至所述麦克风的声音检测用户发出的声音，生成与从输入至所述麦克风的声音检测出的所述用户发出的声音对应的响应内容，根据所述用户发出的声音的音量和除所述用户发出的声音以外的环境声音的音量，来确定用于以语音输出所述响应内容的音量，使所述响应内容的响应语音以所确定的音量从扬声器输出。
7.根据实施方式，提供一种存储介质，存储有语音响应程序，所述语音响应程序使计算机执行以下处理：获取输入至麦克风的声音，从输入至所述麦克风的声音检测用户发出的声音，生成与从输入至所述麦克风的声音检测出的所述用户发出的声音对应的响应内容，根据所述用户发出的声音的音量和除所述用户发出的声音以外的环境声音的音量，来确定用于以语音输出所述响应内容的音量，使所述响应内容的响应语音以所确定的音量从扬声器输出。
附图说明
8.图1是概略地表示实施方式所涉及的语音响应装置的结构例的图。
9.图2是表示实施方式所涉及的语音响应装置的控制系统的结构例的框图。
10.图3是表示用于实施方式所涉及的语音响应装置在环境音量不足阈值的情况下根据输入音量确定响应音量的函数的例子的图。
11.图4是表示用于实施方式所涉及的语音响应装置在环境音量为阈值以上的情况下根据输入音量确定响应音量的函数的例子的图。
12.图5是表示实施方式所涉及的语音响应装置用于选择与环境音量以及输入音量对应的函数的表格的例子的图。
13.图6是用于对实施方式所涉及的语音响应装置的动作例进行说明的流程图。
14.图7是用于对实施方式所涉及的语音响应装置的响应音量的计算处理进行说明的流程图。
15.图8是用于对实施方式所涉及的语音响应装置的响应音量的计算处理进行说明的流程图。
16.附图标记说明
17.1语音响应装置(语音对话装置)；2麦克风；3扬声器；11处理器；12主存储装置；13辅助存储装置；14语音处理电路。
具体实施方式
18.以下，参照附图对实施方式进行说明。
19.图1是用于对实施方式所涉及的语音响应装置1概略地进行说明的图。
20.如图1所示，实施方式所涉及的语音响应装置1具有麦克风2和扬声器3。语音响应装置1是从扬声器3输出与输入至麦克风2的说话者的声音对应的响应语音的装置。
21.语音响应装置1例如是被称为ai扬声器的语音对话装置。另外，语音响应装置1也可以是智能手机、平板终端、个人计算机等信息处理装置。另外，语音响应装置1也可以是在信息处理装置上连接麦克风2以及扬声器3中的任一方或者双方的结构。
22.语音响应装置1通过麦克风2收集包括说话者发出的声音(voice)和环境声音的声音。语音响应装置1根据由麦克风2收集到的声音来检测说话者发出的声音(输入语音)。语音响应装置1通过对检测出的输入语音执行语音识别来对输入语音的内容(说话者发出的讲话内容)进行识别。语音响应装置1根据识别出的输入语音的内容来生成作为响应语音而发出的响应内容。
23.并且，本实施方式所涉及的语音响应装置1对说话者发出的声音(输入语音)的音量和除说话者发出的声音以外的声音(环境声音)的音量进行计测(计算)。语音响应装置1保持用于确定响应语音的音量的多个函数(或者表格)。用于确定响应语音的音量的多个函数根据环境声音的大小和输入语音的大小的组合来设定。语音响应装置1基于根据由麦克风收集到的声音而计测出的输入语音的音量和环境声音的音量来选择函数(或者表格)。语音响应装置1根据选择出的函数来确定与输入语音的音量对应的响应语音的音量。语音响应装置将与输入语音的内容对应地生成的响应内容作为根据输入语音的音量和环境声音的音量确定出的音量的响应语音而从扬声器3输出。
24.接下来，对实施方式所涉及的语音响应装置1的结构进行说明。
25.图2是表示实施方式所涉及的语音响应装置1的结构例的框图。
26.如图2所示，语音响应装置1具有处理器11、主存储装置12、辅助存储装置13、语音处理电路14、麦克风2以及扬声器3。
27.处理器11负责语音响应装置1整体的控制。处理器11例如是cpu。处理器11通过执行程序来进行后述的各种处理。例如，处理器11进行语音响应装置1的动作控制、语音检测、语音识别、响应语句的生成、输入语音的音量计测、环境声音的音量计测、响应语音的音量计算以及响应波形的生成等各种处理。
28.主存储装置12是存储数据的主存储器。主存储装置12例如由ram(random memory)等构成。主存储装置12暂时储存处理器11正处理的数据。另外，主存储装置12也可以储存程序的执行所需的数据以及程序的执行结果等。另外，主存储装置12也作为用于暂时保存数据的缓冲存储器来动作。
29.例如，主存储装置12作为对表示根据由麦克风收集到的声音计算出的环境声音的音量的信息进行存储的存储器发挥功能。例如，主存储装置12对通过利用语音处理电路14对由麦克风2收集到的声音进行处理而得到的语音的数据进行存储。并且，主存储装置12也可以对由麦克风收集到的声音所含的说话者发出的声音(输入语音)的音量的计算结果进行存储。另外，主存储装置12也可以对表示根据输入语音的音量以及环境声音的音量确定出的响应语音的音量的信息进行存储。
30.辅助存储装置13是存储数据的储存器。辅助存储装置13包括rom(只读存储器)等不可改写的非易失性存储器以及可改写的非易失性存储器等。作为可改写的非易失性存储器，例如由hdd(硬盘驱动器)、ssd(固态硬盘)、eeprom(注册商标)或者闪存rom等构成。
31.辅助存储装置13对处理器11执行的程序以及控制数据等进行存储。例如，辅助存储装置13对用于输出与输入语音对应的响应语音的语音响应程序进行存储。语音响应程序包括进行语音检测、语音识别、意图解析、响应语句的生成、输入音量的计算、环境音量的计算、响应音量的计算以及响应波形的生成等后述那样的各种处理的程序。此外，通过后述的处理器11执行程序而实施的处理的一部分或者全部也可以通过处理电路等硬件来执行。
32.另外，在图2所示的例子中，辅助存储装置13存储用于选择函数的函数表格13a，上述函数用于在考虑环境声音的音量(环境音量)的情况下确定与输入语音的音量(输入音量)对应的响应语音的音量。针对函数表格13a，后面将详细地进行说明。
33.麦克风2收集(获取)声音。麦克风2例如将收集到的声音作为模拟信号(模拟波形)而输入，并将所输入的声音的模拟信号向语音处理电路14输出。
34.语音处理电路14输入麦克风2收集到的声音的模拟信号，并将以输入的声音的模拟信号作为数字数据的声音数据输出。语音处理电路14具有使模拟波形数字化的ad转换器等。
35.此外，麦克风2也可以是与语音响应装置1连接的外部设备。在以麦克风2作为外部设备的情况下，语音处理电路14具备连接麦克风2的语音输入用的接口即可。
36.扬声器3输出语音。扬声器3产生基于从处理器11供给的响应波形的响应语音。扬声器3通过处理器11控制音量。例如，扬声器3发出基于处理器11根据响应语音的音量调整了振幅后的响应波形的响应语音。
37.此外，扬声器3也可以是与语音响应装置1连接的外部设备。在以扬声器3作为外部设备的情况下，语音响应装置1具备将表示应该向扬声器3输出的声音的波形的信号输出的接口即可。
38.接下来，对用于实施方式所涉及的语音响应装置1确定响应语音的音量(响应音量)的函数进行说明。
39.语音响应装置1对说话者发出的声音进行识别，并以语音输出对说话者发出的语言(输入语句)的响应。语音响应装置1生成对说话者发出的声音的响应内容，并且使用根据输入语音的音量(输入音量)和环境声音的音量(环境音量)选择出的函数来确定响应音量。即，语音响应装置1保持有与环境声音的大小对应的多个函数，来作为用于根据输入音量而确定响应音量的函数。语音响应装置1从多个函数中选择适于环境声音的大小的函数，根据输入音量来确定响应音量。
40.图3以及图4是表示用于确定与输入语音的音量(输入音量)v对应的响应语音的音量(响应音量)的函数(滤波器)的例子的图。
41.图3示出用于在环境声音的音量(环境音量)s不足阈值ts(s＜ts)的情况下根据输入音量来确定响应音量的函数(第一函数)的例子。另外，图4示出用于在环境音量s为阈值ts以上(s≥ts)的情况下根据输入音量来确定响应音量的函数(第二函数)的例子。
42.在图3所示的例子中，函数fa是用于在环境音量s不足阈值ts(s＜ts)的情况下根据输入音量来确定响应音量的函数。函数fa通过关于输入音量v的阈值tva、tvb、tvc、tvd而特性发生变化。函数fa由通过关于输入音量v的四个阈值tva、tvb、tvc、tvd划分出的五个区间的函数faa、fab、fac、fad、fae构成。
43.函数faa是用于在环境音量s不足阈值ts(s＜ts)且输入音量v不足阈值tva(v＜tva)的情况下根据输入音量来确定响应音量的函数。函数fab是用于在环境音量s不足阈值ts(s＜ts)且输入音量v为阈值tva以上且不足阈值tvb(tva≤v＜tvb)的情况下根据输入音量来确定响应音量的函数。
44.函数fac是用于在环境音量s不足阈值ts(s＜ts)且输入音量v为阈值tvb以上且不足阈值tvc(tvb≤v＜tvc)的情况下根据输入音量来确定响应音量的函数。函数fad是用于在环境音量s不足阈值ts(s＜ts)且输入音量v为阈值tvc以上且不足阈值tvd(tvc≤v＜tvd)的情况下根据输入音量来确定响应音量的函数。函数fae是用于在环境音量s不足阈值ts(s＜ts)且输入音量v为阈值tvd以上(tvd≤v)的情况下根据输入音量来确定响应音量的函数。
45.在图4所示的例子中，函数fb是用于在环境音量s为阈值ts以上(ts≤s)的情况下根据输入音量来确定响应音量的函数。函数fb通过关于输入音量v的三个阈值tvi、tvj、tvk而特性发生变化。函数fb由通过关于输入音量v的三个阈值tvi、tvj、tvk划分出的四个区间的函数fba、fbb、fbc、fbd构成。
46.函数fba是用于在环境音量s为阈值ts以上(ts≤s)且输入音量v不足阈值tvi(v＜tvi)的情况下根据输入音量来确定响应音量的函数。函数fbb是用于在环境音量s为阈值ts以上(ts≤s)且输入音量v为阈值tvi以上且不足阈值tvj(tvi≤v＜tvj)的情况下根据输入音量来确定响应音量的函数。
47.函数fbc是用于在环境音量s为阈值ts以上(ts≤s)且输入音量v为阈值tvj以上且
不足阈值tvk(tvj≤v＜tvk)的情况下根据输入音量来确定响应音量的函数。函数fbd是用于在环境音量s为阈值ts以上(ts≤s)且输入音量v为阈值tvk以上(tvk≤v)的情况下根据输入音量来确定响应音量的函数。
48.图5是表示用于实施方式所涉及的语音响应装置1选择适于环境音量以及输入音量的大小的函数的函数表格13a的结构例的图。
49.图5所示的函数表格13a表示根据环境音量以及输入音量的大小从图3以及图4所示的函数中选择出的函数。例如如图2所示，图5所示的函数表格13a存储于语音响应装置1的辅助存储装置13。语音响应装置1通过参照函数表格13a，选择与环境音量s和输入音量v对应的一个函数。语音响应装置1使用根据环境音量s和输入音量v选择出的函数并根据输入音量来确定响应音量。
50.例如，语音响应装置1在s＜ts并且v＜tva的情况下，使用函数faa根据输入音量来确定响应音量。语音响应装置1在s＜ts并且tva≤v＜tvb的情况下，使用函数fab并根据输入音量来确定响应音量。语音响应装置1在s＜ts并且tvb≤v＜tvc的情况下，使用函数fac并根据输入音量来确定响应音量。语音响应装置1在s＜ts并且tvc≤v＜tvd的情况下，使用函数fad并根据输入音量来确定响应音量。语音响应装置1在s＜ts并且tvd≤v的情况下，使用函数fae并根据输入音量来确定响应音量。
51.另外，语音响应装置1在ts≤s并且v＜tvi的情况下，使用函数fba并根据输入音量来确定响应音量。语音响应装置1在ts≤s并且tvi≤v＜tvj的情况下，使用函数fbb并根据输入音量来确定响应音量。语音响应装置1在ts≤s并且tvj≤v＜tvk的情况下，使用函数fbc并根据输入音量来确定响应音量。语音响应装置1在ts≤s并且tvk≤v的情况下，使用函数fbd并根据输入音量来确定响应音量。
52.接下来，对实施方式所涉及的语音响应装置1的动作进行说明。
53.图6是用于对实施方式所涉及的语音响应装置1针对说话者(用户)的声音输出响应语音的处理的动作例进行说明的流程图。
54.语音响应装置1的处理器11将麦克风2收集的声音作为输入音的声音数据而输入(act11)。麦克风2将表示收集的声音的模拟波形的信号向语音处理电路14供给。语音处理电路14将表示从麦克风2输入的模拟波形的信号数字化。语音处理电路14将数字化的数字信号作为声音数据向处理器11供给。处理器11获取通过语音处理电路14对麦克风2收集到的声音数字化而得到的输入音的声音数据。
55.若获取输入音的声音数据，则处理器11通过语音检测处理来检测输入音的声音数据中是否包括说话者发出的声音(说话者的声音)(act12)。处理器11进行通过执行语音检测程序来检测输入音是否包括说话者发出的声音的语音检测处理。
56.在没有从输入音检测到说话者的声音的情况下(act12，否)，处理器11根据输入音的声音数据来计算(计测)环境声音的音量(环境音量)(act13)。在输入音没有检测到说话者的声音的情况下，输入音为不包括说话者的声音的环境声音(除说话者的声音以外的声音)。在输入音为环境声音的情况下，处理器11根据输入音的声音数据来计算音量。在输入音为环境声音的情况下，处理器11将计算出的输入音的音量作为环境音量s而保存于主存储装置12或者辅助存储装置13(act14)。
57.在本实施方式中，处理器11将为了推断说话者发出声音时的环境音量而根据不包
括说话者的声音的期间的输入音(环境声音)计算出的音量作为环境音量s保存。因此，处理器11也可以由计算出的环境音量s覆盖已经保存的环境音量(过去的环境音量)而保存。另外，处理器11也可以对从当前起规定期间内的环境音量s进行保存。并且，处理器11也可以将从当前起规定期间计算出的环境音量的平均值作为环境音量s而保存。
58.在输入音中检测到说话者的声音的情况下(act12，是)，处理器11执行生成响应内容(响应语句)的处理(act15-17)和计算响应音量的处理(act18-19)。
59.处理器11进行语音识别处理、内容解析处理以及响应语句的生成等处理来作为生成响应内容的处理。即，处理器11进行对输入音所含的说话者的声音(输入语音)进行识别的语音识别(act15)。处理器11从输入音提取说话者的声音，并从提取出的说话者的声音对说话者发出的语言(输入语句)进行识别。例如，处理器11通过参照预先设定的语言(词语)的发音，来识别说话者发出的语言。
60.处理器11若得到作为说话者发出的声音的语音识别结果的输入语句，则进行对作为语音识别结果而得到的输入语句的意思进行解析的意图解析处理(act16)。作为意图解析处理，处理器11基于输入语句所含的词语的识别结果等来解析该输入语句的意思(输入语句所含的用户的意图)。
61.例如，处理器11判定输入语句是疑问句、还是叙述要求或希望、还是问候等。处理器11在判定为输入语句是疑问句的情况下，确定出该输入语句所含的问题内容。另外，处理器11在判定为输入语句是叙述要求的情况下，确定出该输入语句所含的要求的内容。另外，处理器11在判定为输入语句是问候的情况下，确定出该输入语句所含的问候的内容。
62.处理器11若对说话者发出的声音(输入语句)的意思进行解析，则生成相对于输入语句的响应内容(响应语句)(act17)。例如，处理器11在确定出输入语句所含的问题内容的情况下，生成与问题内容对应的响应语句。另外，处理器11在确定出输入语句所含的说话者的要求的情况下，生成根据说话者的要求的响应语句。另外，处理器11在确定出输入语句所含的问候的情况下(理解为输入语句是来自说话者的问候的情况下)，生成作为与来自说话者的问候对应的问候的响应语句。
63.另一方面，处理器11执行输入音量v的计算处理以及响应音量的计算处理，来作为计算响应音量的处理。处理器11对在输入音中检测出的说话者的声音(输入语音)的音量v进行计算(act18)。例如，处理器11从输入音的声音数据提取说话者的声音(输入语音)的分量，并计算提取出的输入语音的音量(输入音量)v。
64.若计算出输入音量v，则处理器11进行基于计算出的输入音量v和环境音量s来计算响应音量的处理(act19)。处理器11基于根据输入音量v和环境音量s选择出的函数来计算相对于输入音量的响应音量。关于计算响应音量的处理(响应音量的计算处理)，后面将详细地进行说明。
65.处理器11基于act17中生成的响应语句和act19中计算出的响应音量而生成要成为由扬声器3发出的响应语音的响应波形(act20)。例如，处理器11生成用于将act17中生成的响应语句作为响应语音而发出的响应波形。处理器11根据act19中计算出的响应音量对用于发出生成的响应语音的响应波形的振幅进行调整。若生成了响应波形，则处理器11从扬声器3输出所生成的响应波形(act21)。
66.接下来，对实施方式所涉及的语音响应装置1的响应音量的计算处理详细地进行
说明。
67.图7以及图8是用于对实施方式所涉及的语音响应装置1的响应音量的计算处理进行说明的流程图。
68.在响应音量的计算处理中，处理器11获取上述的act18中计算的当前的输入音量v(act31)。另外，处理器11获取存储于主存储装置12或者辅助存储装置13的环境音量s(act32)。
69.若获取了输入音量v和环境音量s，则处理器11通过参照图5所示那样的函数表格，选择与输入音量v和环境音量s对应的函数。在图7以及图8所示的处理例中，处理器11根据图5所示的函数表格13a来选择函数。
70.此外，用于在考虑环境音量的情况下根据输入音量来确定响应音量的函数不限定于图3以及图4所示的结构，也可以根据运用形式而适当地设定。另外，关于环境音量的阈值以及关于输入音量的阈值也不限定于图3、图4以及图5所示的内容，也可以根据函数而适当地设定。
71.在图7以及图8所示的处理例中，处理器11参照图5所示那样的表格，判断环境音量s是否不足阈值ts(act33)。
72.在环境音量s不足阈值ts(s＜ts)的情况下(act33，是)，处理器11应用环境音量s小的情况下的函数fa。根据图3所示的例子，函数fa由通过阈值tva、tvb、tvc、tvd划分出的五个函数faa、fab、fac、fad、fae构成。处理器11基于图5所示的表格，将输入音量v与阈值tva、tvb、tvc、tvd进行比较，从函数faa、fab、fac、fad、fae中选择一个函数。
73.即，在s＜ts的情况下(act33，是)，处理器11判断输入音量v是否不足阈值tva(act41)。在判断为输入音量v不足阈值tva的情况下(act41，是)，处理器11确定出环境音量s＜阈值ts并且输入音量v＜阈值tva。在s＜ts并且v＜tva的情况下，处理器11选择函数faa(act42)。
74.在判断为输入音量v没有不足阈值tva的情况下(act41，否)，处理器11判断输入音量v是否不足阈值tvb(act43)。在判断为输入音量v不足阈值tvb的情况下(act43，是)，处理器11确定出环境音量s＜阈值ts并且阈值tva≤输入音量v＜阈值tvb。在s＜ts并且tva≤v＜tvb的情况下，处理器11选择函数fab(act44)。
75.在判断为输入音量v没有不足阈值tvb的情况下(act43，否)，处理器11判断输入音量v是否不足阈值tvc(act45)。在判断为输入音量v不足阈值tvc的情况下(act45，是)，处理器11确定出环境音量s＜阈值ts并且阈值tvb≤输入音量v＜阈值tvc。在s＜ts并且tvb≤v＜tvc的情况下，处理器11选择函数fac(act44)。
76.在判断为输入音量v没有不足阈值tvc的情况下(act45，否)，处理器11判断输入音量v是否不足阈值tvd(act47)。在判断为输入音量v不足阈值tvd的情况下(act47，是)，处理器11确定出环境音量s＜阈值ts并且阈值tvc≤输入音量v＜阈值tvd。在s＜ts并且tvc≤v＜tvd的情况下，处理器11选择函数fad(act48)。
77.在判断为输入音量v没有不足阈值tvd的情况下(act47，否)，处理器11由于输入音量v为阈值tvd以上，所以确定出环境音量s＜阈值ts并且阈值tvd≤输入音量v。在s＜ts并且tvd≤v的情况下，处理器11选择函数fae(act49)。
78.另一方面，在环境音量s没有不足阈值ts的情况下，换句话说在环境音量s为阈值
ts以上的情况下(act33，否)，处理器11应用环境音量s大的情况下的函数fb。根据图4所示的例子，函数fb由通过关于输入音量v的阈值tvi、tvj、tvk划分出的四个函数fba、fbb、fbc、fbd构成。处理器11基于图5所示的函数表格13a，将输入音量v与阈值tvi、tvj、tvk进行比较，从函数fba、fbb、fbc、fbd选择一个函数。
79.即，在不是s＜ts的情况(act33，否)下，处理器11判断输入音量v是否不足阈值tvi(act51)。在判断为输入音量v不足阈值tvi的情况下(act51，是)，处理器11确定出环境音量s≥阈值ts并且输入音量v＜阈值tvi。在s≥ts并且v＜tvi的情况下，处理器11选择函数fba(act52)。
80.在判断为输入音量v没有不足阈值tvi的情况下(act51，否)，处理器11判断输入音量v是否不足阈值tvj(act53)。在判断为输入音量v不足阈值tvj的情况下(act53，是)，处理器11确定出环境音量s≥阈值ts并且阈值tvi≤输入音量v＜阈值tvj。在s≥ts并且tvi≤v＜tvj的情况下，处理器11选择函数fbb(act54)。
81.在判断为输入音量v没有不足阈值tvj的情况下(act53，否)，处理器11判断输入音量v是否不足阈值tvk(act55)。在判断为输入音量v不足阈值tvk的情况下(act55，是)，处理器11确定出环境音量s≥阈值ts并且阈值tvj≤输入音量v＜阈值tvk。在s＜ts并且tvj≤v＜tvk的情况下，处理器11选择函数fbc(act56)。
82.在判断为输入音量v没有不足阈值tvk的情况下(act55，否)，处理器11由于输入音量v为阈值tvk以上，所以确定出环境音量s≥阈值ts并且阈值tvk≤输入音量v。在s≥ts并且tvk≤v的情况下，处理器11选择函数fbd(act57)。
83.若选择出与环境音量s以及输入音量v对应的函数，则处理器11基于选择出的函数来确定响应语音(act60)。即，处理器11利用选择出的函数计算与输入音量v对应的响应音量。由此，处理器11能够在考虑环境音量的情况下计算与输入音量对应的响应音量。
84.如以上那样，实施方式所涉及的语音响应装置检测输入至麦克风的声音中用户发出的声音。语音响应装置生成作为对用户发出的声音的响应语音而输出的响应内容(响应语句)。并且，语音响应装置根据作为用户发出的声音的音量的输入音量和除用户发出的声音以外的环境声音的音量来计算响应音量。语音响应装置以计算出的响应音量从扬声器输出响应语音。
85.即，实施方式所涉及的语音响应装置能够考虑环境声音的大小而输出与输入音量对应的响应音量的响应语音。由此，能够期待与语音响应装置输出的响应语音的音量对应地控制说话者(用户)发出的语音的大小。语音响应装置能够将用户发出的语音的大小引导为适于语音识别的音量，能够实现精度高的语音识别。
86.另外，实施方式所涉及的语音响应装置保持有根据环境音量的大小而选择的多个函数。语音响应装置在环境音量不足阈值的情况下基于第一函数并根据输入音量来确定响应语音的音量，在环境音量为阈值以上的情况下基于与第一函数不同的第二函数并根据输入音量来确定响应语音的音量，由此，实施方式所涉及的语音响应装置能够设定与环境声音的大小对应的响应音量。作为其结果，语音响应装置即便在无法预先预测环境音量那样的环境中，也能够将用户发出的语音的大小引导为适于语音识别的音量。
87.另外，实施方式所涉及的语音响应装置将根据环境音量的大小和输入音量的大小而选择的多个函数存储于存储装置。语音响应装置基于根据环境音量和输入音量从多个函
数中选择出的一个函数并根据输入音量来确定响应语音的音量。由此，语音响应装置能够根据环境音量和输入音量来选择函数，能够容易地将用户发出的语音的大小引导为适于语音识别的音量。
88.此外，在上述实施方式中，以在装置内的存储器预先存储有供处理器执行的程序的情况进行了说明。但是，处理器执行的程序也可以从网络下载至装置，也可以从存储介质安装于装置。作为存储介质，可以为cd-rom等的能够存储程序并且装置可读取的存储介质。另外，通过预先安装、下载得到的功能可以通过与装置内部的os(操作系统)等配合而实现。
89.虽然说明了几个实施方式，但这些实施方式只是作为示例而提出的，并非旨在限定发明的范围。这些实施方式能够以其他各种方式进行实施，能够在不脱离发明的宗旨的范围内进行各种省略、替换、变更。这些实施方式及其变形被包括在发明的范围和宗旨中，同样地被包括在权利要求书所记载的发明及其均等的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音响应装置、语音响应方法以及存储介质与流程

相关文献

最热文献