农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

信息处理系统、信息处理装置及程序的制作方法

2021-07-23 21:35:00 来源：中国专利 TAG：装置公开信息程序系统信息

本公开涉及信息处理系统、信息处理装置及程序。

背景技术：

在专利文献1中公开了用于利用多个智能体的服务的语音对话方法。在专利文献1所记载的技术中，基于语音识别处理的结果和智能体信息来决定利用多个智能体中的哪一个来进行基于输入语音信号的处理。

在vpa(virtualpersonalassistant：虚拟个人助理)服务中能够利用的功能中，存在由多个不同的vpa服务运营单位提供的互相类似的服务。作为这样的服务，例如存在乐曲提供服务等。这些互相类似的多个服务以分别单独发挥功能的方式提供。

现有技术文献

专利文献

专利文献1：日本特开2018-189984号公报

技术实现要素：

发明所要解决的课题

对于利用类似的多个服务的用户而言，有时类似的服务从多个不同的语音对话智能体运营商互相独立地提供。因而，即使是类似的服务，也需要向每个语音对话智能体分别独立地进行指示。在该情况下，例如，若用户首先说出“智能体a，播放歌曲”，则由规定的1个运营商提供的智能体a的语音对话智能体开始乐曲的播放。接着，即使用户说出“智能体b，播放下一曲”，由于其他的运营商提供的智能体b的语音对话智能体无法识别与“下一曲”对应的上一曲，所以也无法实现用户期望的下一乐曲的播放动作。即，由于针对每个语音对话智能体分别提供的服务独立，所以即使是类似的服务，也难以进行使多个语音对话智能体相互协作的控制。

本公开鉴于上述情况而完成，其目的在于，提供能够进行使由多个语音对话智能体提供的类似的服务协作的控制的信息处理系统、信息处理装置及程序。

用于解决课题的手段

本公开的信息处理系统具备：第一装置，具有第一处理器，该第一处理器具有硬件并取得用户的说话语音，对分别实现语音对话智能体的第二装置及第三装置中的至少1个传送用户的说话语音，在从传送目的地取得了控制指令的情况下，将基于取得的控制指令的控制信号变换为适合于第二装置的控制信号并向第二装置发送；第二装置，具有第二处理器，该第二处理器具有硬件并识别从第一装置传送来的说话语音，将与识别了说话语音的识别结果相关的控制指令和基于从第一装置取得的控制信号的响应数据向第一装置输出；第三装置，具有第三处理器，该第三处理器具有硬件并识别从第一装置传送来的说话语音，将与识别了说话语音的识别结果相关的控制指令向第一装置输出。

本公开的信息处理装置具备具有硬件的处理器，处理器取得用户的说话语音，对分别实现语音对话智能体的主服务器及副服务器中的至少1个传送用户的说话语音，在从传送目的地取得了与识别了说话语音的识别结果相关的控制指令的情况下，将基于取得的控制指令的控制信号变换为适合于主服务器的控制信号并向主服务器发送。

本公开的存储有程序的记录介质中的程序使具有硬件的处理器执行以下步骤：取得用户的说话语音，对分别实现语音对话智能体的主服务器及副服务器中的至少1个传送用户的说话语音，在从传送目的地取得了与识别了说话语音的识别结果相关的控制指令的情况下，将基于取得的控制指令的控制信号变换为适合于主服务器的控制信号并向主服务器发送。

发明效果

根据本公开，能够进行使由多个语音对话智能体提供的类似的服务协作的控制。

附图说明

图1是概略性地示出一实施方式的智能体系统的框图。

图2是概略性地示出一实施方式的智能体系统的结构的框图。

图3是示出一实施方式的信息处理系统及信息处理装置通过程序而执行的语音对话方法的一例的流程图。

具体实施方式

以下，参照附图对本公开的一实施方式进行说明。需要说明的是，在以下的一实施方式的全部附图中，对同一或对应的部分标注同一标号。另外，本公开并不由以下说明的一实施方式限定。

(智能体系统/终端装置)

首先，对本公开的一实施方式的作为信息处理系统的智能体系统、作为信息处理装置的终端装置及在智能体系统、终端装置中执行的程序进行说明。图1是示出智能体系统1的框图，图2是概略性地示出构成智能体系统1的各种服务器及作为信息处理装置的终端装置的结构的框图。本实施方式的智能体系统及终端装置对用户提供多个语音对话智能体(以下，记为智能体)的服务。需要说明的是，以下的实施方式中的构成要素包括本领域技术人员能够置换且容易置换的构成要素或实质上相同的构成要素。

在此，本实施方式的终端装置例如设想搭载于车辆的车载装置。“用户”是通过终端装置来利用多个智能体的服务的人，例如是包括车辆的驾驶员在内的乘员。需要说明的是，终端装置不限定于搭载于车辆的车载装置，例如也可以是用户持有的信息终端装置。作为该信息终端装置，例如可举出便携电话、平板终端、可穿戴计算机、个人计算机等。

如图1所示，一实施方式的智能体系统1具有具备车载装置11的车辆10、主vpa(virtualpersonalassistant：虚拟个人助理)服务器20、副第一vpa服务器30a、副第二vpa服务器30b及内容提供服务器40。本实施方式的终端装置具体而言由车载装置11实现。车辆10、主vpa服务器20、副第一vpa服务器30a及副第二vpa服务器30b构成为能够通过网络2而相互通信。网络2例如由互联网线路网、便携电话线路网等构成。

本实施方式中的智能体系统1利用3个vpa服务器，但vpa服务器的数量也可以为4个以上。在本实施方式中，主vpa服务器20是用于实现智能体a的服务器装置。副第一vpa服务器30a是用于实现智能体b的服务器装置，副第二vpa服务器30b是用于实现智能体c的服务器装置。智能体a、智能体b及智能体c分别提供例如音乐分发服务等相同的服务。需要说明的是，智能体a、智能体b及智能体c也可以提供不同的服务。具体而言，例如，也可以是，智能体a、b是音乐分发服务，智能体c是天气信息分发服务等。在本实施方式中，在统称智能体a、b、c的情况下记为“智能体”。在统称副第一vpa服务器30a及副第二vpa服务器30b的情况下记为“副vpa服务器30”。在统称主vpa服务器20、副第一vpa服务器30a、副第二vpa服务器30b的情况下记为“vpa服务器”或“智能体服务器”。

(车辆)

如图2所示，车辆10具备车载装置11、通信部12及存储部13。车载装置11例如是搭载于车辆10的汽车导航装置、用户拥有且与车辆10协作的便携终端等。作为第一装置的车载装置11具备控制部111、显示部(显示器)112、按钮113、传声器114及扬声器115。

作为具有硬件的第一处理器的控制部111具体而言具备cpu(centralprocessingunit：中央处理单元)、dsp(digitalsignalprocessor：数字信号处理器)、fpga(field-programmablegatearray：现场可编程门阵列)等处理器及ram(randomaccessmemory：随机存取存储器)、rom(readonlymemory：只读存储器)等主存储部。存储部13由从eprom(erasableprogrammablerom：可擦可编程rom)、硬盘(hdd，harddiskdrive)及可移动介质等中选择出的存储介质构成。需要说明的是，可移动介质例如是usb(universalserialbus：通用串行总线)存储器或cd(compactdisc：光盘)、dvd(digitalversatiledisc：数字通用光盘)或bd(blu-ray(注册商标)disc：蓝光光盘)这样的盘记录介质。在存储部13中能够保存操作系统(operatingsystem：os)、各种程序、各种表、各种数据库等。控制部111将保存于存储部13的程序(在此是协作应用131或内容应用132)加载到主存储部的作业区域并执行，通过程序的执行来控制各构成部等。由此，控制部111能够实现与规定的目的一致的协作控制部111a及内容控制部111b的功能。

协作控制部111a可以具备进行自动语音识别(automaticspeechrecognition：asr)处理及自然语言理解(naturallanguageunderstanding：nlu)的语音识别引擎。协作控制部111a例如将用户的说话语音(用户说话语音)变换为文本数据，在该文本数据中包含确定智能体的短句的情况下，判定为是向该智能体的指示。在此，“确定智能体的短句”表示用于呼出智能体的唤醒词(wakeword：称作ww)。

协作控制部111a识别从传声器114输入的用户说话语音，判定进行信息的收发的vpa服务器20、30a、30b。即，协作控制部111a判定用户的说话语音中包含的指示是向多个智能体a、b、c中的哪个智能体的指示。协作控制部111a在判定了用户的说话语音中包含的指示是向多个智能体a、b、c中的哪个智能体的指示时，也可以使判定出的智能体的名称显示于显示部112。由此，能够确认用户向哪个智能体进行了指示。

协作控制部111a将实现判定出的智能体的智能体服务器即主vpa服务器20、副第一vpa服务器30a或副第二vpa服务器30b设为传送目的地来传送用户说话语音。从智能体服务器输出的规定的信息(例如识别结果信息)可以是协作控制部111a取得，内容数据等响应数据可以是内容控制部111b取得。在此，内容可以是能够将电影、音乐、戏剧、文艺、照片、漫画、动画、计算机游戏或其他的文字、图形、色彩、语音、动作或影像或它们的组合或它们所涉及的信息经由信息处理装置而提供的内容。内容能够设为通过人的创造性活动而产生的内容中的属于教育或娱乐的范围的内容。

需要说明的是，在协作控制部111a不具备语音识别引擎的情况下，自动语音识别及自然语言理解也可以利用主vpa服务器20、副vpa服务器30来进行。即，协作控制部111a将从传声器114输入的用户说话语音向各vpa服务器20、30a、30b发送。在vpa服务器20、30a、30b中，可以是实现用户说话语音的唤醒词中包含的确定的智能体的1个或多个vpa服务器进行响应。

协作控制部111a将从判定出的vpa服务器20、30a、30b接收到的识别结果、控制指令变换为适合于规定的智能体(例如实现智能体a的主vpa服务器20)的识别结果、控制信号。具体而言，例如，协作控制部111a对从智能体b、c的副vpa服务器30输出的这些智能体特有的控制指令进行变换，变换为适合于实现智能体a的主vpa服务器20的控制信号。

内容控制部111b基于从主vpa服务器20接收到的控制指令来控制显示于显示部112的内容或者控制从扬声器115输出的内容。具体而言，内容控制部111b尤其使从主vpa服务器20输入的规定的信息显示于显示部112。作为“规定的信息”，例如可举出用户的说话语音的识别结果、与基于用户的指示的处理相关的响应数据等，但不限定于此。“基于用户的指示的处理”例如在用户对智能体(vpa服务器)指示了“播放音乐”的情况下，表示vpa服务器从内容提供服务器40取得音乐数据并向车载装置11发送的处理。在该情况下，从主vpa服务器20向车载装置11发送的“响应数据”是音乐数据等内容数据。需要说明的是，内容数据不限定于音乐数据，也可以是规定的显示数据、影像数据等能够从显示部112、扬声器115输出的各种数据。内容控制部111b也可以基于用户的操作而使与操作对应的画面显示于显示部112。内容控制部111b也可以进行使从内容提供服务器40接收到的内容数据显示于显示部112或者从扬声器115输出的控制。

协作控制部111a也可以将语音识别处理的结果直接向智能体服务器(主vpa服务器20或副第一vpa服务器30a)输出。在该情况下，内容控制部111b能够对智能体服务器取代用户的说话语音而输出该用户的说话语音的识别结果。接着，内容控制部111b从智能体服务器取得规定的信息(响应数据等)。由此，能够省略智能体服务器中的语音识别处理，因此智能体服务器的响应速度提高。

显示部112例如由lcd(液晶显示器)、oeld(有机el显示器)等构成，基于内容控制部111b的控制来显示信息。按钮113是用户在说话时按下的按钮。按钮113例如由设置于车辆10的方向盘等的推动式的物理的按压按钮或显示于显示部112的虚拟的按压按钮构成。

在此，在本实施方式中的智能体中存在多个呼出方法(起动方法)。例如在对智能体b(副第一vpa服务器30a)指示天气信息的提供的情况下，用户如以下的(1)、(2)这样说话。

(1)说出“智能体b，告诉我今天的天气”

(2)按下按钮113中的与智能体b对应的部分并说出“告诉我今天的天气”

在此，按下并说话可以是将按钮113按下并放开后说话的情况和维持将按钮113按下的状态并说话且当说话完成后放开按钮113的情况中的任一情况。

(1)是使用了唤醒词的方法，用户说出包括确定智能体b的短句和相对于智能体b的指示的短句。(2)是取代唤醒词而使用了按钮113的方法。通过这样按下按钮113并说话，能够省略唤醒词。

传声器114是接受来自用户的语音输入的输入部。传声器114例如在用户对智能体(vpa服务器)进行指示时使用。扬声器115是输出语音、乐曲的输出部。扬声器115例如在基于用户的指示而智能体对用户进行响应时使用。

通信部12例如由dcm(datacommunicationmodule：数据通信模块)等构成，通过经由网络2的无线通信而在与主vpa服务器20、副第一vpa服务器30a及副第二vpa服务器30b之间进行通信。

(主vpa服务器)

作为第二装置或主服务器的主vpa服务器20具备控制部21、通信部22及存储部23。控制部21、通信部22及存储部23分别在物理上与上述的控制部111、通信部12及存储部13是同样的。

作为具有硬件的第二处理器的控制部21通过保存于存储部23的程序的执行而作为语音识别部211发挥功能。语音识别部211具有与协作控制部111a同样的功能，识别从车载装置11传送来的用户说话语音，输出规定的信息(识别结果信息、响应数据)，并向车载装置11发送。

语音识别部211也可以将与用户的对话内容作为该用户的偏好信息而蓄积于存储部23，在进行基于从车载装置11传送来的用户说话语音的识别结果的处理时，进行考虑了用户的偏好信息的处理。例如在用户对智能体a频繁地指示确定的风格(例如古典乐)的音乐的播放的情况下，语音识别部211将“用户喜欢的音乐的风格：古典乐”这一信息作为偏好信息而蓄积于存储部23。然后，语音识别部211在从用户对智能体a进行了“音乐的播放”的情况下，从内容提供服务器40等服务服务器取得古典乐的音乐数据，并向车载装置11发送。由此，能够接受顺着用户的偏好的服务，因此便利性提高。

在存储部23中，根据需要而例如保存用户的对话内容的数据、用户说话语音的识别结果的数据等。需要说明的是，这些信息从隐私保护的观点来看也可以在利用后从存储部23删除。

(副vpa服务器)

作为第三装置或副服务器的副vpa服务器30(副第一vpa服务器30a及副第二vpa服务器30b)具备控制部31、通信部32及存储部33。控制部31、通信部32及存储部33分别在物理上与上述的控制部111、通信部12及存储部13是同样的。作为具有硬件的第三处理器的控制部31通过保存于存储部33的程序的执行而作为语音识别部311发挥功能。

语音识别部311具有与协作控制部111a同样的功能，识别从车载装置11传送来的用户说话语音，输出规定的信息(识别结果信息、响应数据)，并向车载装置11发送。语音识别部311与语音识别部211同样，也可以将与用户的对话内容作为该用户的偏好信息而蓄积于存储部33，在进行基于从车载装置11传送来的用户说话语音的识别结果的处理时，进行考虑了用户的偏好信息的处理。由此，能够接受顺着用户的偏好的服务，因此便利性提高。

在存储部33中，根据需要而例如保存用户的对话内容的信息、用户说话语音的识别结果信息等。需要说明的是，这些信息从隐私保护的观点来看也可以在利用后从存储部33删除。

(内容提供服务器)

作为第四装置的内容提供服务器40具备控制部41、通信部42及存储部43。控制部41、通信部42及存储部43分别在物理上与上述的控制部111、通信部12及存储部13是同样的。

作为具有硬件的第四处理器的控制部41通过保存于存储部43的程序的执行而作为内容提供部411发挥功能。内容提供部411基于从外部接收到的内容控制信号，将要求的规定的内容信息从存储部43检索并输出，作为内容数据而向vpa服务器20、30a、30b发送。需要说明的是，也可以从内容提供服务器40向车载装置11发送内容信息。

(语音对话方法)

关于本实施方式的智能体系统1中的语音对话方法的处理工序，一边参照图3一边说明。以下，对用户向确定的智能体指示后进行与其他的智能体相关联的指示的情况下的语音对话方法进行说明。

首先，若用户例如说出“智能体a，播放某某歌曲”(步骤st1)，则该用户说话语音的数据通过车载装置11的传声器114而输入。车载装置11的协作控制部111a检测用户的说话，进行语音识别处理及意图理解处理，判定为是智能体a收的指示，向主vpa服务器20发送用户说话信息(步骤st2)。需要说明的是，在协作控制部111a不具备语音识别引擎的情况下，协作控制部111a将从传声器114输入的用户说话语音向各vpa服务器20、30a、30b传送。在该情况下，实现用户说话语音的唤醒词中包含的“智能体a”的主vpa服务器20执行基于用户的指示的处理。

接着，主vpa服务器20的语音识别部211进行语音识别处理及意图理解处理，输出该识别结果信息及控制指令，并向车载装置11发送(步骤st3)。车载装置11将接收到的识别结果信息及控制指令向控制部111输入。若控制部111的协作控制部111a判定为接收到的识别结果信息及控制指令是从主vpa服务器20接收到的数据，则内容控制部111b发送适合于主vpa服务器20的内容控制信号(步骤st4)。主vpa服务器20将接收到的内容控制信号向内容提供服务器40传送。

接收到内容控制信号的内容提供服务器40的内容提供部411基于内容控制信号，将要求的规定的内容信息从存储部43检索并输出。内容提供服务器40将输出的内容信息作为内容数据而经由主vpa服务器20向车载装置11发送(步骤st5)。接收到内容数据的车载装置11的内容控制部111b将内容数据显示于显示部112，或者将内容数据中包含的乐曲数据等从扬声器115输出，执行内容(步骤st6)。需要说明的是，内容数据也可以作为流数据而向主vpa服务器20、车载装置11发送。

之后，若用户例如说出“智能体b，播放下一曲”(步骤st7)，则该用户说话语音的数据通过车载装置11的传声器114而输入。车载装置11的协作控制部111a检测用户的说话，进行语音识别处理及意图理解处理，判定为是智能体b收的指示，向副第一vpa服务器30a发送用户说话信息(步骤st8)。需要说明的是，在图3中，统一地记载为副vpa服务器30。在协作控制部111a不具备语音识别引擎的情况下，协作控制部111a将从传声器114输入的用户说话语音向各vpa服务器20、30a、30b传送。实现用户说话语音的唤醒词中包含的“智能体b”的副第一vpa服务器30a执行基于用户的指示的处理。

接着，副第一vpa服务器30a的语音识别部311进行语音识别处理及意图理解处理，输出该识别结果信息及控制指令，并向车载装置11发送(步骤st9)。车载装置11将接收到的识别结果信息及控制指令向控制部111输入。控制部111的协作控制部111a若判定为接收到的识别结果信息及控制指令是从副第一vpa服务器30a接收到的数据，则将接收到的控制指令变换为适合于主vpa服务器20的内容控制信号(步骤st10)。

内容控制部111b将变换后的适合于主vpa服务器20的内容控制信号向主vpa服务器20发送(步骤st11)。主vpa服务器20将接收到的内容控制信号向内容提供服务器40传送。在此，具体而言，例如，上述的用户说话中的“播放下一曲”的指示的信息被变换为相对于主vpa服务器20的指示的信息。由此，主vpa服务器20能够将例如取得“某某歌曲”的下一乐曲的内容数据的内容控制信号向内容提供服务器40发送。

接收到内容控制信号的内容提供服务器40的内容提供部411基于内容控制信号，将要求的规定的内容信息(例如下一乐曲的内容信息)从存储部43检索并输出。内容提供服务器40将输出的内容信息作为内容数据而经由主vpa服务器20向车载装置11发送(步骤st12)。接收到内容数据的车载装置11的内容控制部111b将内容数据显示于显示部112，或者将内容数据中包含的乐曲数据等从扬声器115输出，执行内容(步骤st13)。需要说明的是，内容数据也可以作为流数据而向主vpa服务器20、车载装置11发送。

根据以上说明的一实施方式，在用户利用主vpa服务器20实现的规定的智能体a和副vpa服务器30实现的其他的智能体b、c这多个智能体的情况下有用。即，即使在用户朝向智能体b、c进行了指示的情况下，也能够将该指示作为向规定的智能体a指示的处理而执行。即使在该情况下，相对于用户说话语音的语音识别处理及意图理解处理也由用户要求的智能体(例如智能体b)的副第一vpa服务器30a执行。因而，向实现规定的智能体a的主vpa服务器20的负荷不增加。另外，即使在由多个智能体提供互相类似的多个服务的情况下，也能够由主vpa服务器20统一地进行内容的控制处理，因此对于用户而言没有违和感，能够横跨多个智能体a、b、c而使用。

(记录介质)

在上述的一实施方式中，能够将能够执行车载装置11、主vpa服务器20的处理方法的程序记录于计算机或其他的机械、装置(以下，称作计算机等)能够读取的记录介质。通过使计算机等将该记录介质的程序读入并执行，该计算机作为车载装置11、主vpa服务器20发挥功能。在此，计算机等能够读取的记录介质是指能够将数据、程序等信息通过电作用、磁作用、光学作用、机械作用或化学作用而蓄积并从计算机等读取的非暂时性的记录介质。作为这样的记录介质中的能够从计算机等拆卸的记录介质，例如存在软盘、光磁盘、cd-rom、cd-r/w、dvd(digitalversatiledisk：数字通用光盘)、bd、dat、磁带、快闪存储器等存储卡等。另外，作为固定于计算机等的记录介质，存在硬盘、rom等。而且，ssd能够作为能够从计算机等拆卸的记录介质来利用，也能够作为固定于计算机等的记录介质来利用。

以上，虽然对本公开的一实施方式进行了具体说明，但本公开不限定于上述的一实施方式，能够进行基于本公开的技术思想的各种变形。本公开的主旨不限定于这些记载，必须基于权利要求书的记载而广泛地解释。例如，在上述的一实施方式中举出的数值只不过是例子，也可以根据需要而使用与此不同的数值。另外，基于这些记载进行各种变更、改变等后的技术也包含于本公开的主旨。

例如，在上述的一实施方式中，在从用户产生了“音乐的播放”等内容的执行的指示的情况下，vpa服务器20、30a、30b从内容提供服务器40取得内容数据并向车载装置11发送。也可以取代该方法，vpa服务器20、30a、30b控制内容提供服务器40，从内容提供服务器40向车载装置11直接发送音乐数据等内容数据。

(其他实施方式)

另外，在一实施方式的信息处理装置、信息处理服务器及车辆中，上述的“部”能够改说成“电路”等。例如，通信部能够改说成通信电路。

另外，使一实施方式的信息处理装置执行的程序也可以构成为，保存于连接于互联网等网络的计算机上，通过经由网络下载而提供。

需要说明的是，在本说明书中的流程图的说明中，使用“首先”“之后”“接着”等表述而明确示出了步骤间的处理的前后关系，但实施本实施方式所需的处理的顺序并非由这些表述唯一地确定。即，在本说明书中记载的流程图中的处理的顺序能够在没有矛盾的范围内变更。

进一步的效果、变形例能够由本领域技术人员容易地导出。本公开的更广泛的方案不限定于如以上这样表示且记述的确定的详情及代表性的实施方式。因而，能够不从由所附的权利要求及其均等物定义的总括性的发明的概念的精神或范围脱离而进行各种各样的变更。

标号说明

1智能体系统

2网络

10车辆

11车载装置

12、22、32、42通信部

13、23、33、43存储部

20主vpa服务器

21、31、41、111控制部

30副vpa服务器

30a副第一vpa服务器

30b副第二vpa服务器

40内容提供服务器

111a协作控制部

111b内容控制部

112显示部

131协作应用

132内容应用

211、311语音识别部

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语种特征提取模型训练方法、装置、设备及存储介质与流程

信息处理系统、信息处理装置及程序的制作方法

相关文章

最热文献