信息处理方法、装置及存储介质与流程

2022-03-19 20:21:40 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种信息处理方法、装置及存储介质。

背景技术：

2.随着电子设备功能的增加，在实现人机交互的过程中，机器与人进行基于不同模态的交互也成为了可能。但是，由于不同模态的交互方式分别属于相对独立的体系，体验上是割裂的。
3.例如，目前大多数电子设备主要采用触屏交互为主的图形界面交互方式。随着虚拟智能助手以及智能音箱等设备的普及，语音交互逐渐成为另一大主流交互方式。但是相关技术中，语音交互与图形界面交互式属于两套相对独立的体系，在使用的过程中无法实现统一管理，使得用户体验较差。

技术实现要素：

4.为克服相关技术中存在的问题，本技术提供一种信息处理方法、装置及存储介质。
5.根据本技术实施例的第一方面，提供一种信息处理方法，包括：
6.获取初始输入信息，并确定所述初始输入信息的输入模态；
7.利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征；其中，不同的输入模态对应有不同的输入转换策略；
8.将所述预设标准格式的输入表征输入交互控制模块，得到响应信息，并确定对应于所述响应信息的输出模态；
9.利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果；其中，不同的输出模态对应有不同的输出转换策略。
10.在一些实施例中，所述方法还包括：
11.根据所述输入模态和预设的第一关联关系，确定与各个所述输入模态对应的输入转换策略；其中，所述第一关联关系用于表征输入模态和输入转换策略之间的映射关系；
12.根据所述输出模态和预设的第二关联关系，确定与各个所述输出模态对应的输出转换策略；其中，所述第二关联关系用于表征输出模态和输出转换策略之间的映射关系。
13.在一些实施例中，所述确定所述初始输入信息的输入模态，包括：
14.在所述初始输入信息包括第一语音信号的情况下，确定所述输入模态为语音输入模态；
15.所述利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征，包括：
16.对所述第一语音信号进行语音识别处理，得到第一文本信息；
17.对所述第一文本信息进行语义提取处理，得到所述预设标准格式的输入表征。
18.在一些实施例中，所述确定所述初始输入信息的输入模态，包括：
19.在所述初始输入信息为基于界面输入的请求信息的情况下，确定所述输入模态为
界面输入模态；
20.所述利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征，包括：
21.确定所述请求信息所针对的应用类型、所述请求信息的请求功能以及请求属性；
22.根据所述应用类型、所述请求功能以及所述请求属性，得到所述预设标准格式的输入表征。
23.在一些实施例中，所述确定所述初始输入信息的输入模态，包括：
24.在所述初始输入信息包括当前视觉图像的情况下，确定所述输入模态为视觉输入模态；
25.所述利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征，包括：
26.根据所述当前视觉图像以及预先设置的预设视觉图像与预设输入表征之间的映射关系，得到所述预设标准格式的输入表征。
27.在一些实施例中，所述确定所述初始输入信息的输入模态，包括：
28.在所述初始输入信息包括场景信号的情况下，确定所述输入模态为场景输入模态；
29.所述利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征，包括：
30.确定所述场景信号对应的信号来源、信号功能以及信号属性；
31.根据所述信号来源、所述信号功能以及所述信号属性，得到所述预设标准格式的输入表征。
32.在一些实施例中，所述将所述预设标准格式的输入表征输入交互控制模块，得到响应信息，包括：
33.将交互过程中的原始状态信息和所述输入表征输入所述交互控制模块，得到更新后的状态信息；
34.根据所述更新后的状态信息和所述输入表征，得到所述响应信息；
35.所述确定对应于所述响应信息的输出模态，包括：
36.根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态。
37.在一些实施例中，所述根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态，包括：
38.如果所述响应信息所包含的决策内容指示进行语音播放，则确定所述输出模态为语音输出模态；
39.所述利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果，包括：
40.在确定输出模态为语音输出模态的情况下，将所述决策内容转换为语音格式，并将转换为语音格式的决策内容确定为所述目标输出结果。
41.在一些实施例中，所述根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态，包括：
42.如果所述响应信息所包含的决策内容指示进行界面展示，则确定所述输出模态为
界面输出模态；
43.所述利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果，包括：
44.在确定输出模态为界面输出模态的情况下，将所述决策内容转换为界面格式，并将转换为界面格式的决策内容确定为所述目标输出结果；
45.其中，所述界面格式的决策内容包括：页面地址和数据内容。
46.在一些实施例中，所述根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态，包括：
47.如果所述响应信息所包含的决策内容指示进行功能执行，则确定所述输出模态为功能输出模态；
48.所述利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果，包括：
49.在确定输出模态为功能输出模态的情况下，将所述决策内容转换为命令格式，并将转换为命令格式的决策内容确定为所述目标输出结果；
50.其中，所述命令格式的决策内容包括：功能类型和功能参数。
51.在一些实施例中，所述方法还包括：
52.在得到所述目标输出结果之后，根据所述初始输入信息、所述输入表征、所述响应信息以及所述目标输出结果，对所述交互控制模块的配置参数进行更新。
53.根据本技术实施例的第二方面，提供一种信息处理装置，包括：
54.第一确定模块，配置为获取初始输入信息，并确定所述初始输入信息的输入模态；
55.第一转换模块，配置为利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征；其中，不同的输入模态对应有不同的输入转换策略；
56.第二确定模块，配置为将所述预设标准格式的输入表征输入交互控制模块，得到响应信息，并确定对应于所述响应信息的输出模态；
57.第二转换模块，配置为利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果；其中，不同的输出模态对应有不同的输出转换策略。
58.在一些实施例中，所述装置还包括：
59.第三确定模块，配置为根据所述输入模态和预设的第一关联关系，确定与各个所述输入模态对应的输入转换策略；其中，所述第一关联关系用于表征输入模态和输入转换策略之间的映射关系；
60.第四确定模块，配置为根据所述输出模态和预设的第二关联关系，确定与各个所述输出模态对应的输出转换策略；其中，所述第二关联关系用于表征输出模态和输出转换策略之间的映射关系。
61.在一些实施例中，所述第一确定模块，配置为：
62.在所述初始输入信息包括第一语音信号的情况下，确定所述输入模态为语音输入模态；
63.所述第一转换模块，配置为：
64.对所述第一语音信号进行语音识别处理，得到第一文本信息；
65.对所述第一文本信息进行语义提取处理，得到所述预设标准格式的输入表征。
66.在一些实施例中，所述第一确定模块，配置为：
67.在所述初始输入信息为基于界面输入的请求信息的情况下，确定所述输入模态为界面输入模态；
68.所述第一转换模块，配置为：
69.确定所述请求信息所针对的应用类型、所述请求信息的请求功能以及请求属性；
70.根据所述应用类型、所述请求功能以及所述请求属性，得到所述预设标准格式的输入表征。
71.在一些实施例中，所述第一确定模块，配置为：
72.在所述初始输入信息包括当前视觉图像的情况下，确定所述输入模态为视觉输入模态；
73.所述第一转换模块，配置为：
74.根据所述当前视觉图像以及预先设置的预设视觉图像与预设输入表征之间的映射关系，得到所述预设标准格式的输入表征。
75.在一些实施例中，所述第一确定模块，配置为：
76.在所述初始输入信息包括场景信号的情况下，确定所述输入模态为场景输入模态；
77.所述第一转换模块，配置为：
78.确定所述场景信号对应的信号来源、信号功能以及信号属性；
79.根据所述信号来源、所述信号功能以及所述信号属性，得到所述预设标准格式的输入表征。
80.在一些实施例中，所述第二确定模块，配置为：
81.将交互过程中的原始状态信息和所述输入表征输入所述交互控制模块，得到更新后的状态信息；
82.根据所述更新后的状态信息和所述输入表征，得到所述响应信息；
83.所述第二确定模块，配置为：
84.根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态。
85.在一些实施例中，所述第二确定模块，配置为：
86.如果所述响应信息所包含的决策内容指示进行语音播放，则确定所述输出模态为语音输出模态；
87.所述第二转换模块，配置为：
88.在确定输出模态为语音输出模态的情况下，将所述决策内容转换为语音格式，并将转换为语音格式的决策内容确定为所述目标输出结果。
89.在一些实施例中，所述第二确定模块，配置为：
90.如果所述响应信息所包含的决策内容指示进行界面展示，则确定所述输出模态为界面输出模态；
91.所述第二转换模块，配置为：
92.在确定输出模态为界面输出模态的情况下，将所述决策内容转换为界面格式，并将转换为界面格式的决策内容确定为所述目标输出结果；
93.其中，所述界面格式的决策内容包括：页面地址和数据内容。
94.在一些实施例中，所述第二确定模块，配置为：
95.如果所述响应信息所包含的决策内容指示进行功能执行，则确定所述输出模态为功能输出模态；
96.所述第二转换模块，配置为：
97.在确定输出模态为功能输出模态的情况下，将所述决策内容转换为命令格式，并将转换为命令格式的决策内容确定为所述目标输出结果；
98.其中，所述命令格式的决策内容包括：功能类型和功能参数。
99.在一些实施例中，所述装置还包括：
100.更新模块，配置为在得到所述目标输出结果之后，根据所述初始输入信息、所述输入表征、所述响应信息以及所述目标输出结果，对所述交互控制模块的配置参数进行更新。
101.根据本技术实施例的第三方面，提供一种信息处理装置，包括：
102.处理器；
103.配置为存储处理器可执行指令的存储器；
104.其中，所述处理器配置为：执行时实现上述第一方面中任一种信息处理方法中的步骤。
105.根据本技术实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由信息处理装置的处理器执行时，使得所述装置能够执行上述第一方面中任一种信息处理方法中的步骤。
106.本技术的实施例提供的技术方案可以包括以下有益效果：
107.本技术可以将各种模态的输入信息统一转换为预设标准格式的输入表征，采用交互控制模块对该统一格式的输入表征进行处理，得到响应信息，并确定对应于响应信息的输出模态，进而通过与该输出模态对应的输出转换策略，将响应信息转换为目标输出结果。
108.也就是说，本技术中在获取到不同模态的输入信息的情况下，可以将不同模态的输入信息转换为统一格式的输入表征，这样，交互控制模块就能实现对不同模态的输入信息的统一处理，且交互控制模块可以自动选择与响应信息对应的输出模态，进而得到目标输出结果，这样，即使存在不同模态的交互方式，也能给用户提供统一的交互体验。
109.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
110.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
111.图1是根据本技术一示例性实施例示出的一种信息处理方法的流程图。
112.图2a是根据本技术一示例性实施例示出的模态与转换策略之间的对应关系示意图。
113.图2b是根据本技术一示例性实施例示出的一种交互系统架构示意图。
114.图3是根据本技术一示例性实施例示出的一种信息处理装置框图。
115.图4是根据本技术一示例性实施例示出的一种信息处理装置的硬件结构框图。
具体实施方式
116.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
117.图1是根据一示例性实施例示出的信息处理方法的流程图，如图1所示，主要包括以下步骤：
118.在步骤101中，获取初始输入信息，并确定所述初始输入信息的输入模态；
119.在步骤102中，利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征；
120.在步骤103中，将所述预设标准格式的输入表征输入交互控制模块，得到响应信息，并确定对应于所述响应信息的输出模态；
121.在步骤104中，利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果；
122.其中，不同的输入模态对应有不同的输入转换策略，不同的输出模态对应有不同的输出转换策略。
123.在一些实施例中，本技术的信息处理方法可以应用于电子设备，这里，电子设备可以包括：终端设备，例如，移动终端、固定终端或车载终端等。其中，移动终端可以包括：手机、平板电脑、笔记本电脑或者穿戴式设备等设备，还可以包括智能家居设备，例如，智能音箱等。固定终端可以包括：台式电脑或智能电视等。车载终端可以包括车辆监控管理系统的前端设备，也可以称为车辆调度监控(telematics control unit，tcu)终端，如，车机终端等。车载终端可以融合全球定位系统(global positioning system，gps)技术、里程定位技术及汽车黑匣等技术，能用于对车辆进行现代化管理，包括：行车安全监控管理、运营管理、服务质量管理、智能集中调度管理、电子站牌控制管理等。
124.本技术实施例中，输入信息可以包括以下至少之一：语音信息；触控信息；图像信息；感知信息等。以输入信息是语音信息为例，在实现的过程中，可以通过音频采集模组(如，麦克风)获取语音信息。以输入信息是触控信息为例，在实现的过程中，可以通过触控采集模组(如，触控显示屏)获取触控信息。以输入信息是图像信息为例，在实现的过程中，可以通过图像采集模组(如，摄像头)获取图像信息。以输入信息是感知信息为例，在实现的过程中，可以通过传感器采集模组(如，光照传感器)获取感知信息等。
125.其中，初始输入信息可以是指最开始输入到电子设备的、还未进行处理转换的输入信息，与输入到电子设备的其他用途的，或者经过转换后的信息作区别。在一些实施例中，可以根据输入信息的来源或者输入形式等，确定输入信息的模态。例如：用户获取信息的来源可以包括触觉、听觉、视觉、嗅觉等；信息的表现方式可以包括语音、视频、文字、符号等；信息也可以通过多种传感器来采集，例如：激光雷达、红外、加速度传感器等；或者不同信息可以表示执行不同的功能，例如：但不限于调整音量、亮度、速度等，以上每一种信息的来源或者表现形式都可以称为一种模态。在另一些实施例中，还可以将不同语言的输入信息，确定为具有不同输入模态的输入信息，或者将在不同场景下采集到的输入信息，确定为具有不同输入模态的输入信息等，例如：通过中文和英文表示的输入信息可以为在两种不
同模态下获取的信息，在晴天和雨天采集到的信息可以为在两种不同模态下获取的信息等。
126.需要说明的是，输入模态可以是指电子设备的输入信息对应的模态，输出模态可以是指电子设备的响应信息对应的模态。例如：输入模态可以包括语音信号输入形式的语音输入模态、界面触控输入形式的界面输入模态、图像或者视频输入形式的视觉输入模态、场景信号(例如但不限于通过传感器采集到的环境亮度、移动速度等信号)输入形式的场景输入模态等；输出模态可以包括语音信号输出形式的语音输出模态、显示屏界面触控输出形式的界面输出模态、摄像头视觉输出的视觉输出模态、执行具体功能的功能输出模态等。
127.本技术实施例中，电子设备可以通过麦克风等音频采集模组采集用户的语音信号，或者电子设备可以通过摄像头等图像采集模组采集用户的肢体动作、面部表情等图像，或者电子设备可以通过触控显示屏等触控采集模组确定用户对界面显示元素的触控操作，等多种方式来获取初始输入信息。
128.在获取到初始输入信息之后，电子设备可以通过初始输入信息的信息来源、信息类型或者输入形式等方式，来确定所述初始输入信息的输入模态。例如，电子设备可以预先设置初始输入信息的信息来源与输入模态之间的对应关系，例如：电子设备获取的初始输入信息来源于麦克风等音频采集模组，那么对应的输入模态可以为语音输入模态，电子设备获取的初始输入信息来源于摄像头等图像采集模组，那么对应的输入模态可以为视觉输入模态等。再例如，电子设备也可以通过解析初始输入信息，确定初始输入信息对应的信息类型，从而确定信息类型对应的输入模态，例如：电子设备确定初始输入信息为语音类型，那么可以确定输入模态可以为语音输入模态，电子设备确定初始输入信息为图像类型，那么可以确定输入模态可以为视觉输入模态等。
129.转换策略可以是指用来对信息进行转换的方式，例如：转换策略可以包括特征提取、模态转换、拉普拉斯变换等，转换策略也可以称为转换模块等，本技术不作具体限定。输入转换策略可以是指针对电子设备的输入信息的转换策略，输出转换策略可以是指针对电子设备的响应信息的转换策略。本技术实施例中，不同的输入模态对应有不同的输入转换策略，不同的输出模态对应有不同的输出转换策略。如图2a所示，可以表示模态与转换策略之间的对应关系的示意图。例如：第一输入模态对应第一输入转换策略，第二输入模态对应第二输入转换策略，第三输入模态对应第三输入转换策略，第一输出模态对应第一输出转换策略，第二输出模态对应第二输出转换策略，第三输出模态对应第三输出转换策略等。
130.在一些实施例中，电子设备可以预先设置输入模态与输入转换策略之间的对应关系，例如：第一输入模态对应第一输入转换策略，第二输入模态对应第二输入转换策略等。电子设备确定初始输入信息的输入模态后，可以利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征。例如：电子设备确定的初始输入信息为语音信号，则可以通过语音转换策略将该语音信号转换为文本“订一张明天北京去杭州的机票，国航头等舱”，若预设标准格式的输入表征为框架语义，那么输入表征可以为“主体：飞机票，出发地：北京，目的地：杭州，出发时间：明天，航空公司：国航，仓位等级：头等舱”等结构。
131.输入表征可以是指初始输入信息经过输入转换策略进行转换后的输出，输入表征可以用矩阵、文本等形式来表示，得到输入表征的过程可以理解为：将初始输入信息转化为
与初始格式不同的另一格式(即预设标准格式)的信息的过程，在转化的过程中，输入信息的本质内容不发生变化，主要涉及表现形式的转换。其中，表征(representation)又称再现，是信息在处理过程中的表现形式，根据对信息进行加工的观点，当电子设备对信息进行加工(如，输人、编码、转换、存储和提取等)时，这些信息是以表征的形式在电子设备中出现的。本技术实施例中，输入表征也可以通过向量、序列等形式来表示，本公开不作具体限定。
132.在一些实施例中，预设标准格式的输入表征可以是指具有统一格式的输入表征，预设标准格式可以包括以下至少之一：框架语义(frame semantic)格式、分布语义(distributional semantics)格式、模型论语义(model-theoretic semantics)格式，以及函数语义表征(functional meaning representation，fmr)格式、抽象语义(abstract meaning representation，amr)格式等，本技术不作具体限定。
133.其中，框架语义格式的输入表征可以包括领域(场景，domain)部分、意图(intent)部分和槽位(属性槽，slots)部分。领域部分可以插入同一类型的数据或者资源，以及围绕这些数据或资源提供的服务，主要用于表征输入信息所指向的场景(如，与飞机票相关的场景)；意图部分可以插入对应领域部分所对应内容的具体操作，一般以动宾短语来表示，主要用于表征在该场景下所指向的操作(如，购票、退票)；槽位部分可以插入领域部分所对应内容的属性信息，主要用于表征该场景本身所具备的特性(如，时间、目的地)。
134.电子设备在进行自然语言理解的过程中，以框架语义格式的输入表征来表示语义结果为例，domain可以为“飞机票”，对应的intent可以为“购票”和“退票”等，对应的slots可以为“时间”、“出发地”、“目的地”等属性；domain可以为“视频”，对应的intent可以为“查询”和“下载”等，对应的slots可以为“演员”、“导演”、“类型”等属性。
135.交互控制模块可以是指电子设备中用来对输入表征进行处理的模块，电子设备可以将输入表征输入到交互控制模块，然后经过交互控制模块的相关处理，得到响应信息。交互控制模块也可以称为对话管理(dialog management，dm)模块，交互控制模块可以基于对话的状态(也即输入表征等信息)判断系统应该采取什么动作(也即响应信息)，这里的动作可以理解为电子设备需要表达什么意思。本技术实施例中，交互控制模块可以是指软件模块，例如：训练好的神经网络模型等，也可以是指硬件模块，例如：控制芯片、控制服务器等。
136.响应信息(action)(也可以称为输出信息)可以是指电子设备结果对初始输入信息各种进行处理后，需要输出到外界的信息。响应信息可以与初始输入信息相对应，也即电子设备通过输入初始输入信息，经过内部的各种处理，得到初始输入信息对应的响应信息，进而实现与外界的交互。
137.本技术实施例中，电子设备得到响应信息之后，可以通过确定响应信息中所包含的响应内容，来确定对应的输出模态。以响应信息是订票结果为例，电子设备可以通过解析响应信息，确定订票结果中有“展示”的信息内容，那么电子设备可以确定输出模态可以为界面输出模态等。本技术实施例中，电子设备还可以直接通过交互控制模块，确定响应信息对应的输出模态，例如，响应信息中可以携带输出模态的标识信息，响应信息中携带的标识信息a可以对应语音输出模态，标识信息b可以对应界面输出模态等，电子设备可以通过读取标识信息，确定输出模态。
138.在一些实施例中，电子设备可以预先设置输出模态与输出转换策略之间的对应关系，还是如图2a所示，第一输出模态对应第一输出转换策略，第二输出模态对应第二输出转
换策略，第三输出模态对应第三输出转换策略等。电子设备确定输出模态后，可以利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果。例如，电子设备确定的目标输出结果可以包括：用于展示订票结果的显示页面地址以及具体的数据内容等。
139.目标输出结果可以是输出转换策略对结构化的响应信息进行转换后的结果。例如：目标输出结果可以包括语音形式(可以对应语音输出模态)的结果、视频形式(可以对应视觉输出模态)的结果、命令形式(可以对应功能输出模态)等不同格式的结果。
140.本技术实施例中，对于同一初始输入信息的处理过程中，输入模态和输出模态可以相同，也可以不同。例如，电子设备可以确定输入模态为语音输入模态，输出模态为语音输出模态，也即输入模态和输出模态都是以语音信号的形式与外界进行交互。再例如，电子设备也可以确定输入模态为视觉输入模态，输出模态为语音输出模态，也即输入模态和输出模态是以不同信号的形式与外界进行交互，进而实现语音视觉模态至语音模态的切换。以上仅是举例说明，在实现的过程中，也可以实现其它各种模态之间的切换，在此不作具体限定。
141.本技术实施例中，可以将各种模态的输入信息统一转换为预设标准格式的输入表征，并采用交互控制模块对该统一格式的输入表征进行处理，得到响应信息，并确定对应于响应信息的输出模态，进而通过与该输出模态对应的输出转换策略，将响应信息转换为目标输出结果。
142.也就是说，本技术中在获取到不同模态的输入信息的情况下，可以将不同模态的输入信息转换为统一格式的输入表征，这样，交互控制模块就能实现对不同模态的输入信息的统一处理，且交互控制模块可以自动选择与响应信息对应的输出模态，进而得到目标输出结果，这样，即使存在不同模态的交互方式，也能给用户提供统一的交互体验。
143.在一些实施例中，所述方法还包括：
144.根据所述输入模态和预设的第一关联关系，确定与各个所述输入模态对应的输入转换策略；其中，所述第一关联关系用于表征输入模态和输入转换策略之间的映射关系；
145.根据所述输出模态和预设的第二关联关系，确定与各个所述输出模态对应的输出转换策略；其中，所述第二关联关系用于表征输出模态和输出转换策略之间的映射关系。
146.本技术实施例中，电子设备可以根据所述输入模态和预设的第一关联关系，确定与各个所述输入模态对应的输入转换策略；其中，所述第一关联关系用于表征输入模态和输入转换策略之间的映射关系。例如：第一输入模态对应第一输入转换策略，第二输入模态对应第二输入转换策略等。电子设备可以根据所述输出模态和预设的第二关联关系，确定与各个所述输出模态对应的输出转换策略；其中，所述第二关联关系用于表征输出模态和输出转换策略之间的映射关系。例如：第一输出模态对应第一输出转换策略，第二输出模态对应第二输出转换策略等。
147.在一些实施例中，电子设备各个模态和转换策略的历史相关信息，来确定各个模态与各个转换策略之间的第一关联关系和第二关联关系。例如：电子设备通过统计收集到的历史数据，确定电子设备处理第一输入模态的输入信息时，调用第一输入转换策略的次数最多，那么确定第一输入模态可以对应第一输入转换策略等。电子设备还可以通过匹配模型来设置第一关联关系和第二关联关系，匹配模型可以是指预先训练好的神经网络模型，通过将各个模态以及各个转换策略，得到模态与转换策略之间的对应关系。
148.电子设备确定第一关联关系和第二关联关系后，可以将第一关联关系和第二关联关系存储在电子设备的存储器中，在信息处理的过程中，可以直接调用第一关联关系和第二关联关系，能够有效地提高信息处理的效率。
149.本技术实施例中，通过设置不同输入模态和输入转换策略之间的映射关系，不同输出模态和输出转换策略之间的映射关系。可以准确快速地确定出输入转换策略和输出转换策略，提高处理多种不同的输入模态和输出模态的信息的多样性等。相对于相关技术中，仅考虑了图形界面交互与语音交互，未考虑其他模态的交互。本技术实施例中，多模态融合交互系统中任意模态的交互都可以作为系统级能力覆盖所有系统功能；多模态融合交互系统中用户可自由在语音交互与图形界面交互或其他模态的交互中切换。
150.在一些实施例中，所述确定所述初始输入信息的输入模态，包括：
151.在所述初始输入信息包括第一语音信号的情况下，确定所述输入模态为语音输入模态；
152.所述利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征，包括：
153.对所述第一语音信号进行语音识别处理，得到第一文本信息；
154.对所述第一文本信息进行语义提取处理，得到所述预设标准格式的输入表征。
155.本技术实施例中，电子设备在所述初始输入信息包括第一语音信号的情况下，可以确定所述输入模态为语音输入模态。然后电子设备可以对所述第一语音信号进行语音识别处理，得到第一文本信息，对所述第一文本信息进行语义提取处理，得到所述预设标准格式的输入表征。例如：电子设备可以通过自动语音识别(automatic speech recognition，asr)模块将所述第一语音信号转换为第一文本信息，再通过自然语言理解(natural language processing，nlu)模块得到输入表征等。
156.本技术实施例中，通过在所述初始输入信息包括第一语音信号的情况下，确定所述输入模态为语音输入模态，然后对所述第一语音信号进行语音识别处理，得到第一文本信息，对所述第一文本信息进行语义提取处理，得到所述预设标准格式的输入表征，可以准确地确定输入模态的类型，及时简单地得到统一结构的输入表征，提高电子设备的运行效率等。
157.在一些实施例中，所述确定所述初始输入信息的输入模态，包括：
158.在所述初始输入信息为基于界面输入的请求信息的情况下，确定所述输入模态为界面输入模态；
159.所述利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征，包括：
160.确定所述请求信息所针对的应用类型、所述请求信息的请求功能以及请求属性；
161.根据所述应用类型、所述请求功能以及所述请求属性，得到所述预设标准格式的输入表征。
162.本技术实施例中，电子设备可以在所述初始输入信息为基于界面输入的请求信息的情况下，确定所述输入模态为界面输入模态。然后电子设备可以确定所述请求信息所针对的应用类型、所述请求信息的请求功能以及请求属性，根据所述应用类型、所述请求功能以及所述请求属性，得到所述预设标准格式的输入表征。
163.例如：电子设备可以通过解析所述请求信息，确定所述请求信息中所携带的应用类型为音乐播放应用程序，请求功能为切换当前播放歌曲，请求属性为下一首等。电子设备可以根据请求信息所针对的应用类型(也即该请求信息所在应用或功能组)确定领域(domain)部分的取值，请求信息的请求功能(也即该请求信息的具体功能)确定意图(intent)部分的取值，请求信息的请求属性(也即该请求信息所携带的不同信息)确定槽位(slots)部分的取值，如可以将用户键入的搜索内容放入槽位部分中预设的关键字(keyword)字段中，将用户选择的内容放入槽位部分中预设的选择(selected)字段中等，从而得到框架语义格式的输入表征。
164.在一种可能的实施例中，不同形式的界面输入都可转化为请求信息。例如：当用户键入了搜索内容并点击搜索按钮时，则可以生成搜索请求信息；当用户选择了结果展示列表中的一个搜索结果，并通过鼠标等组件点击选定按钮时，则可以生成结果选择请求；当用户在下拉对话框中选择了一个选项，并点击提交按钮时，则可以生成信息提交请求等。
165.本技术实施例中，通过在所述初始输入信息为基于界面输入的请求信息的情况下，确定所述输入模态为界面输入模态，然后确定所述请求信息所针对的应用类型、所述请求信息的请求功能以及请求属性，根据所述应用类型、所述请求功能以及所述请求属性，得到所述预设标准格式的输入表征，可以准确地确定输入模态的类型，及时简单地得到统一结构的输入表征，提高电子设备的运行效率等。
166.在一些实施例中，所述确定所述初始输入信息的输入模态，包括：
167.在所述初始输入信息包括当前视觉图像的情况下，确定所述输入模态为视觉输入模态；
168.所述利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征，包括：
169.根据所述当前视觉图像以及预先设置的预设视觉图像与预设输入表征之间的映射关系，得到所述预设标准格式的输入表征。
170.本技术实施例中，电子设备可以在所述初始输入信息包括当前视觉图像的情况下，确定所述输入模态为视觉输入模态。然后电子设备可以根据所述当前视觉图像以及预先设置的预设视觉图像与预设输入表征之间的映射关系，得到所述预设标准格式的输入表征。
171.例如：电子设备可以预先设置预设视觉图像与预设输入表征之间的映射关系，预设第一视觉图像对应的第一预设输入表征，第二预设视觉图像对应的第二预设输入表征等。然后电子设备通过计算当前视觉图像与各个预设视觉图像之间的相似度，对各个相似度进行排序(如，从小到大的顺序)，确定最大的相似度，然后将最大的相似度对应的预设视觉图像对应的预设输入表征作为所述预设标准格式的输入表征。进一步的，在确定出最大的相似度之后，还可以与预设的相似度阈值作比较，若小于所述相似度阈值，则忽略所述当前视觉图像，若大于所述相似度阈值，则可以将最大的相似度对应的预设视觉图像对应的预设输入表征作为所述预设标准格式的输入表征。采用上述方式，能够进一步提高确定输入表征的准确率。
172.在一种可能的实施例中，视觉输入可以作为一种辅助的输入手段，可以通过预先定义好的一组表情/动作，作为可理解的输入信息。例如：预先定义好可理解的一组手势动
作及其对应的输入表征，并构建相应的手势识别模块，该手势识别模块在识别到用户的手势/动作/表情后即可转换为所需输出(也即响应信息)等。
173.本技术实施例中，通过在所述初始输入信息包括当前视觉图像的情况下，确定所述输入模态为视觉输入模态，然后根据所述当前视觉图像以及预先设置的预设视觉图像与预设输入表征之间的映射关系，得到所述预设标准格式的输入表征，可以准确地确定输入模态的类型，及时简单地得到统一结构的输入表征，提高电子设备的运行效率等。
174.在一些实施例中，所述确定所述初始输入信息的输入模态，包括：
175.在所述初始输入信息包括场景信号的情况下，确定所述输入模态为场景输入模态；
176.所述利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征，包括：
177.确定所述场景信号对应的信号来源、信号功能以及信号属性；
178.根据所述信号来源、所述信号功能以及所述信号属性，得到所述预设标准格式的输入表征。
179.本技术实施例中，场景信号可以是指电子设备通过传感器等采集模组从外部环境获取的输入信号，电子设备可以在所述初始输入信息包括场景信号的情况下，确定所述输入模态为场景输入模态。场景信号可以包括：通过车辆外部的图像采集模组采集到的图像信号、视频信号，还可以包括：通过车载终端中的定位模组获取的车辆定位信息等。然后电子设备可以确定所述场景信号对应的信号来源、信号功能以及信号属性，根据所述信号来源、所述信号功能以及所述信号属性，得到所述预设标准格式的输入表征。本技术实施例中，在语音交互与图形界面交互为主要交互途径的同时，支持基于视觉感知的交互与场景信号触发的系统主动交互等其他模态的交互。
180.例如：电子设备可以解析所述场景信号，得到所述场景信号中携带的信号来源为亮度传感器采集到的信号，信号功能为调节电子设备的亮度，信息属性为电子设备当前显示亮度等。以得到框架语义格式的输入表征为例，框架语义格式的输入表征可以包括：领域(domain)部分、意图(intent)部分以及槽位(slots)部分。电子设备可以根据输入信息中信号来源确定领域(domain)部分的取值(如根据场景信号来源划分场景类型，再根据场景类型确定领域部分的取值)；根据信号功能(也即该场景信号的功能或含义等)确定意图(intent)部分的取值；根据信号属性(也即该场景信号所携带的不同信息)确定槽位(slots)部分的取值。
181.在一种可能的实施例中，如触发了车辆超速信号(也即场景信号)时，该车辆超速信号对应的框架语义的领域可以是车辆，框架语义的意图可以是超速，框架语义的槽位中的字段可以包含车辆当前速度和限速值等。
182.本技术实施例中，通过在所述初始输入信息包括场景信号的情况下，确定所述输入模态为场景输入模态，然后确定所述场景信号对应的信号来源、信号功能以及信号属性，根据所述信号来源、所述信号功能以及所述信号属性，得到所述预设标准格式的输入表征，可以准确地确定输入模态的类型，及时简单地得到统一结构的输入表征，提高电子设备的运行效率等。
183.在一些实施例中，所述将所述预设标准格式的输入表征输入交互控制模块，得到
响应信息，包括：
184.将交互过程中的原始状态信息和所述输入表征输入所述交互控制模块，得到更新后的状态信息；
185.根据所述更新后的状态信息和所述输入表征，得到所述响应信息；
186.所述确定对应于所述响应信息的输出模态，包括：
187.根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态。
188.本技术实施例中，电子设备在信息处理的过程是连续的，电子设备的状态可以根据初始输入信息的输入而发生变化，如由运动状态切换为静止状态，由播放状态切换为暂停状态等。原始状态信息可以是指电子设备在交互过程中的上一轮状态信息，更新后的状态信息可以是指当前的状态信息等。在一种可能的实施例中，状态信息包括但不限于：系统当前处理任务的类型，例如：订机票。当前处理任务的具体信息，例如：订机票任务中相关的出发地，目的地，时间，航空公司等具体信息。以及系统当前运行状态，例如：计算资源不足等。上一轮的状态信息和更新后的状态信息是格式一致的，只是更新后的状态信息中的部分值会发生变化。
189.电子设备得到输入表征后，可以将交互过程中的原始状态信息和所述输入表征输入所述交互控制模块，得到更新后的状态信息，例如：电子设备确定原始状态信息包括匀速直线行驶，输入表征包括加速等内容，然后确定更新后的状态信息可以为加速直线行驶。然后电子设备可以根据所述更新后的状态信息和所述输入表征，得到所述响应信息，例如：电子设备确定更新后的状态信息可以为加速直线行驶，输入表征包括加速等内容，然后确定响应信息，响应信息可以包括提高发动机的转速等信息。
190.决策内容可以是指响应信息中包含的具体执行内容等，例如：响应信息中包含语音播报的决策内容，响应信息中包含播放歌曲的决策内容，响应信息中包含界面展示的决策内容等。决策内容可以属于响应信息中的一部分，也可以是响应信息的全部内容，本技术不作具体限定。电子设备可以预先设置决策内容与输出模态之间的对应关系，例如：第一决策内容对应第一输出模态，第二决策内容对应第二输出模态等。
191.在一种可能的实施例中，交互控制模块的功能可以由对话管理模块来承担。本技术中的对话管理模块也可以承担维护交互系统的状态以及根据当前状态及输入生成交互决策(也即响应信息)的作用。相较于相关技术中，对话系统中对话管理只负责处理语音交互下的交互决策，本技术中的对话管理可以处理不同输入和输出模态下的交互，可以满足不同输入和输出模态的用户需求。
192.对话管理模块可以分为对话状态追踪模块(dialogue state tracking，dst)和对话策略模块(dialogue policy，dp)两部分。其中dst模块负责对话系统状态的维护，根据输入信息来更新系统状态。具体而言，根据对话系统具备的功能，预先确定对话系统的初始状态(原始状态信息)，每次获取输入信息时，根据上一轮的系统状态及当前的输入信息来更新系统状态。dst模块可以是基于规则生成的dst模型，或者是用预设样本数据训练得到的dst模型。dp模块负责交互决策(也即响应信息)的生成。根据dst模块更新后的系统状态以及当前的输入表征，dp模块输出最终的交互决策。同样的，dp模块可以是基于规则生成的dp模型，或者是用预设样本数据训练得到的dp模型。
193.本技术实施例中，通过将交互过程中的原始状态信息和所述输入表征输入所述交
互控制模块，得到更新后的状态信息，根据所述更新后的状态信息和所述输入表征，得到所述响应信息，然后根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态，可以简单快速地确定出结构化的响应信息，以及准确地确定出响应信息对应的输出模态。对于多种不同模态的输入信息可以采用唯一的交互控制模块统一控制交互逻辑，进行转换，得到结构化的响应信息，再根据响应信息动态选择输出模态，能够提高多模态信息处理的效率，提高用户体验。
194.在一些实施例中，所述根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态，包括：
195.如果所述响应信息所包含的决策内容指示进行语音播放，则确定所述输出模态为语音输出模态；
196.所述利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果，包括：
197.在确定输出模态为语音输出模态的情况下，将所述决策内容转换为语音格式，并将转换为语音格式的决策内容确定为所述目标输出结果。
198.本技术实施例中，语音格式可以是指语音信号格式，可以用来进行语音播报等。语音播报可以是指通过语音的形式向用户播报相关信息，例如：询问用户导航的目的地，向用户确认订单是否正确，告知用户当前的播放歌曲等。如果所述响应信息所包含的决策内容指示进行语音播放，则电子设备可以确定所述输出模态为语音输出模态，那么电子设备可以在确定输出模态为语音输出模态的情况下，将所述决策内容转换为语音格式，并将转换为语音格式的决策内容确定为所述目标输出结果。例如：电子设备可以通过自然语言生成(natural language generation，nlg)模块将决策内容，转换为文本信息，再通过文本至语音(text to speech，tts)模块将文本信息转换为语音信息，进行播报等。
199.在一种可能的实施例中，电子设备可以通过nlg模块来实现结构化的响应信息到文本的转换，这里可以通常使用模版引擎的方式来实现nlg模块功能。根据响应信息中的一个或多个字段，从预先设计好的句式模版库中选取合适的模版，若存在，则将响应信息中相关字段的内容填入模版对应的槽位中，得到最终的播报文本。然后电子设备可以通过tts模块来实现文本到语音的转换，与用户通过语音的方式进行交互。
200.本技术实施例中，如果确定所述响应信息所包含的决策内容指示进行语音播放，则确定所述输出模态为语音输出模态，在确定输出模态为语音输出模态的情况下，将所述决策内容转换为语音格式，并将转换为语音格式的决策内容确定为所述目标输出结果，可以简单快速地确定出输出模态的类型，然后准确地得到对应格式的目标输出结果，提高电子设备的运行效率等。
201.在一些实施例中，所述根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态，包括：
202.如果所述响应信息所包含的决策内容指示进行界面展示，则确定所述输出模态为界面输出模态；
203.所述利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果，包括：
204.在确定输出模态为界面输出模态的情况下，将所述决策内容转换为界面格式，并
将转换为界面格式的决策内容确定为所述目标输出结果；
205.其中，所述界面格式的决策内容包括：页面地址和数据内容。
206.本技术实施例中，界面格式可以是指界面显示元素格式，可以用来进行界面展示等。界面展示可以是指在图形界面上向用户展示目标输出结果，例如：用户搜索后得到的结果列表，用户订单的详细信息等。如果所述响应信息所包含的决策内容指示进行界面展示，则电子设备可以确定所述输出模态为界面输出模态，那么电子设备可以在确定输出模态为界面输出模态的情况下，将所述决策内容转换为界面格式，并将转换为界面格式的决策内容确定为所述目标输出结果。例如：电子设备可以通过读取决策内容中第一预设字段的字段内容，来确定页面地址，通过读取决策内容中第二预设字段的字段内容，来确定数据内容。电子设备可以通过页面地址来指定特定的应用页面来展示相关内容，实现交互过程中不同页面间的跳转，数据内容存放了电子设备具体要展示的内容，通常为一个列表形式。
207.本技术实施例中，如果所述响应信息所包含的决策内容指示进行界面展示，则确定所述输出模态为界面输出模态，在确定输出模态为界面输出模态的情况下，将所述决策内容转换为界面格式，并将转换为界面格式的决策内容确定为所述目标输出结果，可以简单快速地确定出输出模态的类型，然后准确地得到对应格式的目标输出结果，提高电子设备的运行效率等。
208.在一些实施例中，所述根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态，包括：
209.如果所述响应信息所包含的决策内容指示进行功能执行，则确定所述输出模态为功能输出模态；
210.所述利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果，包括：
211.在确定输出模态为功能输出模态的情况下，将所述决策内容转换为命令格式，并将转换为命令格式的决策内容确定为所述目标输出结果；
212.其中，所述命令格式的决策内容包括：功能类型和功能参数。
213.本技术实施例中，命令格式可以是指操作命令的格式，可以用来进行功能执行等。功能执行可以是指让电子设备执行设备所具有的功能，例如：为用户播报一首歌曲，或者帮用户打开车窗等。如果所述响应信息所包含的决策内容指示进行功能执行，则电子设备可以确定所述输出模态为功能输出模态，那么电子设备可以在确定输出模态为功能输出模态的情况下，将所述决策内容转换为命令格式，并将转换为命令格式的决策内容确定为所述目标输出结果。例如：电子设备可以通过读取决策内容中第三预设字段的字段内容，来确定功能类型(例如但不限于播报一首歌曲，或者帮用户打开车窗等)，通过读取决策内容中第四预设字段的字段内容，来确定功能参数(例如但不限于打开车窗到目标位置，或者调高两级音量等)。
214.本技术实施例中，如果所述响应信息所包含的决策内容指示进行功能执行，则确定所述输出模态为功能输出模态，在确定输出模态为功能输出模态的情况下，将所述决策内容转换为命令格式，并将转换为命令格式的决策内容确定为所述目标输出结果，可以简单快速地确定出输出模态的类型，然后准确地得到对应格式的目标输出结果，提高电子设备的运行效率等。
215.在一些实施例中，所述方法还包括：
216.在得到所述目标输出结果之后，根据所述初始输入信息、所述输入表征、所述响应信息以及所述目标输出结果，对所述交互控制模块的配置参数进行更新。
217.本技术实施例中，电子设备可以在得到所述目标输出结果之后，根据输入模态、输出模态、输入转换策略、输出转换策略、状态信息、所述初始输入信息、所述输入表征、所述响应信息以及所述目标输出结果等多种信息，对所述交互控制模块的配置参数进行更新，更新后的交互控制模型用于后一轮的信息处理。在信息处理的过程中，各个步骤、模块等都可以按照需要读取使用。
218.在一种可能的实施例中，本技术不局限于上述提及的多种模态的输入，还可以包括其他多种模态的输入。例如：场景信号也可以可由用户自主设置触发条件，使得在满足条件时主动触发系统与用户的交互；视觉输入也不局限于识别用户的手势/肢体动作或者表情，亦可包括唇动检测等；界面输入可以是基于触屏的点击/键入，也可以是通过鼠标/键盘进行的输入等。本技术中列举的不同模态的输入和输出，在某些具体应用中或某些具体设备上，并不一定具备所有模态的输入和输出能力，例如：没有摄像头的设备并不具备视觉输入能力。在某些模态的输入或输出缺失的情况下，只具备上述其中一部分模态的输入或输出能力的情况下，依然适用本技术方案，只需剔除缺失的相关模态的输入或输出模块，就可以满足实际使用需求。
219.本技术实施例中，通过在得到所述目标输出结果之后，根据所述初始输入信息、所述输入表征、所述响应信息以及所述目标输出结果，对所述交互控制模块的配置参数进行更新，可以提高交互控制模块进行信息处理的准确率，提高用户体验等。
220.在一些实施例中，电子设备可以统一记录不同模态的历史交互信息。其中，历史交互信息具体可以包括：每次交互获取的不同输入模态的初始输入信息；调用不同输入转换策略，转换得到的统一格式的输入表征；交互控制模块中更新的状态信息、输出的响应信息、确定的输出模态；以及调用不同输出转换策略，转换得到的目标输出结果等。
221.在一些实施例中，电子设备可以通过多模态融合交互系统对用户语音模态及界面模态或其他模态的输入信息的交互历史信息进行统一管理并提供给需求的各个转换策略或者模块，以便更好的响应用户。
222.在一些实施例中，电子设备在进行交互的过程中，可以将历史交互信息保存至上下文记录模块中，上下文记录模块可以根据交互时间顺序来记录历史交互信息。电子设备在进行交互的过程中，各个转换策略以及各个交互模块都可以从上下文记录模块中读取历史交互信息。
223.在一些实施例中，交互控制模块可以获取历史交互信息，并通过历史交互信息对所述交互控制模块的配置参数进行更新。这样，交互控制模块在对各种模态的输入信息进行处理的过程中，可以充分利用历史交互信息中的历史数据，输出更准确的响应数据，选择更合适的输入模态等，提高用户体验。
224.在另一些实施例中，各个输入转换策略在进行输入信息的转换时，可以将历史交互信息作为参考依据，来得到对应的输入表征。例如：在处理语音输入模态的初始输入信息的过程中，可以利用自然语言理解模块来进行转换，历史交互信息可以用于自然语言理解模块进行上下文理解。在输出转换策略在进行信息转换时，也可以将历史交互信息作为参
考依据，来得到对应的目标输出结果。还是以输入模态是语音模态或者界面模态为例，多模态融合交互系统中的语音交互与图形界面交互或其他模态交互的逻辑皆可根据用户历史输入信息以及目标输出结果等来选择、决策。
225.在一种可能的实施例中，本技术中的信息处理方法可以应用在多模态融合交互系统中，如图2b所示，图2b可以表示一种交互系统架构示意图。首先，交互系统可以收集用户201与电子设备的交互过程中，产生的语音输入模态的语音信号，或者通过点击或键入操作产生的基于界面输入的请求信息，或者视觉输入模态的肢体动作或表情视觉图像，或者场景输入模态的场景信号等不同输入模态的初始输入信息。然后采用不同的输入转换策略对初始输入信息进行处理，得到统一格式的框架语义(semantic frame)(也即输入表征)。例如：电子设备可以通过自动语音识别(automatic speech recognition，asr)模块202和自然语言理解(natural language processing，nlu)模块203，将语音信号转换为输入表征，作为输入转换策略；可以通过图形用户界面(graphical user interface，gui)操作映射模块204，将用户的请求信息转换为输入表征，作为输入转换策略；可以通过视觉感知理解模块205，将动作或表情等视觉图像转换为输入表征，作为输入转换策略；可以通过场景引擎模块206，将场景信号转换为输入表征，作为输入转换策略等。例如：场景引擎可以识别场景信号，并对场景信号进行转换处理得到相关信息(即，输入表征)。其中，场景信号包括：通过设置在车辆外部的图像采集模组采集到的图像信号、视频信号等；还可以包括：通过车载终端中的定位模组获取的车辆定位信息等。
226.然后电子设备可以将输入表征输入到对话管理(dialog management，dm)模块(也可以称为交互控制模块)207，得到结构化的交互决策(action)(也即响应信息)。然后采用不同的输出转换策略对交互决策进行处理，得到不同输出模态的目标输出结果，例如：界面显示、语音、动作执行等结果。例如：电子设备可以通过图形用户界面(graphical user interface，gui)模块208，将交互决策转换为界面输出模态的结果，作为输出转换策略；可以通过自然语言生成(natural language generation，nlg)模块209和文本至语音(text to speech，tts)模块210，将交互决策转换为语音输出模态的结果，作为输出转换策略；可以通过函数组件(functional components)模块211，将交互决策转换为功能输出模态的结果，作为输出转换策略等。
227.通过本技术的技术方案，可以将各种模态的输入信息统一转换为预设标准格式的输入表征，并采用交互控制模块对该统一格式的输入表征进行处理，得到响应信息，并确定对应于响应信息的输出模态，进而通过与该输出模态对应的输出转换策略，将响应信息转换为目标输出结果。
228.也就是说，本技术中在获取到不同模态的输入信息的情况下，可以将不同模态的输入信息转换为统一格式的输入表征，这样，交互控制模块就能实现对不同模态的输入信息的统一处理，且交互控制模块可以自动选择与响应信息对应的输出模态，进而得到目标输出结果，这样，即使存在不同模态的交互方式，也能给用户提供统一的交互体验。
229.图3是根据一示例性实施例示出的一种信息处理装置框图。如图3所示，该信息处理装置300主要包括：
230.第一确定模块301，配置为获取初始输入信息，并确定所述初始输入信息的输入模态；
231.第一转换模块302，配置为利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征；其中，不同的输入模态对应有不同的输入转换策略；
232.第二确定模块303，配置为将所述预设标准格式的输入表征输入交互控制模块，得到响应信息，并确定对应于所述响应信息的输出模态；
233.第二转换模块304，配置为利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果；其中，不同的输出模态对应有不同的输出转换策略。
234.在一些实施例中，所述装置300还包括：
235.第三确定模块，配置为根据所述输入模态和预设的第一关联关系，确定与各个所述输入模态对应的输入转换策略；其中，所述第一关联关系用于表征输入模态和输入转换策略之间的映射关系；
236.第四确定模块，配置为根据所述输出模态和预设的第二关联关系，确定与各个所述输出模态对应的输出转换策略；其中，所述第二关联关系用于表征输出模态和输出转换策略之间的映射关系。
237.在一些实施例中，所述第一确定模块301，配置为：
238.在所述初始输入信息包括第一语音信号的情况下，确定所述输入模态为语音输入模态；
239.所述第一转换模块302，配置为：
240.对所述第一语音信号进行语音识别处理，得到第一文本信息；
241.对所述第一文本信息进行语义提取处理，得到所述预设标准格式的输入表征。
242.在一些实施例中，所述第一确定模块301，配置为：
243.在所述初始输入信息为基于界面输入的请求信息的情况下，确定所述输入模态为界面输入模态；
244.所述第一转换模块302，配置为：
245.确定所述请求信息所针对的应用类型、所述请求信息的请求功能以及请求属性；
246.根据所述应用类型、所述请求功能以及所述请求属性，得到所述预设标准格式的输入表征。
247.在一些实施例中，所述第一确定模块301，配置为：
248.在所述初始输入信息包括当前视觉图像的情况下，确定所述输入模态为视觉输入模态；
249.所述第一转换模块302，配置为：
250.根据所述当前视觉图像以及预先设置的预设视觉图像与预设输入表征之间的映射关系，得到所述预设标准格式的输入表征。
251.在一些实施例中，所述第一确定模块301，配置为：
252.在所述初始输入信息包括场景信号的情况下，确定所述输入模态为场景输入模态；
253.所述第一转换模块302，配置为：
254.确定所述场景信号对应的信号来源、信号功能以及信号属性；
255.根据所述信号来源、所述信号功能以及所述信号属性，得到所述预设标准格式的
输入表征。
256.在一些实施例中，所述第二确定模块303，配置为：
257.将交互过程中的原始状态信息和所述输入表征输入所述交互控制模块，得到更新后的状态信息；
258.根据所述更新后的状态信息和所述输入表征，得到所述响应信息；
259.所述第二确定模块303，配置为：
260.根据所述响应信息所包含的决策内容，确定与所述响应信息对应的输出模态。
261.在一些实施例中，所述第二确定模块303，配置为：
262.如果所述响应信息所包含的决策内容指示进行语音播放，则确定所述输出模态为语音输出模态；
263.所述第二转换模块304，配置为：
264.在确定输出模态为语音输出模态的情况下，将所述决策内容转换为语音格式，并将转换为语音格式的决策内容确定为所述目标输出结果。
265.在一些实施例中，所述第二确定模块303，配置为：
266.如果所述响应信息所包含的决策内容指示进行界面展示，则确定所述输出模态为界面输出模态；
267.所述第二转换模块304，配置为：
268.在确定输出模态为界面输出模态的情况下，将所述决策内容转换为界面格式，并将转换为界面格式的决策内容确定为所述目标输出结果；
269.其中，所述界面格式的决策内容包括：页面地址和数据内容。
270.在一些实施例中，所述第二确定模块303，配置为：
271.如果所述响应信息所包含的决策内容指示进行功能执行，则确定所述输出模态为功能输出模态；
272.所述第二转换模块304，配置为：
273.在确定输出模态为功能输出模态的情况下，将所述决策内容转换为命令格式，并将转换为命令格式的决策内容确定为所述目标输出结果；
274.其中，所述命令格式的决策内容包括：功能类型和功能参数。
275.在一些实施例中，所述装置300还包括：
276.更新模块，配置为在得到所述目标输出结果之后，根据所述初始输入信息、所述输入表征、所述响应信息以及所述目标输出结果，对所述交互控制模块的配置参数进行更新。
277.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
278.图4是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
279.参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(i/o)的接口412，传感器组件414，以及通信组件416。
280.处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相
机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。
281.存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
282.电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。
283.多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
284.音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(mic)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。
285.i/o接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
286.传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
287.通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如wi-fi，4g或5g，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(nfc)模块，以促进短程通
信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
288.在示例性实施例中，装置400可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
289.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
290.一种非临时性计算机可读存储介质，当所述存储介质中的指令由信息处理装置的处理器执行时，使得信息处理装置能够执行一种信息处理方法，包括：
291.获取初始输入信息，并确定所述初始输入信息的输入模态；
292.利用与所述输入模态对应的输入转换策略，将所述初始输入信息转换为预设标准格式的输入表征；其中，不同的输入模态对应有不同的输入转换策略；
293.将所述预设标准格式的输入表征输入交互控制模块，得到响应信息，并确定对应于所述响应信息的输出模态；
294.利用与所述输出模态对应的输出转换策略，将所述响应信息转换为目标输出结果；其中，不同的输出模态对应有不同的输出转换策略。
295.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求指出。
296.应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：指纹认证装置、显示装置以及显示装置的认证指纹的方法与流程

信息处理方法、装置及存储介质与流程

相关文献

最热文献