语音翻译的方法、电子设备、存储介质及程序产品与流程

2022-02-20 05:50:49 来源：中国专利 TAG：

1.本技术涉及终端技术领域，尤其涉及一种语音翻译的方法、电子设备、存储介质及程序产品。

背景技术：

2.目前，具有折叠屏的电子设备在各种场景中得到广泛应用。譬如在一个应用场景中，该电子设备可以对不同语种的用户双方的语音数据进行实时翻译，并分别在各个用户查看的显示屏上显示对方用户的语音数据的翻译信息，以使得用户双方顺利进行对话。
3.在相关技术中，在通过该电子设备进行语音翻译之前，需要用户预先进行手动配置。譬如，通常电子设备中安装有支持该配置操作的应用。用户需要在该应用中分别配置各个显示屏用于显示哪类语种的翻译信息，也即分别配置各个显示屏对应的语种，譬如，需要用户手动输入或者从多个选项中选取各个显示屏对应的语种。如此，电子设备根据用户的配置，将实时采集的语音数据的翻译信息显示在对应的显示屏上。
4.如此，用户每次在使用电子设备进行语音翻译之前，都需要用户手动配置，操作较为繁琐，使得语音翻译效率较低。

技术实现要素：

5.本技术提供一种语音翻译的方法、电子设备、存储介质及程序产品，解决了现有技术中由于需要用户手动配置导致操作较为繁琐，使得语音翻译效率较低的问题。
6.为达到上述目的，本技术采用如下技术方案：
7.第一方面，提供一种语音翻译的方法，应用于具有折叠屏的电子设备中，所述电子设备包括第一显示屏和第二显示屏，所述方法包括：
8.采集第一语音数据；
9.确定所述第一语音数据的目标声源方位；
10.若所述目标声源方位的置信度大于或等于置信度阈值，则根据所述目标声源方位，确定目标显示屏，所述目标显示屏是所述第一显示屏和所述第二显示屏中除所述第一语音数据的真实声源方位对应的显示屏之外的另一个显示屏；
11.将所述第一语音数据的翻译信息显示在所述目标显示屏上，所述翻译信息是对所述第一语音数据按照目标语种进行翻译后得到的，所述目标语种是所述目标显示屏显示的内容对应的语种。
12.如此，根据目标声源方位自动确定目标显示屏，以及自动将第一语音数据翻译成目标语种对应的翻译信息，并在目标显示屏上显示翻译信息，避免需要用户进行繁琐配置，提高了语音翻译的效率。
13.作为本技术的一个示例，所述确定所述第一语音数据的目标声源方位之后，还包括：
14.若所述目标声源方位的置信度小于所述置信度阈值，则根据第一视频帧序列和第
二视频帧序列，确定所述目标显示屏，所述第一视频帧序列是由所述第一显示屏上设置的摄像头在所述第一语音数据的采集时间段内拍摄的，所述第二视频帧序列是由所述第二显示屏上设置的摄像头在所述第一语音数据的采集时间段内拍摄的。
15.如此，在目标声源方位的置信度小于置信度阈值的情况下，根据摄像头采集的视频帧序列判断第一语音数据是来自哪个用户的，可以提高判断的准确性，从而避免因误判导致后续翻译信息显示错误的情况。
16.作为本技术的一个示例，所述根据第一视频帧序列和第二视频帧序列，确定所述目标显示屏，包括：
17.根据所述第一视频帧序列确定所述第一视频帧序列中的用户在所述采集时间段内是否发言，得到第一检测结果，以及根据所述第二视频帧序列确定所述第二视频帧序列中的用户在所述采集时间段内是否发言，得到第二检测结果；
18.若根据所述第一检测结果和所述第二检测结果确定有用户发言，则将所述第一视频帧序列和所述第二视频帧序列中未检测到用户发言的视频帧序列对应的显示屏确定为所述目标显示屏。
19.如此，通过检测第一视频帧序列和第二视频帧序列中哪个视频帧序列内的用户发言，以确定第一语音数据是来自谁，从而可以确定需要将第一语音数据的翻译信息后续显示在哪个显示屏上，也即确定目标显示屏，以保证第一语音数据的翻译信息能够显示在正确的显示屏上。
20.作为本技术的一个示例，所述根据所述第一视频帧序列确定所述第一视频帧序列中的用户在所述采集时间段内是否发言，得到第一检测结果，包括：
21.根据所述第一视频帧序列进行人脸跟踪，得到所述第一视频帧序列对应的多张第一人脸图像；
22.根据所述多张第一人脸图像进行唇动检测，得到第一唇动检测结果；
23.根据所述第一唇动检测结果，确定所述第一检测结果。
24.如此，通过人脸跟踪和唇动检测，可以有效地检测出第一视频帧序列内的用户是否有唇动现象，从而可以确定第一视频帧序列中的用户是否发言。
25.作为本技术的一个示例，所述根据所述第二视频帧序列确定所述第二视频帧序列中的用户在所述采集时间段内是否发言，得到第二检测结果，包括：
26.根据所述第二视频帧序列进行人脸跟踪，得到所述第二视频帧序列对应的多张第二人脸图像；
27.根据所述多张第二人脸图像进行唇动检测，得到第二唇动检测结果；
28.根据所述第二唇动检测结果，确定所述第二检测结果。
29.如此，通过人脸跟踪和唇动检测，可以有效地检测出第二视频帧序列内的用户是否有唇动现象，从而可以确定第二视频帧序列中的用户是否发言。
30.作为本技术的一个示例，所述确定所述第一语音数据的目标声源方位，包括：
31.将所述第一语音数据输入至目标网络模型中，以通过所述目标网络模型的输出结果确定所述第一语音数据的目标声源方位，所述目标网络模型能够基于任意的语音数据确定所述任意的语音数据对应的声源方位。
32.如此，通过目标网络模型可以确定第一语音数据的目标声源方位，可以提高确定
目标声源方位的准确性。另外，相比于其他复杂算法，通过目标网络模型确定目标声源方位在一定程度上可以提高确定效率。
33.作为本技术的一个示例，所述置信度的确定包括：
34.根据所述目标网络模型输出的所述目标声源方位对应的概率值，确定所述置信度。
35.如此，由于概率值能够用于指示第一语义数据来自目标声源方位的可能性大小，所以，可以根据该概率值确定置信度，可以保证置信度的有效性。
36.作为本技术的一个示例，所述将所述第一语音数据的翻译信息显示在所述目标显示屏上之前，还包括：
37.将所述第一语音数据转换为文本数据，得到第一文本数据；
38.确定所述目标语种；
39.将所述第一文本数据翻译成所述目标语种对应的翻译信息。
40.如此，通过确定目标显示屏对应的目标语种，饼将第一语音数据翻译成目标语种对应的翻译信息，可以保证翻译的准确性和有效性。
41.作为本技术的一个示例，所述确定目标语种，包括：
42.若存在第二语音数据的语种，则将所述第二语音数据的语种确定为所述目标语种，所述第二语音数据为对端用户的语音数据；
43.若不存在所述第二语种数据的语种，则根据所述电子设备中记载的历史时刻的翻译记录，确定所述目标语种。
44.如此，在电子设备中存在第二语音数据的语种的情况下，将该语种确定为目标语种，以保证能够对第一语音数据正确翻译。另外，即使不存在第二语种数据的语种，仍可以根据历史数据确定目标语种，避免无法翻译或者尽可能地避免将第一语音数据翻译出错。
45.作为本技术的一个示例，所述电子设备中存在声纹屏幕关联关系，所述声纹屏幕关联关系包括第一声纹特征与第一显示屏之间的关联关系、以及第二声纹特征与第二显示屏之间的关联关系；
46.所述将所述第一语音数据的翻译信息显示在所述目标显示屏上，包括：
47.确定所述第一语音数据的声纹信息，得到第一目标声纹信息；
48.从所述声纹屏幕关联关系中，查询与所述第一语音数据的真实声源方位对应的显示屏关联的声纹信息，得到第二目标声纹信息；
49.若所述第一目标声纹信息与所述第二目标声纹信息不相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
50.将所述翻译信息显示在内容对调后的所述目标显示屏上。
51.如此，在对用户双方的语音数据进行翻译的过程中，即使用户双方交换了位置，电子设备仍可以通过声纹信息检测出用户位置的变化。电子设备在对第一语音数据的翻译信息显示之前，先将第一显示屏中显示的内容和第二显示屏中显示的内容进行对调，之后再将第一语音数据的翻译信息显示在内容对调后的目标显示屏上。从而可以保证准确地通过第一显示屏和第二显示屏分别为不同用户显示对方用户的语音数据的翻译信息。
52.作为本技术的一个示例，所述电子设备中存在声纹屏幕关联关系，所述声纹屏幕关联关系包括第一声纹特征与第一显示屏之间的关联关系、以及第二声纹特征与第二显示
屏之间的关联关系；
53.所述将所述第一语音数据的翻译信息显示在所述目标显示屏上，包括：
54.确定所述第一语音数据的声纹信息，得到第一目标声纹信息；
55.从声纹屏幕关联关系中，查询与所述第一目标声纹信息关联的显示屏；
56.若查询到的显示屏与所述目标显示屏相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
57.将所述翻译信息显示在内容对调后的所述目标显示屏上。
58.如此，在对用户双方的语音数据进行翻译的过程中，即使用户双方交换了位置，电子设备仍可以基于声纹信息进行显示屏匹配，以检测出用户位置的变化。电子设备在对第一语音数据的翻译信息显示之前，先将第一显示屏中显示的内容和第二显示屏中显示的内容进行对调，之后再将第一语音数据的翻译信息显示在内容对调后的目标显示屏上。从而可以保证准确地通过第一显示屏和第二显示屏分别为不同用户显示对方用户的语音数据的翻译信息。
59.作为本技术的一个示例，所述电子设备中存在人脸屏幕关联关系，所述人脸屏幕关联关系包括第一人脸特征与第一显示屏之间的关联关系、以及第二人脸特征与第二显示屏之间的关联关系；
60.所述将所述第一语音数据的翻译信息显示在所述目标显示屏上，包括：
61.根据所述目标显示屏对应的视频帧序列，确定第一目标人脸特征；
62.从所述人脸屏幕关联关系中，查询与所述目标显示屏关联的人脸特征，得到第二目标人脸特征；
63.若所述第一目标人脸特征和所述第二目标人脸特征不相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
64.将所述翻译信息显示在内容对调后的所述目标显示屏上。
65.在对用户双方的语音数据进行翻译的过程中，即使用户双方交换了位置，电子设备仍可以通过人脸特征匹配方式检测出用户位置的变化。电子设备在对第一语音数据的翻译信息显示之前，先将第一显示屏中显示的内容和第二显示屏中显示的内容进行对调，之后再将第一语音数据的翻译信息显示在内容对调后的目标显示屏上。从而可以保证准确地通过第一显示屏和第二显示屏分别为不同用户显示对方用户的语音数据的翻译信息。
66.第二方面，提供一种语音翻译的装置，配置于具有折叠屏的电子设备中，所述电子设备包括第一显示屏和第二显示屏，所述装置包括：
67.采集模块，用于采集第一语音数据；
68.第一确定模块，用于确定所述第一语音数据的目标声源方位；
69.第二确定模块，用于若所述目标声源方位的置信度大于或等于置信度阈值，则根据所述目标声源方位，确定目标显示屏，所述目标显示屏是所述第一显示屏和所述第二显示屏中除所述第一语音数据的真实声源方位对应的显示屏之外的另一个显示屏；
70.显示模块，用于将所述第一语音数据的翻译信息显示在所述目标显示屏上，所述翻译信息是对所述第一语音数据按照目标语种进行翻译后得到的，所述目标语种是所述目标显示屏显示的内容对应的语种。
71.作为本技术的一个示例，所述第二确定模块还用于：
72.若所述目标声源方位的置信度小于所述置信度阈值，则根据第一视频帧序列和第二视频帧序列，确定所述目标显示屏，所述第一视频帧序列是由所述第一显示屏上设置的摄像头在所述第一语音数据的采集时间段内拍摄的，所述第二视频帧序列是由所述第二显示屏上设置的摄像头在所述第一语音数据的采集时间段内拍摄的。
73.作为本技术的一个示例，所述第二确定模块用于：
74.根据所述第一视频帧序列确定所述第一视频帧序列中的用户在所述采集时间段内是否发言，得到第一检测结果，以及根据所述第二视频帧序列确定所述第二视频帧序列中的用户在所述采集时间段内是否发言，得到第二检测结果；
75.若根据所述第一检测结果和所述第二检测结果确定有用户发言，则将所述第一视频帧序列和所述第二视频帧序列中未检测到用户发言的视频帧序列对应的显示屏确定为所述目标显示屏。
76.作为本技术的一个示例，所述第二确定模块用于：
77.根据所述第一视频帧序列进行人脸跟踪，得到所述第一视频帧序列对应的多张第一人脸图像；
78.根据所述多张第一人脸图像进行唇动检测，得到第一唇动检测结果；
79.根据所述第一唇动检测结果，确定所述第一检测结果。
80.作为本技术的一个示例，所述第二确定模块用于：
81.根据所述第二视频帧序列进行人脸跟踪，得到所述第二视频帧序列对应的多张第二人脸图像；
82.根据所述多张第二人脸图像进行唇动检测，得到第二唇动检测结果；
83.根据所述第二唇动检测结果，确定所述第二检测结果。
84.作为本技术的一个示例，所述第一确定模块用于：
85.将所述第一语音数据输入至目标网络模型中，以通过所述目标网络模型的输出结果确定所述第一语音数据的目标声源方位，所述目标网络模型能够基于任意的语音数据确定所述任意的语音数据对应的声源方位。
86.作为本技术的一个示例，所述第二确定模块还用于：
87.根据所述目标网络模型输出的所述目标声源方位对应的概率值，确定所述置信度。
88.作为本技术的一个示例，所述显示模块还用于：
89.将所述第一语音数据转换为文本数据，得到第一文本数据；
90.确定所述目标语种；
91.将所述第一文本数据翻译成所述目标语种对应的翻译信息。
92.作为本技术的一个示例，所述显示模块用于：
93.若存在第二语音数据的语种，则将所述第二语音数据的语种确定为所述目标语种，所述第二语音数据为对端用户的语音数据；
94.若不存在所述第二语种数据的语种，则根据所述电子设备中记载的历史时刻的翻译记录，确定所述目标语种。
95.作为本技术的一个示例，所述电子设备中存在声纹屏幕关联关系，所述声纹屏幕关联关系包括第一声纹特征与第一显示屏之间的关联关系、以及第二声纹特征与第二显示
屏之间的关联关系；
96.所述显示模块用于：
97.确定所述第一语音数据的声纹信息，得到第一目标声纹信息；
98.从所述声纹屏幕关联关系中，查询与所述第一语音数据的真实声源方位对应的显示屏关联的声纹信息，得到第二目标声纹信息；
99.若所述第一目标声纹信息与所述第二目标声纹信息不相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
100.将所述翻译信息显示在内容对调后的所述目标显示屏上。
101.作为本技术的一个示例，所述电子设备中存在声纹屏幕关联关系，所述声纹屏幕关联关系包括第一声纹特征与第一显示屏之间的关联关系、以及第二声纹特征与第二显示屏之间的关联关系；
102.所述显示模块用于：
103.确定所述第一语音数据的声纹信息，得到第一目标声纹信息；
104.从声纹屏幕关联关系中，查询与所述第一目标声纹信息关联的显示屏；
105.若查询到的显示屏与所述目标显示屏相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
106.将所述翻译信息显示在内容对调后的所述目标显示屏上。
107.作为本技术的一个示例，所述电子设备中存在人脸屏幕关联关系，所述人脸屏幕关联关系包括第一人脸特征与第一显示屏之间的关联关系、以及第二人脸特征与第二显示屏之间的关联关系；
108.所述显示模块用于：
109.根据所述目标显示屏对应的视频帧序列，确定第一目标人脸特征；
110.从所述人脸屏幕关联关系中，查询与所述目标显示屏关联的人脸特征，得到第二目标人脸特征；
111.若所述第一目标人脸特征和所述第二目标人脸特征不相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
112.将所述翻译信息显示在内容对调后的所述目标显示屏上。
113.第三方面，提供一种电子设备，所述电子设备的结构中包括处理器和存储器，所述存储器用于存储支持电子设备执行上述第一方面任一所述的方法的程序，以及存储用于实现上述第一方面任一所述的方法所涉及的数据；所述处理器被配置为用于执行所述存储器中存储的程序；所述电子设备还可以包括通信总线，所述通信总线用于在所述处理器与所述存储器之间建立连接。
114.第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述第一方面任意一项所述的方法。
115.第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。
116.上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。
117.本技术提供的技术方案至少可以带来以下有益效果：
118.采集第一语音数据，确定第一语音数据的目标声源方位。若目标声源方位的置信度大于或等于置信度阈值，说明目标声源方位是较为精准的，该种情况下，根据目标声源方位，确定目标显示屏。目标显示屏是第一显示屏和第二显示屏中除第一语音数据的真实声源方位对应的显示屏之外的另一个显示屏。将第一语音数据翻译成目标语种对应的翻译信息，目标语种是目标显示屏显示的内容对应的语种。将得到的翻译信息显示在目标显示屏上。如此，根据目标声源方位自动确定目标显示屏，以及自动将第一语音数据翻译成目标语种对应的翻译信息，并在目标显示屏上显示翻译信息，避免需要用户进行繁琐配置，提高了语音翻译的效率。
附图说明
119.图1是根据一示例性实施例示出的一种具有折叠屏的电子设备的示意图；
120.图2是根据另一示例性实施例示出的一种具有折叠屏的电子设备的示意图；
121.图3是根据另一示例性实施例示出的一种具有折叠屏的电子设备的示意图；
122.图4是根据另一示例性实施例示出的一种具有折叠屏的电子设备的示意图；
123.图5是根据一示例性实施例示出的一种电子设备的示意图；
124.图6是根据一示例性实施例示出的一种电子设备的软件架构示意图；
125.图7是根据一示例性实施例示出的一种电子设备的界面显示示意图；
126.图8是根据一示例性实施例示出的一种应用场景的示意图；
127.图9是根据另一示例性实施例示出的一种第一显示屏的显示示意图；
128.图10是根据另一示例性实施例示出的一种第一显示屏的显示示意图；
129.图11是根据另一示例性实施例示出的一种应用场景的示意图；
130.图12是根据另一示例性实施例示出的一种应用场景的示意图；
131.图13是根据一示例性实施例示出的电子设备的内部模块的交互示意图；
132.图14是根据一示例性实施例示出的一种语音翻译的方法的流程示意图；
133.图15是根据另一示例性实施例示出的一种语音翻译的方法的流程示意图；
134.图16是根据另一示例性实施例示出的一种语音翻译的方法的流程示意图；
135.图17是根据另一示例性实施例示出的一种语音翻译的方法的流程示意图；
136.图18是根据另一示例性实施例示出的一种语音翻译的方法的流程示意图；
137.图19是根据一示例性实施例示出的一种语音翻译的装置的结构示意图。
具体实施方式
138.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
139.应当理解的是，本技术提及的“多个”是指两个或两个以上。在本技术的描述中，除非另有说明，“/”表示或的意思，例如，a/b可以表示a或b；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，为了便于清楚描述本技术的技术方案，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样
也并不限定一定不同。
140.在对本技术实施例提供的方法进行详细介绍之前，先对本技术实施例涉及的执行主体进行介绍。作为示例而非限定，本技术实施例提供的方法可以由电子设备来执行。在一个示例中，电子设备安装有翻译应用，翻译应用用于开启语音翻译功能，示例性地，翻译应用为协同翻译应用。也即，若用户想要通过电子设备执行语音翻译操作，可以通过翻译应用开启语音翻译功能。另外，电子设备配置有至少一个麦克风，示例性地，配置有麦克风阵列。在本技术实施例中，至少一个麦克风用于采集待翻译的语音数据。
141.在一个实施例中，电子设备是具有折叠屏的终端设备。请参考图1，图1是根据一示例性实施例示出的一种具有折叠屏的终端设备1。终端设备1的折叠屏可折叠为第一显示屏10、第二显示屏11和第三显示屏12。其中第一显示屏10和第二显示屏11背向设置。第一显示屏10(或第二显示屏11)所在平面与第三显示屏12所在平面至少可以折叠成九十度或九十度左右的夹角，以使得第一显示屏10和第二显示屏11可以分别朝向对面而坐的不同用户。如此，便于终端设备1分别在不同显示屏上为其前方的用户显示对端用户的语音数据的翻译信息。譬如请参考图2，用户a与用户b对面而坐，第一显示屏10朝向用户a，第二显示屏11朝向用户b，第一显示屏10用于显示用户b的语音数据的翻译信息，第二显示屏11用于显示用户a的语音数据的翻译信息。
142.请参考图3，图3是根据另一示例性实施例示出的一种具有折叠屏的终端设备2。终端设备2的折叠屏可向外折叠为第一显示屏20和第二显示屏21，第一显示屏20和第二显示屏21被折叠后成帐篷状，以使第一显示屏20和第二显示屏21可以分别朝向对面而坐的不同用户。如此，便于终端设备2分别在不同显示屏上为其前方的用户显示对端用户的语音数据的翻译信息。譬如第一显示屏20朝向用户a，第二显示屏21朝向用户b。如此，用户a可以在第一显示屏20上看到终端设备2对用户b的语音数据输出的翻译信息，用户b可以在第二显示屏21上看到终端设备2对用户a的语音数据输出的翻译信息。
143.请参考图4，图4是根据另一示例性实施例示出的一种具有折叠屏的终端设备3。终端设备3的折叠屏可平展成第一显示屏30和第二显示屏31，也即第一显示屏30和第二显示屏31处于同一平面内，如此，第一显示屏30和第二显示屏31可以分别朝向并排而坐的不同用户。譬如第一显示屏30朝向用户a，第二显示屏31朝向用户b。第一显示屏30用于显示用户b的语音数据的翻译信息，第二显示屏31用于显示用户a的语音数据的翻译信息。
144.上述仅是以本技术实施例涉及的执行主体为具有折叠屏的终端设备为例进行说明。在另一个实施例中，本技术实施例涉及的执行主体还可以是连接有两个显示屏的电子设备。譬如请参考图5，图5是根据一示例性实施例示出的一种连接有两个显示屏的电子设备5的示意图。电子设备5连接有第一显示屏51和第二显示屏52，示例性地，第一显示屏51和第二显示屏52分别通过有线或无线与电子设备5连接。第一显示屏51和第二显示屏52可以分别用于为不同用户显示对端用户的语音数据的翻译信息。譬如第一显示屏50朝向用户a，用于为用户a呈现用户b的语音数据的翻译信息，第二显示屏51朝向用户b，用于为用户b呈现用户a的语音数据的翻译信息。
145.另外在本技术的一个实施例中，上述第一显示屏和第二显示屏上分别设有摄像头，通过摄像头对其前方拍摄范围内的用户进行拍照，以获取人脸数据，从而便于能够根据人脸数据确定其前方的用户是否发言，具体应用和实现请参见下文实施例。
146.请参考图6，图6是根据一示例性实施例示出的一种电子设备的软件结构框图。
147.分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(android runtime)和系统库，以及内核层。
148.应用程序层可以包括一系列应用程序包。
149.如图6所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，wlan，蓝牙，音乐，视频，短信息等应用程序。
150.应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，api)和编程框架。应用程序框架层包括一些预先定义的函数。
151.如图6所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。
152.窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。
153.内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。
154.视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。
155.电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通，挂断等)。
156.资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。
157.通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。
158.android runtime包括核心库和虚拟机。android runtime负责安卓系统的调度和管理。
159.核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。
160.应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。
161.系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(media libraries)，三维图形处理库(例如：opengl es)，2d图形引擎(例如：sgl)等。
162.表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2d和3d图层的融合。
163.媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库
可以支持多种音视频编码格式，例如:mpeg4，h.264，mp3，aac，amr，jpg，png等。
164.三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。
165.2d图形引擎是2d绘图的绘图引擎。
166.内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。
167.下面结合捕获拍照场景，示例性说明电子设备软件以及硬件的工作流程。
168.当触摸传感器接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头捕获静态图像或视频。
169.在介绍完本技术实施例涉及的执行主体后，接下来结合附图对本技术实施例涉及的应用场景进行介绍。
170.假设电子设备中安装有协同翻译应用。请参考图7，图7中的(a)图是根据一示例性实施例示出的一种电子设备的界面显示示意图，示例性地，该界面为具有折叠屏的终端设备的主界面。该界面中显示有协同翻译应用的应用图标，当用户想要通过电子设备执行语音翻译操作时，可以点击该界面中显示的协同翻译应用的应用图标。响应于用户对该应用图标的触发操作，电子设备启动协同翻译应用，显示协同翻译应用的显示界面。
171.作为一种示例，请参考图7中的(b)图，该(b)图是根据一示例性实施例示出的一种协同翻译应用的显示界面。协同翻译应用的显示界面中显示提示窗口，提示窗口中包括提示信息，提示信息用于提示用户是否同意执行语音翻译操作。示例性地，提示信息为“是否开始语音翻译？”。另外，提示窗口中还包括“开始”选项和“取消”选项。当用户同意开始执行语音翻译操作时，可以触发“开始”选项。响应于用户对“开始”选项的触发操作，电子设备开启语音翻译功能。当用户不同意开始执行语音翻译操作时，可以触发“取消”选项。响应于用户对“取消”选项的触发操作，电子设备不开启语音翻译功能。
172.值得一提的是，通过向用户显示提示窗口，以便于在用户授权的情况下执行语音翻译操作，避免用户误点击应用图标导致开启语音翻译功能，提高了用户体验。
173.作为本技术的另一种示例，协同翻译应用的显示界面中提供直接有“翻译”选项，也即在启动协同翻译应用后也可以不显示上述提示窗口，而是直接为用户呈现“翻译”选项。如此，当用户想要电子设备开始执行语音翻译操作时，可以触发“翻译”选项。响应于用户对“翻译”选项的触发操作，电子设备开启语音翻译功能。
174.电子设备开启语音翻译功能后，采集用户的语音数据。对语音数据进行翻译，并将翻译后得到的翻译信息显示在对应的屏幕上。
175.在一个示例中，以电子设备是图2所示的终端设备为例，用户a发言后，终端设备对用户a的语音数据进行翻译，并显示在第二显示屏11上。用户b发言后，终端设备对用户b的语音数据进行翻译，并显示在第一显示屏10上。示例性地，如图8所示，用户a说：“我们的产品有什么问题吗”。终端设备在第二显示屏11上显示用户a的语音数据的翻译信息“are there any problems with our products”。用户b说：“yes，we listed”。终端设备在第一
显示屏10上显示用户b的语音数据的翻译信息“是的，我们列举了一下”。接着，用户a说：“可以，请您说一下吧”。终端设备在第二显示屏11上显示用户a的语音数据的翻译信息“ok，please explain”。用户b说：“there are atotal of five points”。终端设备在第一显示屏10上显示用户b的语音数据的翻译信息“这里一共有五点”。
176.作为本技术的一个示例，请继续参考图8，终端设备还可以在每句翻译信息上方标识每句翻译信息对应的时间信息，以便于用户可以直观看到哪些翻译信息是什么时间点翻译的。
177.作为本技术的一个示例，当第一显示屏或第二显示屏中的翻译信息因过多已占满屏幕时，终端设备可以在相应的显示屏上对翻译时间较早的翻译信息隐藏显示，并且在指定位置显示滚动条，以便于用户可以通过滚动查看被隐藏显示的翻译信息。譬如请参考图9，图9是根据一示例性实施例示出的第一显示屏的界面显示示意图。假设第一显示屏已被翻译信息占满，则终端设备可以根据时间先后顺序，对时间较早的翻译信息进行隐藏显示，譬如参见图8和图9，终端设备对“是的，我们列举了一下”进行隐藏，并在第一显示屏的最左侧显示滚动条00。如此，当用户想要查看隐藏显示的翻译信息时，可以上拉滚动条00。响应于用户对滚动条00的上拉操作，终端设备在第一显示屏上重新显示被隐藏的翻译信息。
178.作为本技术的一个示例，终端设备除了在各个显示屏上显示对端用户的翻译信息之外，还可以在各个显示屏上显示本端用户的语音数据对应的文本信息。以第一显示屏为例，终端设备不仅可以在第一显示屏上显示用户b的翻译信息，还可以在第一显示屏上显示用户a的语音数据对应的文本信息，以便于用户a查看终端设备将语音数据转换为文本信息时是否有误。在一个实施例中，终端设备可以在第一显示屏上通过单独的一个窗口滚动显示用户a的语音数据对应的文本信息，比如在不遮挡显示有翻译信息的窗口的情况下可以悬浮显示于该窗口上，或者也可以与显示有翻译信息的窗口并排显示。示例性地，请参考图10，用于显示用户a的语音数据的窗口如图10中的1001所示。同理，在第二显示屏中也可以通过一个单独的窗口滚动显示用户b的语音数据对应的文本信息。可选地，还可以在每个文本信息上方显示对应的时间信息。
179.当然，上述仅是以终端设备在各个显示屏上通过单独的一个窗口显示其前方用户的语音数据对应的文本信息为例进行说明，在另一实施例中，也可以与翻译信息显示于同一个窗口内，譬如可以采用不同字体、或不同颜色进行区分显示，本技术实施例对此不作限定。
180.作为本技术的一个示例，终端设备还可以在各个显示屏上以对话形式显示不同用户的语音数据的翻译信息。譬如请参考图11，在第一显示屏和第二显示屏上分别以对话显示不同用户的语音数据的翻译信息。可选地，为了便于用户快速查看对方用户的翻译信息，可以在各个显示屏上采用不同颜色、或不同字体区分显示对话内容中不同用户的翻译信息。
181.作为本技术的一个示例，可能存在用户a与用户b在开始交谈之后交换位置的情况。如果在用户a与用户b交谈的过程中，用户a与用户b交换了位置，则在用户a或用户b中的任意一方发言后，电子设备能够自动将用户与显示屏匹配，从而将第一显示屏和第二显示屏上显示的内容进行对调。譬如请参考图12，在用户a与用户b交换位置后，当电子设备再次检测到用户b(或者用户a)发言时，电子设备在第一显示屏10上显示用户a的语音数据的翻
译信息，以及在第二显示屏11上显示用户b的语音数据的翻译信息。
182.需要说明的是，上述是以一个显示屏前方有一个用户为例进行说明，在另一实施例中，一个显示屏前方也可能有多个用户。譬如第一显示屏前有多个用户，和/或，第二显示屏前有多个用户。此时同样可以采用本技术实施例提供的方法对一侧的多个用户中正在发言的用户的语音数据进行翻译，并显示在另一侧的显示屏上。
183.另外需要说明的是，上述是以电子设备是图2所示的终端设备为例对翻译信息的显示方式进行说明。对于图3、图4或图5所示的终端设备，对翻译信息的显示方式亦是同理，这里不再重复赘述。
184.在介绍完本技术实施例涉及的执行主体和应用场景后，接下来对电子设备的结构进行介绍。作为本技术的一个示例，上述电子设备包括多个模块，譬如该多个模块包括控制模块、语音采集模块、摄像头模块。示例性地，控制模块可以为芯片级系统(system-on-a-chip，soc)；语音采集模块可以包括单个麦克风或者双麦克风或者麦克风阵列，用于采集语音数据；摄像头模块包括第一显示屏上设置的第一摄像头和第二显示屏上设置的第二摄像头，用于拍摄视频。电子设备可以通过该多个模块之间的交互实现语音翻译。
185.接下来对该多个模块之间的交互过程进行介绍。请参考图13，图13是根据一示例性实施例示出的一种多个模块之间的交互流程示意图，可以包括如下内容：
186.1301.控制模块启动语音采集模块，以及启动摄像头模块。
187.在一个实施例中，控制模块在接收到翻译功能开启指令后，启动语音采集模块，以及启动摄像头模块，以通过语音采集模块采集语音数据，以及通过摄像头模块采集视频帧序列。
188.示例性地，电子设备中安装有翻译应用。用户可以通过翻译应用开启翻译功能。譬如，翻译应用的显示界面中提供有“翻译”选项，当基于“翻译”选项接收到翻译功能开启指令时，说明用户想要通过电子设备执行语音翻译操作，此时电子设备开启翻译功能。
189.1302.语音采集模块采集第一语音数据，摄像头模块采集视频帧序列。
190.语音采集模块被启动后，开始进行语音采集。为了便于描述和理解，这里将语音采集模块当前采集的语音数据称为第一语音数据。不难理解，第一语音数据可能是由电子设备的第一显示屏侧的用户发出的，或者，第一语音数据也可能是由电子设备的第二显示屏侧的用户发出的。譬如请参考图13，第一语音数据可能是由第一显示屏前的用户a发出的。
191.摄像头模块被启动后，开始拍摄视频。具体地，摄像头模块中包括的第一摄像头拍摄的视频为第一视频帧序列，以及摄像头模块中包括的第二摄像头拍摄的视频为第二视频帧序列。
192.其中，第一视频帧序列和第二视频帧序列均是在第一语音数据的采集时间段内拍摄得到的。也即语音采集模块和摄像头模块同步工作。
193.1303.语音采集模块将第一语音数据发送给控制模块，摄像头模块将所采集的视频帧序列发送给控制模块。
194.不难理解，摄像头模块发送给控制模块的视频帧序列包括第一视频帧序列和第二视频帧序列。
195.1304.控制模块基于第一语音数据确定目标声源方位。
196.为了确定第一语音数据是由谁发出的，电子设备确定第一语音数据的目标声源方
位。目标声源方位可以指示第一语音数据是从哪个区域范围内采集到的，也即根据目标声源方位可以确定第一语音数据是来源于左侧还是右侧，进而可以确定第一语音数据是哪一侧用户发出的。譬如以图2为例，若确定目标声源方位是左侧，则说明第一语音数据是用户a发出的，若确定目标声源方位是右侧，则说明第一语音数据是用户b发出的。
197.在一个实施例中，基于第一语音数据确定目标声源方位的具体实现可以包括：将第一语音数据输入至目标网络模型中进行处理，以通过目标网络模型确定第一语音数据的目标声源方位。其中，目标网络模型能够基于任意的语音数据确定对应的声源方位。
198.在实施中，将第一语音数据输入至目标网络模型中后，目标网络模型输出多个声源方位和多个声源方位中每个声源方位对应的概率值，每个概率值是第一语音数据来自其对应的声源方位的概率。不难理解，概率值越大，说明第一语音数据来自其对应的声源方位的可能性越大，所以电子设备将多个声源方位中最大概率值对应的声源方位确定为目标声源方位。
199.在一个实施例中，目标网络模型是预先基于多组训练样本数据对待训练的网络模型进行训练后得到。示例性地，多组训练样本数据中的每组训练样本数据包括语音训练样本和语音训练样本对应的样本声源方位，其中语音训练样本对应的样本声源方位可以由用户通过测量等方式确定。
200.示例性地，如图13所示，基于第一语音数据确定目标声源方位是左侧，此时根据目标声源方位可以确定第一语音数据可能是来自于用户a。
201.1305.若目标声源方位不精准，则控制模块根据第一视频帧序列和第二视频帧序列，确定目标显示屏。
202.目标显示屏是第一显示屏和第二显示屏中除第一语音数据的真实声源方位对应的显示屏之外的另一个显示屏，或者说，待用于显示第一语音数据的翻译信息的显示屏。
203.由于目标声源方位可能存在一定的误差，所以，为了避免后续对翻译信息的显示出错，电子设备可以判断目标声源方位是否精准。在一个实施例中，判断目标声源方位是否精准的具体实现可以包括：确定目标声源方位的置信度。若目标声源方位的置信度大于或等于置信度阈值，则确定目标声源方位精准。否则，若目标声源方位的置信度小于置信度阈值，则确定目标声源方位不精准。
204.其中，置信度阈值可以由用户根据实际需求进行设置，或者，也可以由电子设备默认设置，本技术实施例对此不作限定。
205.在一个实施例中，目标声源方位的置信度可以是根据目标网络模型输出的目标声源方位对应的概率值确定，示例性地，可以直接将目标网络模型输出的目标声源方位对应的概率值确定为置信度。或者还可以将目标网络模型输出的目标声源方位对应的概率值与预置的数值相乘后的值作为置信度等。
206.如果目标声源方位的置信度大于或等于置信度阈值，可以说明所确定的声源方位是较为精准的，否则，如果目标声源方位的置信度小于置信度阈值，可以说明所确定的声源方位存在一定的误差，也即可以确定目标声源方位是不精准的。
207.如果目标声源方位不精准，说明无法准确地确定第一语音数据是由用户a发出的，还是由用户b发出的。在该种情况下，可以根据第一视频帧序列判断用户a是否有唇动现象，以及根据第二视频帧序列判断用户b是否有唇动现象，从而可以确定谁发言了，进而可以确
定需要将第一语音数据的翻译信息显示在哪个显示屏上显示，也即确定目标显示屏。
208.作为本技术的一个示例，根据第一视频帧序列，判断用户a是否有唇动现象的具体实现可以包括：根据第一视频帧序列中的每个第一视频帧进行人脸跟踪，确定每个第一视频帧中的人脸区域。对每个第一视频帧中的人脸区域进行唇动检测。根据第一视频帧序列包括的多个第一视频帧的唇动检测结果确定用户a是否有唇动情况。
209.作为本技术的一个示例，根据第二视频帧序列，判断用户b是否有唇动现象的具体实现可以包括：根据第二视频帧序列中的每个第二视频帧进行人脸跟踪，确定每个第一视频帧中的人脸区域。对每个第二视频帧中的人脸区域进行唇动检测。根据第二视频帧序列包括的多个第二视频帧的唇动检测结果确定用户b是否有唇动情况。
210.在判断用户a是否有唇动现象，以及用户b是否有唇动现象后，可以确定用户a和用户b谁发言了。示例性地，如果控制模块根据第一视频帧序列和第二视频帧序列，确定第一视频帧序列中的用户a发言了，也即第一语音数据是由用户a发出的，该种情况下说明需要将第一语音数据的翻译信息展示给用户b看，为此，控制模块将第二视频帧序列对应的显示屏(也即第二显示屏)确定为目标显示屏。
211.确定目标显示屏后，进入如下步骤1307。
212.1306.若目标声源方位精准，则控制模块根据目标声源方位确定目标显示屏。
213.由于根据目标声源方位可以确定第一语音数据是来源于哪一侧，而翻译的目的是为了使得对方用户可以查看第一语音数据的翻译信息，因此，电子设备将第一显示屏和第二显示屏中除第一语音数据的真实声源方位对应的显示屏之外的另一个显示屏确定为目标显示屏。
214.譬如，若真实声源方位对应的显示屏是第一显示屏，则将第二显示屏确定为目标显示屏。再如，若真实声源方位对应的显示屏是第二显示屏，则将第一显示屏确定为目标显示屏。
215.1307.控制模块对第一语音数据进行翻译。
216.在对第一语音数据进行翻译的过程中，电子设备确定第一语音数据的语种，基于所确定的语种，将第一语音数据转换成文本数据，得到第一文本数据。之后，电子设备确定目标语种，目标语种是文本数据待翻译成的语种。电子设备将第一文本数据翻译成目标语种对应的翻译信息。
217.在一个实施例中，电子设备确定目标语种的具体实现可以包括：若电子设备中存在第二语音数据的语种，则将第二语音数据的语种确定为目标语种。其中第二语音数据是由对端用户发出的。
218.也即是，电子设备在对双方用户的语音数据进行翻译时，可以记录各方用户的语音数据对应的语种，以便于在双方用户交谈过程中，可以确定将各方用户的语音数据翻译成哪种语种对应的翻译信息。
219.譬如以图8为例，若在用户a和用户b交谈的过程中，电子设备通过识别确定用户a的语音数据的语种为中文，用户b的语音数据的语种为英文。在翻译过程中，如果确定第一语音数据是由用户a发出的，电子设备将第一语音数据翻译成英文对应的翻译信息。如果确定第一语音数据是由用户b发出的，电子设备将第一语音数据翻译成中文对应的翻译信息。
220.在另一个实施例中，电子设备确定目标语种的具体实现可以包括：若电子设备中
不存在第二语音信息的语种，则获取历史语种，将历史语种确定为目标语种。其中，历史语种可以是由电子设备根据历史的翻译记录确定的。
221.也即如果电子设备中不存在第二语音数据的语种，说明对端用户还没有开始说话。在该种情况下，电子设备可以根据历史时间的翻译记录，查询用户使用电子设备进行翻译时通常倾向于将语音数据翻译成哪类语种，可以认为用户常与该类语种的用户沟通和交流。因此，电子设备将该类语种确定为目标语种。
222.作为本技术的一个示例，在确定目标语种后，还可以结合本地信息，确定用户当前所处区域对应的语种，然后结合用户当前所处区域对应的语种，对经过上述方法确定的目标语种进行校验。如此可以提高确定目标语种的准确性。
223.1308.将翻译信息显示在目标显示屏上。
224.电子设备将第一语音数据翻译成目标语种对应的翻译信息后，将翻译后得到的翻译信息显示在目标显示屏上，以使得观看目标显示屏的用户可以查看到第一语音数据的翻译信息。示例性地，请参考图8，假设目标显示屏是第二显示屏，则电子设备将第一语音数据的翻译信息显示在第二显示屏上，如此用户b即可看到用户a说的话的翻译信息。
225.在本技术实施例中，电子设备获取第一语音数据后，可以确定第一语音数据是来自哪一侧用户的，从而在第一显示屏和第二显示屏中确定目标显示屏。之后对第一语音数据进行翻译，在目标显示屏上显示翻译信息。如此可以避免需要用户手动设置，提高了翻译的有效性。
226.需要说明的是，本技术是以在确定目标显示屏后对第一语音数据进行翻译为例进行说明，在另一实施例中，对第一语音数据进行翻译的时机还可以在采集第一语音数据之后，也即在步骤1302之后，本技术实施例对此不作限定。
227.接下来请参考图14，图14是根据一示例实施例提供的一种语音翻译的方法流程示意图。作为示例而非限定，该方法可以应用于上述电子设备中，该方法可以包括如下部分或者全部内容：
228.步骤1401：开启翻译功能。
229.如前文所述，可以通过电子设备中安装的翻译应用启动翻译功能。示例性地，翻译应用的显示界面中提供有“翻译”选项，当基于“翻译”选项接收到翻译功能开启指令时，说明用户想要通过电子设备执行翻译操作，电子设备开启翻译功能。
230.作为本技术的一个示例，电子设备开启翻译功能是指电子设备开启麦克风，以及开启第一显示屏上设置的第一摄像头和第二显示屏上设置的第二摄像头。如此，电子设备通过麦克风采集语音数据，以及通过第一摄像头采集其拍摄范围内的第一视频帧序列，以及通过第二摄像头采集拍摄范围内的第二视频帧序列。
231.步骤1402：获取第一语音数据。
232.第一语音数据是由电子设备通过麦克风采集得到。譬如请参考图2，第一语音数据可能是由用户a发出的，或者，也可能是由用户b发出的。
233.步骤1403：确定第一语音数据的目标声源方位。
234.其具体实现可以参见上述图13所示实施例中的步骤1304，这里不再重复赘述。
235.步骤1404：判断目标声源方位的置信度是否大于或等于置信度阈值。
236.具体判断方法可以参见上述图13所示实施例中的步骤1305。
237.如果目标声源方位的置信度大于或等于置信度阈值，可以说明目标声源方位是较为精准的，在该种情况下，执行如下步骤1405。否则，如果目标声源方位的置信度小于置信度阈值，可以说明目标声源方位存在一定的误差，也即目标声源方位是不精准的，在该种情况下，进入如下步骤1406。
238.步骤1405：根据目标声源方位，确定目标显示屏。
239.目标显示屏是第一显示屏和第二显示屏中的一个显示屏。目标显示屏是待用于显示第一语音数据的翻译信息的显示屏。
240.譬如，若真实声源方位对应的显示屏是第一显示屏，则将第二显示屏确定为目标显示屏。再如，若真实声源方位对应的显示屏是第二显示屏，则将第一显示屏确定为目标显示屏。
241.确定目标显示屏后，进入如下步骤1408。
242.步骤1406：根据摄像头模块采集的第一视频帧序列和第二视频帧序列，确定是否有用户发言。
243.其中，第一视频帧序列是由第一显示屏上设置的摄像头在第一语音数据的采集时间段内拍摄得到的视频帧序列，第二视频帧序列是由第二显示屏上设置的摄像头在第一语音数据的采集时间段内拍摄得到的视频帧序列。
244.也即是，电子设备在通过麦克风采集第一语音数据的时间段内，同步通过第一显示屏上设置的摄像头以及第二显示屏上设置的摄像头进行视频帧采集。如果电子设备根据第一语音数据确定的目标声源方位不精准，则为了确定第一语音数据是来自第一显示屏前方的用户还是来自第二显示屏前方的用户，电子设备根据摄像头模块采集的第一视频帧序列和第二视频帧序列，确定是否有用户发言。
245.根据第一视频帧序列和第二视频帧序列，确定是否有用户发言的具体实现可以包括：根据第一视频帧序列确定对应的摄像头前是否有用户发言，以及根据第二视频帧序列确定对应的摄像头前是否有用户发言。
246.作为本技术的一个示例，根据第一视频帧序列，通过人脸跟踪和唇动检测确定第一视频帧序列中是否有用户发言。同理，根据第二视频帧序列，通过人脸跟踪和唇动检测确定第二视频帧序列中是否有用户发言。其具体实现可以参见上述图13所示实施例。
247.如果根据第一视频帧序列和第二视频帧序列确定用户双方中有用户发言，则执行如下步骤1407。否则，如果根据第一视频序列确定没有用户发言，并且根据第二视频序列也确定没有用户发言，也即根据第一视频帧序列和第二视频帧序列确定用户双方中没有用户发言，说明第一语音数据可能是来自摄像头以外较远区域的噪音，譬如可能是由路过的用户发出的，此时返回步骤1402。也即如果根据第一视频帧序列和第二视频帧序列确定没有用户发言，则可以不对第一语音数据进行翻译和显示，电子设备获取下一个第一语音数据。
248.需要说明的是，本技术实施例中所述的用户双方包括第一显示屏前方的用户和第二显示屏前方的用户，也即包括正在交谈的两方用户。譬如以图8为例，用户双方包括用户a和用户b。
249.步骤1407：根据第一视频帧序列和第二视频帧序列确定目标显示屏。
250.作为本技术的一个示例，根据第一视频帧序列和第二视频帧序列确定目标显示屏的具体实现可以包括：确定根据第一视频帧序列和第二视频帧序列中有用户发言的视频帧
序列是由哪个摄像头采集的，将第一显示屏和第二显示屏中除所确定的摄像头所在的显示屏之外的显示屏确定为目标显示屏。
251.也即是，电子设备确定有用户发言的视频帧序列是由哪个显示屏上的摄像头采集的，不难理解，电子设备需要将该用户的语音数据(也即第一语音数据)的翻译信息显示在另一个显示屏上，所以，电子设备将另一个显示屏确定为目标显示屏，之后进入如下步骤1408。
252.步骤1408：对第一语音数据进行翻译，并将得到的翻译信息显示在目标显示屏上。
253.对第一语音数据进行翻译的具体实现可以参见上述图13所示实施例中的步骤1307。
254.电子设备将第一语音数据翻译成目标语种对应的翻译信息后，电子设备将翻译后得到的翻译信息显示在目标显示屏上，以使得观看目标显示屏的用户可以查看到第一语音数据的翻译信息。示例性地，请参考图8，假设目标显示屏是第二显示屏，则电子设备将第一语音数据的翻译信息显示在第二显示屏上，如此用户b即可看到用户a说的话的翻译信息。
255.同理，电子设备可以按照上述实现方法，对另一侧用户的语音数据进行翻译和显示。为了便于理解，接下来结合图15介绍电子设备对用户a的语音数据的翻译和显示过程，以及对和用户b的语音数据的翻译和显示过程。
256.作为本技术的一个示例，请参考图15，以控制模块是soc为例，假设用户a先发言，然后用户b发言。当用户a发言时，语音采集模块采集用户a的语音数据，并上传给soc，另外，摄像头模块将同步采集的第一视频帧序列和第二视频序列发送至soc中，其中，第一视频帧序列中包括用户a的人脸数据，第二视频帧序列中包括用户b的人脸数据。
257.soc对用户a的语音数据进行翻译，并将用户a的语音数据的翻译信息发送至第二显示屏，第二显示屏为用户b呈现用户a的语音数据的翻译信息。其中第二显示屏是根据用户a的语音数据确定，或者是根据第一视频帧序列和第二视频帧序列确定，具体确定方法可以参见上述图14所示实施例中关于确定目标显示屏的实现过程。
258.同理，当用户b发言时，电子设备通过语音采集模块采集用户b的语音数据，并且通过摄像头模块同步采集视频帧序列。语音采集模块将用户b的语音数据发送给soc，摄像头模块将同步采集的视频帧序列发送至soc，其中同步采集的视频帧序列包括用户a的人脸数据和用户b的人脸数据。
259.soc对用户b的语音数据进行翻译，并将用户b的语音数据的翻译信息发送至第一显示屏，第一显示屏为用户a呈现用户b的语音数据的翻译信息。其中第一显示屏是根据用户b的语音数据确定，或者是根据摄像头模块上传的视频帧序列确定，具体确定方法可以参见上述图14所示实施例中关于确定目标显示屏的实现过程。
260.如此，电子设备自动对用户的语音数据进行翻译，并显示在对端用户观看的显示屏上，无需用户手动设置，提高了操作的便捷性，从而提高了语音翻译效率。
261.上述实施例是以用户双方在交谈过程中不存在交换位置的情况为例进行说明。作为本技术的另一个示例，用户双方在交谈过程中可能会交换位置，譬如如图12所示的应用场景。接下来针对该种场景下电子设备进行语音翻译的实现过程进行介绍。请参考图16，图16是根据另一示例性实施例示出的一种语音翻译的方法流程示意图。作为示例而非限定，该方法可以应用于上述电子设备中，该方法可以包括如下部分或者全部内容：
262.步骤1601至步骤1607的具体实现可以参见图14所示实施例中的步骤1401至步骤1407。
263.1608：确定第一语音数据的声纹信息，得到第一目标声纹信息。
264.作为本技术的一个示例，针对图12所示的应用场景，电子设备中存储有声纹屏幕关联关系，声纹屏幕关联关系包括第一关联关系和第二关联关系，第一关联关系用于指示第一声纹信息与第一显示屏之间关联，第二关联关系用于指示第二声纹信息与第二显示屏之间关联。第一声纹信息是第一显示屏前方的用户的声纹信息，第二声纹信息是第二显示屏前方的用户的声纹信息。示例性地，请参考图8，第一声纹信息是用户a的声纹信息，第二声纹信息是用户b的声纹信息。
265.在一个实施例中，电子设备中存储的声纹屏幕关联关系可以记录为表1所示的形式：
266.表1
267.声纹信息显示屏第一声纹信息第一显示屏第二声纹信息第二显示屏
268.其中，第二行是第一关联关系，第二行是第二关联关系。
269.作为本技术的一个示例，声纹屏幕关联关系可以是在用户双方交谈之前通过测试的方式得到并存储。示例性地，在用户双方交谈之前，可以分别由用户a和用户b发言，在用户a发言时，获取用户a的语音数据，并提取声纹信息，得到第一声纹信息，将用户a的声纹信息与第一显示屏进行关联，得到第一关联关系。在用户b发言时，获取用户b的语音数据，并提取声纹信息，得到第二声纹信息，将用户b的声纹信息与第二显示屏进行关联，得到第二关联关系。电子设备存储上述第一关联关系和第二关联关系。
270.作为本技术的一个示例，声纹屏幕关联关系也可以是电子设备基于正在交谈的用户双方在当前时间之前的时间段内的语音数据确定的。譬如以正在交谈的用户双方包括用户a和用户b为例，在当前时间之前的时间段内，当用户a初次说话时，若根据用户a的语音数据能够准确地确定声源方位，则提取用户a的声纹信息，将用户a的声纹信息与所确定的声源方位对应的显示屏进行关联，得到第一关联关系。当用户b初次说话时，若根据用户b的语音数据能够准确地确定声源方位，则提取用户b的声纹信息，将用户b的声纹信息与所确定的声源方位对应的显示屏进行关联，得到第二关联关系。电子设备存储上述第一关联关系和第二关联关系。
271.在一个示例中，虽然能够确定出第一语音数据是来自哪一侧的，但用户a与用户b可能交换了位置，此时需要对两个显示屏上的显示内容进行对调。所以为了便于后续能够保证为不同用户在其观看的显示屏上呈现对方用户的语音数据的翻译信息，电子设备提取第一语音数据的声纹信息，得到第一目标声纹信息。
272.需要说明的是，这里是以在确定目标显示屏之后确定第一语音数据的声纹信息为例进行说明，在另一实施例中，还可以在采集第一语音数据后确定第一语音数据的声纹信息，也即在步骤1602之后确定第一语音数据的声纹信息，本技术实施例对此不作限定。
273.1609：从声纹屏幕关联关系中，查询与第一语音数据的真实声源方位对应的显示屏关联的声纹信息，得到第二目标声纹信息。
274.在一个示例中，在目标声源方位较为精准的情况下，第一语音数据的真实声源方位是目标声源方位。在另一个示例中，在目标声源方位不精准的情况下，第一语音数据的真实声源方位是根据第一视频帧序列和第二视频帧序列确定的。譬如请参考图8，若根据第一视频帧序列和第二视频帧序列确定第一语音数据来自用户a，则第一语音数据的真实声源方位是左侧。
275.不难理解，第二目标声纹信息可能是第一声纹信息，也可能是第二声纹信息。示例性地，若与真实声源方位对应的显示屏是第一显示屏，则通过查询后可以确定声纹屏幕关联关系中与第一显示屏关联的声纹信息是第一声纹信息，也即第二目标声纹信息是第一声纹信息。再如，若与真实声源方位对应的显示屏是第二显示屏，则通过查询后可以确定声纹屏幕关联关系中与第二显示屏关联的声纹信息是第二声纹信息，也即第二目标声纹信息是第二声纹信息。
276.1610：判断第一目标声纹信息与第二目标声纹信息是否相同。
277.若第一目标声纹信息与第二目标声纹信息相同，则可以确定用户双方没有交换位置。否则，若第一目标声纹信息与第二目标声纹信息不相同，则可以确定用户双方已交换了位置。
278.示例性地，假设目标声源方位为左侧，则与真实声源方位对应的显示屏为第一显示屏，通过查询声纹屏幕关联关系可以确定与第一显示屏关联的声纹信息是第一声纹信息，譬如是用户a的声纹信息。如果第一目标声纹信息与第一声纹信息不相同，说明此时确定的第一语音数据是用户b的语音数据，也即可以说明用户a已经从左侧移动至右侧，而用户b已经从右侧移动至左侧。该种情况下，说明用户a与用户b双方已经交换了位置。否则，若第一目标声纹信息与第一声纹信息相同，说明此时确定的第一语音数据仍是用户a的语音数据，也即可以说明用户a与用户b双方没有交换位置。
279.在一个实施例中，若第一目标声纹信息与第二目标声纹信息不相同，说明用户双方已经交换了位置，此时进入如下步骤1611。在另一个实施例中，若第一目标声纹信息与第二目标声纹信息相同，说明用户双方没有交换位置，该种情况下进入如下步骤1613。
280.1611：将第一显示屏中显示的内容与第二显示屏中显示的内容对调显示。
281.由于用户双方已经交换了位置，所以需要将第一显示屏中显示的内容和第二显示屏中显示的内容对调显示，使得用户双方仍能够继续在其观看的显示屏上看到对方用户的语音数据的翻译信息。譬如请参考图12，电子设备在第一显示屏中显示用户a的语音数据的翻译信息，以及在第二显示屏中显示用户b的语音数据的翻译信息。
282.1612：对第一语音数据进行翻译，并将得到的翻译信息显示在内容对调后的目标显示屏上。
283.对第一语音数据进行翻译的具体实现可以参见上述图13所示实施例中的步骤1307。
284.譬如，请参考图12，第一语音数据的翻译信息为“第一点是关于用户体验方面的”，电子设备将该翻译信息显示在内容对调后的第二显示屏中。
285.需要说明的是，对第一语音数据进行翻译的操作也可以在1608步骤之前执行，本技术实施例对此不作限定。
286.1613：对第一语音数据进行翻译，并将得到的翻译信息显示在目标显示屏上。
287.其具体实现可以参见上述图14所示实施例中的步骤1408，这里不再重复赘述。
288.需要说明的是，如果用户双方再次交换位置，电子设备仍可以通过声纹信息匹配确定用户的位置变化情况，以再次将第一显示屏和第二显示屏的内容对调显示。在一个实施例中，在用户双方交换位置后，电子设备可以更新声纹屏幕关联关系，譬如将第一声纹信息与第二显示屏关联，以及将第二声纹信息与第一显示屏关联。该种情况下，电子设备可以按照上述流程检测用户双方是否交换位置。
289.本技术实施例中，在对用户双方的语音数据进行翻译的过程中，即使用户双方交换了位置，电子设备仍可以通过声纹信息检测出用户位置的变化。电子设备在对第一语音数据的翻译信息显示之前，先将第一显示屏中显示的内容和第二显示屏中显示的内容进行对调，之后再将第一语音数据的翻译信息显示在内容对调后的目标显示屏上。从而可以保证准确地通过第一显示屏和第二显示屏分别为不同用户显示对方用户的语音数据的翻译信息。
290.请参考图17，图17是根据另一示例性实施例示出的一种语音翻译的方法流程示意图，作为示例而非限定，该方法可以由上述电子设备来执行，具体可以包括如下内容：
291.步骤1701至步骤1708可以参见上述图16所示实施例中的步骤1601至步骤1608。
292.步骤1709：从声纹屏幕关联关系中，查询与第一目标声纹信息关联的显示屏。
293.在实施中，从声纹屏幕关联关系中查询与第一目标声纹信息相同的声纹信息，将匹配到的声纹信息对应的显示屏确定为与第一目标声纹信息关联的显示屏。
294.示例性地，若声纹屏幕关联关系中与第一目标声纹信息相同的声纹信息是第一声纹信息，则根据表1可以确定与第一目标声纹信息关联的显示屏是第一显示屏。再如，若声纹屏幕关联关系中与第一目标声纹信息相同的声纹信息是第二声纹信息，则根据表1可以确定与第一目标声纹信息关联的显示屏是第二显示屏。
295.步骤1710：判断查询到的显示屏与目标显示屏是否相同。
296.若查询到的显示屏与目标显示屏不相同，则可以确定用户双方没有交换位置。否则，若查询到的显示屏与目标显示屏相同，则可以确定用户双方已交换了位置。
297.示例性地，假设目标显示屏为第二显示屏，通过查询声纹屏幕关联关系确定与第一目标声纹信息关联的显示屏是第二显示屏，说明此时确定的第一语音数据是用户b的语音数据，也即可以说明用户a已经从左侧移动至右侧，而用户b已经从右侧移动至左侧。该种情况下，说明用户a与用户b双方已经交换了位置。否则，若通过查询声纹屏幕关联关系确定与第一目标声纹信息关联的显示屏是第一显示屏，说明此时确定的第一语音数据仍是用户a的语音数据，也即可以说明用户a与用户b双方没有交换位置。
298.在一个实施例中，若查询到的显示屏与目标显示屏相同，说明用户双方已经交换了位置，此时进入如下步骤1711。在另一个实施例中，若查询到的显示屏与目标显示屏不相同，说明用户双方没有交换位置，该种情况下进入如下步骤1713。
299.步骤1711：将第一显示屏中显示的内容与第二显示屏中显示的内容对调显示。
300.步骤1712：对第一语音数据进行翻译，并将得到的翻译信息显示在内容对调后的目标显示屏上。
301.步骤1713：对第一语音数据进行翻译，并将得到的翻译信息显示在目标显示屏上。
302.在一个实施例中，除了可以基于声纹信息判断用户双方是否交换位置外，还可以
基于第一摄像头和第二摄像头采集的视频帧序列进行判断。示例性地，请参考图18，图18是根据另一示例性实施例示出的一种语音翻译的方法流程示意图，作为示例而非限定，该方法可以由上述电子设备来执行，具体可以包括如下内容：
303.步骤1801至步骤1807的具体实现可以参见图14所示实施例中的步骤1401至步骤1407。
304.1808：获取包括目标显示屏前方的用户的视频帧。
305.针对图12所示的应用场景，电子设备中存储有人脸屏幕关联关系。人脸屏幕关联关系包括第三关联关系和第四关联关系，第三关联关系用于指示第一人脸特征与第一显示屏之间关联，第四关联关系用于指示第二人脸特征与第二显示屏之间关联。第一人脸特征是第一显示屏前方的用户的人脸特征，第二人脸特征是第二显示屏前方的用户的人脸特征。示例性地，请参考图8，第一人脸特征是用户a的人脸特征，第二人脸特征是用户b的人脸特征。
306.由于在开启语音翻译功能时，电子设备就开启了第一摄像头和第二摄像头进行视频帧采集，所以电子设备可以根据第一摄像头采集的第一视频帧确定第一显示屏前方用户的人脸特征，得到第一人脸特征，以及根据第二摄像头采集的第二视频帧确定第二显示屏前方用户的人脸特征，得到第二人脸特征。请参考图8，第一人脸特征是用户a的人脸特征，第二人脸特征是用户b的人脸特征。
307.在一个实施例中，电子设备确定第一人脸特征后，可以将第一人脸特征与其对应的第一显示屏进行关联存储。同理，电子设备确定第二人脸特征后，可以将第二人脸特征与其对应的第二显示屏进行关联存储。得到人脸屏幕关联关系。示例性地，电子设备中存储的人脸屏幕关联关系可以记录为表2所示的形式：
308.表2
309.人脸特征显示屏第一人脸特征第一显示屏第二人脸特征第二显示屏
310.其中，第二行是第三关联关系，第二行是第四关联关系。
311.在一个示例中，虽然能够确定出第一语音数据是来自哪一侧的，但用户a与用户b可能交换了位置，此时需要对两个显示屏上的显示内容进行对调。所以为了便于后续能够保证为不同用户在其观看的显示屏上呈现对方用户的语音数据的翻译信息，电子设备获取包括目标显示屏前方的用户的视频帧。
312.作为一种示例，确定目标显示屏对应的视频帧序列，从所确定的视频帧序列中获取视频帧，得到包括目标显示屏前方的用户的视频帧。譬如，若目标显示屏是第二显示屏，则获取包括第二显示屏前方用户的视频帧。
313.1809：基于所获取的视频帧，确定目标显示屏前方的用户的人脸特征，得到第一目标人脸特征。
314.电子设备可以对所获取的视频帧进行人脸特征提取，得到所获取的视频帧中包括的用户的人脸特征，也即得到目标显示屏前方的用户的人脸特征。为了便于理解和描述，这里将所确定的人脸特征称为第一目标人脸特征。
315.1810：从人脸屏幕关联关系中，查询与目标显示屏关联的人脸特征，得到第二目标
人脸特征。
316.不难理解，第二目标人脸特征可能是第一人脸特征，也可能是第二人脸特征。示例性地，若目标显示屏是第一显示屏，则通过查询后可以确定人脸屏幕关联关系中与第一显示屏关联的人脸特征是第一人脸特征，也即第二目标人脸特征是第一人脸特征。再如，若目标显示屏是第二显示屏，则通过查询后可以确定人脸屏幕关联关系中与第二显示屏关联的人脸特征是第二人脸特征，也即第二目标人脸特征是第二人脸特征。
317.1811：判断第一目标人脸特征和第二目标人脸特征是否相同。
318.在一个示例中，用户a与用户b在交谈过程中可能交换了位置，此时需要对两个显示屏上的显示内容进行对调。所以为了便于后续能够保证为不同用户在其观看的显示屏上呈现对方用户的语音数据的翻译信息，电子设备判断第一目标人脸特征和第二目标人脸特征是否相同，以确定用户双方是否交换了位置。
319.在一实施例中，若第一目标人脸特征和第二目标人脸特征不相同，说明目标显示屏前的用户已发生变化，从而说明用户双方已经交换了位置，此时进入如下步骤1812。在另一个实施例中，若第一目标人脸特征和第二目标人脸特征相同，说明目标显示屏前的用户未发生变化，从而说明用户双方没有交换位置，该种情况下进入如下步骤1814。
320.1812：将第一显示屏中显示的内容与第二显示屏中显示的内容对调显示。
321.其具体实现可以参见图16所示实施例中的步骤1611。
322.1813：对第一语音数据进行翻译，并将得到的翻译信息显示在内容对调后的目标显示屏上。
323.需要说明的是，对第一语音数据进行翻译的操作也可以在1808步骤之前执行，本技术实施例对此不作限定。
324.其具体实现可以参见图16所示实施例中的步骤1612。
325.1814：对第一语音数据进行翻译，并将得到的翻译信息显示在目标显示屏上。
326.当然，上述根据视频帧序列判断用户双方是否交换位置的实现方式仅是示例性的。在另一个实施例中，在判断用户双方是否交换位置时，还可以先从人脸屏幕关联关系中，查询第一目标人脸特征对应的显示屏。然后判断第一目标人脸特征对应的显示屏与目标显示屏是否相同。若相同，则确定没有交换位置，若不同，则说明交换位置。
327.需要说明的是，如果用户双方再次交换位置，电子设备仍可以通过人脸特征匹配确定用户的位置变化情况，以再次将第一显示屏和第二显示屏的内容对调显示。在一个实施例中，在用户双方交换位置后，电子设备可以更新人脸屏幕关联关系，譬如将第一人脸特征与第二显示屏关联，以及将第二人脸特征与第一显示屏关联。该种情况下，电子设备可以按照上述流程检测用户双方是否交换位置。
328.本技术实施例中，在对用户双方的语音数据进行翻译的过程中，即使用户双方交换了位置，电子设备仍可以通过人脸特征匹配方式检测出用户位置的变化。电子设备在对第一语音数据的翻译信息显示之前，先将第一显示屏中显示的内容和第二显示屏中显示的内容进行对调，之后再将第一语音数据的翻译信息显示在内容对调后的目标显示屏上。从而可以保证准确地通过第一显示屏和第二显示屏分别为不同用户显示对方用户的语音数据的翻译信息。
329.另外需要说明的是，图16和图18实施例分别是以单独基于声纹信息判断用户双方
是否交换位置，以及单独基于视频帧序列判断用户双方是否交换位置为例进行说明。在另一个实施例中，还可以基于声纹信息，结合视频帧序列，判断用户双方是否交换位置，示例性地，可以基于声纹信息进行判断，然后结合视频帧序列对判断结果进行再次校验。再如，也可以先基于视频帧序列进行判断，然后再基于声纹信息对判断结果进行再次校验。如此可以保证判断结果的准确性。
330.另外还需要说明的是，上述各个实施例是以电子设备是具有折叠屏的终端设备为例进行说明。在一个实施例中，如果电子设备不是具有折叠屏的终端设备，而是连接有两个显示屏的设备，譬如如图5所示的电子设备，该种情况下，作为本技术的一个示例，电子设备从第一显示屏和第二显示屏中确定目标显示屏时，可以根据目标声源方位，结合摄像头拍摄的视频帧序列进行确定。譬如，当根据目标声源方位确定第一语音数据来自于左侧方位时，可以根据第一视频帧序列和第二视频帧序列，确定位于左侧方位的显示屏是第一显示屏和第二显示屏中的哪个显示屏，从而将所确定的显示屏确定为目标显示屏。譬如根据第一视频帧序列和第二视频帧序列确定哪个视频帧序列中的用户发言了，将检测到用户发言的视频帧序列对应的显示屏确定为位于左侧的显示屏，也即可以将检测到用户发言的视频帧序列对应的显示屏确定为目标显示屏。如此，根据目标声源方位和视频帧序列确定目标显示屏，可以提高目标显示屏确定的准确性，进而可以避免后续显示错误。
331.应理解，上述实施例中各步骤的序号并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
332.对应于上文实施例所述的语音翻译方法，图19是本技术实施例提供的一种语音翻译的装置的结构框图，该装置可以配置于上述电子设备中。为了便于说明，仅示出了与本技术实施例相关的部分。参照图19，该装置包括：
333.采集模块1910，用于采集第一语音数据；
334.第一确定模块1920，用于确定所述第一语音数据的目标声源方位；
335.第二确定模块1930，用于若所述目标声源方位的置信度大于或等于置信度阈值，则根据所述目标声源方位，确定目标显示屏，所述目标显示屏是所述第一显示屏和所述第二显示屏中除所述第一语音数据的真实声源方位对应的显示屏之外的另一个显示屏；
336.显示模块1940，用于将所述第一语音数据的翻译信息显示在所述目标显示屏上，所述翻译信息是对所述第一语音数据按照目标语种进行翻译后得到的，所述目标语种是所述目标显示屏显示的内容对应的语种。
337.作为本技术的一个示例，所述第二确定模块1930还用于：
338.若所述目标声源方位的置信度小于所述置信度阈值，则根据第一视频帧序列和第二视频帧序列，确定所述目标显示屏，所述第一视频帧序列是由所述第一显示屏上设置的摄像头在所述第一语音数据的采集时间段内拍摄的，所述第二视频帧序列是由所述第二显示屏上设置的摄像头在所述第一语音数据的采集时间段内拍摄的。
339.作为本技术的一个示例，所述第二确定模块1930用于：
340.根据所述第一视频帧序列确定所述第一视频帧序列中的用户在所述采集时间段内是否发言，得到第一检测结果，以及根据所述第二视频帧序列确定所述第二视频帧序列中的用户在所述采集时间段内是否发言，得到第二检测结果；
341.若根据所述第一检测结果和所述第二检测结果确定有用户发言，则将所述第一视
频帧序列和所述第二视频帧序列中未检测到用户发言的视频帧序列对应的显示屏确定为所述目标显示屏。
342.作为本技术的一个示例，所述第二确定模块1930用于：
343.根据所述第一视频帧序列进行人脸跟踪，得到所述第一视频帧序列对应的多张第一人脸图像；
344.根据所述多张第一人脸图像进行唇动检测，得到第一唇动检测结果；
345.根据所述第一唇动检测结果，确定所述第一检测结果。
346.作为本技术的一个示例，所述第二确定模块1930用于：
347.根据所述第二视频帧序列进行人脸跟踪，得到所述第二视频帧序列对应的多张第二人脸图像；
348.根据所述多张第二人脸图像进行唇动检测，得到第二唇动检测结果；
349.根据所述第二唇动检测结果，确定所述第二检测结果。
350.作为本技术的一个示例，所述第一确定模块1920用于：
351.将所述第一语音数据输入至目标网络模型中，以通过所述目标网络模型的输出结果确定所述第一语音数据的目标声源方位，所述目标网络模型能够基于任意的语音数据确定所述任意的语音数据对应的声源方位。
352.作为本技术的一个示例，所述第二确定模块1930还用于：
353.根据所述目标网络模型输出的所述目标声源方位对应的概率值，确定所述置信度。
354.作为本技术的一个示例，所述显示模块1940还用于：
355.将所述第一语音数据转换为文本数据，得到第一文本数据；
356.确定所述目标语种；
357.将所述第一文本数据翻译成所述目标语种对应的翻译信息。
358.作为本技术的一个示例，所述显示模块1940用于：
359.若存在第二语音数据的语种，则将所述第二语音数据的语种确定为所述目标语种，所述第二语音数据为对端用户的语音数据；
360.若不存在所述第二语种数据的语种，则根据所述电子设备中记载的历史时刻的翻译记录，确定所述目标语种。
361.作为本技术的一个示例，所述电子设备中存在声纹屏幕关联关系，所述声纹屏幕关联关系包括第一声纹特征与第一显示屏之间的关联关系、以及第二声纹特征与第二显示屏之间的关联关系；
362.所述显示模块1940用于：
363.确定所述第一语音数据的声纹信息，得到第一目标声纹信息；
364.从所述声纹屏幕关联关系中，查询与所述第一语音数据的真实声源方位对应的显示屏关联的声纹信息，得到第二目标声纹信息；
365.若所述第一目标声纹信息与所述第二目标声纹信息不相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
366.将所述翻译信息显示在内容对调后的所述目标显示屏上。
367.作为本技术的一个示例，所述电子设备中存在声纹屏幕关联关系，所述声纹屏幕
关联关系包括第一声纹特征与第一显示屏之间的关联关系、以及第二声纹特征与第二显示屏之间的关联关系；
368.所述显示模块1940用于：
369.确定所述第一语音数据的声纹信息，得到第一目标声纹信息；
370.从声纹屏幕关联关系中，查询与所述第一目标声纹信息关联的显示屏；
371.若查询到的显示屏与所述目标显示屏相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
372.将所述翻译信息显示在内容对调后的所述目标显示屏上。
373.作为本技术的一个示例，所述电子设备中存在人脸屏幕关联关系，所述人脸屏幕关联关系包括第一人脸特征与第一显示屏之间的关联关系、以及第二人脸特征与第二显示屏之间的关联关系；
374.所述显示模块1940用于：
375.根据所述目标显示屏对应的视频帧序列，确定第一目标人脸特征；
376.从所述人脸屏幕关联关系中，查询与所述目标显示屏关联的人脸特征，得到第二目标人脸特征；
377.若所述第一目标人脸特征和所述第二目标人脸特征不相同，则将所述第一显示屏中显示的内容与所述第二显示屏中显示屏的内容对调显示；
378.将所述翻译信息显示在内容对调后的所述目标显示屏上。
379.在本技术实施例中，采集第一语音数据，确定第一语音数据的目标声源方位。若目标声源方位的置信度大于或等于置信度阈值，说明目标声源方位是较为精准的，该种情况下，根据目标声源方位，确定目标显示屏。目标显示屏是第一显示屏和第二显示屏中除第一语音数据的真实声源方位对应的显示屏之外的另一个显示屏。将第一语音数据翻译成目标语种对应的翻译信息，目标语种是目标显示屏显示的内容对应的语种。将得到的翻译信息显示在目标显示屏上。如此，根据目标声源方位自动确定目标显示屏，以及自动将第一语音数据翻译成目标语种对应的翻译信息，并在目标显示屏上显示翻译信息，避免需要用户进行繁琐配置，提高了语音翻译的效率。
380.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
381.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
382.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员
可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
383.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
384.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
385.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
386.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
387.最后应说明的是：以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何在本技术揭露的技术范围内的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于全渠道广宣信息的数据处理方法以及装置与流程

语音翻译的方法、电子设备、存储介质及程序产品与流程

相关文献

最热文献