农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种语音翻译设备及方法与流程

2021-06-11 21:44:00 来源：中国专利 TAG：语音翻译实施公开计算机

本公开实施例涉及计算机技术领域，尤其涉及一种语音翻译设备及方法。

背景技术：

在全球化迅速发展的今天，随着科技与经济的高速发展以及人们生活水平的提高，人们会存在与不同语言的对方进行沟通和交流的情况，例如出国旅游、与外国友人洽谈合作等。这种情况下存在着语言不通的难点，此时，语音翻译设备应运而生。虽然，各种语音翻译设备可以进行翻译，但也存在不方便用户使用的问题。

技术实现要素：

本公开实施例提供一种语音翻译设备及方法，可实现语音信息的实时翻译，并将翻译文本进行投影显示，方便用户查看，大大提高了用户体验。

第一方面，本公开实施例提供了一种语音翻译设备，包括：显示装置、语音采集装置、投影装置及控制器；其中，

所述语音采集装置，用于采集周围环境中的语音信息，并向所述控制器发送所述语音信息；

所述控制器，用于将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向所述投影装置发送所述虚拟翻译影像；

所述投影装置，用于将所述虚拟翻译影像在所述显示装置中进行投影显示。

第二方面，本公开实施例还提供了一种语音翻译方法，应用于语音翻译设备，包括：

通过语音采集装置采集周围环境中的语音信息，并向控制器发送所述语音信息；

通过所述控制器将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向投影装置发送所述虚拟翻译影像；

通过所述投影装置将所述虚拟翻译影像在显示装置中进行投影显示。

本公开实施例提供了一种语音翻译设备，该语音翻译设备包括显示装置、语音采集装置、投影装置及控制器；其中，所述语音采集装置，用于采集周围环境中的语音信息，并向所述控制器发送所述语音信息；所述控制器，用于将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向所述投影装置发送所述虚拟翻译影像；所述投影装置，用于将所述虚拟翻译影像在所述显示装置中进行投影显示。本公开实施例提供的技术方案，不仅可以实现语音信息的实时翻译，有助于不同语种的用户间的沟通、交流，而且可以将翻译文本进行投影显示，方便用户查看翻译文本，大大提高了用户体验。

附图说明

图1是本公开一实施例中的一种语音翻译设备的结构示意图；

图2是本公开一实施例中的一种语音翻译设备的结构示意图；

图3是本公开实施例中的一种语音翻译设备的显示效果示意图；

图4是本公开一实施例中的一种语音翻译设备的结构示意图；

图5是本公开实施例中的一种语音翻译设备的显示效果示意图；

图6是本公开实施例中的一种语音翻译设备的显示效果示意图；

图7是本公开一实施例中的一种语音翻译方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

相关技术中，手持式语音翻译设备通过麦克风采集用户a的语音信息，并将用户a的语音信息转换为用户b对应语种的翻译语音后，通过扬声器播放，供用户b收听，然后再通过麦克风采集用户b的语音信息，并将用户b的语音信息转换为用户a对应语种的翻译语音后，通过扬声器播放，供用户a收听。显然，其中一个对话对象需要多拿一个手持式语音翻译设备，而且手持式语音翻译只能实现语音的交替传译，即用户说一句，手持式语音翻译设备翻译一句，并播放翻译后的语音，不仅无法实现源语音与翻译语音相隔较短时间的同声传译，而且手持该语音翻译设备的用户容易无法目视对方，影响交流。另外，通过手持式语音翻译设备进行语音翻译时，用户无法观看翻译后的文本信息，当该用户的对话对象语速较快时，容易导致用户无法完全听清翻译语音。

图1是本公开一实施例中的一种语音翻译设备的结构示意图。如图1所示，该语音翻译设备100，包括：显示装置108、语音采集装置103、投影装置104及控制器105；其中，语音采集装置103，用于采集周围环境中的语音信息，并向控制器105发送语音信息；控制器，用于将语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据翻译文本生成虚拟翻译影像，并向投影装置104发送虚拟翻译影像；投影装置104，用于将虚拟翻译影像在显示装置108中进行投影显示。

在本公开实施例中，该语音翻译设备可以为手持式语音翻译设备，还可以为头戴式语音翻译设备，如该语音翻译设备可以为眼镜形态的翻译设备，还可以为头盔形态的翻译设备，需要说明的是，本公开实施例对语音翻译设备的具体形态不做限定。

在本公开实施例中，当用户使用该语音翻译设备100的进行会话时，语音翻译设备100中的语音采集装置103，采集会话过程中的语音信息，并将采集的语音信息发送至控制器105。其中，语音采集模块可以包括麦克风或麦克风阵列，通过麦克风或麦克风阵列可以收集用户会话过程的语音数据。示例性的，可以当语音翻译设备100开启时，也即语音翻译设备100的电源开关被开启时，语音采集装置103采集周围环境中的语音信息；也可以是语音翻译设备100检测到其被用户穿戴时，开启语音采集装置103采集周围环境的语音信息。具体的，语音翻译设备100中可设置有检测装置，该检测装置可检测出该语音翻译设备100是否被用户穿戴。例如，检测装置可以为压力传感器，压力传感器可设置在语音翻译设备100的内表面，当语音翻译设备100被用户穿戴或手持时，压力传感器可检测到压力值，因此，可通过压力传感器检测到的压力值判断语音翻译设备100是否被用户穿戴。又如，检测装置还可以为距离传感，距离传感器可设置在语音翻译设备100的侧表面，当语音翻译设备100被用户穿戴或手持时，距离传感器可检测到语音翻译设备100与用户间的距离，因此，可通过距离传感器检测到的距离值判断语音翻译设备100是否被用户穿戴。

在本公开实施例中，控制器105接收语音采集装置103发送的语音信息，并将语音信息中的待翻译语音信息转换为目标语种的翻译文本。具体的，当语音采集装置103采集周围环境中的语音信息时，不仅能够采集到会话过程中与用户对话的对话对方的语音信息，还能够采集到用户自己的语音信息，而且，当用户会话所处场景比较嘈杂时，还可以采集到周围环境中的噪声信息。而用户自己的语音信息以及周围环境中的噪声信息是不需要翻译的，因此，控制器105需从接收到的所有语音信息中确定待翻译语音信息，并待翻译语音信息转换为目标语种的翻译文本。其中，可基于预先设定的噪声滤波方法对语音采集装置103采集的语音信息进行滤波，然后可通过声源定位或语种识别的方式，从语音信息中确定待翻译语音信息。

在本公开实施例中，可在语音翻译设备100中预先安装有翻译程序，该翻译程序具有将待翻译语音转换为目标语种的文本的功能，因此，语音翻译设备100可基于该翻译程序将待翻译语音转换为目标语种的翻译文本。可选的，该语音翻译设备100还可与远程服务器或云端翻译平台建立网络连接，控制器105将待翻译语音信息发送至服务器或云端翻译平台，服务器或云端翻译平台将待翻译语音转换为目标语种的翻译文本后，将翻译文本反馈至控制器105，从而实现将待翻译语音信息转换为目标语种的翻译文本。需要说明的是，本公开实施例对将语音信息中的待翻译语音信息转换为目标语种的翻译文本的方式不做限定。

在本公开实施例中，控制器105根据翻译文本生成虚拟翻译影像，并将虚拟翻译影像发送至投影装置104。其中，虚拟翻译影像可以理解为包含翻译文本的图像。具体的，可以基于预先训练的虚拟影像生成模型，根据翻译文本生成虚拟翻译影像。例如，将翻译文本输入至虚拟影像生成模型中，将虚拟影像生成模型的输出结果作为虚拟翻译影像。可选的，还可以基于图像生成算法，将虚拟翻译文本生成虚拟翻译影像。需要说明的是，本公开实施例对根据翻译文本生成虚拟翻译影像的具体实现方式不做限定。

投影装置104接收控制器105发送的虚拟翻译影像，并将虚拟翻译影像投影至显示装置108上，以使虚拟翻译影像在显示装置108中进行显示。

本公开实施例提供了一种语音翻译设备，该语音翻译设备包括显示装置、语音采集装置、投影装置及控制器；其中，所述语音采集装置，用于采集周围环境中的语音信息，并向所述控制器发送所述语音信息；所述控制器，用于将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向所述投影装置发送所述虚拟翻译影像；所述投影装置，用于将所述虚拟翻译影像在所述显示装置中进行投影显示。本公开实施例提供的技术方案，不仅可以实现语音信息的实时翻译，有助于不同语种的用户间的沟通、交流，而且可以将翻译文本进行投影显示，方便用户查看翻译文本，大大提高了用户体验。

在一些实施例中，所述语音翻译设备还包括：镜架101，其中，所述显示装置108、所述语音采集装置103、所述投影装置104及所述控制器105安装在所述镜架101上。这样设置的好处在于，可以解放用户双手，使用户更方便、直观地观看翻译文本，可进一步提高用户体验。

在一些实施例中，所述显示装置108包括增强现实ar镜片102；所述投影装置104具体用于：将所述虚拟翻译影像在所述ar镜片102种进行投影显示，以将所述虚拟翻译影像与现实场景在所述ar镜片102上进行叠加。这样设置的好处在于，不仅可以实现语音信息的实时翻译，有助于不同语种的用户间的沟通、交流，而且可以将翻译文本叠加于现实场景中，既方便用户查看翻译文本，又方便用户看到真实的画面信息，大大提高了用户体验。

示例性的，图2是本公开一实施例中的一种语音翻译设备的结构示意图。如图2所示，该语音翻译设备100包括镜架101、以及安装在镜架101上的增强现实ar镜片102、语音采集装置103、投影装置104及控制器105；其中，语音采集装置103，用于采集周围环境中的语音信息，并向控制器105发送语音信息；控制器105，用于将语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据翻译文本生成虚拟翻译影像，并向投影装置104发送虚拟翻译影像；投影装置104，用于将虚拟翻译影像在ar镜片102中进行投影显示，以将虚拟翻译影像与现实场景在ar镜片102上进行叠加。

具体的，投影装置104接收控制器105发送的虚拟翻译影像，并将虚拟翻译影像投影至增强现实(augmentedreality，ar)镜片上，以使虚拟翻译影像在ar镜片102中进行显示。其中，ar镜片102为波导镜片，该波导镜片为半透明镜片，用户可以透过该ar镜片102看到真实世界中的物体、场景等真实画面，当将虚拟翻译影像投影至ar镜片102上时，用户还可以看到虚拟翻译影像中翻译文本。因此，这样佩戴语音翻译设备100的用户不仅可以看到投影至ar镜片102上的翻译文本，而且还可以透过ar镜片102看到真实的画面，即实现了虚拟翻译影像与现实场景在ar镜片102上进行叠加显示的效果，也即翻译文本的增强现实的显示效果。

示例性的，图3是本公开实施例中的一种语音翻译设备的显示效果示意图。如图3所示，用户a与用户b进行对话，用户a穿戴有该语音翻译设备100，通过本公开实施例提供的技术方案，用户a通过该语音翻译设备100可以看到与其对话的用户b以及叠加显示于现实场景的翻译文本200，既方便用户查看翻译文本，又方便用户看到真实的画面信息。

下面以语音翻译设备100为眼镜对如下实施例进行解释说明，需要说明的是，并非将语音翻译设备局限为眼镜形态。

可选的，所述语音采集装置103包括：麦克风阵列；所述控制器105具体用于：对接收的语音信息进行声源定位，并在根据定位结果确定声源不为所述语音翻译设备100佩戴方时，将所述语音信息确定为待翻译语音信息；将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向所述投影装置发送所述虚拟翻译影像。麦克风阵列可以理解为麦克风的集群，也即有多个麦克风组成的集合。麦克风阵列将采集的语音信息发送至控制器105，控制器105通过对麦克风阵列的各路输出的语音信息进行分析和处理，得到一个或多个声源的位置信息，也即实现对语音信息的声源定位。示例性的，控制器105可以通过算法估计声源信号到达阵列中麦克风阵元的相对时间差；然后利用估计时间差来计算出声源到达各阵元的距离差，然后结合阵列拓扑结构用几何算法或搜索确定声源位置。当根据声源定位结果确定声源不为语音翻译设备100佩戴方时，可将该语音信息确定为待翻译语音信息，也即将该语音信息确定为会话过程中与用户对话的对话对象的音频数据。

可选的，所述控制器105具体用于：对接收的语音信息进行语种识别，并在根据识别结果确定所述语音信息与待翻译语种对应时，将所述语音信息确定为待翻译语音信息；将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向所述投影装置发送所述虚拟翻译影像。具体的，由于使用语音翻译设备100的双方，所说语言所属的语种是不同的，因此可通过控制器105对接收到语音信息的语种进行识别，当根据语种识别结果确定该语音信息所属语种为待翻译语种时，可将该语音信息确定为待翻译语音信息，其中，待翻译语种可以理解为翻译后语音所属的语种。示例性的，用户a与用户b进行对话，或者用户a聆听用户b的演讲，其中，用户a为中国人(也即用户a精通中文)，用户b为英国人(也即用户b精通英文)，且用户a穿戴有该语音翻译设备100。对于用户a来讲，需要通过该语音翻译设备100将用户b的英文翻译为中文，其中，英文为待翻译语种，则语音翻译设备100中的控制器105对接收到的语音信息进行语种识别，当确定该语音信息为英文语音时，将该语音信息确定为待翻译语音信息。又示例性的，用户a与用户b进行对话，其中，用户a为中国人(也即用户a精通中文)，用户b为英国人(也即用户b精通英文)，且用户a和用户b均分别各自穿戴有对应的语音翻译设备100，如可将用户a穿戴的语音翻译设备100记为a，将用户b穿戴的语音翻译设备100记为b。对于用户a来讲，需要通过其穿戴的语音翻译设备a将用户b的英文翻译为中文，其中，英文为待翻译语种，则语音翻译设备a中的控制器105对接收到的语音信息进行语种识别，当确定该语音信息为英文语音时，将该语音信息确定为待翻译语音信息。对于用户b来讲，需要通过其穿戴的语音翻译设备b将用户a的中文翻译为英文，其中，中文为待翻译语种，则语音翻译设备b中的控制器105对接收到的语音信息进行语种识别，当确定该语音信息为中文语音时，将该语音信息确定为待翻译语音信息。

在一些实施例中，所述控制器105具体用于：向所述投影装置104发送所述虚拟翻译影像以及投影位置控制指令；其中，所述投影位置控制指令用于指示所述虚拟翻译影像的投影位置；所述投影装置104具体用于：基于所述投影位置控制指令将所述虚拟翻译影像在所述显示装置108中进行投影显示。示例性的，以显示装置108为ar镜片为例进行解释说明。具体的，控制器105将虚拟翻译影像及投影位置控制指令发送至投影装置104，其中，投影位置控制指令中携带有虚拟翻译影像的投影位置。例如，控制器可预先确定虚拟影像的投影位置，并基于投影位置生成投影位置控制指令。其中，控制器105可以随机选择ar镜片102中的某位置区域作为虚拟翻译影像的投影位置，如可在ar镜片102的上半区域、下半区域、左半区域及右半区域中随机选择某位置区域作为虚拟翻译影像的投影位置；也可以将ar镜片102中的某一固定位置区域作为虚拟翻译影像的投影位置，如可以将ar镜片102的下半区域作为虚拟翻译影像的固定的投影位置；还可以根据虚拟翻译影像中所包含的翻译文本的长短，确定虚拟翻译影像的投影位置，如虚拟翻译影像中所包含的翻译文本较长时，可选择ar镜片102的下半区域作为虚拟翻译影像的投影位置，当虚拟翻译影像中所包含的翻译文本较短时，可选择ar镜片102的中间区域作为虚拟翻译影像的投影位置。需要说明的是，本公开实施例对虚拟翻译影像的投影位置的确定方式不做限定。其中，虚拟翻译影像的投影位置可以以在ar镜片102的位置坐标的形式表示。控制器105将虚拟翻译影像及投影位置控制指令共同发送至投影装置104，投影装置104基于投影位置控制指令将虚拟翻译影像投影至ar镜片102对应的位置区域。例如，控制器105可基于投影位置控制指令控制投影装置104旋转，以实现对投影装置104的投影方向和投影角度的微调，从而通过投影装置104将虚拟翻译影像在ar镜片102中的投影位置处进行投影显示。

图4是本公开一实施例中的一种语音翻译设备的结构示意图。如图4所示，所述语音翻译设备100还包括：图像采集装置106；所述图像采集装置106，用于采集周围环境中的环境图像，并向所述控制器105发送所述环境图像；所述控制器105，还用于识别所述环境图像中包含的待翻译对象；根据所述待翻译对象在所述环境图像中的识别位置，确定所述虚拟翻译影像的投影位置；根据投影位置生成投影位置控制指令。这样设置的好处在于，根据待翻译对象在环境图像中的位置，确定翻译文本的显示位置，使得翻译文本与讲话人(待翻译对象)匹配显示，可进一步提高用户的体验。具体的，图像采集装置106可以设置在语音翻译设备100的镜架101上，如设置在镜架101的鼻梁位置区域，其中图像采集装置106可以为摄像头。图像采集装置106实时采集周围环境中的环境图像，并将环境图像发送至控制器105，控制器105对环境图像进行人脸识别，根据人脸识别结果确定环境图像中包含的待翻译对象，其中，待翻译对象也即与待翻译语音信息对应的发言对象。根据待翻译对象在环境图像中的识别位置，确定虚拟翻译影像的投影位置，并根据投影位置生成投影位置控制指令。如将待翻译对象在环境图像中的识别位置的周围区域的位置，确定为虚拟翻译影像的投影位置。其中，可将人脸位置区域确定为待翻译对象在环境图像中的识别位置。示例性的，图5是本公开实施例中的一种语音翻译设备的显示效果示意图。如图5所示，用户a与用户b进行对话，用户a穿戴有该语音翻译设备100，通过本公开实施例提供的技术方案，用户a通过该语音翻译设备100可以看到与其对话的用户b以及叠加显示于现实场景的翻译文本200，其中，翻译文本200呈现在待翻译对象的周围区域，既方便用户查看翻译文本，又方便用户看到真实的画面信息。

可选的，所述控制器105进一步用于：根据所述待翻译对象在所述环境图像中的识别位置，在所述虚拟翻译影像中加入拉线注释；其中，所述拉线注释用于建立所述待翻译对象与所述翻译文本之间的关联关系。这样设置的好处在于，在多人对话的场景中，可使得翻译文本与待翻译对象关联显示，使得用户清楚了解翻译文本与讲话人的对应关系。具体的，在多人对话的场景中，可连续采集多张环境图像，对多张环境图像进行人脸识别，将显示嘴唇开闭动作的人脸图像对应的用户作为待翻译对象，可将显示嘴唇开闭动作的人脸图像作为目标人脸图像。根据目标人脸图像在环境图像中的位置，确定虚拟翻译影像的投影位置，并在虚拟翻译影像中加入拉线注释，如拉线注释指向目标人脸图像的嘴唇部位。其中，拉线注释用于建立待翻译对象与翻译文本之间的关联关系，即通过拉线注释可使用户清楚了解该翻译文本对应的发言对象(与即待翻译对象)。示例性的，图6是本公开实施例中的一种语音翻译设备的显示效果示意图。如图6所示，用户a与用户b及用户c进行对话，用户a穿戴有该语音翻译设备100，通过本公开实施例提供的技术方案，用户a通过该语音翻译设备100可以看到与其对话的用户b、用户c以及叠加显示于现实场景的翻译文本200，若当前待翻译对象为用户b，则通过拉线注释300可以建立用户b与翻译文本间的关联关系，使得用户清楚了解翻译文本与讲话人的对应关系。

在一些实施例中，所述投影装置104，具体用于将所述虚拟翻译影像在所述ar镜片102中的预设位置区域进行投影显示。示例性的，可将投影装置104在语音翻译设备100的镜架101上设置为固定不可调，也即投影装置104的投影方向和投影角度是固定不变得，使得投影装置104对准ar镜片102的预设位置区域，也即投影装置104可将各个影像投影至ar镜片102的预设位置区域。因此，当控制器105将虚拟翻译影像发送至投影装置104后，投影装置104将虚拟翻译影像在ar镜片102中的预设位置区域进行投影显示。可选的，预设位置区域可以为ar镜片102的下半屏区域。

如图4所示，所述语音翻译设备100还包括：语音播放装置107；所述控制器105，还用于将所述翻译文本转换为翻译语音，并向所述语音播放装置107发送所述翻译语音；所述语音播放装置107，用于对所述翻译语音进行语音播放。这样设置的好处在于，不仅可以使用户看到真实的画面及翻译文本，还可以使用户收听与翻译文本对应的翻译语音，可大大提高用户体验。具体的，语音翻译设备100还包括语音播放装置107，该语音播放装置107安装在语音翻译设备100的镜架101上，其中，语音播放装置107可以包括扬声器和/或耳机。控制器105基于文本转语音(texttospeech，tts)技术，将翻译文本转换为翻译语音，并将翻译语音发送至语音播放装置107，语音播放装置107接收到翻译语音后，对翻译语音进行语音播放。其中，翻译语音与翻译文本属于同一语种。

可选的，所述控制器105具体用于：响应于交替翻译服务请求，控制所述语音播放装置107中的扬声器工作；响应于同声传译服务请求，控制所述语音播放装置107中的耳机工作。具体的，当接收到用户输入的扬声器开启指令时，表征接收到用户输入的交替翻译服务请求，此时，控制语音播放装置107中的扬声器工作，即通过扬声器播放翻译语音。示例性的，用户a与用户b进行对话，其中，用户a为中国人(也即用户a精通中文)，用户b为英国人(也即用户b精通英文)，且用户a穿戴有该语音翻译设备100。响应于交替翻译服务请求，在用户a与用户b对话的过程中，语音翻译设备100采集用户a讲的中文语音，将中文语音转换为对应的英文语音，当用户a讲完该句中文语音后，语音翻译设备100通过语音播放装置107中的扬声器播放整句英文语音，供用户b收听；语音翻译设备100采集用户b讲的英文语音，将英文语音转换为对应的中文文本及中文语音，通过上述技术方案在ar镜片102中实时显示中文文本，并在用户b讲完该句英文语音后，语音翻译设备100通过语音播放装置107中的扬声器播放该整句中文语音，供用户a收听。当接收到用户输入的耳机开启指令时，表征接收到用户输入的同声传译服务请求，此时，控制语音播放装置107中的耳机工作，即通过耳机播放翻译语音。示例性的，用户a与用户b进行对话，其中，用户a为中国人(也即用户a精通中文)，用户b为英国人(也即用户b精通英文)，且用户a和用户b均穿戴有语音翻译设备100。响应于同声传译服务请求，在用户a与用户b对话的过程中，穿戴于用户b的语音翻译设备100采集用户a讲的中文语音，将中文语音转换为对应的英文语音及英文文本，无需用户a讲完该句中文语音，穿戴于用户b的语音翻译设备100，通过上述技术方案在ar镜片102中实时显示英文文本，并通过语音播放装置107中的耳机实时播放英文语音，供用户b收听；穿戴于用户a的语音翻译设备100采集用户b讲的英文语音，将英文语音转换为对应的中文文本及中文语音，通过上述技术方案在ar镜片102中实时显示中文文本，并通过语音播放装置107中的耳机实时播放中文语音，供用户a收听。

可选的，所述语音翻译设备还包括：耳机插孔；所述控制器，还用于将所述翻译文本转换为翻译语音，并当检测到外设耳机插入所述耳机插孔时，控制所述外设耳机对所述翻译语音进行语音播放。这样设置的好处在于，这样设置的好处在于，不仅可以使用户看到翻译文本，还可以使用户收听与翻译文本对应的翻译语音，可大大提高用户体验。具体的，语音翻译设备还包括耳机插孔，如该耳机插孔可设置在语音翻译设备的镜架上。控制器基于文本转语音(texttospeech，tts)技术，将翻译文本转换为翻译语音，并实时监测耳机插孔的插拔状态，当检测到外设耳机插入该耳机插孔时，控制外设耳机对翻译语音进行播放。其中，通过外设耳机对翻译语音进行播放时，可以实现语音的同声传译，也即语音翻译设备通过耳机插孔与外设耳机连接时，可使语音翻译设备为用户提供同声传译服务。

图7是本公开一实施例中的一种语音翻译方法的流程图，本公开实施例可适用于对语音进行翻译的情况，该方法可以由语音翻译设备来执行。如图7所示，该方法具体包括如下步骤：

步骤710，通过语音采集装置采集周围环境中的语音信息，并向控制器发送所述语音信息。

步骤720，通过所述控制器将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向投影装置发送所述虚拟翻译影像。

步骤730，通过所述投影装置将所述虚拟翻译影像在显示装置中进行投影显示。

在本公开实施例提供了一种语音翻译方法，该方法应用于语音翻译设备，其中，语音翻译设备包括显示装置、语音采集装置、投影装置及控制器；通过语音采集装置采集周围环境中的语音信息，并向控制器发送所述语音信息；通过所述控制器将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向投影装置发送所述虚拟翻译影像；通过所述投影装置将所述虚拟翻译影像在显示装置中进行投影显示。本公开实施例提供的技术方案，不仅可以实现语音信息的实时翻译，有助于不同语种的用户间的沟通、交流，而且可以将翻译文本进行投影显示，方便用户查看翻译文本，大大提高了用户体验。

可选的，所述显示装置包括ar镜片；

通过所述投影装置将所述虚拟翻译影像在显示装置中进行投影显示，包括：

通过所述投影装置将所述虚拟翻译影像在所述ar镜片中进行投影显示，以将所述虚拟翻译影像与现实场景在所述ar镜片上进行叠加。

通过所述控制器将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本，包括：

通过所述控制器对接收的语音信息进行声源定位，并在根据定位结果确定声源不为所述语音翻译设备佩戴方时，将所述语音信息确定为待翻译语音信息；

将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本。

可选的，通过所述控制器将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本，包括：

通过所述控制器对接收的语音信息进行语种识别，并在根据识别结果确定所述语音信息与待翻译语种对应时，将所述语音信息确定为待翻译语音信息；

将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本。

可选的，向投影装置发送所述虚拟翻译影像，包括：

向所述投影装置发送所述虚拟翻译影像以及投影位置控制指令；其中，所述投影位置控制指令用于指示所述虚拟翻译影像的投影位置；

通过所述投影装置将所述虚拟翻译影像在显示装置中进行投影显示，包括：

通过所述投影装置基于所述投影位置控制指令将所述虚拟翻译影像在所述显示装置中进行投影显示。

可选的，在向所述投影装置发送所述虚拟翻译影像以及投影位置控制指令之前，还包括：

通过图像采集装置采集周围环境中的环境图像，并向所述控制器发送所述环境图像；

通过所述控制器识别所述环境图像中包含的待翻译对象；根据所述待翻译对象在所述环境图像中的识别位置，确定所述虚拟翻译影像的投影位置；根据所述投影位置生成投影位置控制指令。

可选的，还包括：

通过所述控制器根据所述待翻译对象在所述环境图像中的识别位置，在所述虚拟翻译影像中加入拉线注释；

其中，所述拉线注释用于建立所述待翻译对象与所述翻译文本之间的关联关系。

可选的，还包括：

通过所述控制器将所述翻译文本转换为翻译语音，并向所述语音播放装置发送所述翻译语音；

通过所述语音播放装置对所述翻译语音进行语音播放。

可选的，所述语音播放装置包括扬声器和/或耳机。

可选的，所述方法还包括：

响应于交替翻译服务请求，通过所述控制器控制所述语音播放装置中的扬声器工作；

响应于同声传译服务请求，通过所述控制器控制所述语音播放装置中的耳机工作。

可选的，所述ar镜片为波导镜片。

可选的，所述语音翻译设备还包括：耳机插孔；

所述方法还包括：

通过所述控制器将所述翻译文本转换为翻译语音，并当检测到外设耳机插入所述耳机插孔时，控制所述外设耳机对所述翻译语音进行语音播放。

根据本公开实施例的一个或多个实施例，本公开实施例提供了一种语音翻译设备，包括：显示装置、语音采集装置、投影装置及控制器；其中，

所述语音采集装置，用于采集周围环境中的语音信息，并向所述控制器发送所述语音信息；

所述控制器，用于将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；根据所述翻译文本生成虚拟翻译影像，并向所述投影装置发送所述虚拟翻译影像；

所述投影装置，用于将所述虚拟翻译影像在所述显示装置中进行投影显示。

进一步的，所述语音翻译设备还包括：镜架，其中，所述显示装置、所述语音采集装置、所述投影装置及所述控制器安装在所述镜架上。

进一步的，所述显示装置包括增强现实ar镜片；

所述投影装置具体用于：将所述虚拟翻译影像在所述ar镜片中进行投影显示，以将所述虚拟翻译影像与现实场景在所述ar镜片上进行叠加。

进一步的，所述语音采集装置包括：麦克风阵列；

所述控制器具体用于：

对接收的语音信息进行声源定位，并在根据定位结果确定声源不为所述语音翻译设备佩戴方时，将所述语音信息确定为待翻译语音信息；

将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；

根据所述翻译文本生成虚拟翻译影像，并向所述投影装置发送所述虚拟翻译影像。

进一步的，所述控制器具体用于：

对接收的语音信息进行语种识别，并在根据识别结果确定所述语音信息与待翻译语种对应时，将所述语音信息确定为待翻译语音信息；

将所述语音信息中的待翻译语音信息转换为目标语种的翻译文本；

根据所述翻译文本生成虚拟翻译影像，并向所述投影装置发送所述虚拟翻译影像。

进一步的，所述控制器具体用于：向所述投影装置发送所述虚拟翻译影像以及投影位置控制指令；其中，所述投影位置控制指令用于指示所述虚拟翻译影像的投影位置；

所述投影装置具体用于：基于所述投影位置控制指令将所述虚拟翻译影像在所述显示装置中进行投影显示。

进一步的，所述语音翻译设备还包括：图像采集装置；

所述图像采集装置，用于采集周围环境中的环境图像，并向所述控制器发送所述环境图像；

所述控制器，还用于识别所述环境图像中包含的待翻译对象；根据所述待翻译对象在所述环境图像中的识别位置，确定所述虚拟翻译影像的投影位置；根据所述投影位置生成投影位置控制指令。

进一步的，所述控制器进一步用于：根据所述待翻译对象在所述环境图像中的识别位置，在所述虚拟翻译影像中加入拉线注释；

其中，所述拉线注释用于建立所述待翻译对象与所述翻译文本之间的关联关系。

进一步的，所述语音翻译设备还包括：语音播放装置；

所述控制器，还用于将所述翻译文本转换为翻译语音，并向所述语音播放装置发送所述翻译语音；

所述语音播放装置，用于对所述翻译语音进行语音播放。

进一步的，所述语音播放装置包括扬声器和/或耳机。

进一步的，所述控制器具体用于：

响应于交替翻译服务请求，控制所述语音播放装置中的扬声器工作；

响应于同声传译服务请求，控制所述语音播放装置中的耳机工作。

进一步的，所述语音翻译设备还包括：耳机插孔；

所述控制器，还用于将所述翻译文本转换为翻译语音，并当检测到外设耳机插入所述耳机插孔时，控制所述外设耳机对所述翻译语音进行语音播放。

注意，上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种抗对抗样本攻击的语音识别模型训练方法与流程

一种语音翻译设备及方法与流程

相关文章

最热文献