文本转3D音频的方法及装置与流程

2022-02-20 00:22:26 来源：中国专利 TAG：

技术特征：
1.一种文本转3d音频的方法，其特征在于，应用于终端设备，所述方法包括：获取用户选定的待处理文本；根据所述待处理文本，获取待配音文本；获取配音发声点与用户头部位置之间的相对方位，所述配音发声点为所述待配音文本的tts合成音频的空间输出位置；根据所述配音发声点与用户头部位置之间的相对方位，对所述待配音文本的tts合成音频进行3d渲染。2.根据权利要求1所述的文本转3d音频的方法，其特征在于，所述待配音文本包括旁白文本及每个角色话语文本；所述配音发声点包括旁白发声点及每个角色发声点。3.根据权利要求2所述的文本转3d音频的方法，其特征在于，所述根据所述配音发声点与用户头部位置之间的相对方位，对所述待配音文本的tts合成音频进行3d渲染，包括：根据所述旁白发声点与所述用户头部位置之间的相对方位，对所述旁白文本的tts合成音频进行3d渲染；根据所述每个角色发声点与所述用户头部位置之间的相对方位，对所述每个角色话语文本的tts合成音频进行3d渲染。4.根据权利要求3所述的文本转3d音频的方法，其特征在于，所述用户头部位置包括用户正脸的水平偏角；所述旁白发声点与所述用户头部位置之间的相对方位包括：所述旁白发声点相较于所述用户正脸的水平偏移角度；所述每个角色发声点与所述用户头部位置之间的相对方位包括：所述每个角色发声点相较于所述用户正脸的水平偏移角度。5.根据权利要求4所述的文本转3d音频的方法，其特征在于，所述根据所述旁白发声点与所述用户头部位置之间的相对方位，对所述旁白文本的tts合成音频进行3d渲染，包括：获取第一水平角度差，所述第一水平角度差为所述旁白发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第一水平角度差，对所述旁白文本的tts合成音频进行3d渲染。6.根据权利要求4或5所述的文本转3d音频的方法，其特征在于，所述根据所述每个角色发声点与所述用户头部位置之间的相对方位，对所述每个角色话语文本的tts合成音频进行3d渲染，包括：获取第二水平角度差，所述第二水平角度差为所述每个角色发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第二水平角度差，对所述每个角色话语文本的tts合成音频进行3d渲染。7.根据权利要求4所述的文本转3d音频的方法，其特征在于，所述每个角色发声点与所述用户头部位置之间的相对方位还包括：所述每个角色发声点相较于所述用户头部的俯仰偏移角度。8.根据权利要求7所述的文本转3d音频的方法，其特征在于，所述根据所述每个角色发声点与所述用户头部位置之间的相对方位，对所述每个角色话语文本的tts合成音频进行3d渲染，包括：
获取第二水平角度差，所述第二水平角度差为所述每个角色发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第二水平角度差及所述每个角色发声点相较于所述用户头部的俯仰偏移角度，对所述每个角色话语文本的tts合成音频进行3d渲染。9.根据权利要求7所述的文本转3d音频的方法，其特征在于，所述旁白发声点与所述用户头部位置之间的相对方位还包括旁白发声点距离，所述旁白发声点距离为所述旁白发声点与所述用户双耳连线中心点之间的距离；所述每个角色发声点与所述用户头部位置之间的相对方位还包括每个角色发声点距离，所述每个角色发声点距离包括所述每个角色发声点与所述用户双耳连线中心点之间的距离。10.根据权利要求9所述的文本转3d音频的方法，其特征在于，所述根据所述旁白发声点与所述用户头部位置之间的相对方位，对所述旁白文本的tts合成音频进行3d渲染，包括：获取第一水平角度差，所述第一水平角度差为所述旁白发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第一水平角度差及所述旁白发声点距离，对所述旁白文本的tts合成音频进行3d渲染。11.根据权利要求9或10所述的文本转3d音频的方法，其特征在于，所述根据所述每个角色发声点与所述用户头部位置之间的相对方位，对所述每个角色话语文本的tts合成音频进行3d渲染，包括：获取第二水平角度差，所述第二水平角度差为所述每个角色发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第二水平角度差、所述每个角色发声点相较于所述用户头部的俯仰偏移角度及所述每个角色发声点距离，对所述每个角色话语文本的tts合成音频进行3d渲染。12.根据权利要求10所述的文本转3d音频的方法，其特征在于，所述每个角色发声点与所述用户头部位置之间的相对方位还包括：所述每个角色发声点的随机水平偏移角度。13.根据权利要求12所述的文本转3d音频的方法，其特征在于，所述根据所述每个角色发声点与所述用户头部位置之间的相对方位，对所述每个角色话语文本的tts合成音频进行3d渲染，包括：获取第二水平角度差，所述第二水平角度差为所述每个角色发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；获取第三水平角度和，所述第三水平角度和为所述每个角色发声点的随机水平偏移角度与所述第二水平角度差的和；根据所述第三水平角度和、所述每个角色发声点相较于所述用户头部的俯仰偏移角度及所述每个角色发声点距离，对所述每个角色话语文本的tts合成音频进行3d渲染。14.根据权利要求3所述的文本转3d音频的方法，其特征在于，所述根据所述旁白发声点与所述用户头部位置之间的相对方位，对所述旁白文本的tts合成音频进行3d渲染，包括：根据所述旁白发声点与所述用户头部位置之间的相对方位，获取第一hrtf滤波系数；
根据所述第一hrtf滤波系数，对所述旁白文本的tts合成音频进行3d渲染。15.根据权利要求3或14所述的文本转3d音频的方法，其特征在于，所述根据所述每个角色发声点与所述用户头部位置之间的相对方位，对所述每个角色话语文本的tts合成音频进行3d渲染，包括：根据所述每个角色发声点与所述用户头部位置之间的相对方位，获取第二hrtf滤波系数；根据所述第二hrtf滤波系数，对所述每个角色话语文本的tts合成音频进行3d渲染。16.根据权利要求1所述的文本转3d音频的方法，其特征在于，在获取配音发声点与用户头部位置之间的相对方位之前，所述方法还包括：获取所述用户头部位置。17.根据权利要求16所述的文本转3d音频的方法，其特征在于，所述获取用户头部位置，包括：采集用户头部图像；针对所述用户头部图像，获取所述用户头部位置。18.根据权利要求2所述的文本转3d音频的方法，其特征在于，所述方法还包括：预先构建语义分析神经网络模型。19.根据权利要求18所述的文本转3d音频的方法，其特征在于，所述根据所述待处理文本，获取待配音文本，包括：将所述待处理文本输入至所述语义分析神经网络模型中；获取所述语义分析神经网络模型输出的所述待配音文本。20.根据权利要求18或19所述的文本转3d音频的方法，其特征在于，所述方法还包括：对所述旁白文本进行语义分析，获取临时事件文本；获取所述临时事件的tts合成音频。21.根据权利要求20所述的文本转3d音频的方法，其特征在于，所述对所述旁白文本进行语义分析，获取临时事件文本，包括：将所述旁白文本输入至所述语义分析神经网络模型中；获取所述语义分析神经网络模型输出的所述临时事件文本。22.一种文本转3d音频的装置，其特征在于，应用于终端设备，包括：文本获取模块，用于获取用户选定的待处理文本；文本处理模块，用于根据所述待处理文本，获取待配音文本；方位设定模块，用于获取配音发声点与用户头部位置之间的相对方位，所述配音发声点为所述待配音文本的tts合成音频的空间输出位置；3d渲染模块，用于根据所述配音发声点与用户头部位置之间的相对方位，对所述待配音文本的tts合成音频进行3d渲染。23.根据权利要求22所述的文本转3d音频的装置，其特征在于，所述待配音文本包括旁白文本及每个角色话语文本；所述配音发声点包括旁白发声点及每个角色发声点。24.根据权利要求23所述的文本转3d音频的装置，其特征在于，所述3d渲染模块包括：旁白3d渲染单元，用于根据所述旁白发声点与所述用户头部位置之间的相对方位，对
所述旁白文本的tts合成音频进行3d渲染；角色3d渲染单元，用于根据所述每个角色发声点与所述用户头部位置之间的相对方位，对所述每个角色话语文本的tts合成音频进行3d渲染。25.根据权利要求24所述的文本转3d音频的装置，其特征在于，所述用户头部位置包括用户正脸的水平偏角；所述旁白发声点与所述用户头部位置之间的相对方位包括：所述旁白发声点相较于所述用户正脸的水平偏移角度；所述每个角色发声点与所述用户头部位置之间的相对方位包括：所述每个角色发声点相较于所述用户正脸的水平偏移角度。26.根据权利要求25所述的文本转3d音频的装置，其特征在于，所述旁白3d渲染单元还用于：获取第一水平角度差，所述第一水平角度差为所述旁白发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第一水平角度差，对所述旁白文本的tts合成音频进行3d渲染。27.根据权利要求25或26所述的文本转3d音频的装置，其特征在于，所述角色3d渲染单元还用于：获取第二水平角度差，所述第二水平角度差为所述每个角色发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第二水平角度差，对所述每个角色话语文本的tts合成音频进行3d渲染。28.根据权利要求25所述的文本转3d音频的装置，其特征在于，所述每个角色发声点与所述用户头部位置之间的相对方位还包括：所述每个角色发声点相较于所述用户头部的俯仰偏移角度。29.根据权利要求28所述的文本转3d音频的装置，其特征在于，所述角色3d渲染单元还用于：获取第二水平角度差，所述第二水平角度差为所述每个角色发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第二水平角度差及所述每个角色发声点相较于所述用户头部的俯仰偏移角度，对所述每个角色话语文本的tts合成音频进行3d渲染。30.根据权利要求28所述的文本转3d音频的装置，其特征在于，所述旁白发声点与所述用户头部位置之间的相对方位还包括旁白发声点距离，所述旁白发声点距离为所述旁白发声点与所述用户双耳连线中心点之间的距离；所述每个角色发声点与所述用户头部位置之间的相对方位还包括每个角色发声点距离，所述每个角色发声点距离包括所述每个角色发声点与所述用户双耳连线中心点之间的距离。31.根据权利要求30所述的文本转3d音频的装置，其特征在于，所述旁白3d渲染单元还用于：获取第一水平角度差，所述第一水平角度差为所述旁白发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第一水平角度差及所述旁白发声点距离，对所述旁白文本的tts合成音频进
行3d渲染。32.根据权利要求30或31所述的文本转3d音频的装置，其特征在于，所述角色3d渲染单元还用于：获取第二水平角度差，所述第二水平角度差为所述每个角色发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；根据所述第二水平角度差、所述每个角色发声点相较于所述用户头部的俯仰偏移角度及所述每个角色发声点距离，对所述每个角色话语文本的tts合成音频进行3d渲染。33.根据权利要求31所述的文本转3d音频的装置，其特征在于，所述每个角色发声点与所述用户头部位置之间的相对方位还包括：所述每个角色发声点的随机水平偏移角度。34.根据权利要求33所述的文本转3d音频的装置，其特征在于，所述角色3d渲染单元还用于：获取第二水平角度差，所述第二水平角度差为所述每个角色发声点相较于所述用户正脸的水平偏移角度与所述用户正脸的水平偏角之间的差值；获取第三水平角度和，所述第三水平角度和为所述每个角色发声点的随机水平偏移角度与所述第二水平角度差的和；根据所述第三水平角度和、所述每个角色发声点相较于所述用户头部的俯仰偏移角度及所述每个角色发声点距离，对所述每个角色话语文本的tts合成音频进行3d渲染。35.根据权利要求24所述的文本转3d音频的装置，其特征在于，所述旁白3d渲染单元还用于：根据所述旁白发声点与所述用户头部位置之间的相对方位，获取第一hrtf滤波系数；根据所述第一hrtf滤波系数，对所述旁白文本的tts合成音频进行3d渲染。36.根据权利要求24或35所述的文本转3d音频的装置，其特征在于，所述角色3d渲染单元还用于：根据所述每个角色发声点与所述用户头部位置之间的相对方位，获取第二hrtf滤波系数；根据所述第二hrtf滤波系数，对所述每个角色话语文本的tts合成音频进行3d渲染。37.根据权利要求22所述的文本转3d音频的装置，其特征在于，所述装置还包括：头部位置获取模块，用于在获取配音发声点与用户头部位置之间的相对方位之前，获取所述用户头部位置。38.根据权利要求37所述的文本转3d音频的装置，其特征在于，所述头部位置获取模块还用于：采集用户头部图像；针对所述用户头部图像，获取所述用户头部位置。39.根据权利要求23所述的文本转3d音频的装置，其特征在于，所述装置还包括：模型预构模块，用于预先构建语义分析神经网络模型。40.根据权利要求39所述的文本转3d音频的装置，其特征在于，所述文本处理模块还用于：将所述待处理文本输入至所述语义分析神经网络模型中；获取所述语义分析神经网络模型输出的所述待配音文本。
41.根据权利要求39或40所述的文本转3d音频的装置，其特征在于，所述装置还包括：临时事件获取模块，用于对所述旁白文本进行语义分析，获取临时事件文本；临时音频获取模块，用于获取所述临时事件的tts合成音频。42.根据权利要求41所述的文本转3d音频的装置，其特征在于，所述临时事件获取模块还用于：将所述旁白文本输入至所述语义分析神经网络模型中；获取所述语义分析神经网络模型输出的所述临时事件文本。43.一种终端装置，其特征在于，包括：至少一个处理器和存储器；所述存储器，用于存储程序指令；所述处理器，用于调用并执行所述存储器中存储的程序指令，以使所述终端装置执行如权利要求1-21任一项所述的文本转3d音频的方法。44.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得所述计算机执行如权利要求1-21任一项所述的文本转3d音频的方法。

技术总结
本申请实施例提供一种文本转3D音频的方法及装置，该方法中，针对用户选定的待处理文本，提取待配音文本，然后基于预先设定的配音发声点与用户头部位置之间的相对方位，对待配音文本的TTS合成音频进行3D渲染，得到3D音频。用户通过耳机或音箱听取时，不同配音对象的声音能够按照预设的空间方位传至用户双耳中，使得用户能够真实的感觉到，多个角色正在自己的周围进行话语互动，给用户提供真实的3D环绕感，对待处理文本的理解方式变得生动灵活，而且即使存在音色相近的配音，由于方位不同，也不会使用户产生混淆，避免对文本理解产生误差。差。差。

技术研发人员：许剑峰
受保护的技术使用者：荣耀终端有限公司
技术研发日：2021.05.31
技术公布日：2022/1/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于机器学习的音频识别方法及装置、设备、存储介质与流程

文本转3D音频的方法及装置与流程

相关文献

最热文献