语音动画的合成方法、装置、电子设备及存储介质与流程

2022-12-20 20:27:48 来源：中国专利 TAG：

1.本技术涉及语音技术领域，具体而言，本技术涉及一种语音动画的合成方法、装置、电子设备及存储介质。

背景技术：

2.在语言学习中，听和读是非常重要的，通常情况下，在学习语言时需要跟着听到的发音进行朗读，进而进行各种语音的学习。
3.很多情况下靠学习者自己还是无法知道自身发音是否标准。因此，大多语言学习软件还会向学习者展示发音时的标准唇形图案，以帮助学习者参照标准唇形图案，调整自己的唇形来纠正发音。
4.然而，现有技术所提供的标准唇形图案要么是手绘的，要么是模特的唇形图案，学习者并不能够准确模仿出标准唇形图案，影响发音的准确性，降低语言学习的热情。

技术实现要素：

5.本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的语音动画的合成方法、装置、电子设备及存储介质。
6.第一方面，提供了一种语音动画的合成方法，该方法包括：
7.显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，获得目标面部图像；
8.显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户输入的、与跟读信息对应的音频信息；
9.获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，目标用户唇形变化的图像是根据目标面部图像中的唇形和音频信息得到的。
10.在一个可能的实现方式中，获得语音动画的方式，包括：
11.获取至少一种样本唇形，样本唇形用于表达至少一种音素的发音；根据样本唇形对目标面部图像中目标用户的唇形进行更新，获得合成面部图像，合成面部图像中目标用户的唇形用于表达相应的样本唇形表达的音素的发音；
12.对音频信息进行语音识别，获得音频信息的音素序列，音素序列中包括音频信息中至少一个时间点对应的音素；
13.确定与音素序列中各音素对应的合成面部图像，并依据各个合成面部图像获得目标用户唇形变化的合成面部图像序列；
14.获取音频信息中音素序列对应的音频帧序列，根据音频帧序列在音频信息中的时间信息，将音频帧序列和合成面部图像序列进行同步，生成语音动画。
15.在一个可能的实现方式中，确定与音素序列中各音素对应的合成面部图像，包括：
16.确定音素序列中各音素对应的唇形，获得唇形序列；
17.确定唇形序列中各唇形对应的合成面部图像。
18.在一个可能的实现方式中，获得合成面部图像序列，之后还包括：
19.将合成面部图像序列中的合成面部图像分别与预设的素材图像进行融合，获得融合图像序列；
20.将音频帧序列和合成面部图像序列进行同步，获得语音动画，包括：
21.将音频帧序列和融合图像序列进行同步，获得语音动画。
22.在一个可能的实现方式中，对音频信息进行语音识别，获得音频信息的音素序列，包括：
23.获得音频信息的初始翻译文本，根据初始翻译文本确定音频信息的语种；
24.若音频信息的语种为目标语种，则从初始翻译文本中获取待校正的分词结果以及分词结果中的多音字；
25.从多音字中筛选出正确的多音字，将正确的多音字填充至待校正的分词结果中，获得正确的分词结果；
26.获取正确的分词结果的标准读音，通过预设的声学模型对标准读音进行音素识别，获得音频信息的音素序列。
27.在一个可能的实现方式中，获得音频信息的初始翻译文本，包括：
28.检测并消除音频信息中的直流偏移并对消除直流偏移后的音频信息进行重采样，获得重采样后的音频信息；
29.对重采样后的音频信息进行人声检测，获得音频信息中的人声音频帧；
30.对人声音频帧进行语音识别，获得初始翻译文本。
31.在一个可能的实现方式中，获取并显示包括目标用户唇形变化的图像的语音动画，包括：
32.将目标面部图像和音频信息输入至在终端本地运行的语音动画安装包，获得语音动画安装包输出的语音动画；
33.其中，语音动画安装包通过以下步骤生成：
34.获取用于根据目标面部图像和音频信息，获得语音动画的程序代码；
35.利用交叉工具链对程序代码进行编译，获得针对目标操作系统运行的静态库，交叉工具链为针对待生成的语音动画安装包对应的交叉编译环境；
36.定义静态库的对外接口和头文件，生成语音动画安装包。
37.第二方面，提供了一种语音动画的合成装置，包括：
38.目标面部图像获取模块，用于显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，获得目标面部图像；
39.音频信息获取模块，用于显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户录入的、与跟读信息对应的音频信息；
40.语音动画展示模块，用于获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，目标用户唇形变化的图像是根据目标面部图像中的唇形和音频信息得到的。
41.在一个可能的实现方式中，合成装置还包括：语音动画合成模块，具体的，语音动画合成模块包括：
42.合成面部图像生成子模块，用于获取至少一种样本唇形，样本唇形用于表达至少一种音素的发音；根据样本唇形对目标面部图像中目标用户的唇形进行更新，获得合成面部图像，合成面部图像中目标用户的唇形用于表达相应的样本唇形表达的音素的发音；
43.语音识别子模块，用于对音频信息进行语音识别，获得音频信息的音素序列，音素序列中包括音频信息中至少一个时间点对应的音素；
44.图像序列子模块，用于确定与音素序列中各音素对应的合成面部图像，并依据各个合成面部图像获得目标用户唇形变化的合成面部图像序列；
45.同步子模块，用于获取音频信息中音素序列对应的音频帧序列，根据音频帧序列在音频信息中的时间信息，将音频帧序列和合成面部图像序列进行同步，生成语音动画。
46.在一个可能的实现方式中，图像序列子模块包括：
47.唇形序列单元，用于确定音素序列中各音素对应的唇形，获得唇形序列；
48.图像对应单元，用于确定唇形序列中各唇形对应的合成面部图像。
49.在一个可能的实现方式中，语音动画合成模块还包括：
50.融合序列子模块，用于将合成面部图像序列中的合成面部图像分别与预设的素材图像进行融合，获得融合图像序列；
51.相应的，同步子模块用于将音频帧序列和融合图像序列进行同步，获得语音动画。
52.在一个可能的实现方式中，语音识别子模块包括：
53.初始翻译单元，用于获得音频信息的初始翻译文本，根据初始翻译文本确定音频信息的语种；
54.分词单元，用于若确定音频信息的语种为目标语种，则从初始翻译文本中获取待校正的分词结果以及分词结果中的多音字；
55.校准单元，用于从多音字中筛选出正确的多音字，将正确的多音字填充至待校正的分词结果中，获得正确的分词结果；
56.音素识别单元，用于获取正确的分词结果的标准读音，通过预设的声学模型对标准读音进行音素识别，获得音频信息的音素序列。
57.在一个可能的实现方式中，初始翻译单元包括：
58.预处理单元，用于检测并消除音频信息中的直流偏移并对消除直流偏移后的音频信息进行重采样，获得重采样后的音频信息；
59.人声检测单元，用于对重采样后的音频信息进行人声检测，获得音频信息中的人声音频帧；
60.语音识别单元，用于对人声音频帧进行语音识别，获得初始翻译文本。
61.在一个可能的实现方式中，语音动画展示模块具体用于：将目标面部图像和音频信息输入至在终端本地运行的语音动画安装包，获得语音动画安装包输出的语音动画；
62.在一个可能的实现方式中，合成装置还包括安装包生成模块，安装包生成模块包括：
63.代码模块单元，用于获取用于根据目标面部图像和音频信息，获得语音动画的程序代码；
64.编译单元，用于利用交叉工具链对程序代码进行编译，获得针对目标操作系统运行的静态库，交叉工具链为针对待生成的语音动画安装包对应的交叉编译环境；
65.定义单元，用于定义静态库的对外接口和头文件，生成语音动画安装包。
66.第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面所提供的方法的步骤。
67.第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
68.第五方面，本发明实施例提供一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现如第一方面所提供的方法的步骤。
69.本发明实施例提供的语音动画的合成方法、装置、电子设备及存储介质，通过显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，为生成目标用户唇形编号的图像奠定基础，获得目标面部图像，显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户输入的、与跟读信息对应的音频信息，获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，使得用户在进行语言学习时，能够显示用户本人的唇形随音频信息的内容同步变化的语音动画，由于语音动画中的唇形是根据预设的、与标准读音对应的样本唇形生成的，语音动画的显示效果更加逼真且唇形更加贴近标准发音时的唇形，因此用户能够根据语音动画更准确地练习发音以及发音时的唇形，提高语言学习的兴趣和效率。
附图说明
70.为了更清楚地说明本技术实施例中的技术方案，下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
71.图1为本技术实施例提供的实施环境的示意图；
72.图2为本技术一个实施例的语音动画的合成方法的流程示意图；
73.图3为本技术实施例由原始唇形更新为对应不同发音的唇形的示意图；
74.图4a为本技术实施例显示的采集面部图像的界面的示意图；
75.图4b为本技术实施例显示的跟读信息前的准备界面的示意图；
76.图4c为本技术实施例显示的跟读信息的界面的示意图；
77.图4d为本技术另一个实施例显示的跟读信息的界面的示意图；
78.图4e为本技术实施例显示的跟读完成后的界面的示意图；
79.图4f为本技术实施例显示的语音动画的界面的示意图；
80.图5为本技术实施例的模特发声英语音素时的面部图像的示意图；
81.图6为申请实施例的获得合成面部图像序列的流程示意图；
82.图7本技术实施例提供的一种语音动画的合成装置的结构示意图；
83.图8本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
84.下面详细描述本技术的实施例，实施例的示例在附图中示出，其中自始至终相同
或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本技术，而不能解释为对本发明的限制。
85.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本技术的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
86.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
87.首先对本技术涉及的几个名词进行介绍和解释：
88.1)人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
89.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
90.2)计算机视觉技术(computer vision，cv)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
91.3)机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术
92.4)rhubarb lip sync是基于cmu sphinx语音识别系统的命令行工具，将音素与唇形进行匹配，并根据时间线，输出动画。
93.本技术提供的语音动画的合成方法、装置、电子设备和计算机可读存储介质，旨在
解决现有技术的如上技术问题。
94.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
95.请参阅图1，其示出了本技术一个实施例提供的实施环境的示意图。该实施环境可以包括：终端110和服务器120。
96.终端110安装和运行应用程序111，该应用程序可以是实现语音动画合成的程序，当终端110运行应用程序111时，终端110的屏幕上显示应用程序111的用户界面。该应用程序111可以是语言教学程序、多媒体娱乐程序、摄影程序、社交通讯程序等等。在本实施例中，以该应用程序111是语言教学程序来举例说明。终端110是用户112使用的终端，应用程序111显示图像采集控件，响应于图像采集控件的触发操作，采集用户112的面部图像，获得目标面部图像，显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集用户输入的、与跟读信息对应的音频信息，获取并显示包括用户唇形变化的图像的语音动画，用户的唇形变化与音频信息的内容同步，用户唇形变化的图像是根据目标面部图像中的唇形和音频信息得到的。
97.可选地，终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。终端110的设备类型包括：智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(moving picture experts group audio layer iii，mp3)播放器、动态影像专家压缩标准音频层面4(moving picture experts group audio layer iv，mp4)播放器、膝上型便携计算机和台式计算机中的至少一种。
98.图1中仅示出了一个终端，但在不同实施例中存在多个其它终端可以接入服务器120。可选地，还存在一个或多个终端是开发者对应的终端，在该终端上安装应用程序的开发和编辑平台，开发者可在该终端上对应用程序进行编辑和更新，并将更新后的应用程序安装包通过有线或无线网络传输至服务器120，终端110可从服务器120下载应用程序安装包实现对应用程序的更新。
99.第一终端110以及其它终端通过无线网络或有线网络与服务器120相连。
100.服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
101.本技术实施例的服务器的执行方法可以以云计算(cloud computing)的形式完成，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。
102.作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为iaas(infrastructure as a service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。
103.按照逻辑功能划分,在iaas(infrastructure as a service，基础设施即服务)层上可以部署paas(platform as a service,平台即服务)层，paas层之上再部署saas(software as a service,软件即服务)层，也可以直接将saas部署在iaas上。paas为软件运行的平台，如数据库、web容器等。saas为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，saas和paas相对于iaas是上层。
104.服务器120用于为应用程序提供后台服务。可选地，服务器120承担主要计算工作，终端承担次要计算工作；或者，服务器120承担次要计算工作，终端承担主要计算工作；或者，服务器120和终端之间采用分布式计算架构进行协同计算。
105.在一个示意性的例子中，服务器120包括存储器121、处理器122、用户账号数据库123、图像处理服务模块124、面向用户的输入/输出接口(input/output interface，i/o接口)125。其中，处理器122用于加载服务器120中存储的指令，处理用户账号数据库123和图像处理服务模块124中的数据；用户账号数据库123用于存储终端110以及其它终端所使用的用户账号的数据，比如用户账号的头像、用户账号的昵称、用户账号的学习记录，用户账号所在的服务区；图像处理服务模块124用于提供多个教材供用户进行学习，比如口语教学、单词记忆、歌曲学习等；面向用户的i/o接口125用于通过无线网络或有线网络和第一终端110和/或第二终端130建立通信交换数据。
106.请参阅图2，其示例性示出了本技术一个实施例的语音动画的合成方法的流程示意图，包括：
107.s101、显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，获得目标面部图像。
108.本技术实施例通过显示图像采集控件供用户进行交互，本技术对用户触发图像采集控件的方式不作具体的限定，例如可以是单击、双击、长按、滑动等等。当用户触发图像采集控件后，通过调用终端上或终端连接的图像采集设备，比如摄像头或者摄像头采集组件，对目标用户的面部图像进行采集，实时获取包含人脸的图像，作为目标面部图像。目标人脸图像是指人脸质量达到指定条件的人脸图像，比如，该指定条件可以是指该人脸的清晰度达到清晰度阈值等等。
109.可选的，为了更快捷地对目标用户的唇形调整为对应不同音素的唇形，本技术实施例的目标面部图像中目标用户可以是在面无表情或者微笑时拍摄的。进一步地，本技术在采集目标用户的面部图像后，还可以对目标图像中的目标人脸进行面部属性检测，比如，该面部属性可以包括情绪等属性。若确定目标用户的情绪为微笑、无表情等等，则确定面部图像中的唇形符合预设条件。
110.s102、显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户输入的、与跟读信息对应的音频信息。
111.本技术实施例对于步骤s101和s102的执行顺序不作具体限定，例如可以是步骤s101先于步骤s102，也可以是步骤s102先于步骤s101等等。通过显示跟读信息，使得目标用户可以对跟读信息进行朗读，在朗读之前，响应于目标用户对跟读空间的触发操作，通过调用终端上或终端连接的音频采集设备，比如麦克风或者其他音频采集组件，对目标用户在朗读跟读信息时的音频进行采集。
112.s103、获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变
化与音频信息的内容同步，目标用户唇形变化的图像是根据目标面部图像中的唇形和音频信息得到的
113.通过采集目标面部图像和音频信息，可以通过计算机视觉技术，例如rhubarb lip sync等方式，以目标面部图像为基础，处理为对应不同唇形的图像，在该图像中，人脸的主体仍然为目标用户，但唇形由目标面部图像中的原始唇形，更新成了对应不同发音的唇形。
114.请参见图3，其示例性地示出了本技术实施例由原始唇形更新为对应不同发音的唇形的示意图，如图所示，原始唇形是用户未发声时的唇形，嘴唇接近闭合，不同的发音特点导致唇形也会不同，比如在发a(啊)音时，嘴唇自然张大，在发o(哦)音是，嘴唇成圆形，在发e(鹅/衣)音时，嘴微张呈扁平状，在发u(屋/于)音时，嘴唇拢圆，突出成小孔。
115.在获取目标用户的不同唇形的图像后，进一步将不同唇形的图像与音频信息的内容进行同步，即可获得目标用户唇形变化的图像的语音动画。
116.本技术实施例的语音动画的合成方法，通过显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，为生成目标用户唇形编号的图像奠定基础，获得目标面部图像，显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户输入的、与跟读信息对应的音频信息，获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，使得用户在进行语言学习时，能够显示用户本人的唇形随音频信息的内容同步变化的语音动画，由于语音动画中的唇形是根据预设的、与标准读音对应的样本唇形生成的，语音动画的显示效果更加逼真且唇形更加贴近标准发音时的唇形，因此用户能够根据语音动画更准确地练习发音以及发音时的唇形，提高语言学习的兴趣和效率。
117.下面结合图4a-图4f进一步了解本技术实施例语音动画的合成方法。
118.请参见图4a，其示例性地示出了本技术实施例显示的采集面部图像的界面的示意图，如图所示，该界面中的虚线框401用于引导用户在拍摄面部图像时，将人脸的尺寸和位置与虚线框相匹配，以避免采集不到用户的完整面部或者采集到的面部尺寸过小而无法清晰识别到用户的唇形的问题，界面中还包括摄像头切换控件403，用户通过操作，例如点击该摄像头切换控件403，能够实现终端中前置摄像头和后置摄像头的切换，当切换为前置摄像头，则采集到的目标用户一般是指操作终端的用户，当切换为后置后摄像头时，采集到的目标用户一般不是操作终端的用户。用户通过点击界面中的图像采集控件402，即可完成目标面部图像的采集，
119.图4b示例性地示出了本技术实施例显示的跟读信息前的准备界面的示意图，该图中提示信息404用于提示用户是否做好朗读的准备，提示信息的具体内容可以是图中的“ready？”，还可以是诸如“准备好了吗？”、“可以开始了吗”等等。该图中还是显示确认控件405，当用户对确认控件405进行操作时，表示用户已经准备好进行朗读。本技术实施例的确认控件405可以是单击、双击、长按或者滑动等方式进行操作，优选地，确认控件405以长按或者滑动的方式进行操作，这样就可以避免用户因误触而进行后续跟读。图中确认控件405即以滑动方式进行触发操作，当用户(图中以手进行表示)按住确认控件405，并将确认控件405从滑动槽406的左侧移动到右侧时，即确认用户准备好进行朗读。
120.可选的，本技术实施例的显示跟读信息前的准备界面也可以不显示确认控件，而是通过倒计时的方式进入显示跟读信息的界面，倒计时的具体时间信息可以在准备界面中
显示，以提醒用户尽快准备好进行跟读。
121.图4c示例性地示出了本技术实施例显示的跟读信息的界面的示意图，如图所示，该界面中的跟读信息显示区406用于显示跟读信息，跟读信息除了文字，还可以包括照片、图画、动画等对应文字的信息，从而提高用户的认知水平，提升跟读的乐趣，例如图中跟读信息显示区中的文字为dog，还进一步展示了狗的照片，当用户对跟读控件407触发操作时，开始采集目标用户输入的与跟读信息对应的音频信息。当具有多条跟读信息时，该界面中还包括跟读信息条目指示区408，用于展示实时的跟读信息在总跟读信息中的排序，以图4c为例，从跟读信息条目指示区408可以看出跟读信息“dog”是第一个跟读信息。
122.图4d示例性地示出了本技术另一个实施例显示的跟读信息的界面的示意图，图4d相比图4a，在跟读信息显示区406显示了新的跟读信息“cat”以及猫的图案，相应的跟读信息条目指示区408也更新为第二个跟读信息，并且针对第一个跟读信息，还进一步通过五角星图案来表示跟读已完成，可以理解的是，在实际应用中也可以通过其他形式来标识已跟读完成的跟读信息，本技术实施例不作具体的限定。
123.图4e示例性地示出了本技术实施例显示的跟读完成后的界面的示意图，如图所示，该界面中显示了多个展示控件409，每个展示控件对应一个已完成的跟读信息，展示控件409除了展示对应的已完成的跟读信息，还进一步包括播放控件4091和第一重读控件4092，当用户对播放控件4091触发操作时，会播放用户朗读对应的跟读信息的音频信息，当用户对重读控件4092触发操作时，会进一步调整至显示跟读信息的界面，当用户重新朗读后，会将重新采集的用户的音频信息覆盖上一次采集的音频信息。界面中还展示了第二重读控件410和动画生成控件411，当用户对第二重读控件410触发操作时，表示用户需要对所有的跟读信息进行重读，那么会进一步跳转至第一个跟读信息的界面，当用户对动画生成控件411触发操作时，则根据目标面部图像和音频信息生成目标用户唇形变化的图像的语音动画，由于这一过程较为耗时，则可以在跳转至显示语音动画的界面之前，显示过渡画面，过渡画面可以显示“视频正在生成中”等字样，还可以显示视频的生成进度的百分比，以便用户更准确地了解到音频动画的生成进度。
124.图4f示例性地示出了本技术实施例显示的语音动画的界面的示意图，如图所示，该界面中包括用于播放语音动画的播放区域412，通过对播放区域412触发操作，能够播放或暂停播放语音动画。从图中的语音动画可以看出，语音动画中不止包括用户的面部图像，还包括了预设的背景素材，图中为具有目标用户的面部图像的虚拟角色与小熊进行跳舞的背景素材，本技术将目标用户唇形变化的图像和素材进行图像融合，能够获得更有趣味的语音动画。图4f所示的界面中还进一步包括更换头像控件413、重读语音控件414、分享控件415以及保存控件416，具体的，当更换头像控件414触发操作时，则跳转至图4a所示的界面以重新采集头像，当重读语音控件414触发操作时，则跳转至第一个跟读信息的界面，以重新采集音频信息，当分享控件415触发操作时，进一步显示具有分享权限的其他应用程序，以将语音动画分享至其他应用程序，当保存控件417触发操作时，则将语音动画保存至终端本地。
125.在上述各实施例的基础上，作为一种可选实施例，获得语音动画的方式，包括：
126.s201、获取至少一种样本唇形，根据样本唇形对目标面部图像中目标用户的唇形进行更新，获得合成面部图像，合成面部图像中目标用户的唇形用于表达相应的样本唇形
表达的音素的发音；
127.本技术实施例的样本唇形用于表达至少一种音素的发音，具体可以预先采集模特发声音素时的面部图像，然后从该面部图像中截取唇形的区域，获得样本图像。请参见图5，其示例性地示出了本技术实施例的模特发声英语音素时的面部图像的示意图，图5共展示了模特的9种唇形的示意图，具体的：
128.a类唇形是在发声辅音“p”、“b”和“m”时的唇形，这和o型嘴几一样，只是嘴唇之间有轻微的压力。
129.b类唇形是在发声“k”、“s”和“t”等辅音时的唇形，在发声时需要张开嘴巴，咬紧牙关，还可以用于一些元音，例如bee中的“ee”。
130.c类唇形是在发声“eh”和“ae”等元音时的唇形，根据语境的不同，也用于一些辅音，另外，在从a类唇形或b类唇形过渡到d类唇形时，c类唇形也用作中间位置。
131.d类唇形是在例如发声father中的“aa”等元音时的唇形。
132.e类唇形是略圆嘴，是在例如发声off中的“ao”和bird中的“er”时的唇形，e类唇形的嘴巴张卡的程度要小于c类唇形，另外，在从c类唇形或d类唇形过渡到f类唇形时，e类唇形也用作中间位置。
133.f类唇形是皱起来的唇形，是在例如发声you中的“uw”、show中的“ow”和way中“w”时的唇形。
134.g类唇形，上边的牙齿接触下唇，是在例如发声for中“f”和very中的“v”时的唇形。
135.h类唇形用于发长“l”的音，舌头在上齿后抬起，嘴巴至少应像c类唇形长得很开，但小于d类唇形嘴巴张开的程度。在发声“p”、“b”和“m”时的唇形。
136.x类唇形一般出现在发音的空闲位置，用于讲话的停顿，该唇形与a类唇形几乎相同，但嘴唇间的压力稍小，因为此时嘴唇应该处于关闭且放松的状态。
137.通常，唇形可以包括多个关键点，在本技术实施例中称为“唇形关键点”，该多个关键点描述唇形的轮廓。作为一种实现方式，关键点可以分布在唇形的轮廓线上，具体可分布在两个嘴角、上下嘴唇的外边缘以及嘴唇内侧的边缘处。除了该例子之外，也可以采用其他数量的关键点。
138.本技术通过确定样本唇形中各唇形关键点的距离关系、角度关系、开合程度、唇部占模特面部的比例等等信息，作为相应样本唇形的唇形特征，然后根据该唇形特征对应调整目标面部图像中目标用户的唇形关键点的唇形特征，使得目标用户的调整后的唇形特征与样本唇形的唇形特征的相似度符合预设条件，即可获得合成面部图像。
139.s202、对音频信息进行语音识别，获得音频信息的音素序列，音素序列中包括音频信息中至少一个时间点对应的音素。
140.实践中，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。以汉语文字作为示例，汉语音节
ā
(啊)一个音素，
à
i(爱)有两个音素，d
ā
i(呆)有三个音素等。具体的，本技术实施例采集的是时域上的语音信号，为了便于对语音信号进行分析，需要将时域上的语音信号转换为频域上的语音信号，本技术的声学特征可以是频域上的声学特征，声学特征可以使用语谱图来表示。将声学特征输入到预先训练的音素识别模型中得到音素序列，音素序列是由多个音素组成的序列。
141.s203、确定与音素序列中各音素对应的合成面部图像，并依据各个合成面部图像获得目标用户唇形变化的合成面部图像序列。
142.具体的，本技术实施例可以确定音素序列中各音素对应的唇形，获得唇形序列，然后确定唇形序列中各唇形对应的合成面部图像，将确定的合成面部图像按照音素序列中各音素的排列顺序进行排列，即可获得目标用户唇形变化的合成面部图像序列。
143.请参见图6，其示例性地示出了本技术实施例的获得合成面部图像序列的流程示意图，如图所示，每一竖条(如611)代表一个音素，所有竖条根据音素在音频信息中的出现时刻进行排序，即获得音素序列610，合成面部图像集620中包括了预先针对各音素获得的对应的合成面部图像，包括根据图5所示的9种样本唇形合成的合成面部图像，表示为a’～h’以及x’，因此可以对音素序列610中的每个音素确定对应的合成面部图像，从而获得合成面部图像序列630，该序列中第一个合成面部图像为a’，表示音素序列中第一个音素对应的合成面部图像为a’。
144.s204、获取音频信息中音素序列对应的音频帧序列，根据音频帧序列在音频信息中的时间信息，将音频帧序列和合成面部图像序列进行同步，生成语音动画。
145.为了保证目标用户的唇形编号与声音同步，因此本技术实施例需要确定音频信息中的音素序列对应的音频帧序列，一般地，音频信息中的一帧音频帧对应一个音素，所以音素序列对应的音频帧序列也是唯一的，进一步根据音频帧序列在音频信息中的时间信息，即可确定目标用户的每一唇形的持续时间，从而获得语音动画。
146.作为一种可选实施例，上述步骤s201可以由图1所示的服务器执行，步骤s202～s204由终端执行，也即当终端获取目标面部图像后，将目标面部图像发送至服务器，服务器根据预先获取的样本唇形，对目标面部图像中目标用户的唇形进行更新，获得合成面部图像，并返回至终端，终端在本地对音频信息进行雨衣语音识别，获得音频信息的音素序列，确定与音素序列中各音素对应的合成面部图像，并依据各个合成面部图像获得目标用户唇形变化的合成面部图像序列；获取音频信息中音素序列对应的音频帧序列，根据音频帧序列在音频信息中的时间信息，将音频帧序列和合成面部图像序列进行同步，生成语音动画，由于相对最耗时的获得合成面部图像的步骤由服务器完成，因此终端侧的处理压力更小，生成语音动画的总耗时也相对较小，更适合于语言教学场景中的电子设备(例如学习机)的运算能力较低的现状。
147.在上述各实施例的基础上，作为一种可选实施例，获得合成面部图像序列，之后还包括：
148.将合成面部图像序列中的合成面部图像分别与预设的素材图像进行融合，获得融合图像序列。
149.本技术实施例为了进一步增加语音动画的趣味性，还需要将合成面部图像序列中的合成面部图像分别与预设的素材图像进行融合，可以理解的是，具体的融合方式可以是将合成面部图像叠加至素材图像中的预设位置。
150.将音频帧序列和合成面部图像序列进行同步，获得语音动画，包括：将音频帧序列和融合图像序列进行同步，获得语音动画。
151.应当理解的是，由于融合图像序列中的每一帧融合图像是与合成面部图像一一对应的是，因此可以通过上述方法将音频帧序列和融合图像序列进行同步，获得语音动画，本
申请实施例不再赘述。
152.在上述各实施例的基础上，作为一种可选实施例，对音频信息进行语音识别，获得音频信息的音素序列，包括：
153.s301、获得音频信息的初始翻译文本，根据初始翻译文本确定音频信息的语种；
154.本技术实施例可以通过语音识别技术获得音频信息的初始翻译文本，由于一些语种中的字/词存在多音字的情况，而多音字可能会导致音频信息的翻译结果不准确的问题，因此本技术进一步确定音频信息的语种，可选的，目标语种为英语。
155.s302、若音频信息的语种为目标语种，则从初始翻译文本中获取待校正的分词结果以及分词结果中的多音字；
156.s303、从多音字中筛选出正确的多音字，将正确的多音字填充至待校正的分词结果中，获得正确的分词结果；
157.s304、获取正确的分词结果的标准读音，通过预设的声学模型对标准读音进行音素识别，获得音频信息的音素序列。
158.声学模型为由满足发音条件的音频训练得到的，声学模型具有能够对语音进行音素识别的能力，即声学模型是计算声学特征属于各个音素的后验概率。
159.在本发明实施例中还提供了一种创建声学模型的方法，包括：
160.s401、获得训练样本，训练样本为标准读音的音频；标准读音的是指发音条件良好的音频，该发音条件可以表征发音清晰度的条件，音频速率的条件等。
161.s402、对训练样本的音频进行分帧，并对分帧后的音频进行特征提取，得到音频特征；
162.s403、生成训练样本的音频的音素标签；
163.s404、将音频特征与音素标签进行匹配，得到处理后的训练样本；
164.s405、通过神经网络模型对训练样本进行迭代训练，获得声学模型。
165.训练样本可以是由若干个小时(如100小时)以上的发音良好的音频训练而成。音频先分帧，然后提取音频特征。例如，每25ms一帧，帧移10ms，特征为40维梅尔倒谱系数(mel-scale frequency cepstralcoefficients，简称mfcc)。
166.音频特征提取完成后，将音频文本按字典展开成音素，将每帧按时间平均分割打上音素标签，音频特征和音素标签对应后，用初始模型进行训练，当迭代到一定轮数时，停止训练，得到最终的声学模型。
167.在上述各实施例的基础上，作为一种可选实施例，获得音频信息的初始翻译文本，包括：
168.s501、检测并消除音频信息中的直流偏移并对消除直流偏移后的音频信息进行重采样，获得重采样后的音频信息。
169.可听假象为被引入到从音频装置输出的声音中的可感知噪声，其常常由音频装置自身的操作引起。可听假象通常是不合需要的且表示与输入到装置的音频的保真度的偏离。喀嗒声为特定类型的可听假象，喀嗒声为由扬声器产生的令人不快的可听假象，喀嗒声通常由急剧的瞬时电压(例如，当音频功率放大器在操作模式(例如断电模式与通电模式)之间转变时可能出现的跨越扬声器的直流偏移)引起。本技术实施例通过检测音频信息中的直流偏移，能够消除包括喀嗒声在内的可听假象，获得清晰度更高的音频信息。具体的，
本技术实施例可以利用数字滤波器对音频信息进行直流偏移的消除。比如说，使用一个无限响应高通滤波器来消除直流偏移。
170.s502、对重采样后的音频信息进行人声检测，获得音频信息中的人声音频帧。
171.具体地，本技术实施例可以通过预先训练的人声检测模型对重采样后的音频信息中人的信息进行检测。比如，把音频数据输入到人声检测模型，人声检测模型对该音频数据进行人声检测，输出检测结果，该检测结果可以包括人声出现的音频时间段以及人声音频帧等等。在实际应用中，还可以根据需要包括其他的参数等，本实施例不做限制。
172.s503、对人声音频帧进行语音识别，获得初始翻译文本。
173.在上述各实施例的基础上，作为一种可选实施例，获取并显示包括目标用户唇形变化的图像的语音动画，包括：
174.将目标面部图像和音频信息输入至在终端本地运行的语音动画安装包，获得语音动画安装包输出的语音动画。
175.本技术实施例通过编译语音动画安装包，并将语音动画安装包运行在终端本地，使得目标用户唇形变化的图像的语音动画能够在终端本地生成，克服了rhubarb lip sync作为命令行工具，无法应用于移动端、适合开发人员使用，使用门槛高的弊端。
176.其中，语音动画安装包通过以下步骤生成：
177.s601、获取用于根据目标面部图像和音频信息，获得语音动画的程序代码；
178.s602、利用交叉工具链对程序代码进行编译，获得针对目标操作系统运行的静态库，交叉工具链为针对待生成的语音动画安装包对应的交叉编译环境。
179.本技术实施例的交叉工具链为针对待生成的语音动画安装包对应的交叉编译环境，目标平台可以包括安卓平台和ios平台。即本发明实施例中的交叉工具链实现的是跨平台编译。
180.在编译过程中，所有功能和代码都是在linux机子上完成，它是unix操作系统，用户终端是安卓操作平台或者iso平台，他们基于的操作系统是android和ios系统就需要跨平台编译。
181.跨平台编译先要搭建交叉编译环境，搭建交叉编译环境，即安装、配置交叉编译工具链。在该环境下编译出嵌入式linux系统所需的操作系统、应用程序等，然后再上传到目标机上。安卓各版本和ios各版本都需要各自的交叉环境。
182.定义静态库的对外接口和头文件，生成语音动画安装包。
183.将语音动画的程序代码跨平台编译成能在安卓开发平台和安卓开发平台运行的静态库，然后设计安卓和ios接口完成部分，定义静态库对外接口和头文件，完成安卓和ios调用本地化语音动画合成功能。
184.在本发明实施例中生成语音动画安装包后，需要对语音动画安装包进行测试，然后依据测试结果判断是否对语音动画安装包进行发布还是调试修改。其中，该测试过程是指将语音动画安装包在本地终端进行执行时获得的测试结果与服务端的测试结果进行比较，判断该安装包是否可用。
185.测试部分主要是判断本地语音动画合成功能是否可用，可用包括三个方面稳定性，准确性，和低延迟。稳定性是程序运行不能中途闪退，可以将一千幅目标编码图像和语音信息进行本地语音动画合成，发现没有出现任何闪退，而准确性是评价本地合成的语音
动画的结果和服务器合成的语音动画的结果没有偏差，我们用一千部语音动画进行测试，得到平均分差在可容忍的分数以内。延迟测试是统计本地语音动画合成的延迟和服务器语音动画合成延迟的偏差，最后本地的平均延迟明显低于服务器的平均延迟。在本发明实施例中生成的语音动画安装包可以运行在用户终端上无需依赖网络。
186.本技术实施例提供了一种语音动画的合成装置，如图7所示，该装置可以包括：目标面部图像获取模块101、音频信息获取模块102和语音动画展示模块103，具体地：
187.目标面部图像获取模块101，用于显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，获得目标面部图像；
188.音频信息获取模块102，用于显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户录入的、与跟读信息对应的音频信息；
189.语音动画展示模块103，用于获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，目标用户唇形变化的图像是根据目标面部图像中的唇形和音频信息得到的。
190.本发明实施例提供的语音动画的合成装置，具体执行上述方法实施例流程，具体请详见上述语音动画的合成方法实施例的内容，在此不再赘述。本发明实施例提供的语音动画的合成装置，通过显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，为生成目标用户唇形编号的图像奠定基础，获得目标面部图像，显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户输入的、与跟读信息对应的音频信息，获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，使得用户在进行语言学习时，能够显示用户本人的唇形随音频信息的内容同步变化的语音动画，由于语音动画中的唇形是根据预设的、与标准读音对应的样本唇形生成的，语音动画的显示效果更加逼真且唇形更加贴近标准发音时的唇形，因此用户能够根据语音动画更准确地练习发音以及发音时的唇形，提高语言学习的兴趣和效率。
191.在上述各实施例的基础上，作为一种可选实施例，合成装置还包括：语音动画合成模块，具体的，语音动画合成模块包括：
192.合成面部图像生成子模块，用于获取至少一种样本唇形，样本唇形用于表达至少一种音素的发音；根据样本唇形对目标面部图像中目标用户的唇形进行更新，获得合成面部图像，合成面部图像中目标用户的唇形用于表达相应的样本唇形表达的音素的发音；
193.语音识别子模块，用于对音频信息进行语音识别，获得音频信息的音素序列，音素序列中包括音频信息中至少一个时间点对应的音素；
194.图像序列子模块，用于确定与音素序列中各音素对应的合成面部图像，并依据各个合成面部图像获得目标用户唇形变化的合成面部图像序列；
195.同步子模块，用于获取音频信息中音素序列对应的音频帧序列，根据音频帧序列在音频信息中的时间信息，将音频帧序列和合成面部图像序列进行同步，生成语音动画。
196.在上述各实施例的基础上，作为一种可选实施例，图像序列子模块包括：
197.唇形序列单元，用于确定音素序列中各音素对应的唇形，获得唇形序列；
198.图像对应单元，用于确定唇形序列中各唇形对应的合成面部图像。
199.在上述各实施例的基础上，作为一种可选实施例，语音动画合成模块还包括：
200.融合序列子模块，用于将合成面部图像序列中的合成面部图像分别与预设的素材
图像进行融合，获得融合图像序列；
201.相应的，同步子模块用于将音频帧序列和融合图像序列进行同步，获得语音动画。
202.在上述各实施例的基础上，作为一种可选实施例，语音识别子模块包括：
203.初始翻译单元，用于获得音频信息的初始翻译文本，根据初始翻译文本确定音频信息的语种；
204.分词单元，用于若确定音频信息的语种为目标语种，则从初始翻译文本中获取待校正的分词结果以及分词结果中的多音字；
205.校准单元，用于从多音字中筛选出正确的多音字，将正确的多音字填充至待校正的分词结果中，获得正确的分词结果；
206.音素识别单元，用于获取正确的分词结果的标准读音，通过预设的声学模型对标准读音进行音素识别，获得音频信息的音素序列。
207.在上述各实施例的基础上，作为一种可选实施例，初始翻译单元包括：
208.预处理单元，用于检测并消除音频信息中的直流偏移并对消除直流偏移后的音频信息进行重采样，获得重采样后的音频信息；
209.人声检测单元，用于对重采样后的音频信息进行人声检测，获得音频信息中的人声音频帧；
210.语音识别单元，用于对人声音频帧进行语音识别，获得初始翻译文本。
211.在上述各实施例的基础上，作为一种可选实施例，语音动画展示模块具体用于：将目标面部图像和音频信息输入至在终端本地运行的语音动画安装包，获得语音动画安装包输出的语音动画；
212.在上述各实施例的基础上，作为一种可选实施例，合成装置还包括安装包生成模块，安装包生成模块包括：
213.代码模块单元，用于获取用于根据目标面部图像和音频信息，获得语音动画的程序代码；
214.编译单元，用于利用交叉工具链对程序代码进行编译，获得针对目标操作系统运行的静态库，交叉工具链为针对待生成的语音动画安装包对应的交叉编译环境；
215.定义单元，用于定义静态库的对外接口和头文件，生成语音动画安装包。
216.本技术实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：通过显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，为生成目标用户唇形编号的图像奠定基础，获得目标面部图像，显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户输入的、与跟读信息对应的音频信息，获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，使得用户在进行语言学习时，能够显示用户本人的唇形随音频信息的内容同步变化的语音动画，由于语音动画中的唇形是根据预设的、与标准读音对应的样本唇形生成的，语音动画的显示效果更加逼真且唇形更加贴近标准发音时的唇形，因此用户能够根据语音动画更准确地练习发音以及发音时的唇形，提高语言学习的兴趣和效率。
217.在一个可选实施例中提供了一种电子设备，如图8所示，图8所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相
连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本技术实施例的限定。
218.处理器4001可以是cpu(central processing unit，中央处理器)，通用处理器，dsp(digital signal processor，数据信号处理器)，asic(application specific integrated circuit，专用集成电路)，fpga(fieldprogrammable gate array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。
219.总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect，外设部件互连标准)总线或eisa(extended industry standard architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
220.存储器4003可以是rom(read only memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，ram(random access memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom(electrically erasable programmable read only memory，电可擦可编程只读存储器)、cd-rom(compact disc readonly memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。
221.存储器4003用于存储执行本技术方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。
222.本技术实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，通过显示图像采集控件，响应于图像采集控件的触发操作，采集目标用户的面部图像，为生成目标用户唇形编号的图像奠定基础，获得目标面部图像，显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户输入的、与跟读信息对应的音频信息，获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，使得用户在进行语言学习时，能够显示用户本人的唇形随音频信息的内容同步变化的语音动画，由于语音动画中的唇形是根据预设的、与标准读音对应的样本唇形生成的，语音动画的显示效果更加逼真且唇形更加贴近标准发音时的唇形，因此用户能够根据语音动画更准确地练习发音以及发音时的唇形，提高语言学习的兴趣和效率。
223.本技术实施例提供了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如前述方法实施例所示的内容。与现有技术相比，通过显示图像采集控件，响应于图像采集控件的触发操作，采集目
标用户的面部图像，为生成目标用户唇形编号的图像奠定基础，获得目标面部图像，显示跟读信息和跟读控件，响应于跟读控件的触发操作，采集目标用户输入的、与跟读信息对应的音频信息，获取并显示包括目标用户唇形变化的图像的语音动画，目标用户的唇形变化与音频信息的内容同步，使得用户在进行语言学习时，能够显示用户本人的唇形随音频信息的内容同步变化的语音动画，由于语音动画中的唇形是根据预设的、与标准读音对应的样本唇形生成的，语音动画的显示效果更加逼真且唇形更加贴近标准发音时的唇形，因此用户能够根据语音动画更准确地练习发音以及发音时的唇形，提高语言学习的兴趣和效率。
224.应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
225.以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

语音动画的合成方法、装置、电子设备及存储介质与流程

相关文献

最热文献