农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种语言正音系统方法及设备与流程

2021-08-13 19:22:00 来源：中国专利 TAG：正音实施方式语言方法

本发明实施方式涉及软件领域，更具体地，本发明的实施方式涉及一种语言正音系统方法及设备。

背景技术：

语言是人类重要的交流媒介，沟通表达能力的缺失会严重影响日常生活。近年来，随着物质经济的不断提高，我们面临的社会压力也在不断增加，导致抑郁症和自闭症等精神类疾病患者的不断增加，此类重症患者由于语言功能器官的退化，某些发音器官丧失协调机能，造成语言表达能力受损或下降。此外，老龄人口的帕金森等神经类疾病也会造成语言表达能力下降，为生活带来巨大的负担。

仅依靠医生治疗方式恢复患者语言表达能力需要耗费大量精力。而通过患者跟读的方式来恢复表达能力，一方面患者不知道自己的发音错误，另一方面由于发音是涉及多器官的协同动作，患者尽管知道自己发音错误，但不知道怎样改正自己错误的发音方式，因此，人们急需一种语言正音系统及设备。

技术实现要素：

本发明的目的在于提供一种语言正音系统方法及设备，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种语言正音系统，语言正音系统包括采集模块、存储模块、分析模块和输出模块，采集模块与存储模块连接，存储模块与分析模块连接，分析模块与输出模块连接；

采集模块用于采集用户正音前的第一数据，第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像，语音数据包括音素、单词、短语、音高、音强以及音长，面部动作图像包括发音口型和舌头位置，分析模块用于提取第一数据特征，将第一数据特征与标准发音特征进行比对，提供针对性的正音策略，第一数据特征包括语音数据特征和面部动作图像特征，语音数据特征包括音高、音强以及音长，面部动作图像特征包括发音口型和舌头位置，输出模块用于输出正音策略，正音策略包括正音语音数据以及发音动作矫正图像，正音语音数据包括音高、音强和音长。

本发明使用采集模块中的拾音设备采集用户发音时的语音数据，使用采集模块中的图像采集设备采集发音过程中的面部动作图像数据，分析模块提取用户语音数据特征和用户面部动作特征，将用户语音数据特征和用户面部动作特征与标准发音特征进行比对，提供针对性的正音策略，输出模块将正音策略以声音和图像的形式呈现给用户，供用户进行正音学习，有效避免了用户知道自己发音错误但不知如何改正的问题，本发明可搭载电脑端、手机端或其他移动设备上，能够满足用户日常需求，提高用户正音效率。

进一步的，存储模块包括标准发音特征存储单元、用户发音存储单元、用户档案存储单元以及正音策略存储单元；

标准发音特征存储单元用于存储标准发音特征，标准发音特征包括音高、音强、音长、发音口型以及舌头位置，用户发音存储单元用于存储用户第一数据，用户档案存储单元用于存储用户个人档案，用户个人档案包括用户语音数据和用户人脸图像，正音策略存储单元用于存储用户正音策略。

本发明在用户使用系统之前录入标准发音特征，将标准发音特征存储在标准发音特征存储单元，当分析模块为用户提供正音策略时，可直接与本地标准发音特征进行比对，无需借助其他平台，节省了用户等待正音策略时间，提供系统正音效率，本发明设置用户档案存储单元能够记录用户人脸图像与用户语音数据，将用户人脸图像与用户语音数据绑定建立用户个人档案，能够在嘈杂环境下准确识别使用用户，确定用户发音，为用户提供精准正音策略。

进一步的，分析模块包括标准发音特征提取单元、用户档案比对单元、短时发音特征提取单元、发音特征比对单元以及正音策略传输单元；

标准发音特征提取单元用于提取标准发音特征和发音动作，用户档案比对单元用于比对第一数据中用户人脸图像和用户语言数据与用户档案存储单元存储的信息是否匹配，若匹配成功，则进行正音分析，若匹配失败，则提醒用户重新发音，短时发音特征提取单元用于分帧处理用户语音数据和发音动作图像数据，提取用户短时发音特征，发音特征比对单元用于比对用户短时发音特征与标准发音特征，正音策略传输单元用于将发音特征比对单元的比对结果传输给正音策略存储单元存储以及输出模块输出。

本发明分析模块能够从本系统存储模块提取标准发音特征，当用户发音需要进行正音纠正时，直接将用户发音特征与面部动作特征与标准发音特征进行比对，有效节省用户等待正音纠正时间，用户档案比对单元通过系统采集的人脸图像和语音数据，在为用户提供正音策略前判断语音数据和人脸图像是否为同一用户，避免识别错误提供错误的正音策略，提高用户正音效率。

进一步的，输出模块包括发音输出单元、动作输出单元和错误提醒单元；

发音输出单元用于输出语音正音指导，动作输出单元用于输出发音动作纠正指导，错误提醒单元用户提醒用户操作系统时存在不当操作，引导用户正确使用该系统。

本发明输出模块在输出正音策略时，不仅为用户提供正确的发音指导还为用户提供可视化的发音动作纠正指导，能够让用户更加了解如何去纠正自己的发音方式，提高正音效率，当用户操作不当时输出模块提示用户重新发音再次进行正音，避免用户无法正常使用该系统进行正音。

进一步的，采集模块包括发音采集单元和动作采集单元，发音采集单元为可采集语音声纹的拾音设备，动作采集单元为可实现面部轮廓识别及口腔关键点识别的图像采集设备。

本发明在用户进行正音时既采集用户发音时的语言数据又采集用户发音时的图像数据，能准确了解用户发音时存在的问题，为用户提供精确的正音策略，帮助用户及时调整自己的发音方式，发音采集单元使用可采集语音声纹的拾音设备，为分析模块提取短时发音特征提供数据支持，便于分析模块使用固定文本的声纹识别，动作采集单元使用可采集面部轮廓及口腔关键点的图像采集设备，为分析模块提取用户发音动作特征提供数据支持，便于分析模块使用面部动作分析，提供精准正音策略。

一种语言正音方法，该语言正音方法包括以下步骤：

步骤s1：用户发音，系统采集用户正音前的第一数据，第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像，语音数据包括音素、单词、短语、音高、音强以及音长，面部动作图像包括发音口型和舌头位置，转步骤s2；

步骤s2：系统根据用户人脸图像在用户档案库查询用户信息，若用户档案库中不存在用户信息则将用户人脸图像与用户语音数据绑定，建立用户个人档案，用户个人档案包括用户人脸图像以及用户语音数据，若用户档案库中存在用户信息则转步骤s3；

步骤s3：将用户语音数据与用户人脸图像进行匹配，若匹配成功则转步骤s4，若匹配失败则转步骤s5；

步骤s4:采集用户语音数据，对语音数据进行降噪增强，采集用户面部图像数据，增强面部动作图像数据分辨率，分帧处理用户语音数据和面部动作图像，提取用户短时发音特征，采用固定文本的声纹识别将用户短时发音特征与标准发音特征进行比对，若比对一致则跳转下一个正音语料，若不一致则分析发音错误部分，提供针对性的正音策略，转步骤s6；

步骤s5：提示用户请重新发音进行正音；

步骤s6：将正音策略以语音和图像的形式呈现给用户，以便用户正音。

本发明在用户进行正音前会采集发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像，本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案，若不存在则默认为用户为初次使用该发明，本发明根据用户人脸图像和语音数据建立用户个人档案，若存在则分析采集的用户语音数据特征与用户档案库中该用户的语音数据特征是否匹配，若匹配则分析采集的语音数据以及发音过程中的面部动作图像数据是否与标准发音特征一致，若一致则判断下一个语料，若不一致则根据固定文本的声纹识别以及脸部动作分析为用户提供精确的正音策略。

进一步的，步骤s2还包括以下步骤：

步骤s201：系统采集用户人脸图像，根据用户人脸图像在用户档案库中查询是否存在对应用户信息，若不存在则转步骤s202；若存在则转步骤s3；

步骤s202：系统采集用户人脸图像，提取用户人脸图像特征，系统采集用户语音数据，提取用户语音数据特征，将用户人脸图像特征与用户语音数据特征进行绑定，建立用户个人档案，用户个人档案包括用户人脸图像特征和用户语音数据特征，转步骤s203；

步骤s203：将用户个人档案存储于用户档案库。

本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案，若不存在则默认为用户为初次使用该发明，本发明根据用户人脸图像和语音数据建立用户个人档案，当用户下次进行正音时，系统则根据用户人脸图像去查询该用户的语音数据特征，将用户档案库中的语音数据与采集的用户语音数据进行比对，能够解决嘈杂环境下用户语音数据识别问题。

进一步的，步骤s3中分析语音数据与用户人脸图像是否匹配还包括以下步骤：

步骤s301:系统采集用户人脸图像，根据用户人脸图像在用户档案库中查询该用户语音数据特征，转步骤s302；

步骤s302:系统采集用户语音数据，提取用户语音特征，将用户语音特征与用户档案库存储的用户语音数据特征进行比对，若比对一致则匹配成功，若比对不一致则转步骤s303；

步骤s303：系统采集用户唇部变化识别用户唇语，分析唇语得到唇语识别文本，系统采集用户语音，分析用户语音获取语音识别文本，将唇语识别文本与语音识别文本进行比对，若相似度高于相似阈值则判断为该用户的发音即匹配成功，若相似度低于相似阈值则匹配失败。

本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案，若不存在则默认为用户为初次使用该发明，本发明根据用户人脸图像和语音数据建立用户个人档案，当用户下次进行正音时，系统则根据用户人脸图像去查询该用户的语音数据特征，将用户档案库中的语音数据与采集的用户语音数据进行比对，若一致则分析用户发音数据，为用户提供正音策略，有效提高正音策略的准确性，若不一致则获取用户唇语识别文本，将唇语识别文本与语音识别文本进行比对，当相似度高于相似阈值时则判断为该用户的发音，然后提供针对性的正音策略，能够解决特殊情况下用户语音数据识别问题，例如用户生病时声音特征发生微变，可以将语音识别与唇语识别相结合，有效识别用户的发音，为用户提供针对性的正音策略。

进一步的，为用户提供正音策略后用户重新发音可重复步骤s1-步骤s6，同一语料的正音过程可重复进行，直至与标准发音一致，用户也可自主选择跳过该语料。

本发明在为用户提供正音指导后可再次采集用户发音数据，根据用户最新的发音数据为用户提供新的正音指导，辅助用户纠正发音方式，用户也可以自主选择跳过该语料，进行下一个语料的正音指导，能够满足用户的个人需求，为用户提供个性化的正音指导。

一种语言正音设备，该语言正音设备包括图像采集设备、拾音设备、内部主控板、显示器以及扬声器；

图像采集设备、拾音设备、显示器以及扬声器均与内部控制板连接，图像采集设备采集发音过程中的面部动作图像数据和用户人脸图像，面部动作图像包括发音口型和舌头位置，拾音设备采集用户发音时的语音数据，语音数据包括音素、单词、短语、音高、音强以及音长，扬声器用于输出语音正音指导，显示器用于输出发音动作纠正指导以及用户操作不当提醒，内部主控板用于存储系统程序代码，系统程序代码执行时实现该系统正音功能。

本发明使用图像采集设备和拾音设备采集用户发音时的数据并传输给内部控制板，当系统程序代码执行后显示器和扬声器输出正音策略，本发明结构简单，科学合理，使用方便，满足用户日常需求，提高用户正音效率。

与现有技术相比，本发明所达到的有益效果是：本发明使用采集模块中的拾音设备采集用户发音时的语音数据，使用采集模块中的图像采集设备采集发音过程中的面部动作图像数据，分析模块提取用户语音数据特征和用户面部动作特征，将用户语音数据特征和用户面部动作特征与标准发音特征进行比对，提供针对性的正音策略，输出模块将正音策略以声音和图像的形式呈现给用户，供用户进行正音学习，有效避免了用户知道自己发音错误但不知如何改正的问题，本发明可搭载电脑端、手机端或其他移动设备上，能够满足用户日常需求，提高用户正音效率；本发明在用户使用系统之前录入标准发音特征，将标准发音特征存储在标准发音特征存储单元，当分析模块为用户提供正音策略时，可直接与本地标准发音特征进行比对，无需借助其他平台，节省了用户等待正音策略时间，提高系统正音效率，本发明设置用户档案存储单元能够记录用户人脸图像与用户语音数据，将用户人脸图像与用户语音数据绑定建立用户个人档案，能够在嘈杂环境下准确识别使用用户，确定用户发音，为用户提供精准正音策略；本发明分析模块能够从本系统存储模块提取标准发音特征，当用户发音需要进行正音纠正时，直接将用户发音特征与面部动作特征与标准发音特征进行比对，有效节省用户等待正音纠正时间，用户档案比对单元通过系统采集的人脸图像和语音数据，在为用户提供正音策略前判断语音数据和人脸图像是否为同一用户，避免识别错误提供错误的正音策略，提高用户正音效率；本发明输出模块在输出正音策略时，不仅为用户提供正确的发音指导还为用户提供可视化的发音动作纠正指导，能够让用户更加了解如何去纠正自己的发音方式，提高正音效率，当用户操作不当时输出模块提示用户重新发音再次进行正音，避免用户无法正常使用该系统进行正音；本发明在用户进行正音时既采集用户发音时的语言数据又采集用户发音时的图像数据，能准确了解用户发音时存在的问题，为用户提供精确的正音策略，帮助用户及时调整自己的发音方式，发音采集单元使用可采集语音声纹的拾音设备，为分析模块提取短时发音特征提供数据支持，便于分析模块使用固定文本的声纹识别，动作采集单元使用可采集面部轮廓及口腔关键点的图像采集设备，为分析模块提取用户发音动作特征提供数据支持，便于分析模块使用面部动作分析，提供精准正音策略；本发明在用户进行正音前会采集发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像，本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案，若不存在则默认为用户为初次使用该发明，本发明根据用户人脸图像和语音数据建立用户个人档案，若存在则分析采集的用户语音数据特征与用户档案库中该用户的语音数据特征是否匹配，若匹配则分析采集的语音数据以及发音过程中的面部动作图像数据是否与标准发音特征一致，若一致则判断下一个语料，若不一致则根据固定文本的声纹识别以及脸部动作分析为用户提供精确的正音策略；本发明根据采集的用户人脸图像查询用户档案库中是否存在该用户个人档案，若不存在则默认为用户为初次使用该发明，本发明根据用户人脸图像和语音数据建立用户个人档案，当用户下次进行正音时，系统则根据用户人脸图像去查询该用户的语音数据特征，将用户档案库中的语音数据与采集的用户语音数据进行比对，若一致则分析用户发音数据，为用户提供正音策略，有效提高正音策略的准确性，若不一致则获取用户唇语识别文本，将唇语识别文本与语音识别文本进行比对，当相似度高于相似阈值时则判断为该用户的发音，然后提供针对性的正音策略，能够解决特殊情况下用户语音数据识别问题，例如用户生病时发音特征发生微变，可以将语音识别与唇语识别相结合，有效识别用户的发音，为用户提供针对性的正音策略；本发明在为用户提供正音指导后可再次采集用户发音数据，根据用户最新的发音数据为用户提供新的正音指导，辅助用户纠正发音方式，用户也可以自主选择跳过该语料，进行下一个语料的正音指导，能够满足用户的个人需求，为用户提供个性化的正音指导；本发明使用图像采集设备和拾音设备采集用户发音时的数据并传输给内部控制板，当系统程序代码执行后显示器和扬声器输出正音策略，本发明科学合理，使用方便，能够满足用户日常需求，提高用户正音效率，节省用户语言正音时人力、财力和物力的投入。

附图说明

图1是一种语言正音系统的结构示意图；

图2是一种语言正音方法的流程示意图；

图3是一种语言正音设备的结构示意图；

图中：1、图像采集设备；2、拾音设备；3、内部主控板；4、显示器；5、扬声器。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图3，本发明提供技术方案：

如图1所示，一种语言正音系统，语言正音系统包括采集模块、存储模块、分析模块和输出模块，采集模块与存储模块连接，存储模块与分析模块连接，分析模块与输出模块连接；

采集模块用于采集用户正音前的第一数据，第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像，语音数据包括音素、单词、短语、音高、音强以及音长，面部动作图像包括发音口型和舌头位置，分析模块用于提取第一数据特征，将第一数据特征与标准发音特征进行比对，提供针对性的正音策略，第一数据特征包括语音数据特征和面部动作图像特征，语音数据特征包括音高、音强以及音长，面部动作图像特征包括发音口型和舌头位置，输出模块用于输出正音策略，正音策略包括正音语音数据以及发音动作矫正图像，正音语音数据包括音高、音强和音长。

存储模块包括原始发音特征存储单元、用户发音存储单元、用户档案存储单元以及正音策略存储单元；

原始发音特征存储单元用于存储标准发音特征，标准发音特征包括音高、音强、音长、发音口型以及舌头位置，用户发音存储单元用于存储用户第一数据，用户档案存储单元用于存储用户个人档案，用户个人档案包括用户语音数据和用户人脸图像，正音策略存储单元用于存储用户正音策略。

分析模块包括原始发音特征提取单元、用户档案比对单元、短时发音特征提取单元、发音特征比对单元以及正音策略传输单元；

原始发音特征提取单元用于提取标准发音特征和发音动作，用户档案比对单元用于比对第一数据中用户人脸图像和用户语言数据与用户档案存储单元存储的信息是否匹配，若匹配成功，则进行正音分析，若匹配失败，则提醒用户重新发音，短时发音特征提取单元用于分帧处理用户语音数据和发音动作图像数据，提取用户短时发音特征，发音特征比对单元用于比对用户短时发音特征与原始发音特征，正音策略传输单元用于将发音特征比对单元的比对结果传输给正音策略存储单元存储以及输出模块输出。

输出模块包括发音输出单元、动作输出单元和错误提醒单元；

发音输出单元用于输出语音正音指导，动作输出单元用于输出发音动作纠正指导，错误提醒单元用户提醒用户操作系统时存在不当操作，引导用户正确使用该系统。

采集模块包括发音采集单元和动作采集单元，发音采集单元为可采集语音声纹的拾音设备2，动作采集单元为可实现面部轮廓识别及口腔关键点识别的图像采集设备1。

如图2所示，一种语言正音方法，该语言正音方法包括以下步骤：

步骤s1：用户发音，系统采集用户正音前的第一数据，第一数据包括发音时的语音数据、发音过程中的面部动作图像数据以及用户人脸图像，语音数据包括音素、单词、短语、音高、音强以及音长，面部动作图像包括发音口型和舌头位置，转步骤s2；

步骤s2：系统根据用户人脸图像在用户档案库查询用户信息，若用户档案库中不存在用户信息则将用户人脸图像与用户语音数据绑定，建立用户个人档案，用户个人档案包括用户人脸图像以及用户语音数据，若用户档案库中存在用户信息则转步骤s3；

步骤s3：将用户语音数据与用户人脸图像进行匹配，若匹配成功则转步骤s4，若匹配失败则转步骤s5；

步骤s4:采集用户语音数据，对语音数据进行降噪增强，采集用户面部图像数据，增强面部动作图像数据分辨率，分帧处理用户语音数据和面部动作图像，提取用户短时发音特征，采用固定文本的声纹识别将用户短时发音特征与标准发音特征进行比对，若比对一致则跳转下一个正音语料，若不一致则分析发音错误部分，提供针对性的正音策略，转步骤s6；

步骤s5：提示用户请重新发音进行正音；

步骤s6：将正音策略以语音和图像的形式呈现给用户，以便用户正音。

步骤s2还包括以下步骤：

步骤s201：系统采集用户人脸图像，根据用户人脸图像在用户档案库中查询是否存在对应用户信息，若不存在则转步骤s202；若存在则转步骤s3；

步骤s202：系统采集用户人脸图像，提取用户人脸图像特征，系统采集用户语音数据，提取用户语音数据特征，将用户人脸图像特征与用户语音数据特征进行绑定，建立用户个人档案，用户个人档案包括用户人脸图像特征和用户语音数据特征，转步骤s203；

步骤s203：将用户个人档案存储于用户档案库。

步骤s3中分析语音数据与用户人脸图像是否匹配还包括以下步骤：

步骤s301:系统采集用户人脸图像，根据用户人脸图像在用户档案库中查询该用户语音数据特征，转步骤s302；

步骤s302:系统采集用户语音数据，提取用户语音特征，将用户语音特征与用户档案库存储的用户语音数据特征进行比对，若比对一致则匹配成功，若比对不一致则转步骤s303；

步骤s303：系统采集用户唇部变化识别用户唇语，分析唇语得到唇语识别文本，系统采集用户语音，分析用户语音获取语音识别文本，将唇语识别文本与语音识别文本进行比对，若相似度高于相似阈值则判断为该用户的发音即匹配成功，若相似度低于相似阈值则匹配失败。

为用户提供正音策略后用户重新发音可重复步骤s1-步骤s6，同一语料的正音过程可重复进行，直至与标准发音一致，用户也可自主选择跳过该语料。

如图3所示，语言正音设备包括图像采集设备1、拾音设备2、内部主控板3、显示器4以及扬声器5；

图像采集设备1、拾音设备2、显示器4以及扬声器5均与内部控制板连接，图像采集设备1采集发音过程中的面部动作图像数据和用户人脸图像，面部动作图像包括发音口型和舌头位置，拾音设备2采集用户发音时的语音数据，语音数据包括音素、单词、短语、音高、音强以及音长，扬声器5用于输出语音正音指导，显示器4用于输出发音动作纠正指导以及用户操作不当提醒，内部主控板3用于存储系统程序代码，系统程序代码执行时实现该系统正音功能。

实施例一：

用户发音，系统采集用户人脸图像、用户面部发音动作图像以及用户语音数据，根据用户人脸图像查询用户个人档案，找到用户个人档案后提取用户个人档案中用户语音数据特征，将用户个人档案中语音数据特征与采集的用户语音数据特征进行比对，比对一致，确认采集到的用户语音数据为该用户语音；

对采集到的语音数据进行降噪增强，对采集的用户面部发音动作图像进行分辨率增强，提高识别比对精度；

将用户语言数据与用户面部发音动作图像进行分帧处理，与标准特征数据库比对，发现用户嘴巴张开图像比对不一致，首先确定上嘴唇与下嘴唇关键点位置，计算上嘴唇与下嘴唇的张开距离，然后与标准语音特征库比对，发现上嘴唇与下嘴唇的张开距离小于标准特征库中上嘴唇与下嘴唇的张开距离，判定嘴巴张开幅度小，为用户提供正音纠正策略增加嘴巴张开幅度；

在作出正确发音示范的同时将标准特征库中嘴巴张开幅度展示给用户，以便用户正音使用。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：自助语音服务中的语音播报中止方法、装置、设备及介质与流程

一种语言正音系统方法及设备与流程

相关文章

最热文献