语音识别处理方法及系统与流程

2021-06-25 14:46:00 来源：中国专利 TAG：语音识别方法系统

1.本发明是关于语音识别技术领域，特别是关于一种语音识别处理方法及系统。

背景技术：

2.随着互联网技术的发展，视频会议应用日益广泛。
3.发明人在实现本发明的过程中发现，目前在视频会议中存在以下问题：在开会过程中，会遇到来自不同地区的人参会，大家在发言过程中由于习惯问题普通话可能会夹杂着少量方言或外语，使得其他与会人员不能完全领会其意思，但不能因少数人听不懂就打断发言人一是不礼貌，二是由于个人不能占据大家共同时间，三是中间打断会影响会议的连贯性，这样所造成的结果是影响部分人的参会效果。另外由于在线上会议大家不能完全很好地察觉到其他人的反应，所以发言人可能并没有意识到自己发音、普通话不标准带给其他人的影响。
4.公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现要素：

5.本发明的目的在于提供一种语音识别处理方法及系统，当发言人的某个语音不能够被标准语音库成功匹配时，会根据发言人的特定标签找到对应的方言语音库或外国语音库，根据特定标签对应的语音库对发言人的语音再次识别，提高了语音识别准确率。
6.为实现上述目的，本发明提供了一种语音识别处理方法，其包括：基于本国的标准语音库对发言人的语音数据进行匹配，若发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值，则判断所述发言人是否具有特定标签；若判断出所述发言人具有特定标签，则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配，其中，所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。
7.在本发明的一实施方式中，所述语音识别处理方法还包括：若所述发言人的语音数据与所述特定标签所对应的语音库之间的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值，则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
8.在本发明的一实施方式中，所述语音识别处理方法还包括：若判断出所述发言人不具有特定标签，则依次根据预存的各个特定标签所对应的语音库对所述发言人的语音数据进行匹配从而得到多个匹配度值，若其中最大的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值，则获取与所述最大的匹配度值相关的特定标签所对应的语音库，其中，所述各个特定标签所对应的语音库包括本国各地方言的语音库以及预存的各个外国标准语音库；根据与所述最大的匹配度值相关的特定标签所对应的语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
9.在本发明的一实施方式中，所述语音识别处理方法还包括：在获取与所述最大的匹配度值相关的特定标签所对应的语音库之后，记录所述发言人与所述最大的匹配值相关的特定标签之间发生一次关联事件；当所述发言人与某个特定标签之间发生关联事件的次数大于第二预设阈值，则为所述发言人赋予所述某个特定标签。
10.在本发明的一实施方式中，所述语音识别处理方法还包括：基于本国的标准语音库对发言人的语音数据进行匹配，若发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值，则判断所述发言人是否具有特定标签；若判断出所述发言人不具有特定标签，则根据所述本国的标准语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
11.在本发明的一实施方式中，所述语音识别处理方法还包括：基于本国的标准语音库对发言人的语音数据进行匹配，若发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值，则判断所述发言人是否具有特定标签；若判断出所述发言人具有特定标签，则判断所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据是否具有标识，若不具有标识，则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出，若具有标识，则判断所述特定标签所对应的语音库中是否具有相同的所述标识，若具有相同的所述标识，则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出，若不具有相同的所述标识，则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
12.在本发明的一实施方式中，所述语音识别处理方法还包括：在语音识别之前，将本国各地方言的语音库与所述本国的标准语音库分别进行比对；若本国某地方言的语音库中存在与所述本国的标准语音库中相同的语音数据，则根据所述本国某地方言的语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第一含义，并且根据所述本国的标准语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第二含义；若所述第一含义与所述第二含义相同，则将所述本国某地方言的语音库中的所述相同的语音数据赋予标识，且将所述本国的标准语音库中的所述相同的语音数据赋予相同的所述标识。
13.基于同样的发明构思，本发明还提供了一种语音识别处理系统，其包括：标准语音库识别模块、判断模块、特定标签语音库识别模块。标准语音库识别模块用于基于本国的标准语音库对发言人的语音数据进行匹配。判断模块与所述标准语音库识别模块相耦合，用于判断所述发言人的语音数据与所述本国的标准语音库之间的匹配度值是否小于第一预设阈值，并且判断所述发言人是否具有特定标签。特定标签语音库识别模块与所述判断模块相耦合，用于若所述判断模块判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值，且判断出所述发言人具有特定标签，则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配，其中，所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。
14.基于同样的发明构思，本发明还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述任一项所述语音识别处理方法的步骤。
15.基于同样的发明构思，本发明还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上述任一项所述语音识别处理方法的步骤。
16.与现有技术相比，根据本发明的语音识别处理方法及系统，当发言人的语音不能够被标准语音库成功匹配时，会根据发言人的特定标签找到对应的方言语音库或外国语音库，根据特定标签对应的语音库对发言人的语音再次识别，提高了语音识别准确率。优选地，一实施方式中在对发言人语音识别过程中，根据发言人的语音匹配情况，自动赋予发言人特定标签。优选地，一实施方式中为方言语音库与标准语音库中的发音相同含义不同的语音数据进行特殊标识，在进行语音识别时，还会结合标识来判断语音数据的准确含义，进一步提高了语音数据的识别准确率，从而提高了视频会议沟通效率。
附图说明
17.图1是根据本发明一实施方式的语音识别处理方法；
18.图2是根据本发明一实施方式的语音识别处理方法；
19.图3是根据本发明一实施方式的语音识别处理方法；
20.图4是根据本发明一实施方式的语音识别处理系统；
21.图5是根据本发明一实施方式的语音识别处理系统。
具体实施方式
22.下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。
23.除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。
24.首先需说明的一点是，为了清楚地说明本方案，本发明的各个实施方式中，均以中国作为本国来说明方案，但是本国并不局限于中国，其他国家也可以。那么以中国作为本国而言，本国的标准语音库指的是普通话，本国某地方言的语音库可以为陕西话、河南话、闽南语、粤语等等。
25.为了能够对掺杂了方言或外语的普通话进行准确识别，如图1所示，一实施方式中提供了一种语音识别处理方法，其包括：步骤s101～步骤s103。
26.在步骤s101中，基于本国的标准语音库对发言人的语音数据进行匹配。
27.在步骤s102中，若发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值，则判断所述发言人是否具有特定标签。可选地，第一预设阈值可以设置为70％。语音数据可以为字或词的语音数据。
28.在步骤s103中，若判断出所述发言人具有特定标签，则根据所述特定标签所对应的语音库对所述发言人的语音数据进行再次匹配，其中，所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。若所述发言人的语音数据与所述特定标签所对应的语音库之间的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值，则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所
述发言人的语音数据转换为本国文字进行输出。
29.例如，当发言人说“灭儿个把会议纪要整理出来”，“灭儿个”与普通话的匹配度低于70％，则判断发言人是否具有特定标签，若具有特定标签，则查找出该特定标签对应的语音库为山西方言库，将“灭儿个”这个发音进行山西方言库匹配，匹配成功后，根据山西方言库与中国汉字之间的映射关系将“灭儿个”语音数据转换为汉字“明天”。再比如，当某个发言人说“请大家注意这个项目的dead line”，“dead line”与普通话的匹配度低于70％，则判断发言人是否具有特定标签，若具有特定标签，则查找出该特定标签对应的语音库为英文库，将“dead line”这个发音通过英文库进行匹配，匹配成功后，根据英文库与中国汉字之间的映射关系将“dead line”语音数据转换为汉字“截止日期”。
30.上述实施方式的核心思路是给发言人分配特定标签，特定标签对应了某地方言语音库或某外语库，即特定标签能够表明发言人说的普通话中很可能包含有某地方言或某外语。如果当发言人的某个语音数据不能够被标准语音库准确匹配时，则会根据发言人的特定标签找到对应的方言语音库或外语库，再次匹配，从而使得发言人的某个语音数据最终能够准确被匹配出来，从而提高了语音识别成功率。
31.为了能够根据发言人语音来自动赋予特定标签，如图2所示，一实施方式的语音识别处理方法包括：步骤s201～步骤s205。
32.在步骤s201中，基于本国的标准语音库对发言人的语音数据进行匹配。
33.在步骤s202中，若发言人的语音数据与所述本国的标准语音库之间的匹配度值小于第一预设阈值，则判断所述发言人是否具有特定标签。可选地，第一预设阈值可以设置为70％。语音数据可以为字或词的语音数据。
34.在步骤s203中，若判断出所述发言人不具有特定标签，则依次根据预存的各个特定标签所对应的语音库对所述发言人的语音数据进行匹配从而得到多个匹配度值，若其中最大的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值，则获取与所述最大的匹配度值相关的特定标签所对应的语音库，并且记录所述发言人与所述最大的匹配值相关的特定标签之间发生一次关联事件。其中，所述各个特定标签所对应的语音库包括本国各地方言的语音库以及预存的各个外国标准语音库。
35.在步骤s204中，根据与所述最大的匹配度值相关的特定标签所对应的语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
36.在步骤s205中，当所述发言人与某个特定标签之间发生关联事件的次数大于第二预设阈值，则为所述发言人赋予所述某个特定标签。可选地，第二预设阈值为3次。
37.例如，当发言人说“灭儿个把会议纪要整理出来”，“灭儿个”与普通话的匹配度低于70％，则判断发言人是否具有特定标签，若不具有特定标签，则从各个特定标签对应的语音库找出与“灭儿个”最为匹配的语音库，即山西方言库，一方面将“灭儿个”这个发音进行山西方言库匹配，匹配成功后，根据山西方言库与中国汉字之间的映射关系将“灭儿个”语音数据转换为汉字“明天”。另一方面，记录一次关联事件，即发言人与山西方言库或与山西方言库对应的特定标签之间发生了一次关联，当该关联次数达到3次，则可以给该发言人赋予该山西方言库对应的特定标签，表明该发言人说的普通话里头很可能掺杂山西方言。
38.优选地，为了对方言和普通话之间发音相同但意义不同的语音数据进行准确识别，如图3所示，一实施方式的语音识别处理方法包括：步骤s301～步骤s303。
39.在步骤s301中，基于本国的标准语音库对发言人的语音数据进行匹配。
40.在步骤s302中，若发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值，则判断所述发言人是否具有特定标签。
41.在步骤s303中，一方面若判断出所述发言人具有特定标签，则判断所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据是否具有标识，若不具有标识，则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出，若具有标识，则判断所述特定标签所对应的语音库中是否具有相同的所述标识，若具有相同的所述标识，则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转化为本国文字进行输出，若不具有相同的所述标识，则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。另一方面，若判断出所述发言人不具有特定标签，则根据所述本国的标准语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
42.例如，当发言人说“下面介绍果子的家庭版制作方法”，其中的“果子”与普通话的匹配度高于70％，则判断发言人是否具有特定标签，若判断出发言人具有特定标签，则判断普通话语音库的“果子”是否具有标识，若果子具有标识a，且发言人的特定标签对应的语音库
‑
天津话语音库中同样具有这个标识a，则将“果子”按照天津话与汉字之间的映射关系将“果子”转换为“油条”进行输出。
43.为了给方言与普通话之间发言相同含义不同的语音数据赋予标识，优选地，一实施方式中的语音识别处理方法还包括：在语音识别之前，将本国各地方言的语音库与所述本国的标准语音库分别进行比对；若本国某地方言的语音库中存在与所述本国的标准语音库中相同的语音数据，则根据所述本国某地方言的语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第一含义，并且根据所述本国的标准语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第二含义；若所述第一含义与所述第二含义相同，则将所述本国某地方言的语音库中的所述相同的语音数据赋予标识，且将所述本国的标准语音库中的所述相同的语音数据赋予所述标识。
44.基于同样的发明构思，一优选的实施方式中还提供了一种语音识别处理系统，如图4所示，其包括：标准语音库识别模块10、判断模块11、特定标签语音库识别模块12。
45.标准语音库识别模块10用于基于本国的标准语音库对发言人的语音数据进行匹配。
46.判断模块11与所述标准语音库识别模块10相耦合，用于判断所述发言人的语音数据与所述本国的标准语音库之间的匹配度值是否小于第一预设阈值；还用于判断所述发言人是否具有特定标签。
47.特定标签语音库识别模块12与所述判断模块11相耦合，用于若所述第一判断模块11判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值小于所述第一预设阈值，且判断出所述发言人具有特定标签，则根据所述特定标签所对应的语音库对所述发言人的语音数据进行匹配，其中，所述特定标签所对应的语音库为本国某地方言的语音库或某个外国标准语音库。
48.所述特定标签语音库识别模块12还用于若所述发言人的语音数据与所述特定标
签所对应的语音库之间的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值，则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
49.所述特定标签语音库识别模块12还用于若所述判断模块11判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值小于所述第一预设阈值，且判断出所述发言人不具有特定标签，则依次根据预存的各个特定标签所对应的语音库对所述发言人的语音数据进行匹配从而得到多个匹配度值，若其中最大的匹配度值大于所述发言人的语音数据与所述本国的标准语音库之间的匹配度值，则获取与所述最大的匹配度值相关的特定标签所对应的语音库，其中，所述各个特定标签所对应的语音库包括本国各地方言的语音库以及预存的各个外国标准语音库；并且根据与所述最大的匹配度值相关的特定标签所对应的语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
50.为了能够根据发言人语音来自动赋予特定标签，本实施方式的语音识别处理系统还包括关联事件记录模块。关联事件记录模块与所述特定标签语音库识别模块12相耦合，用于在所述特定标签语音库识别模块12获取与所述最大的匹配度值相关的特定标签所对应的语音库之后，记录所述发言人与所述最大的匹配值相关的特定标签之间发生一次关联事件；所述关联事件记录模块还用于当所述发言人与某个特定标签之间发生关联事件的次数大于第二预设阈值，则为所述发言人赋予所述某个特定标签。
51.为了对方言和普通话之间发音相同但意义不同的语音数据进行准确识别，所述判断模块11还用于在判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值，且判断出所述发言人具有特定标签，则判断所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据是否具有标识，若具有标识，则再判断所述特定标签所对应的语音库中是否具有同样的标识。所述特定标签语音库识别模块12还用于若所述判断模块11判断出所述特定标签所对应的语音库中具有所述同样的标识，则根据所述特定标签所对应的语音库与本国的文字库之间的映射关系将所述发言人的语音数据转化为本国文字进行输出。
52.所述标准语音库识别模块10还用于若所述判断模块11判断出所述本国的标准语音库中与所述发言人的语音数据相匹配的语音数据中不具有标识，则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
53.所述标准语音库识别模块10还用于若所述判断模块11判断出所述特定标签所对应的语音库中不具有所述同样的标识，则根据所述本国的标准语音库与所述本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
54.所述标准语音库识别模块10还用于若所述判断模块11判断出所述发言人的语音数据与所述本国的标准语音库之间的匹配度值不小于第一预设阈值，且判断出所述发言人不具有特定标签，则根据所述本国的标准语音库与本国的文字库之间的映射关系将所述发言人的语音数据转换为本国文字进行输出。
55.为了给方言与普通话之间发言相同含义不同的语音数据赋予标识，如图5所示，一优选的实施方式中，语音识别处理系统还包括：同音异义数据标识模块13。所述同音异义数
据标识模块13与所述标准语音库识别模块10、所述判断模块11以及所述特定标签语音库识别模块12均相耦合，用于在语音识别之前，将本国各地方言的语音库与所述本国的标准语音库分别进行比对；若本国某地方言的语音库中存在与所述本国的标准语音库中相同的语音数据，则根据所述本国某地方言的语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第一含义，并且根据所述本国的标准语音库与所述本国的文字库之间的映射关系获取所述相同的语音数据的第二含义；若所述第一含义与所述第二含义相同，则将所述本国某地方言的语音库中的所述相同的语音数据赋予标识，且将所述本国的标准语音库中的所述相同的语音数据赋予所述标识。
56.基于同样的发明构思，一实施方式中还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述语音识别处理方法的步骤。
57.基于同样的发明构思，一实施方式中还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述语音识别处理方法的步骤。
58.综上，根据上述实施方式的语音识别处理方法及系统，当发言人的语音不能够被标准语音库成功匹配时，会根据发言人的特定标签找到对应的方言语音库或外国语音库，根据特定标签对应的语音库对发言人的语音再次识别，提高了语音识别准确率。优选地，一实施方式中在对发言人语音识别过程中，根据发言人的语音匹配情况，自动赋予发言人特定标签。优选地，一实施方式中为方言语音库与标准语音库中的发音相同含义不同的语音数据进行特殊标识，在进行语音识别时，还会结合标识来判断语音数据的准确含义，进一步提高了语音数据的识别准确率，从而提高了视频会议沟通效率。
59.本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
60.本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
61.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
62.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
63.前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：演奏辅助器具以及气簧乐器的制作方法

语音识别处理方法及系统与流程

相关文章

最热文献