一种语音识别方法、装置、电子设备及存储介质与流程

2023-01-05 22:01:10 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，具体涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术：

2.随着人工智能的迅猛发展和ai技术的广泛应用，ai语音识别技术已经参与到了人们生活的方方面面。
3.现有技术中使用的语音识别系统在系统开启后，会对不同发言人的发言语音进行识别，并生成与不同发言人对应的发言文本。然而，在面临不同的语音识别需求时，无差别的识别不同发言人的发言语音并不能满足不同语音识别场景的实际需求，而且会存在识别资源紧张和识别资源浪费的问题。由此可见，现有技术中的语音识别系统的灵活度并不能满足实际的语音识别需求。
4.因此，如何提高语音识别的灵活度成为本领域技术人员亟需解决的技术问题。

技术实现要素：

5.有鉴于此，本技术提供一种语音识别方法、装置、电子设备及存储介质，以提高语音识别的灵活度。
6.根据本技术实施例的第一方面，提供了一种语音识别方法，包括：
7.从待识别的发言语音中提取声纹特征；
8.根据所述声纹特征，判断所述发言语音对应的第一发言人是否具有语音转写权限；
9.如果所述发言语音对应的第一发言人具有语音转写权限，则对所述发言语音进行语音识别处理，得到所述第一发言人的发言文本。
10.在本技术的一种可选实施方式中，所述根据所述声纹特征，判断所述发言语音对应的第一发言人是否具有语音转写权限，包括：
11.根据所述声纹特征，从声纹库中确定所述第一发言人的身份信息；
12.根据预设的语音转写权限表和所述第一发言人的身份信息，判断所述第一发言人是否具有语音转写权限；其中，所述预设的语音转写权限表记录有多个发言人的语音转写权限。
13.在本技术的一种可选实施方式中，所述声纹库通过以下方式获得：
14.获取预设的多个发言人语音样本信息；
15.分别提取所述多个发言人的语音样本信息中的声纹特征；
16.基于所述语音样本信息中的声纹特征与所述多个发言人的身份信息之间的对应关系，构建所述声纹库。
17.在本技术的一种可选实施方式中，还包括：
18.确定所述第一发言人的文本查阅标识信息，所述文本查阅标识信息包括其他人查
阅所述第一发言人的发言文本的权限信息；
19.基于所述第一发言人的文本查阅标识信息，设置所述第一发言人的发言文本的查阅权限。
20.在本技术的一种可选实施方式中，还包括：
21.获得第二发言人的发言文本，其中，所述第一发言人和所述第二发言人的发言文本的查阅权限相同；
22.确定所述第一发言人的发言文本与所述第二发言人的发言文本之间的文本相似度；
23.在所述文本相似度大于预设的相似度阈值的情况下，将所述第一发言人的发言文本和第二发言人的发言文本进行合并，获得合并后的发言文本。
24.在本技术的一种可选实施方式中，所述对所述发言语音进行语音识别处理，得到所述第一发言人的发言文本，包括：
25.根据所述第一发言人的声纹特征，从预设的个性化转写资源库中检索对应所述第一发言人的个性化转写模型；所述个性化转写模型通过对具有特定语音特点的语音进行识别训练得到，所述第一发言人的发言语音具有所述特定语音特点；
26.如果从预设的个性化转写资源库中检索到对应所述第一发言人的个性化转写模型，则通过所述个性化转写模型对所述第一发言人的发言语音进行语音识别处理，得到所述第一发言人的发言文本。
27.在本技术的一种可选实施方式中，对应所述第一发言人的个性化转写模型通过对所述第一发言人的发言语音进行语音识别训练得到。
28.在本技术的一种可选实施方式中，还包括：
29.判断是否获得针对所述第一发言人的语音转写权限的调整指令；
30.其中，如果获得针对所述第一发言人的语音转写权限的调整指令，则根据所述调整指令，调整所述第一发言人的语音转写权限。
31.根据本技术实施例的第二方面，提供了一种语音识别装置，包括：
32.提取单元，用于从待识别的发言语音中提取声纹特征；
33.判断单元，用于根据所述声纹特征，判断所述发言语音对应的第一发言人是否具有语音转写权限；
34.识别单元，用于如果所述发言语音对应的第一发言人具有语音转写权限，则对所述发言语音进行语音识别处理，得到所述第一发言人的发言文本。
35.根据本技术实施例的第三方面，提供了一种电子设备，包括：
36.处理器；
37.用于存储所述处理器可执行指令的存储器；
38.所述处理器，用于通过运行所述存储器中的指令，执行上述任意一种语音识别方法。
39.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，包括：所述存储介质存储有计算机程序，所述计算机程序被处理器运行时，执行上述任意一种语音识别方法。
40.与现有技术相比，本技术具有以下优点：
41.本技术提供的语音识别方法、装置、电子设备及存储介质，通过待识别发言语音中的声纹特征，判断所述发言语音对应的第一发言人是否具有语音转写权限，进而基于所述第一发言人的语音转写权限，对发言语音进行语音识别处理。该方法在对发言人的发言语音进行语音识别之前，能够自动判断发言人是否具有语音转写权限，在确定发言人具有语音转写权限的情况下，才对发言人的发言语音进行语音识别处理。该方案能够灵活决策是否对发言人的发言语音进行语音识别处理，从而提高了语音识别的灵活度，有利于缓解语音识别资源紧张和识别资源浪费的问题。
附图说明
42.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
43.图1为本技术一实施例提供的语音识别方法的应用场景示意图；
44.图2为本技术另一实施例提供的语音识别方法流程图；
45.图3为本技术另一实施例提供的一种个性化转写模型的训练流程图；
46.图4为本技术另一实施例提供的一种发言文本规整网络的网络结构示意图；
47.图5为本技术另一实施例提供的语音识别装置结构示意图；
48.图6为本技术另一实施例提供的电子设备结构示意图。
具体实施方式
49.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
50.随着人工智能的迅猛发展和ai技术的广泛应用，ai语音识别技术已经参与到了人们生活的方方面面。
51.现有技术中使用的语音识别系统在系统开启后，会对不同发言人的发言语音进行识别，并生成与不同发言人对应的发言文本。然而，在面临不同的语音识别需求时，无差别的识别不同发言人的发言语音并不能满足不同语音识别场景的实际需求，而且会存在识别资源紧张和识别资源浪费的问题。由此可见，现有技术中的语音识别系统的灵活度并不能满足实际的语音识别需求。
52.因此，如何提高语音识别的灵活度成为本领域技术人员亟需解决的技术问题。
53.为了解决上述技术问题，本技术提供一种语音识别方法、装置、电子设备及存储介质，在以下实施例中将逐一进行详细说明。
54.示例性实施环境
55.首先，为了便于理解本技术提供的语音识别方法的具体应用场景，以下结合所述语音识别方法的一种应用场景对所述语音识别的方法进行介绍。
56.请参考图1，图1为本技术一实施例提供的语音识别方法的应用场景示意图。
57.如图1所示，图1示出的语音识别场景具体为某人员参加会议并发言时，对该人员进行语音识别。
58.图1中包括：发言人101、语音识别装置102。
59.其中，发言人101可以理解为参与会议并正在会议中发言的人员。
60.语音识别装置102可以理解为用于对发言的人员进行语音识别的语音识别设备，在本技术的一种可选实施方式中，语音识别装置102可以为录音笔、录音机、手机、计算机、智能终端等硬件设备。
61.其中，语音识别装置102对发言人员进行识别的过程中，执行如图1所示的步骤s110至步骤s120：
62.步骤s110，开始；
63.步骤s111，获得发言语音的声纹特征；
64.其中，所述发言语音的声纹特征可以根据会议发言人员的在会议中发言时的语音信息获得；
65.步骤s112，基于声纹特征从声纹库中确定发言人员；
66.其中，所述声纹库中存储有参与会议的多个发言人员的声纹特征以及所述发言人员的身份信息和所述声纹特征之间的对应关系。因此，可以通过所述声纹库中记录的发言人员的身份信息与声纹特征之间的对应关系，确定正在发言的发言人员。
67.步骤s113，判断所述发言人员是否具有语音转写权限；
68.其中，本技术可以预先确定多个发言人员的语音转写权限，并将发言人员的语音转写权限和发言人员的身份信息存储于预先准备的语音转写权限表中，以便于语音识别装置102可以直接调用所述语音转写权限表，进而根据所述发言人员的身份信息确定该人员是否具有语音转写权限。
69.本技术在对发言人员的发言语音进行语音识别之前，能够自动判断发言人是否具有语音转写权限，在确定发言人员具有语音转写权限的情况下，才对发言人的发言语音进行语音识别处理，提高了语音识别的灵活度，有利于缓解语音识别资源紧张和识别资源浪费的问题。
70.如果发言人员没有语音转写权限，则执行步骤s114；
71.步骤s114，结束转写流程；
72.如果发言人员具有语音转写权限，则执行步骤s115；
73.步骤s115，检索个性化资源库，判断是否有所述发言人员的个性化转写模型；
74.在本技术的一种可选实施方式中，所述个性化资源库中存储有个性化转写模型和通用转写模型；其中，所述个性化转写模型和所述通用转写模型可以理解为一种采用机器学习的方式训练获得的卷积神经网络。
75.其中，所述通用转写模型可以对任意发言人员的发言语音进行转写；与所述通用转写模型不同的，所述个性化转写模型是为指定发言人员或特定类型的发言人员设置的转写模型，该模型能够通过具有特定语音特点的语音进行识别训练获得，其中，所述指定发言人员具有所述特定语音特点。
76.如果没有所述个性化转写模型，则执行步骤s116；
77.步骤s116，将所述发言语音输入通用转写模型；
78.如果有所述个性化转写模型，则执行步骤s117；
79.步骤s117，将所述发言语音输入个性化转写模型；
80.本方案为发言人员设置了个性化转写模型，以便于结合发言人员的特定的语音特点对发言语音进行转写，以在后续阶段提高发言语音的转写正确率。
81.步骤s118，获得所述发言人员的发言文本；
82.其中，所述发言人员的发言文本为所述个性化转写模型或所述通用转写模型输出的内容，在本技术提供的场景实施例中，所述发言文本中可以理解为发言人员的会议纪要。
83.步骤s119，针对所述发言人员的发言文本，设置查阅权限；
84.其中，所述查阅权限可以理解为其他人查阅所述发言人员的发言文本的权限。
85.在本技术的一种可选实施方式中，所述发言人员的发言文本的查阅权限可以根据所述发言人员的级别，和/或发言人员发言内容的保密等级进行设定。本技术通过为发言人员的发言文本设置相应的查阅权限，提高了发言文本的保密性，有效的避免了发言文本敏感信息的泄露问题，同时还降低了发言文本的后期管理难度。
86.步骤s120，结束。
87.可以理解的，以上对本技术场景实施例的介绍只是为了便于更好的理解本技术提供的所述语音识别方法，而非用于对所述语音识别方法的应用场景进行限定，所述语音识别方法还可以应用于其他场景，比如说，用于对通话语音的识别、对录音信息的识别等。
88.示例性方法
89.在本技术的一示例性实施例中，提供了一种语音识别方法。其核心在于，在对发言人的发言语音进行语音识别之前，能够自动判断发言人是否具有语音转写权限，在确定发言人具有语音转写权限的情况下，才对发言人的发言语音进行语音识别处理。
90.在本技术的一种可选实施例中，所述语音识别方法的实施主体可以是笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，游戏主机)等各种类型的用户终端或者是这些数据处理设备中的任意两个或多个的组合，也可以是服务器。
91.请参阅图2，图2为本技术另一实施例提供的语音识别方法流程图。
92.该方法包括以下步骤s201至步骤s203：
93.步骤s201，从待识别的发言语音中提取声纹特征。
94.所述待识别的发言语音可以理解为发言人的发言语音。比如说，在某公司的内部或公开会议中，当前正在发言的发言人的语音信息。该发言语音可以是任意语种、任意时长、任意内容的发言语音。
95.在本技术的一种可选实施方式中，所述待识别的发言语音可以通过预先准备的声音传感器采集获得。比如说，所述声音传感器可以是发言人或者其他工作人员的手机、计算机、录音笔等，或者是发言人所处场景下设置的专用于进行发言语音采集的录音机、麦克风等终端设备。
96.在语音识别领域，声纹可以理解为通过电声学仪器显示的携带语音信息的声波频谱。在实际生活中，每个人说话时的声音，都有各自的特点，且人的声音具有特定性和稳定性。因此，在本技术实施例中，采用声纹特征对待识别的发言语音对应的发言人进行确定。
97.在本技术的一种可选实施方式中，所述从待识别的发言语音中提取声纹特征可以
通过专用于提取声纹特征的声纹特征提取模块实现；其中，所述声纹特征提取模块部署有相应的声纹提取算法或者是机器学习模型，以实现对声纹特征的提取。
98.步骤s202，根据所述声纹特征，判断所述发言语音对应的第一发言人是否具有语音转写权限。
99.在本技术的一种可选实施方式中，上述步骤s202可以通过以下步骤s1和步骤s2实现：
100.步骤s1，根据所述声纹特征，从声纹库中确定所述第一发言人的身份信息。
101.所述声纹库可以理解为用于存储不同发言人的声纹特征，以及声纹特征与发言人的身份信息之间对应关系的数据库。
102.在本技术的一种可选实施方式中，所述声纹库可以通过以下方式获得：
103.首先，获取预设的多个发言人的语音样本信息；
104.其次，分别提取所述多个发言人的语音样本信息中的声纹特征；
105.最后，基于所述语音样本信息中的声纹特征与所述多个发言人的身份信息之间的对应关系，构建所述声纹库。
106.在实际应用中，所述多个发言人的语音样本信息可以根据实际需要进行采集；比如说，在某公司开展的一场会议中，需要针对参会的多个发言人的发言语音进行语音识别；在此种场景下，所述预设的多个发言人的语音样本信息可以是通过录音笔、电脑等终端设备采集的参会人员的至少一段语音信息。
107.在本技术的另一可选实施方式中，为了避免发言人在不同场景下的发言语音的风格不同，提高声纹库在当前场景下的声纹质量，所述预设的多个发言人的语音样本信息可以在发言人的具体发言地点进行采集，也可以基于互联网等平台等采集发言人在与当前发言场景相同或类似发言场景的语音；比如说，假设所述发言人参加的是一个定期举行的正式会议，则所述发言人的语音样本信息可以是该发言人以往参加该正式会议时发表的一段或多段语音。
108.进一步的，所述声纹特征与所述多个发言人的身份信息之间的对应关系，可以在发言人注册声纹信息时通过预设的声纹注册模块获得。比如说，在获得张三的语音样本信息后，首先对该语音样本信息进行姓名或编号标注，以表明该语音样本信息所属发言人(张三)的身份信息，进而在提取该语音样本信息的声纹特征后，将标注的姓名或标号与声纹特征相对应，以表明发言人身份信息与声纹特征之间的对应关系。
109.步骤s2，根据预设的语音转写权限表和所述第一发言人的身份信息，判断所述第一发言人是否具有语音转写权限；其中，所述预设的语音转写权限表记录有多个发言人的语音转写权限。
110.在本技术实施例中，所述语音转写权限表可以理解为预先存储于语音识别系统中用于存储各个不同的发言人是否具有语音转写权限的表格。
111.请参阅表1，表1为本技术实施例提供的一种语音转写权限表。
112.表1
113.发言人语音转写权限张三1李四0
王五1赵六1
114.如表1所示，所述语音转写权限表可以理解为一张记载有不同发言人语音转写权限的二维表，该二维表中记录有不同发言人的姓名(如：张三、李四等)以表示不同发言人的身份信息，同时还记录有不同发言人的语音转写权限，其中，1表示该发言人具有语音转写权限、0表示该发言人不具有语音转写权限，如在表1中，张三具有语音转写权限，李四则不具有语音转写权限。
115.在本技术的一种可选实施方式中，所述语音转写权限表可以根据实际情况进行动态调整，比如说，假设在会议进行过程中，需要新增一发言人，且使该发言人具备语音转写权限，则此时，相关工作人员可以通过计算机等终端设备对该语音转写权限表进行修改，以新增发言人并为其设置语音转写权限。
116.可以理解的，由于上述语音转写权限表具有能够动态调整的特性，因此，所述语音转写权限表既可以是根据语音识别场景新制作的权限表，也可以是能够满足实际语音识别需求的历史权限表，还可以是在历史权限表的基础上根据实际需求修改获得的权限表。对此，本技术不做限制。
117.为了更进一步提高语音转写的灵活度，所述语音识别方法还包括：判断是否获得针对所述第一发言人的语音转写权限的调整指令；其中，如果获得针对所述第一发言人的语音转写权限的调整指令，则根据所述调整指令，调整所述第一发言人的语音转写权限。
118.在本技术的一种可选方式中，所述语音转写权限的调整指令可以由主持语音识别设备的相关工作人员发出，例如：主持会议的主持人或者其他工作人员。
119.在本技术的一种可选实施方式中，所述第一发言人的转写权限可以根据第一发言人的当前发言主题、第一发言人的历史语音转写权限、第一发言人的实际需求信息中的至少一种信息进行设定。
120.比如说，假设所述第一发言人在会议的发言阶段中涉及公司机密，且该段语音不便于进行语音识别，则当所述第一发言人提到这些内容时，会议主持人或相关工作人员可以暂时性的关闭所述第一发言人的语音转写权限；
121.又比如说，假设所述第一发言人不希望对其参会语音进行识别，则可以向相关工作人员进行情况说明，以修改其语音转写权限。
122.又比如说，假设所述第一发言人在以往的会议或语音识别场景下，一直是具有语音转写权限的，则在第一发言人参加会议时，若无特殊要求，可以一直保持所述第一发言人的语音转写权限处于开启状态；
123.步骤s203，如果所述发言语音对应的第一发言人具有语音转写权限，则对所述发言语音进行语音识别处理，得到所述第一发言人的发言文本。
124.在本技术实施例中，对第一发言人的语音进行语音识别处理的目的是得到所述第一发言人的发言文本，以记录所述第一发言人的发言内容。比如说，在会议语音识别的场景下，可以基于对第一发言人的发言语音的语音识别处理，生成所述第一发言人的会议纪要。
125.在本技术的一种可选实施方式中，上述步骤s203可以通过以下步骤s3和步骤s4实现：
126.步骤s3，根据所述第一发言人的声纹特征，从预设的个性化转写资源库中检索对
应所述第一发言人的个性化转写模型；所述个性化转写模型通过对具有特定语音特点的语音进行识别训练得到，所述第一发言人的发言语音具有所述特定语音特点。
127.所述预设的个性化转写资源库可以理解为用于存储个性化转写模型和所述个性化转写模型与发言人的对应关系的数据库。
128.其中，所述个性化转写模型可以理解为一种卷积神经网络。在具体应用的过程中，本技术采用机器学习(machine learning，ml)的方式训练获得所述个性化转写模型。机器学习(是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科)专用于研究通过训练样本，获取新的知识或技能，重新组织已有知识结构并不不断改善自身性能。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术，属于人工智能(artificial intellingence，ai)技术的一个分支。
129.在本技术的一种可选实施方式中，所述第一发言人的个性化转写模型，可以通过具有特定语音特点的语音对通用转写模型进行语音识别训练获得。其中，用于训练所述第一发言人的个性化转写模型的具有特定语音特点的语音，可以通过互联网收集获得或通过采集第一发言人的发言语音获得。
130.进一步的，所述特定的语言特点可以理解为所述第一发言人独有的语音特点，比如说，所述第一发言人的语速、语调等特点，也可以是指第一发言人所属的某一种类型的语言特点，比如说，所述第一发言人所具有的方言特点。可以理解的，无论所述第一发言人具有怎样的语言特点，都可以通过采集所述第一发言人的发言信息获得。
131.在本技术的一种可选实施方式中，针对不同的发言人各自的语言特点设置了不同的个性化语音转写模型，以提高个性化转写模型的转写正确率。
132.进一步的，请参考图3，图3为本技术另一实施例提供的一种个性化转写模型的训练流程图。
133.图3中包括：样本收集模块301、模型训练模块302、模型获得模块303。
134.其中，样本收集模块301用于获得具有第一发言人特定语音特点的发言语音，以作为训练样本；其中，所述训练样本可以通过网络获取，或者是通过录制第一发言人的发言信息获取。
135.在本技术的一种可选实施方式中，采用与所述第一发言人的当前发言场景相同场景的发言语音，以及所述发言语音对应的发言文本作为训练样本，以进一步提高所述第一发言人与所述个性化转写模型的适配度和转写正确率。
136.比如说，假设所述第一发言人的当前发言场景为定期举行的正式会议，则可以采用所述第一发言人在历届正式会议中的发言语音片段，以及该发言语音片段对应的发言文本作为训练样本。
137.之后将所述训练样本发送至模型训练模块302，通过模型训练模块302对通用转写模型进行微调(fine-tune)，以使模型获得模块303获得所述第一发言人的个性化转写模型。
138.步骤s4，如果从预设的个性化转写资源库中检索到对应所述第一发言人的个性化转写模型，则通过所述个性化转写模型对所述第一发言人的发言语音进行语音识别处理，得到所述第一发言人的发言文本。
139.在本技术的一种可选实施方式中，所述个性化转写模型采用基于注意力机制的端
到端的ed网络结构，其中，所述ed网络结构中包括一编码器(encoder)和一解码器(decoder)，其中，编码器用于接收输入网络结构中的第一发言人的发言语音，并将所述发言语音转化为高阶特征；所述解码器则用于接收所述高阶特征，并利用注意力机制将所述高阶特征转化为一种字符序列的概率分布，并基于这种概率分布，得到所述第一发言人的发言文本。
140.在本技术的另一种可选实施方式中，如果从预设的个性化转写资源库中未检索到对应的第一发言人的个性化转写模型，则可以利用通用转写模型对所述第一发言人的发言语音进行语音识别处理，得到第一发言人的发言文本。
141.所述通用转写模型用于对发言语音进行转写，获得所述发言语音的发言文本。与所述个性化转写模型类似的，所述通用转写模型也是一种卷积神经网络，在实际应用的过程中，所述通用转写模型可以采用通过互联网或其他途径获得的发言语音和所述发言语音对应的发言文本作为训练样本，采用机器学习的方式进行训练获得。
142.进一步的，由于通过个性化转写模型或通用转写模型生成的发言文本基本与发言人的发言内容一致，但考虑到发言人在发言的过程中，不可避免的会从出现一些口语化的内容或者是一些重复性的内容，因此，有必要对发言人的发言文本进行规整处理，使所述发言文本更具书面化的同时保留发言人的发言意图，进而提高发言人的发言文本的质量。
143.比如说，所述发言人的一段发言文本可能为“呃，今天的会议呢主要围绕三个方面啊，三个方面进行讨论”，经过文本规整处理后，所述发言人的上述发言文本可以为“今天的会议主要围绕三个方面进行讨论”。
144.在本技术的一种可选实施方式中，可以采用一种发言文本规整网络对所述发言文本进行处理，以获得所述规整化的发言文本。
145.具体的，所述发言文本规整网络可以是一种指针生成网络(pointer-generator networks)，请参考图4，图4为本技术另一实施例提供的一种发言文本规整网络的网络结构示意图。
146.如图4所示，所述发言文本规整网络，包括：输入层401、处理层402、输出层403；
147.其中，输入层401用于输入发言人的发言文本；
148.处理层402，用于对所述发言文本进行规整处理，所述规整处理的内容包括但不限于，对所述发言文本中的语气词进行过滤、对发言文本中的数字进行规整等。
149.输出层403用于对输出规整后的发言文本。
150.进一步的，在通过上述步骤s201至步骤s203获得所述第一发言人的发言文本后，为了便于发言文本的分享，还需要进一步针对所述发言文本进行查阅权限的设定，以实现文本内容的智能化传递，提高会议内容的下达效率。
151.进一步的，本技术提供的所述语音识别方法，还包括以下步骤s204和步骤s205：
152.步骤s204，确定所述第一发言人的文本查阅标识信息，所述文本查阅标识信息包括其他人查阅所述第一发言人的发言文本的权限信息；
153.步骤s205，基于所述第一发言人的文本查阅标识信息，设置所述第一发言人的发言文本的查阅权限。
154.在本技术的一种可选实施方式中，不同发言人之间的发言文本可以根据需要相互传阅。比如说，在一场会议中，第一发言人的发言内容对于其他发言人而言具有借鉴的必
要，则其他发言人可以根据查阅权限查阅第一发言人的发言文本。
155.其中，所述文本查阅标识信息的主要作用为用于标识其他人查阅第一发言人的发言文本的查阅权限信息，进而根据所述第一发言人的文本查阅标识信息，为所述第一发言人的发言文本赋予对应的查阅权限。
156.请参阅表2，表2为本技术实施例提供的一种查阅权限表。
157.表2
[0158][0159]
如表2所示，上述步骤所述的文本查阅标识信息可以理解为表2文本等级一栏和查阅权限一栏记载的内容，其中，所述发言文本的查阅权限信息，即为表2查阅权限一栏记载的内容。
[0160]
比如说，如果针对张三的发言内容生成发言文本，由于张三的发言文本的文件等级为一般文件，在得到张三的发言文本后，只需要为张三的发言文本设置对应一般机密文件的标签，即可使公司内部的所有人员均可查阅张三的发言文本；
[0161]
又比如说，如果针对李四的发言内容生成发言文本，由于李四的发言文本的文件等级为密件，在得到李四的发言文本后，只需要为李四的发言文本设置对应密件的标签，即可限制只有公司部门负责人级别的人员可以查阅李四的发言文本。
[0162]
在本技术的另一种可选实施方式中，为了提高发言语音的转写效率。本技术同时还对相似性较高的发言文本进行合并处理。
[0163]
具体的，对所述相似性较高的发言文本的合并过程包括以下步骤s206至步骤s208：
[0164]
步骤s206，获得第二发言人的发言文本，其中，所述第二发言人和所述第一发言人的发言文本的查阅权限相同；
[0165]
步骤s207，确定所述第一发言人的发言文本和所述第二发言人的发言文本之间的文本相似度；
[0166]
步骤s208，在所述文本相似度大于预设的相似度阈值的情况下，将所述第一发言人的发言文本和所述第二发言人的发言文本进行合并，获得合并后的发言文本。
[0167]
在本技术的一种可选实施方式中，为了便于文本查阅权限的限定，只考虑将具有相同查阅权限的不同发言人的发言文本进行合并。
[0168]
进一步的，在不同发言人的发言文本进行合并之前，还需要考虑不同发言人的发言文本的相似度，并认为相似度大于预设相似度阈值的发言文本满足合并条件。在本技术的一种可选实施方式中，不同发言人的发言文本的相似度通过计算不同发言文本之间的特
征距离获得，比如说，通过计算不同文本之间的欧几里得距离或者是计算不同文本之间的余弦距离获得。对此，本技术不做限制。
[0169]
进一步的，鉴于第一发言人和所述第二发言人的文本查阅权限相同，且所述第一发言人和所述第二发言人的发言文本之间的文本相似度较高，就可以认为第一发言人和第二发言人的发言内容相关，可以将合并后的发言文本作为所述第一发言人和所述第二发言人的共同发言文本。
[0170]
比如说，比如说第一发言人的发言文本为a.txt，第二发言人的发言文本为b.txt，第一发言人和第二发言人的查阅权限信息均为公司内部全员可见，并且发言文本a.txt和发言文本b.txt的相似度大于预设的相似度阈值，则可进一步对发言文本a.txt和发言文本b.txt进行合并，得到发言文本c.txt。此时，发言文本c.txt既可以作为第一发言人的发言文本，也可以作为第二发言人的发言文本。
[0171]
在本技术的一种可选实施方式中，得到所述第一发言人的发言文本后，可以根据所述第一发言人的查阅需求将所述第一发言人的发言文本发送至所述第一发言人的终端设备(例如：所述第一发言人的手机、电脑等)，以便于所述第一发言人查阅其发言文本。
[0172]
进一步的，为了便于其他人查阅所述第一发言人的发言文本，设置所述第一发言人的发言文本的查阅权限后，可以将所述第一发言人的发言文本发送至云端，以便于满足查阅权限的其他人查阅所述第一发言人的发言文本。
[0173]
综上所述，本技术实施例提供的语音识别方法，通过待识别发言语音中的声纹特征，判断所述发言语音对应的第一发言人是否具有语音转写权限，进而基于所述第一发言人的语音转写权限，对发言语音进行语音识别处理。该方法在对发言人的发言语音进行语音识别之前，能够自动判断发言人是否具有语音转写权限，在确定发言人具有语音转写权限的情况下，才对发言人的发言语音进行语音识别处理。该方案能够灵活决策是否对发言人的发言语音进行语音识别处理，从而提高了语音识别的灵活度，有利于缓解语音识别资源紧张和识别资源浪费的问题。
[0174]
示例性装置
[0175]
相应的，本技术实施例还提供了一种语音识别装置，请参考图5，图5为本技术另一实施例提供的语音识别装置结构示意图。
[0176]
所述语音识别装置，包括：
[0177]
提取单元501，用于从待识别的发言语音中提取声纹特征；
[0178]
判断单元502，用于根据所述声纹特征，判断所述发言语音对应的第一发言人是否具有语音转写权限；
[0179]
识别单元503，用于如果所述发言语音对应的第一发言人具有语音转写权限，则对所述发言语音进行语音识别处理，得到所述第一发言人的发言文本。
[0180]
在本技术的一种可选实施方式中，判断单元501，包括：
[0181]
信息确认子单元，用于根据所述声纹特征，从声纹库中确定所述第一发言人的身份信息；
[0182]
权限判断子单元，用于根据预设的语音转写权限表和所述第一发言人的身份信息，判断所述第一发言人是否具有语音转写权限；其中，所述预设的语音转写权限表记录有多个发言人的语音转写权限。
[0183]
在本技术的一种可选实施方式中，所述声纹库通过以下单元获得：
[0184]
样本获取单元，用于获取预设的多个发言人语音样本信息；
[0185]
声纹提取单元，用于分别提取所述多个发言人的语音样本信息中的声纹特征；
[0186]
声纹库构建单元，用于基于所述语音样本信息中的声纹特征与所述多个发言人的身份信息之间的对应关系，构建所述声纹库。
[0187]
在本技术的一种可选实施方式中，所述语音识别装置还包括：
[0188]
标识确定单元，用于确定所述第一发言人的文本查阅标识信息，所述文本查阅标识信息包括其他人查阅所述第一发言人的发言文本的权限信息；
[0189]
权限设置单元，用于基于所述第一发言人的文本查阅标识信息，设置所述第一发言人的发言文本的查阅权限。
[0190]
在本技术的一种可选实施方式中，所述语音识别装置还包括：
[0191]
文本获得单元，用于获得第二发言人的发言文本，其中，所述第一发言人和所述第二发言人的发言文本的查阅权限相同；
[0192]
相似度确定单元，用于确定所述第一发言人的发言文本与所述第二发言人的发言文本之间的文本相似度；
[0193]
文本合并单元，用于在所述文本相似度大于预设的相似度阈值的情况下，将所述第一发言人的发言文本和所述第二发言人的发言文本进行合并，获得合并后的发言文本。
[0194]
在本技术的一种可选实施方式中，所述识别单元503，包括：
[0195]
检索子单元，用于根据所述第一发言人的声纹特征，从预设的个性化转写资源库中检索对应所述第一发言人的个性化转写模型；所述个性化转写模型通过对具有特定语音特点的语音进行识别训练得到，所述第一发言人的发言语音具有所述特定语音特点；
[0196]
个性化转写子单元，用于如果从预设的个性化转写资源库中检索到对应所述第一发言人的个性化转写模型，则通过所述个性化转写模型对所述第一发言人的发言语音进行语音识别处理，得到所述第一发言人的发言文本。
[0197]
在本技术的一种可选实施方式中，对应所述第一发言人的个性化转写模型通过对所述第一发言人的发言语音进行语音识别训练得到。
[0198]
在本技术的一种可选实施方式中，所述语音识别装置还包括：
[0199]
权限触发单元，用于判断是否获得针对所述第一发言人的语音转写权限的调整指令；
[0200]
其中，如果获得针对所述第一发言人的语音转写权限的调整指令，则根据所述调整指令，调整所述第一发言人的语音转写权限。
[0201]
本实施例提供的语音识别装置，与本技术上述实施例所提供的语音识别方法属于同一申请构思，可执行本技术上述任意实施例所提供的语音识别方法，具备执行所述语音识别方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术上述实施例提供的语音识别方法的具体处理内容，此处不再加以赘述。
[0202]
示例性电子设备
[0203]
本技术另一实施例还提出一种电子设备，参见图6，图6为本技术另一实施例提供的电子设备结构示意图，如图6所示，该设备包括：
[0204]
存储器200和处理器210；
[0205]
其中，所述存储器200与所述处理器210连接，用于存储程序；
[0206]
所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音识别方法。
[0207]
具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。
[0208]
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：
[0209]
总线可包括一通路，在计算机系统各个部件之间传送信息。
[0210]
处理器210可以是通用处理器，例如通用中央处理器(cpu)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，asic)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0211]
处理器210可包括主处理器，还可包括基带芯片、调制解调器等。
[0212]
存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
[0213]
输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
[0214]
输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。
[0215]
通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(ran)，无线局域网(wlan)等。
[0216]
处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本技术上述实施例所提供的任意一种语音识别方法的各个步骤。
[0217]
示例性计算机程序产品和存储介质
[0218]
除了上述方法和设备以外，本技术的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的语音识别方法中的步骤。
[0219]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0220]
此外，本技术的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的语音识别方法中的步骤，具体可以实现以下步骤：
[0221]
步骤s201，从待识别的发言语音中提取声纹特征；
[0222]
步骤s202，根据所述声纹特征，判断所述发言语音对应的第一发言人是否具有语音转写权限；
[0223]
步骤s203，如果所述发言语音对应的第一发言人具有语音转写权限，则对所述发言语音进行语音识别处理，得到所述第一发言人的发言文本。
[0224]
对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
[0225]
需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0226]
本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。
[0227]
本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
[0228]
本技术所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0229]
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
[0230]
另外，在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。
[0231]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0232]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存
储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0233]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0234]
对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于音频渲染的预渲染信号的方法、设备和系统与流程

一种语音识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献