一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种会议场景下的说话内容的显示方法和装置与流程

2022-11-23 16:52:23 来源:中国专利 TAG:

技术特征:
1.一种会议场景下说话内容的显示方法,其特征在于,所述方法包括:响应于终端设备的会议应用开启的声纹识别功能,在接收说话人的音频流的过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息,所述当前音频片段是所述音频流的至少一部分音频;对所述当前音频片段进行语音识别得到内容信息;关联显示所述说话人的身份信息以及所述内容信息。2.根据权利要求1所述的方法,其特征在于,基于声纹识别技术识别当前音频片段中说话人的身份信息,包括:响应于通过语音活动检测vad检测到人声结束信号,在采样周期内获取所述当前音频片段;确定所述当前音频片段中每个说话人的语音特征;基于所述每个说话人的语音特征进行聚类分析,并将同一类的说话人嵌入作为一个说话人,得到聚类结果;基于预先采集的说话人的音频信息,对所述聚类结果进行身份匹配,确定每个所述说话人的身份信息。3.根据权利要求2所述的方法,其特征在于,当识别出两个或两个以上说话人的身份信息时,所述关联显示所述说话人的身份信息以及所述内容信息,包括:显示所述两个或两个以上说话人的身份信息,或者,显示所述两个或两个以上说话人的身份信息,以及每个说话人对应的内容信息。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据识别出的所述说话人的会中身份标识,在所述显示界面上还显示所述说话人的会中身份标识。5.根据权利要求1至4任一项所述的方法,其特征在于,所述说话人的身份信息以及所述内容信息在所述显示界面上通过以下任意一种显示:宫格视图、缩略图视图、放大视图、讲演者视图、失焦小窗视图。6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:如果在所述当前音频片段之后的预设时长内,利用所述声纹识别技术在下一音频片段中未检测到新的说话人,则不再显示所述当前音频片段中说话人的身份信息和内容信息,显示所述说话人所在的会议室的会议室标识。7.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:在所述显示界面上还显示声纹图标或用户id,所述声纹图标或用户id在被用户触发时,弹出所述提示语,所述提示语提示当前显示的说话人的身份信息和对应的内容信息均来自声纹识别结果。8.根据权利要求1至4任一项所述的方法,其特征在于,响应于终端设备的会议应用开启的声纹识别功能,包括:显示会中安全设置窗口,所述会中安全设置窗口中包括使用声纹识别功能的启动项;响应于用户开启所述使用声纹识别功能的启动项的操作,开启所述声纹识别功能,并关闭所述会中安全设置窗口。9.根据权利要求1至4任一项所述的方法,其特征在于,关联显示所述说话人的身份信
息以及所述内容信息,包括:按照至少一个预设规则在显示界面上显示所述说话人的身份信息以及所述内容信息;其中,所述至少一个预设规则包括:在识别所述说话人说话后的一段时间内,如果识别出新的说话人,则进行一次说话人内容信息的替换,将所述新的说话人的内容信息替换前一个说话人的内容信息。10.根据权利要求9所述的方法,其特征在于,所述至少一个预设规则还包括:将当前说话段中说话时长最长的人确定为所述当前音频片段的说话人。11.根据权利要求10所述的方法,其特征在于,所述至少一个预设规则还包括:当识别出新的说话人时,在显示新的说话人的身份信息和内容信息时,还显示前一说话人的身份信息。12.一种会议场景下的说话内容的显示装置,其特征在于,所述装置包括:接收单元,用于响应于所述装置的会议应用开启的声纹识别功能,接收说话人的音频流;识别单元,用于基于声纹识别技术识别当前音频片段中说话人的身份信息,以及对所述当前音频片段进行语音识别得到内容信息,所述当前音频片段是所述音频流的至少一部分音频;显示单元,用于关联显示所述说话人的身份信息以及所述内容信息。13.一种电子设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器耦合;所述存储器,用于存储计算机程序指令;所述计算机程序指令被所述处理器读取并执行时,实现如权利要求1至11中任一项所述的方法。14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序;当所述计算机程序被计算机执行时,实现权利要求1至11中任一项所述的方法。

技术总结
本发明公开了一种会议场景下的说话内容的显示方法和装置,所述方法包括:响应于终端设备的会议应用开启的声纹识别功能,在接收说话人的音频流的过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息,所述当前音频片段是所述音频流的至少一部分音频,对所述当前音频片段进行语音识别得到内容信息;关联显示所述说话人的身份信息以及所述内容信息。本技术方案可实时地识别并显示当前音频片段的说话人和内容信息,从而实现了会议中说话人身份和说话内容的实时展示,提高了会议质量和用户的参会体验。用户的参会体验。用户的参会体验。


技术研发人员:王斌 王乾坤 穆维林 杨晶生
受保护的技术使用者:北京字跳网络技术有限公司
技术研发日:2022.08.19
技术公布日:2022/11/22
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献