会议记录方法、装置、设备及存储介质

2022-05-11 11:46:33 来源：中国专利 TAG：

1.本发明涉及语音识别技术领域，尤其涉及一种会议记录方法、装置、设备及存储介质。

背景技术：

2.随着智能手机的普及，各种输入法和聊天软件成为人们的日常交流的必须品。目前各大主流输入法都支持语音识别，以及将语音转成文字输入，主流聊天软件也都支持相关功能。传统的语音识别原理如下：先对声音分帧；然后将波形作变换，把每一帧波形变成一个多维向量(即声学特征提取)，得到观察序列；之后把帧识别成状态，状态组合成音素，音素组合成单词。目前单纯的单人语音转文字技术已经趋于成熟，线上会议成为很多公司开会的首选方式。但利用会议软件进行多人交流的网络语音会议场景下，某段时间内很可能存在多位参会人员讲话，单人语音转文字其实已经不能满足多人参会时的会议记录需求。
3.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

4.本发明的主要目的在于提供一种会议记录方法、装置、设备及存储介质，旨在解决现有技术无法在多人参会发言时进行会议记录的技术问题。
5.为实现上述目的，本发明提供了一种会议记录方法，所述方法包括以下步骤：
6.对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音；
7.根据所述分帧语音进行倒谱系数值计算，得到目标系数值；
8.根据所述目标系数值确定目标记录用户；
9.根据所述分帧语音和所述目标记录用户生成会议记录。
10.可选地，所述对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音，包括：
11.获取初始音频；
12.对所述初始音频进行预加重处理，得到待记录音频文件；
13.获取所述待记录音频文件的目标采样点；
14.根据预设采样点数值对所述目标采样点进行划分，得到所述待记录音频文件的分帧语音。
15.可选地，所述根据所述分帧语音进行倒谱系数值计算，得到目标系数值，包括：
16.对所述分帧语音进行加窗，得到所述分帧语音对应的第一语音信号；
17.对所述第一语音信号进行频谱变换，得到所述第一语音信号对应的频谱和功率谱；
18.对所述频谱和所述功率谱进行倒谱系数值计算，得到目标系数值。
19.可选地，所述对所述频谱和所述功率谱进行倒谱系数值计算，得到目标系数值，包括：
20.根据所述功率谱和预设滤波器组进行能量输出，得到对数能量；
21.根据所述对数能量和所述频谱进行向量变换，确定倒谱参数；
22.根据所述倒谱参数进行倒谱系数值计算，得到目标系数值。
23.可选地，所述根据所述倒谱参数进行倒谱系数值计算，得到目标系数值，包括：
24.根据所述倒谱参数确定倒谱系数和倒谱系数的阶数；
25.根据所述倒谱参数、倒谱系数以及阶数确定一阶差分参数；
26.根据所述一阶差分参数确定二阶差分参数；
27.根据所述倒谱参数、一阶差分参数以及二阶差分参数得到目标系数值。
28.可选地，所述根据所述目标系数值确定目标记录用户，包括：
29.在历史系数值中查找是否存在所述目标系数值；
30.若所述历史系数值中存在所述目标系数值，则根据所述历史系数值对应的历史记录用户确定目标记录用户；
31.若所述历史系数值中不存在所述目标系数值，则根据所述目标系数值生成目标记录用户。
32.可选地，所述根据所述分帧语音和所述目标记录用户生成会议记录，包括：
33.根据所述分帧语音进行语音转换，得到所述分帧语音对应的语音内容；
34.将所述语音内容与所述目标记录用户进行内容匹配并进行文本输出，生成所述待记录音频文件对应的会议记录。
35.此外，为实现上述目的，本发明还提出一种会议记录装置，所述会议记录装置包括：
36.分帧模块，用于对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音；
37.计算模块，用于根据所述分帧语音进行倒谱系数值计算，得到目标系数值；
38.确定模块，用于根据所述目标系数值确定目标记录用户；
39.生成模块，用于根据所述分帧语音和所述目标记录用户生成会议记录。
40.此外，为实现上述目的，本发明还提出一种会议记录设备，所述会议记录设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的会议记录程序，所述会议记录程序配置为实现如上文所述的会议记录方法。
41.此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有会议记录程序，所述会议记录程序被处理器执行时实现如上文所述的会议记录方法。
42.本发明通过对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音；根据所述分帧语音进行倒谱系数值计算，得到目标系数值；根据所述目标系数值确定目标记录用户；根据所述分帧语音和所述目标记录用户生成会议记录。通过上述方式，通过对参会人员发言时的待记录音频文件进行分帧，并对得到的分帧语音进行倒谱系数值，根据得到的倒谱系数值确定在会议进行发言的目标记录用户，并根据分帧语音对目标记录用户的发言内容进行记录，最终完成生成待记录音频文件对应会议的会议记录，提高了会议记录时的效率，节省了会议记录的人力成本。
附图说明
43.图1是本发明实施例方案涉及的硬件运行环境的会议记录设备的结构示意图；
44.图2为本发明会议记录方法第一实施例的流程示意图；
45.图3为本发明会议记录方法一实施例的会议记录示意图；
46.图4为本发明会议记录方法第二实施例的流程示意图；
47.图5为本发明会议记录装置第一实施例的结构框图。
48.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
49.应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
50.参照图1，图1为本发明实施例方案涉及的硬件运行环境的会议记录设备结构示意图。
51.如图1所示，该会议记录设备可以包括：处理器1001，例如中央处理器 (central processing unit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘 (keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真 (wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory，ram)存储器，也可以是稳定的非易失性存储器(non-volatile memory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
52.本领域技术人员可以理解，图1中示出的结构并不构成对会议记录设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
53.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及会议记录程序。
54.在图1所示的会议记录设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明会议记录设备中的处理器1001、存储器1005可以设置在会议记录设备中，所述会议记录设备通过处理器1001调用存储器1005中存储的会议记录程序，并执行本发明实施例提供的会议记录方法。
55.本发明实施例提供了一种会议记录方法，参照图2，图2为本发明一种会议记录方法第一实施例的流程示意图。
56.本实施例中，所述会议记录方法包括以下步骤：
57.步骤s10：对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音。
58.需要说明的是，本实施例的执行主体为终端设备，终端设备可为电脑、手机、平板以及其他智能终端设备，终端设备上安装有会议记录系统，在终端设备接收到会议录音对应的待记录音频文件后，会议记录系统对所述待记录音频文件进行分帧，基于得到的分帧语音进行倒谱系数值计算，得到目标系数值，根据目标系数值确定目标记录用户，最终根据分帧语音和目标记录用户生成会议记录。
59.可以理解的是，待记录音频文件指的是对会议中参会人员发言的初始音频进行预处理后的音频文件。
60.在具体实现中，由于待记录音频文件中的语音信号是时变的，且存在多个采样点，为了便于后续对待记录音频文件的分析，对待记录音频文件进行分帧，从而得到待记录音频文件的分帧语音。
61.需要说明的是，为了对待记录音频文件进行准确分帧，从而提高后续会议记录时的准确性，进一步地，所述对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音，包括：获取初始音频；对所述初始音频进行预加重处理，得到待记录音频文件；获取所述待记录音频文件的目标采样点；根据预设采样点数值对所述目标采样点进行划分，得到所述待记录音频文件的分帧语音。
62.可以理解的是，初始音频指的是会议参会人员发言时的录音。对初始音频进行预加重处理指的是将初始音频中的语音信号经过一个高通滤波器： h(z)＝1-μz-1
，提升初始音频中的高频部分，使初始音频中的语音信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，同时消除了初始音频发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，突出了高频的共振峰。
63.在具体实现中，通过对初始音频进行预加重处理，从而得到待记录音频文件，由于待记录音频文件中存在多个采样点，因此需对待记录音频进行分帧处理，即将待记录音频文件中的n个采样点组合成一个观测单位，通常情况下，n的值为256或512，覆盖的时间为25ms左右，最终得到分帧语音。
64.步骤s20：根据所述分帧语音进行倒谱系数值计算，得到目标系数值。
65.需要说明的是，目标系数值指的是能够识别分帧语音归属的目标用户的 mfcc(mel frequency cepstrum coefficient，mel频率倒谱系数)参数值。
66.可以理解的是，通过对分帧语音进行加窗、频谱分析以及其他处理后，可得到分帧语音对应的目标系数值。
67.步骤s30：根据所述目标系数值确定目标记录用户。
68.需要说明的是，目标记录用户指的是分帧语音对应的会议发言用户。
69.可以理解的是，在得到分帧语音对应的目标系数值后，可根据目标系数值确定目标记录用户。例如，在求得分帧语音1对应的目标系数值为a时，确定分帧语音1对应的目标记录用户为z，分帧语音2对应的目标系数值为a 时，确定分帧语音2对应的目标记录用户为z，分帧语音3对应的目标系数值为b时，确定分帧语音3对应的目标记录用户为y。
70.在具体实现中，为了准确定位分帧语音对应的会议发言用户，进一步地，所述根据所述目标系数值确定目标记录用户，包括：在历史系数值中查找是否存在所述目标系数值；若所述历史系数值中存在所述目标系数值，则根据所述历史系数值对应的历史记录用户确定目标记录用户；若所述历史系数值中不存在所述目标系数值，则根据所述目标系数值生成目标记录用户。
71.需要说明的是，在得到每个分帧语音对应的目标系数值之后，将目标系数值及对应的目标记录用户进行存储，若历史系数值中存在当前分帧语音对应的目标系数值，则说明当前分帧语音对应的目标记录用户在之前发言过用户，则根据历史系数值对应的历史记录用户确定当前分帧语音对应的目标记录用户。若历史系数值中不存在目标系数值，则说明当前分帧语音对应的目标记录用户是第一次在会议中发言的用户，则根据目标系数值生成新的用户标签，得到目标系数值对应的目标记录用户。
72.可以理解的是，在对待记录音频文件中的各分帧语音依次计算目标系数值时，会将各分帧语音对应的目标系数值及目标记录用户进行存储，例如，对待记录音频文件中的分帧语音1进行计算得到目标系数值为a，由于分帧语音1是第一个被计算目标系数值的分帧语音，则根据目标系数值a生成用户标签z，即说明目标系数值a对应的目标记录用户为z，并将目标系数值a 与目标记录用户z的对应关系进行存储，同时将分帧语音1与目标记录用户z 的对应关系进行存储，对待记录音频文件中的分帧语音2进行计算得到目标系数值为b，在历史系数值中查找到不存在值为b的系数值，仅存储值为a 的历史系数值，因此，根据目标系数值b生成用户标签y，即说明目标系数值b对应的目标记录用户为y，并将目标系数值b与目标记录用户y的对应关系进行存储，同时将分帧语音2与目标记录用户y的对应关系进行存储，对待记录音频文件中的分帧语音3进行计算得到目标系数值为a，在历史系数值中查找到存在值为a的历史系数值，因此，查找历史系数值a对应的历史记录用户为z，则说明目标系数值a对应的目标记录用户为z，且分帧语音3对应的目标记录用户为y。
73.步骤s40：根据所述分帧语音和所述目标记录用户生成会议记录。
74.需要说明的是，在根据各分帧语音对应的目标系数值确定目标记录用户后，按照待记录音频文件中分帧语音的时间顺序、分帧语音对应文字内容及分帧语音对应的目标记录用户生成会议记录。例如，按照待记录音频文件的分帧语音顺序为分帧语音1、分帧语音2、分帧语音3...分帧语音2000，分帧语音1至分帧语音200对应的目标记录用户为z，分帧语音201至分帧语音 450对应的目标记录用户为y...分帧语音1800至分帧语音2000对应的目标记录用户为z，最终生成的会议记录如图3所示。
75.可以理解的是，为了得到准确的会议记录，需要将分帧语音进行文字转换，进一步地，所述根据所述分帧语音和所述目标记录用户生成会议记录，包括：根据所述分帧语音进行语音转换，得到所述分帧语音对应的语音内容；将所述语音内容与所述目标记录用户进行内容匹配并进行文本输出，生成所述待记录音频文件对应的会议记录。
76.在具体实现中，将各分帧语音进行语音转换，从而得到分帧语音对应的语音内容，语音内容指的是分帧语音进行转换后的文字内容。将语音内容与目标记录用户进行内容匹配，从而得到各目标记录用户发言时对应的文字内容，并按照待记录音频文件中分帧语音的顺序将各目标记录用户发言时对应的文字内容进行文本输出，最终生成待记录音频文件对应的会议记录。
77.本实施例通过对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音；根据所述分帧语音进行倒谱系数值计算，得到目标系数值；根据所述目标系数值确定目标记录用户；根据所述分帧语音和所述目标记录用户生成会议记录。通过上述方式，通过对参会人员发言时的待记录音频文件进行分帧，并对得到的分帧语音进行倒谱系数值，根据得到的倒谱系数值确定在会议进行发言的目标记录用户，并根据分帧语音对目标记录用户的发言内容进行记录，最终完成生成待记录音频文件对应会议的会议记录，提高了会议记录时的效率，节省了会议记录的人力成本。
78.参考图4，图4为本发明一种会议记录方法第二实施例的流程示意图。
79.基于上述第一实施例，本实施例会议记录方法中所述步骤s20，包括：
80.步骤s31：对所述分帧语音进行加窗，得到所述分帧语音对应的第一语音信号。
81.需要说明的是，对分帧语音乘上汉明窗，从而得到加窗后的第一语音信号。例如，
分帧语音为s(n),n＝0,1...,n-1,n的大小为帧的大小，对分帧语音加窗后得到的第一语音信号为s'(n)＝s(n)
×
w(n)，其中，汉明窗w(n)的形式如下：
82.步骤s32：对所述第一语音信号进行频谱变换，得到所述第一语音信号对应的频谱和功率谱。
83.需要说明的是，在得到加窗后的第一语音信号后，将第一语音信号进行快速傅里叶变换第一语音信号对应的频谱，并对第一语音信号的频谱取模平方获取第一语音信号对应的功率谱。
84.步骤s33：对所述频谱和所述功率谱进行倒谱系数值计算，得到目标系数值。
85.需要说明的是，在得到第一语音信号对应的频谱和功率谱后，可基于频谱和功率谱进行倒谱系数值计算，得到分帧语音对应的目标系数值。
86.可以理解的是，为了得到准确的目标系数值，进一步地，所述对所述频谱和所述功率谱进行倒谱系数值计算，得到目标系数值，包括：根据所述功率谱和预设滤波器组进行能量输出，得到对数能量；根据所述对数能量和所述频谱进行向量变换，确定倒谱参数；根据所述倒谱参数进行倒谱系数值计算，得到目标系数值。
87.在具体实现中，预设滤波器组指的是预设的一组mel三角形滤波器组，预设滤波器具体为定义一个有k个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...k，各f(m)之间的间隔随着m值的减少而缩小，随着m值的增大而增宽，每个三角形滤波器的中心频率c(l)在mel频率轴上等间隔分布。设o(l),c(l),h(l)分别是第l个三角形滤波器的下限，中心，和上限频率，则相邻三角形滤波器之间的下限，中心，上限频率的关系以下：c(l)＝h(l-1)＝o(l 1)。
88.需要说明的是，将功率谱经过预设滤波器组后，计算预设滤波器组输出的对数能量，从而得到对数能量
89.可以理解的是，根据对数能量和频谱进行向量变换指的是根据对数能量对频谱进行离散余弦变换，得到倒谱参数
90.在具体实现中，在得到倒谱参数后，需根据倒谱参数进行动态差分参数的提取，基于提取后的数值以及倒谱参数得到目标系数值。
91.需要说明的是，为了进行准确的倒谱系数值计算，进一步地，所述根据所述倒谱参数进行倒谱系数值计算，得到目标系数值，包括：根据所述倒谱参数确定倒谱系数和倒谱系数的阶数；根据所述倒谱参数、倒谱系数以及阶数确定一阶差分参数；根据所述一阶差分参数确定二阶差分参数；根据所述倒谱参数、一阶差分参数以及二阶差分参数得到目标系数值。
92.可以理解的是，标准的倒谱参数只反映了语音参数的静态特性，语音的动态特性能够用这些静态特征的差分谱来描述，把动、静态特征结合起来才能有效提升系统的识别性能。因此，需根据倒谱参数确定倒谱系数和倒谱系数的阶数，根据倒谱参数、倒谱系数以及倒谱系数确定一阶差分参数，根据一阶差分参数确定二阶差分的参数。具体为一阶差分
参数其中dt表示第t个一阶差分参数，c
t
表示第t个倒谱系数，q表示倒谱系数的阶数，k表示一阶倒数的时间差，可取1或2，根据一阶差分参数可得到二阶差分参数。最终目标系数值＝n维倒谱参数，n维倒谱参数＝n/3的倒谱系数 n/3的一阶差分参数 n/3的二阶差分参数。
93.本实施例通过对所述分帧语音进行加窗，得到所述分帧语音对应的第一语音信号；对所述第一语音信号进行频谱变换，得到所述第一语音信号对应的频谱和功率谱；对所述频谱和所述功率谱进行倒谱系数值计算，得到目标系数值。通过对分帧语音进行加窗和频谱变换处理，最终得到能够有效识别分帧语音对应用户的目标系数值，提升了语音识别性能。
94.此外，参照图5，本实施例还提出一种会议记录装置，所述会议记录装置包括：
95.分帧模块10，用于对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音。
96.计算模块20，用于根据所述分帧语音进行倒谱系数值计算，得到目标系数值。
97.确定模块30，用于根据所述目标系数值确定目标记录用户。
98.生成模块40，用于根据所述分帧语音和所述目标记录用户生成会议记录。
99.本实施例通过对待记录音频文件进行分帧，得到所述待记录音频文件的分帧语音；根据所述分帧语音进行倒谱系数值计算，得到目标系数值；根据所述目标系数值确定目标记录用户；根据所述分帧语音和所述目标记录用户生成会议记录。通过上述方式，通过对参会人员发言时的待记录音频文件进行分帧，并对得到的分帧语音进行倒谱系数值，根据得到的倒谱系数值确定在会议进行发言的目标记录用户，并根据分帧语音对目标记录用户的发言内容进行记录，最终完成生成待记录音频文件对应会议的会议记录，提高了会议记录时的效率，节省了会议记录的人力成本。
100.在一实施例中，所述分帧模块10，还用于获取初始音频；
101.对所述初始音频进行预加重处理，得到待记录音频文件；
102.获取所述待记录音频文件的目标采样点；
103.根据预设采样点数值对所述目标采样点进行划分，得到所述待记录音频文件的分帧语音。
104.在一实施例中，所述计算模块20，还用于对所述分帧语音进行加窗，得到所述分帧语音对应的第一语音信号；
105.对所述第一语音信号进行频谱变换，得到所述第一语音信号对应的频谱和功率谱；
106.对所述频谱和所述功率谱进行倒谱系数值计算，得到目标系数值。
107.在一实施例中，所述计算模块20，还用于根据所述功率谱和预设滤波器组进行能量输出，得到对数能量；
108.根据所述对数能量和所述频谱进行向量变换，确定倒谱参数；
109.根据所述倒谱参数进行倒谱系数值计算，得到目标系数值。
110.在一实施例中，所述计算模块20，还用于根据所述倒谱参数确定倒谱系数和倒谱系数的阶数；
111.根据所述倒谱参数、倒谱系数以及阶数确定一阶差分参数；
112.根据所述一阶差分参数确定二阶差分参数；
113.根据所述倒谱参数、一阶差分参数以及二阶差分参数得到目标系数值。
114.在一实施例中，所述确定模块30，还用于在历史系数值中查找是否存在所述目标系数值；
115.若所述历史系数值中存在所述目标系数值，则根据所述历史系数值对应的历史记录用户确定目标记录用户；
116.若所述历史系数值中不存在所述目标系数值，则根据所述目标系数值生成目标记录用户。
117.在一实施例中，所述生成模块40，还用于根据所述分帧语音进行语音转换，得到所述分帧语音对应的语音内容；
118.将所述语音内容与所述目标记录用户进行内容匹配并进行文本输出，生成所述待记录音频文件对应的会议记录。
119.由于本装置采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。
120.此外，本发明实施例还提出一种存储介质，所述存储介质上存储有会议记录程序，所述会议记录程序被处理器执行时实现如上文所述的会议记录方法的步骤。
121.由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。
122.需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。
123.另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的会议记录方法，此处不再赘述。
124.此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
125.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
126.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(read onlymemory，rom)/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方
法。
127.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

会议记录方法、装置、设备及存储介质

相关文献

最热文献