会议纪要的生成方法、装置、电子设备及存储介质与流程

2022-03-19 19:02:21 来源：中国专利 TAG：

1.本技术涉及会议记录技术领域，尤其涉及一种会议纪要的生成方法、装置、电子设备及存储介质。

背景技术：

2.在举行会议时，传统方式采用人工手动记录会议过程的内容，并手动整理成会议纪要，但手动方式的效率较低。为提高记录效率，将语音识别技术应用到会议记录中，实现智能化生成会议纪要。
3.但是会议记录具有实时性和复杂性，不同的人说相同内容的话，或者相同的人在不同的时间、生理、心理状态下说相同内容的话存在很大差异；用户在连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音现象。而当前的语音识别模型都是针对特定用户或特定场景，其难以在会议记录的复杂场景实现快速和准确地识别用户发言信息。

技术实现要素：

4.本技术提供了一种会议纪要的生成方法、装置、电子设备及存储介质，以解决的会议纪要的生成结果准确度低的技术问题。
5.为了解决上述技术问题，第一方面，本技术实施例提供了一种会议纪要的生成方法，包括：
6.提取会议语音数据的语谱图；
7.利用预设智能解码引擎的声学模型，根据语谱图，确定会议语音数据的信号特征与音素模板之间的第一概率值，得到信号特征对应的音素特征；
8.利用预设智能解码引擎的语言模型，确定音素特征与文字模板之间的第二概率值；
9.利用预设智能解码引擎的解码器，根据第一概率值和第二概率值，对会议语音数据进行解码，得到会议文本数据；
10.对会议文本数据进行纠错操作，生成会议纪要。
11.本实施例通过提取会议语音数据的语谱图，以将一段时间内的语音数据进行处理，从而达到连续语音处理的目的；利用预设智能解码引擎的声学模型，根据语谱图，确定会议语音数据的信号特征与音素模板之间的第一概率值，得到信号特征对应的音素特征，并利用预设智能解码引擎的语言模型，确定音素特征与文字模板之间的第二概率值，以及利用预设智能解码引擎的解码器，根据第一概率值和第二概率值，对会议语音数据进行解码，得到会议文本数据，以无需直接提取语音特征，实现端到端的语音识别，提高在复杂场景下的语音识别效率和准确率；最后对会议文本数据进行纠错操作，生成会议纪要，进一步保证最终结果的准确率。
12.在一实施例中，提取会议语音数据的语谱图，包括：
13.对会议语音数据进行分帧，得到多帧语音信号；
14.对每帧语音信号进行加窗处理，并对加窗处理后的语音信号进行快速傅里叶变换，得到每帧语音信号的频谱；
15.将多个频谱进行叠加，得到语谱图。
16.本实施例通过对会议语音数据进行分帧、加窗和快速傅里叶变换，以将会议语音数据从时域信号转换为频域信号，以更好的表征会议语音数据的信号特征。
17.在一实施例中，利用预设智能解码引擎的声学模型，根据语谱图，确定会议语音数据的信号特征与音素模板之间的第一概率值，得到信号特征对应的音素特征，包括：
18.利用声学模型，计算语谱图的信号特征与预设语言库中的音素模板之间的第一概率值，预设语言库包括小词汇的音素模板；
19.将与信号特征的第一概率值最大的音素模板确定为述音素特征。
20.本实施例通过预设语言库的音素模板进行概率计算，以使语音识别能够支持小词汇和方言识别，具有语言识别多样化。
21.在一实施例中，语言模型为三元模型，利用预设智能解码引擎的语言模型，确定音素特征与文字模板之间的第二概率值，包括：
22.利用三元模型，计算音素特征与预设文本库中的文字模板之间的第二概率值。
23.本实施例通过三元模型计算第二概率值，能够避免数据稀疏问题，从而提高计算结果准确度。
24.在一实施例中，利用预设智能解码引擎的解码器，根据第一概率值和第二概率值，对会议语音数据进行解码，得到会议文本数据，包括：
25.利用解码器的解码函数，根据第一概率值和第二概率值，对会议语音数据进行解码，得到会议文本数据，解码函数为：
26.w
*
＝argmaxw(logp(w|o) λlogp
lm
(w) γlen(w))；
27.其中p(ω|o)为第一概率值，p
lm
(ω)为第二概率值，γlen(ω)为会议语音数据的长度。
28.本实施例通过解码器的解码函数直接输出语言识别结果，实现端到端的语言识别过程，提高语言识别效率和识别准确度。
29.在一实施例中，对会议文本数据进行纠错操作，生成会议纪要，包括：
30.对会议文本数据进行分词操作，得到候选错误结果；
31.对候选错误结果进行词替换操作，生成会议纪要。
32.本实施例通过纠错操作，使得略带口音的普通话和粤语、四川话等方言，以及英语等外语，均可有效识别，并可根据句意自动纠错、自动分词断句添加标点，让输入更快捷，沟通交流更顺畅。
33.在一实施例中，提取会议语音数据的语谱图之前，还包括：
34.采集会议语音数据；
35.对会议语音数据进行声纹识别，确定会议语音数据对应的发言人。
36.本实施例通过声纹识别，以准确记录每个发言人的发言内容，保证所述记录的信息的准确性。
37.第二方面，本技术实施例提供一种会议纪要的生成装置，包括：
38.提取模块，用于提取会议语音数据的语谱图；
39.第一确定模块，用于利用预设智能解码引擎的声学模型，根据语谱图，确定会议语音数据的信号特征与音素模板之间的第一概率值，得到信号特征对应的音素特征；
40.第二确定模块，用于利用预设智能解码引擎的语言模型，确定音素特征与文字模板之间的第二概率值；
41.解码模块，用于利用预设智能解码引擎的解码器，根据第一概率值和第二概率值，对会议语音数据进行解码，得到会议文本数据；
42.纠错模块，用于对会议文本数据进行纠错操作，生成会议纪要。
43.第三方面，本技术实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的会议纪要的生成方法。
44.第四方面，本技术实施例提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的会议纪要的生成方法。
45.需要说明的是，上述第二方面至第四方面的有益效果请参见第一方面的相关描述，在此不再赘述。
附图说明
46.图1为本技术实施例提供的会议纪要的生成方法的流程示意图；
47.图2为本技术实施例提供的会议纪要的生成装置的结构示意图；
48.图3为本技术实施例提供的电子设备的结构示意图。
具体实施方式
49.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
50.如相关技术记载，会议记录具有实时性和复杂性，不同的人说相同内容的话，或者相同的人在不同的时间、生理、心理状态下说相同内容的话存在很大差异；用户在连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音现象。而当前的语音识别模型都是针对特定用户或特定场景，其难以在会议记录的复杂场景实现快速和准确地识别用户发言信息。
51.为此，本技术实施例提供一种会议纪要的生成方法、装置、电子设备及存储介质，通过提取会议语音数据的语谱图，以将一段时间内的语音数据进行处理，从而达到连续语音处理的目的；利用预设智能解码引擎的声学模型，根据语谱图，确定会议语音数据的信号特征与音素模板之间的第一概率值，得到信号特征对应的音素特征，并利用预设智能解码引擎的语言模型，确定音素特征与文字模板之间的第二概率值，以及利用预设智能解码引擎的解码器，根据第一概率值和第二概率值，对会议语音数据进行解码，得到会议文本数据，以无需直接提取语音特征，实现端到端的语音识别，提高语音识别效率和准确率；最后对会议文本数据进行纠错操作，生成会议纪要，进一步保证最终结果的准确率。
52.请参照图1，图1为本技术实施例提供的一种会议纪要的生成方法的流程示意图。本技术实施例的会议纪要的生成方法可应用于电子设备，该电子设备包括但不限于智能手机、平板电脑、笔记本电脑和个人数字助理等设备。如图1所示，会议纪要的生成方法包括步骤s101值s105，详述如下：
53.步骤s101，提取会议语音数据的语谱图。
54.在本步骤中，语谱图为在一段时间内的频谱图叠加而成。可选地提取语谱图的主要步骤包括对会议语音数据进行分帧、加窗和快速傅立叶变换。
55.步骤s102，利用预设智能解码引擎的声学模型，根据所述语谱图，确定所述会议语音数据的信号特征与音素模板之间的第一概率值，得到所述信号特征对应的音素特征。
56.在本步骤中，预设解码引擎包括声学模型、语言模型和解码器。声学模型主要用于计算语音信号特征和每个发音模板(音素模板)之间的似然度(第一概率值)。
57.可选地，利用所述声学模型，计算所述语谱图的信号特征与预设语言库中的音素模板之间的第一概率值，预设语言库包括小词汇的音素模板；将与所述信号特征的第一概率值最大的音素模板确定为述音素特征。
58.在本实施例中，利用卷积神经网络处理训练数据，通过最大值池化提取主要特征，并根据ctc损失函数进行训练得出声学模型。示例性地，对一个新的语音或者方言以及对小词汇的应用，创建模型；采集有足够多的语音数据，例如单人的语音数据的长度至少为1小时，200个人的语音数据的长度至少为50小时；通过卷积神经网络处理训练数据，以进行训练和优化。
59.步骤s103，利用所述预设智能解码引擎的语言模型，确定所述音素特征与文字模板之间的第二概率值。
60.在本步骤中，语言模型能够保证文本的语法结构，使得识别后的语句通顺。语言模型是一种概率统计方法，利用已经训练好的语言模型，对任何一个文本给出概率，概率越高说明语法上越通顺。通过训练得出语言模型，并比较两句话在同一个语言模型上的概率，以判断语法的准确性以及语句的通顺与否，能够减少人力成本。
61.步骤s104，利用所述预设智能解码引擎的解码器，根据所述第一概率值和第二概率值，对所述会议语音数据进行解码，得到会议文本数据。
62.在本步骤中，可选地，利用所述解码器的解码函数，根据所述第一概率值和第二概率值，对所述会议语音数据进行解码，得到会议文本数据，所述解码函数为：
63.w
*
＝argmaxw(logp(w|o) λlogp
lm
(w) γlen(w))；
64.其中p(ω|o)为第一概率值，p
lm
(ω)为第二概率值，γlen(ω)为会议语音数据的长度。λ是语言模型的权重，λ越大表示越依赖语言模型。遍历所有可能词序列找到概率最大的位置输出结果。
65.步骤s105，对所述会议文本数据进行纠错操作，生成会议纪要。
66.在本步骤中，纠错操作包括对错别字、拼写错误、语法错误和常见格式错误进行识别，并返回修改建议，确认修改意见后，把错别字等错误进行修正，传输给会议纪要文档功能，生成会议纪要。
67.可选地，对自动生成会议纪要文档进行下载，提升会议记录效率。
68.需要说明的是，本实施例可以将音频流实时识别为文字，并返回每句话的开始和
结束时间，适用于长句语音输入、音视频字幕、会议等场景。支持websocket api，支持android、ios、linux sdk，可以在多种操作系统、多种设备终端上调用。应用于音频文件转写，将批量上传的音频文件识别为文字，支持普通话和略带口音的中文识别，支持英文识别。适合录音质检、会议内容总结、音频内容分析等场景。
69.在一实施例中，在图1所示实施例的基础上，步骤s101，包括：
70.对所述会议语音数据进行分帧，得到多帧语音信号；
71.对每帧所述语音信号进行加窗处理，并对加窗处理后的语音信号进行快速傅里叶变换，得到每帧所述语音信号的频谱；
72.将多个所述频谱进行叠加，得到所述语谱图。
73.在本实施例中，会议语音数据为语音信号，通过对语音信号进行分帧，然后在处理语音信号时，对语音信号进行加窗，即将一帧内的会议语音数据乘以一个窗函数，得到新的一帧数据，每次取一段数据，对数据进行快速傅立叶变换，进行分析，然后再取下一段数据，再进行分析。
74.由于语音信号在时域上比较难看出其特性，所以本实施例对每帧经过窗函数处理的信号做快速傅立叶变换，以将时域图转换成各帧的频谱图，然后对每个窗口的频谱叠加得到语谱图。
75.可以理解的使，傅立叶变换是一种分析信号的方法，它可分析信号的成分，也可用这些成分合成信号。许多波形可作为信号的成分，比如正弦波、方波、锯齿波等，傅立叶变换用正弦波作为信号的成分。
76.任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示，这种表示方式就是傅里叶级数。假如有个波形比较复杂的周期函数，那么找出能用来构成这个周期函数的正弦函数和余弦函数的频率的方法就叫做傅里叶变换，用这些频率的正弦函数和余弦函数叠加起来表示这个周期函数的方法就叫做傅里叶逆变换。
77.在一实施例中，在图1所示实施例的基础上，步骤s103，包括：
78.利用所述三元模型，计算所述音素特征与预设文本库中的文字模板之间的第二概率值。
79.在本实施例中，语言模型是一串词序列的概率分布。具体地，语言模型是为一个长度为m的文本确定一个概率分布p，表示这段文本存在的可能性。在实践中，如果文本的长度较长，p(wi|w1，w2，
…
，wi-1)的计算会非常困难。因此，本实施例使用模型进行简化为n元模型(n－gram model)，其中在n元模型中估算条件概率时，只需要对当前词的前n个词进行计算。而传统方法一般采用频率计数的比例来估算n元条件概率，当n较大时，机会存在数据稀疏问题，导致估算结果不准确。因此本实施例采用三元模型，以能够应对百万词级别的概率计算。
80.在一实施例中，在图1所示实施例的基础上，步骤s105，包括：
81.对所述会议文本数据进行分词操作，得到候选错误结果；
82.对所述候选错误结果进行词替换操作，生成所述会议纪要。
83.在本实施例中，纠错操作包括错误检测和错误纠正；其中错误检测部分先通过结巴中文分词器切词(即分词)，由于句子中含有错别字，所以切词结果往往会有切分错误的情况，这样可以从字粒度和词粒度两方面检测错误，整合这两种粒度的疑似错误结果，形成
疑似错误位置候选集(即候选错误结果)。错误纠正部分是根据疑似错误位置候选集，通过遍历所有的疑似错误位置，并使用音似词、形似词替换错误位置的词，然后通过语言模型计算句子困惑度，对所有候选集结果比较并排序，得到最优纠正词。本实施例能极大减少错别字，错别词的出现，避免了遗漏检查的问题。
84.在一实施例中，在图1所示实施例的基础上，步骤s101之前，还包括：
85.采集所述会议语音数据；
86.对所述会议语音数据进行声纹识别，确定所述会议语音数据对应的发言人。
87.在本实施例中，通过智能录音功能收录系统声音、麦克风声音或两者同时录制，同时支持保存音频资源、声音配音、录制会议纪要或转录音频格式。会议语音数据的数据格式可以包括但不限于mp3、aac、ogg、wma、wav或flac，以适用于上传到各大平台，支持共享音频。
88.通过声纹识别，将会议语音数据生成为特征向量，并将预先已单独录入特征向量数据库的声纹特征向量比对，识别是否为同一个发言人，若不是同一个发言人，则作为新增发言人，并记录发言信息；若是同一个发言人，则按照同一发言人记录发言信息。本实施例能够区分出会议上不同发言人的声音，并能够很好的分类重点记录下来，使会议内容更加具体丰富，避免记录信息不明确。
89.为了执行上述方法实施例对应的会议纪要的生成方法，以实现相应的功能和技术效果。参见图2，图2示出了本技术实施例提供的一种会议纪要的生成装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分，本技术实施例提供的会议纪要的生成装置，包括：
90.提取模块201，用于提取会议语音数据的语谱图；
91.第一确定模块202，用于利用预设智能解码引擎的声学模型，根据所述语谱图，确定所述会议语音数据的信号特征与音素模板之间的第一概率值，得到所述信号特征对应的音素特征；
92.第二确定模块203，用于利用所述预设智能解码引擎的语言模型，确定所述音素特征与文字模板之间的第二概率值；
93.解码模块204，用于利用所述预设智能解码引擎的解码器，根据所述第一概率值和第二概率值，对所述会议语音数据进行解码，得到会议文本数据；
94.纠错模块205，用于对所述会议文本数据进行纠错操作，生成会议纪要。
95.在一实施例中，所述提取模块201，包括：
96.分帧单元，用于对所述会议语音数据进行分帧，得到多帧语音信号；
97.加窗单元，用于对每帧所述语音信号进行加窗处理，并对加窗处理后的语音信号进行快速傅里叶变换，得到每帧所述语音信号的频谱；
98.叠加单元，用于将多个所述频谱进行叠加，得到所述语谱图。
99.在一实施例中，所述第一确定模块202，包括：
100.第一计算单元，用于利用所述声学模型，计算所述语谱图的信号特征与预设语言库中的音素模板之间的第一概率值，预设语言库包括小词汇的音素模板；
101.确定单元，用于将与所述信号特征的第一概率值最大的音素模板确定为述音素特征。
102.在一实施例中，所述第二确定模块203，包括：
103.第二计算单元，用于利用所述三元模型，计算所述音素特征与预设文本库中的文字模板之间的第二概率值。
104.在一实施例中，所述解码模块204，包括：
105.解码单元，用于利用所述解码器的解码函数，根据所述第一概率值和第二概率值，对所述会议语音数据进行解码，得到会议文本数据，所述解码函数为：
106.w
*
＝argmaxw(logp(w|o) λlogp
lm
(w) γlen(w))；
107.其中p(ω|o)为第一概率值，p
lm
(ω)为第二概率值。
108.在一实施例中，所述纠错模块205，包括：
109.分词单元，用于对所述会议文本数据进行分词操作，得到候选错误结果；
110.替换单元，用于对所述候选错误结果进行词替换操作，生成所述会议纪要。
111.在一实施例中，生成装置，还包括：
112.采集模块，用于采集所述会议语音数据；
113.第三确定模块，用于对所述会议语音数据进行声纹识别，确定所述会议语音数据对应的发言人。
114.上述的会议纪要的生成装置可实施上述方法实施例的会议纪要的生成方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本技术实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。
115.图3为本技术一实施例提供的电子设备的结构示意图。如图3所示，该实施例的电子设备3包括：至少一个处理器30(图3中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32，所述处理器30执行所述计算机程序32时实现上述任意方法实施例中的步骤。
116.所述电子设备3可以是智能手机、平板电脑、桌上型计算机等计算设备。该电子设备可包括但不仅限于处理器30、存储器31。本领域技术人员可以理解，图3仅仅是电子设备3的举例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。
117.所称处理器30可以是中央处理单元(central processing unit，cpu)，该处理器30还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
118.所述存储器31在一些实施例中可以是所述电子设备3的内部存储单元，例如电子设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述电子设备3的外部存储设备，例如所述电子设备3上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。进一步地，所述存储器31还可以既包括所述电子设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
119.另外，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。
120.本技术实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现上述各个方法实施例中的步骤。
121.在本技术所提供的几个实施例中，可以理解的是，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。
122.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read－only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
123.以上所述的具体实施例，对本技术的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本技术的具体实施例而已，并不用于限定本技术的保护范围。特别指出，对于本领域技术人员来说，凡在本技术的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种独立的智能指令触发器的制作方法

会议纪要的生成方法、装置、电子设备及存储介质与流程

相关文献

最热文献