一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

会议录音转写方法、系统、计算机设备和可读存储介质与流程

2021-09-29 01:04:00 来源:中国专利 TAG:转写 互联网 计算机 录音 可读

技术特征:
1.一种会议录音转写方法,其特征在于,包括:热词语料集合构建步骤,获取待转写的会议录音信息,根据所述会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合;识别解码网络构建步骤,构建识别解码网络;语音信号解码步骤,获取待转写的会议录音,利用所述识别解码网络解码所述会议录音的每帧语音信号,并在完成最后一帧语音信号解码后,选择最大累计概率的活跃节点作为最优节点,通过最优节点获取其对应的单词序列;热词解码增强步骤,在语音信号解码步骤中根据所述热词语料集合对所述活跃节点的历史路径进行增强,提高热词所在路径的累积历史路径概率。2.根据权利要求1所述的会议录音转写方法,其特征在于,所述热词语料集合构建步骤进一步包括:会议录音信息获取步骤,获取待转写的会议录音信息,所述会议录音信息包括会议录音的文件名和用户填写的附带信息,所述附带信息包括行业、领域、会议主题及会议关键字其一或其任意组合;关键词获取步骤,对所述会议录音信息进行文本预处理,并利用命名实体识别方法获取所述会议录音信息的关键词;热词扩展数据获取步骤,根据所述关键词通过网络公开数据爬虫及内部知识库获取热词扩展数据并保存到热词语料集合。3.根据权利要求2所述的会议录音转写方法,其特征在于,所述热词扩展数据获取步骤进一步包括:热词扩展数据外部获取步骤,通过网络爬虫搜集公开知识图谱数据和/或网络百科中所述关键词的同义词和/或近义词,并通过搜索引擎搜索所述关键词获取其平行语料,对所述平行语料进行同义词和/或近义词映射和扩展查询,得到热词数据a;热词扩展数据内部获取步骤,根据所述关键词在所述内部知识库中的通过相关性计算得到热词数据b;热词扩展数据处理步骤,对所述热词数据a、b通过文本合并、去重及分词处理后保存到热词语料集合,其中,所述热词数据b配置为权重高于所述热词数据a。4.根据权利要求1

3中任一项所述的会议录音转写方法,其特征在于,所述识别解码网络构建步骤进一步包括:top解码网络构建步骤,构建top level识别解码网络并配置top level识别解码网络采用的自定义标签;sub解码网络构建步骤,构建sub level识别解码网络并配置sub level识别解码网络的自定义标签扩展信息;其中,当所述top level识别解码网络识别到所述自定义标签时,自动动态加载对应的sub level识别解码网络,进入到sub level识别解码网络中解码对应内容。5.一种会议录音转写系统,其特征在于,包括:热词语料集合构建模块,用于获取待转写的会议录音信息,根据所述会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合;识别解码网络构建模块,用于构建识别解码网络;
语音信号解码模块,用于获取待转写的会议录音,利用所述识别解码网络解码所述会议录音的每帧语音信号,并在完成最后一帧语音信号解码后,选择最大累计概率的活跃节点作为最优节点,通过最优节点获取其对应的单词序列;热词解码增强模块,用于在语音信号解码模块解码过程中根据所述热词语料集合对所述活跃节点的历史路径进行增强,提高热词所在路径的累积历史路径概率。6.根据权利要求5所述的会议录音转写系统,其特征在于,所述热词语料集合构建模块进一步包括:会议录音信息获取模块,用于获取待转写的会议录音信息,所述会议录音信息包括会议录音的文件名和用户填写的附带信息,所述附带信息包括行业、领域、会议主题及会议关键字其一或其任意组合;关键词获取模块,用于对所述会议录音信息进行文本预处理,并利用命名实体识别方法获取所述会议录音信息的关键词;热词扩展数据获取模块,用于根据所述关键词通过网络公开数据爬虫及内部知识库获取热词扩展数据并保存到热词语料集合。7.根据权利要求6所述的会议录音转写系统,其特征在于,所述热词扩展数据获取模块进一步包括:热词扩展数据外部获取模块,用于通过网络爬虫搜集公开知识图谱数据和/或网络百科中所述关键词的同义词和/或近义词,并通过搜索引擎搜索所述关键词获取其平行语料,对所述平行语料进行同义词和/或近义词映射和扩展查询,得到热词数据a;热词扩展数据内部获取模块,用于根据所述关键词在所述内部知识库中的通过相关性计算得到热词数据b;热词扩展数据处理模块,用于对所述热词数据a、b通过文本合并、去重及分词处理后保存到热词语料集合,其中,所述热词数据b配置为权重高于所述热词数据a。8.根据权利要求5

7中任一项所述的会议录音转写系统,其特征在于,所述识别解码网络构建模块进一步包括:top解码网络构建模块,用于构建top level识别解码网络并配置top level识别解码网络采用的自定义标签;sub解码网络构建模块,用于构建sub level识别解码网络并配置sub level识别解码网络的自定义标签扩展信息;其中,所述top level识别解码网络配置为识别到所述自定义标签时,自动动态加载对应的sub level识别解码网络,进入到sub level识别解码网络中解码对应内容。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的会议录音转写方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的会议录音转写方法。

技术总结
本申请涉及一种会议录音转写方法、系统、计算机和存储介质,其中,该方法包括:热词语料集合构建步骤,获取待转写的会议录音信息,根据会议录音信息通过网络和/或内部知识库获取热词扩展数据并构建热词语料集合;识别解码网络构建步骤,构建识别解码网络;语音信号解码步骤,获取待转写的会议录音,利用所述识别解码网络解码所述会议录音的每帧语音信号,并在完成最后一帧语音信号解码后,选择最大累计概率的活跃节点作为最优节点,通过最优节点获取其对应的单词序列;热词解码增强步骤,在语音信号解码步骤中根据热词语料集合对所述活跃节点的历史路径进行增强。通过本申请,实现对热词识别的有效增强,提高会议录音转写对热词的识别效果。的识别效果。的识别效果。


技术研发人员:刘晨
受保护的技术使用者:上海明略人工智能(集团)有限公司
技术研发日:2021.06.09
技术公布日:2021/9/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜