一种会议纪要生成方法及装置与流程

2022-02-20 05:23:52 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别涉及一种会议纪要生成方法及装置、计算设备和计算机可读存储介质。

背景技术：

2.在公司的日常会议中，通常要对会议的内容进行记录，需要对与会人员发言的内容进行整理记录，生成会议纪要，目前，会议纪要的生成主要依靠用户自主撰写，通过人工记录的方式得到的会议纪要往往准确率较低，或者因为记录速度慢的原因导致部分内容遗漏，或者因为主观因素导致记录有偏差等等。
3.因此，如何减少人为因素导致的会议纪要准确率低的问题，就成为技术人员亟待解决的问题。

技术实现要素：

4.有鉴于此，本技术实施例提供了一种会议纪要生成方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。
5.根据本技术实施例的第一方面，提供了一种会议纪要生成方法，包括：
6.对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本；
7.接收针对所述会议文本的会议属性信息；
8.将所述会议属性信息和所述会议文本输入至会议纪要生成模型；
9.通过所述会议纪要生成模型根据所述会议属性信息和所述会议文本生成会议纪要。
10.根据本技术实施例的第二方面，提供了一种会议纪要生成装置，包括：
11.转写模块，被配置为对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本；
12.接收模块，被配置为接收针对所述会议文本的会议属性信息；
13.模型输入模块，被配置为将所述会议属性信息和所述会议文本输入至会议纪要生成模型；
14.生成模块，被配置为通过所述会议纪要生成模型根据所述会议属性信息和所述会议文本生成会议纪要。
15.根据本技术实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述会议纪要生成方法的步骤。
16.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述会议纪要生成方法的步骤。
17.根据本技术实施例的第五方面，提供了一种芯片，其存储有计算机指令，该计算机
指令被芯片执行时实现所述会议纪要生成方法的步骤。
18.本技术实施例提供的会议纪要生成方法，包括对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本；接收针对所述会议文本的会议属性信息；将所述会议属性信息和所述会议文本输入至会议纪要生成模型；通过所述会议纪要生成模型根据所述会议属性信息和所述会议文本生成会议纪要。通过本技术实施例提供的会议纪要方法，能够将会议音频中的口语转换为精简的书面语表达，再通过会议纪要生成模型在书面语表达中提取重点信息，组成更适合阅读的会议纪要，解决了口语化信息表达不规范，阅读效率低的问题，同时也解决了无法自动化智能生成会议纪要的问题，提升了用户的使用体验和工作效率。
附图说明
19.图1是本技术实施例提供的计算设备的结构框图；
20.图2是本技术实施例提供的会议纪要生成方法的流程图；
21.图3是本技术实施例提供的文本转换模型训练方法的流程图；
22.图4是本技术实施例提供的会议纪要生成方法的示意图；
23.图5是本技术实施例提供的会议纪要生成装置的结构示意图。
具体实施方式
24.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
25.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本技术一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
26.应当理解，尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。
27.首先，对本发明一个或多个实施例涉及的名词术语进行解释。
28.会议音频文件：记录会议内容的音频文件，如会议录音。
29.会议文本：会议音频文件对应的书面文本。
30.会议属性信息：与会议相关的属性信息，例如会议主题、重点发言人等等。
31.会议纪要：会议音频文件或会议文本对应的会议提纲，可以包括会议的要点、会议的结论、会议布置的任务等等。
32.会议纪要生成模型：一种基于t5模型训练的根据会议文本生成对应会议纪要文本的人工智能模型。
33.语音识别模型：语音识别(automatic speech recognition)是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言，语音识别模型是一种将音频转换成对应文字的人工智能模型。
34.口语表达文本：与音频文件对应的表达文本，与音频中的内容一致，会有很多口语化的表达，口语表达文本会比较繁琐，不够简洁。
35.口语表达句子集合：口语表达文本经过分句处理之后，生成的多个口语表达句子的集合。
36.文本转换模型：一种基于t5的预训练模型，可以将口语表达文本转换为书面语表达文本，书面语表达文本相比于口语表达文本更简洁、清楚。
37.t5：text-to-text transfer transformer，是一种encoder-decoder架构预训练模型。
38.书面语表达句子集合：将口语表达句子集合中的每个口语表达句子进行书面化转化后生成的多个书面语表达句子的集合。
39.待输入会议文本：由会议文本和会议属性信息拼接生成的文本，待输入会议文本输入至会议纪要生成模型后会生成对应的会议纪要。
40.在本技术中，提供了一种会议纪要生成方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。
41.图1示出了根据本技术一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。
42.计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
43.在本技术的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本技术范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
44.计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
45.其中，处理器120可以执行图2所示会议纪要生成方法中的步骤。图2示出了根据本技术一实施例的会议纪要生成方法的流程图，包括步骤202至步骤208。
46.步骤202：对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本。
47.目前，市面上的会议记录产品的主要功能包括语音到文字的转写、关键词抽取，对于生成会议纪要通常是由用户自主书写，或者用户事先说出关键词后由机器开始识别，如用户说出关键词“下面是会议纪要”后，机器开始识别。语音到文字的转写，通常会有口语化数据表达不规范，导致转写完的文字阅读效率低，同时会议纪要无法自动化智能化生成，用户体验较差等问题。基于此，本技术提供的会议纪要生成方法能够将语音转换为更适合阅读的文本，并从文本中提取出简洁明了的会议纪要，提升用户的使用体验。
48.本技术提供的会议纪要生成方法应用于终端，该终端可以是客户端，也可以是服务器，只需要终端具备处理音频文件、部署相关智能模型的能力即可。具体的，会议音频文件具体是指与会议有关的音频文件，如会议的录音文件，会议文本为会议音频文件经过转写后生成的书面语表达的文本，书面语表达更规范、准确。
49.在实际应用中，会议音频文件通常是会议的录音，大家在会议中进行的讨论通常是口语化的表达，在口语化表达中会带有较多的口头语或无意义的词句，为了便于阅读者可以直观的了解到每句话的重点内容，可以将会议音频文件转写为书面语表达的会议文本。具体的，对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本，包括s2022-s2024：
50.s2022、将接收到的会议音频文件输入至语音识别模型，获得所述语音识别模型输出的口语表达文本。
51.语音识别模型(automatic speech recognition模型，asr模型)是一种可以将语音转换为对应文字的人工智能模型，如可以是asrt模型、deepspeechrecognition模型、end2end_chinese_speech_recognition模型等等，asrt模型通过采用卷积神经网络(cnn)和连接性时序分类(ctc)方法，使用大量语音数据集进行训练，将声音转录为拼音，并通过语言模型将拼音转换为文本；deepspeechrecognition模型使用cnn dnn(deep neural networks,深度神经网络) cnn的架构，将音频文件转写为文本；end2end_chinese_speech_recognition模型更适用于环境和发音都较为清楚的情况，将录音转换为对应的文本，在本技术中，对语音识别模型的具体模型不做限定，以实际应用为准。
52.将会议音频文件输入至语音识别模型中，语音识别模型将会议音频文件转写为对应的口语表达文本，口语表达文本为与音频文件对应的表达文本，与音频中的内容一致，会有很多口语化的表达，口语表达文本会比较繁琐，不够简洁。
53.在本技术提供的一具体实施方式中，接收会议音频文件“会议记录文件.mp3”，将会议音频文件输入至语音识别模型中进行语音识别，获得语音识别模型输出的口语表达文本“会议记录-转写文件.docx”。
54.s2024、对所述口语表达文本进行处理，获得所述口语表达文本对应的会议文本。
55.在上述步骤中获得的口语表达文本比较繁琐，不够简洁，不利于阅读者快速的从口语表达文本中得知实际表达的内容，因此，需要将口语表达文本转换为对应的书面语表达形式的会议文本，文本转换模型是提取口语表达文本中的主旨信息，去除口语表达文本中的冗余信息，生成口语表达文本对应的书面语表达文本的深度学习模型。书面语表达形式的会议文本相比于口语表达文本而言，更加简洁、明了，便于阅读者快速准确地了解会议音频文件中的内容。
56.在实际应用中，可以在终端中对口语表达文本进行处理并输入至文本转换模型，
获得文本转换模型输出的口语表达文本对应的会议文本；也可以直接将口语表达文本输入至文本转换模型，在文本转换模型中对口语表达文本进行识别，获得口语表达文本对应的会议文本。
57.在本技术提供的一具体实施方式中，以在终端中对口语表达文本进行处理，并输入至文本转换模型中进行转换为例进行解释说明。具体的，对所述口语表达文本进行处理，获得所述口语表达文本对应的会议文本，包括s1-s3：
58.s1、将所述口语表达文本进行分句处理，获得所述口语表达文本对应的口语表达句子集合。
59.口语表达文本通常为长文本，为了便于文本转换模型对文本进行处理，可以先将口语表达文本进行分句处理，口语表达文本转换为对应的口语表达句子集合，具体的，可以在口语表达文本中对预设的标点符号进行查找，将口语表达文本进行分句，预设的标点符号例如“。”、“；”、“？”、“！”等等，当口语表达文本中的标点符号与预设的标点符号匹配成功后，从匹配成功的标点符号的位置执行分句处理，获得口语表达句子。将口语表达文本进行分句处理后，即可获得对应的多个口语表达句子，进而获得口语表达句子集合。
60.在本技术提供的一具体实施方式中，将口语表达文本“会议记录-转写文件.docx”进行分句处理，获得多个口语表达句子组成的口语表达句子集合{口语表达句子1、口语表达句子2、口语表达句子3
……
口语表达句子n}。
61.s2、将所述口语表达句子集合中的口语表达句子输入至文本转换模型，获得所述口语表达句子集合对应的书面语表达句子集合。
62.文本转换模型具体是指用于将口语表达句子转换为书面语表达句子的深度学习模型，文本转换模型可以使用采用了encoder-decoder模型框架的预训练模型框架，如transformer模型、mass模型，sequence2sequence模型，t5模型等等，优选的，本技术中以t5(text-to-text transfer transformer)模型为例，t5模型是一种编码-解码架构的预训练模型，训练好的文本转换模型可以将口语表达句子转换为书面语表达句子。
63.在实际应用中，将口语表达句子集合中的口语表达句子输入至文本转换模型，可以是将句子一条一条依次输入至文本转换模型，也可以是将口语表达句子通过特定符号(如#、@、&等)进行拼接后，一次性输入至文本转换模型。
64.在本技术提供的一具体实施方式中，以将口语表达句子依次输入至文本转换模型为例进行解释说明，口语表达句子集合为{口语表达句子1、口语表达句子2、口语表达句子3
……
口语表达句子n}，将口语表达句子1输入至文本转换模型进行处理，获得书面语表达句子1，将口语表达句子2输入至文本转换模型进行处理，获得书面语表达句子2，
……
依次类推，直至获得书面语表达句子集合{书面语表达句子1、书面语表达句子2、书面语表达句子3
……
书面语表达句子n}。
65.在本技术提供的另一具体实施方式中，以将口语表达句子通过特定符号“&”进行拼接后输入至文本转换模型为例进行解释说明，口语表达句子集合为{口语表达句子1、口语表达句子2、口语表达句子3
……
口语表达句子n}，终端(如服务器)通过特定符号“&”将口语表达句子进行拼接，获得口语表达拼接文本“口语表达句子1&口语表达句子2&口语表达句子3&
……
&口语表达句子n”，并将口语表达拼接文本输入至文本转换模型，文本转换模型中根据特定符号“&”将口语表达拼接文本分解为多个口语表达句子，再进行文本转换，获得
各自对应的书面语表达句子，再将书面语表达句子根据特定符号“&”进行拼接，文本转换模型获得书面语拼接文本“书面语表达句子1&书面语表达句子2&书面语表达句子3&
……
&书面语表达句子n”，并将书面语拼接文本输出至终端(如服务器)，终端(如服务器)在获得书面语拼接文本后，再根据特定符号“&”对其进行分解，获得书面语表达句子集合{书面语表达句子1、书面语表达句子2、书面语表达句子3
……
书面语表达句子n}。
66.具体的，所述文本转换模型通过下述步骤训练获得，参见图3，图3示出了本技术一实施例提供的文本转换模型的训练方法流程示意图，包括步骤302至步骤308：
67.步骤302：获取样本口语表达句子和所述样本口语表达句子对应的样本书面语表达句子。
68.样本口语表达句子和样本书面语表达句子组成了文本转换模型的训练数据，样本口语表达句子可以是单个的句子，也可以是多个句子根据特定符号进行的拼接，样本书面语表达句子与样本口语表达句子的形式一致，即如果样本书面语表达句子是单个的句子，则样本口语表达句子也是单个的句子；如果样本书面语表达句子是多个句子根据特定符号进行的拼接，则样本口语表达句子也是多个句子根据特定符号进行的拼接。在本技术中，对样本口语表达句子和样本书面语表达句子的具体形式不做限定，以实际应用为准。
69.步骤304：将所述样本口语表达句子输入至待训练文本转换模型进行处理，获得所述待训练文本转换模型输出的预测书面语表达句子。
70.将样本口语表达句子输入至待训练文本转换模型进行处理，待训练文本转换模型具体是指还未训练成功的文本转换模型，待训练文本转换模型在接收到样本口语表达句子后，对样本口语表达句子做分词处理，获得每个分词的词性和分词出现次数，再结合语义分析从样本口语表达句子中获得样本口语表达句子的主旨内容，进而生成预测书面语表达句子。预测书面语表达句子是文本转换模型在训练过程中根据样本口语表达句子生成的书面语表达句子。
71.步骤306：根据所述预测书面语表达句子和所述样本书面语表达句子计算文本转换损失值。
72.在获得预测书面语表达句子后，需要根据预测书面语表达句子和样本书面语表达句子计算文本转换损失值，计算文本转换损失值的损失函数在实际应用中可以为0-1损失函数、绝对值损失函数、平方损失函数、交叉熵损失函数等，在本技术中，对损失函数的选择不做限定，以实际应用为准。在此，以交叉熵损失函数为例进行解释说明，参见下述公式1：
[0073][0074]
其中，c表示损失值loss，x表示样本口语表达句子对应向量表示，y表示输出的书面语对应的词id矩阵、a表示语言模型预测的词汇分布，n表示样本总数量。
[0075]
步骤308：根据所述文本转换损失值调整所述待训练文本转换模型的模型参数，并继续训练所述待训练文本转换模型直至达到训练停止条件，获得训练完成的文本转换模型。
[0076]
在计算文本转换损失值loss之后，根据loss值反向传播调整待训练文本转换模型中的学习率参数、batch_size参数等，并用下一批次样本数据继续训练待训练文本转换模
型，直至文本转换损失值小于预设阈值和/或训练轮次达到预设的轮次。
[0077]
在本技术提供的一具体实施方式中，以通过文本转换损失值小于预设阈值来停止训练待训练文本转换模型为例，预设阈值为0.3，则当计算得到的文本转换损失值小于0.3时，则认定待训练文本转换模型训练完成。
[0078]
在本技术提供的另一具体实施方式中，以预设的训练轮次来停止训练待训练文本转换模型为例，预设的训练轮次为10轮，当样本数据的训练轮次到达10轮后，则认定待训练文本转换模型已经训练完成。
[0079]
在本技术提供的又一具体实施方式中，设置损失值预设阈值和预设训练轮次两个训练停止条件，同时监控文本转换损失值和训练轮次，当文本转换损失值与训练轮次中任意一项满足或两项均满足训练停止条件时，则认定待训练文本转换模型已经训练完成。即当文本转换损失值小于损失值预设阈值或训练轮次达到预设训练轮次，或文本转换损失值小于损失值预设阈值且训练轮次达到预设训练轮次时，认定待训练文本转换模型已经训练完成。
[0080]
s3、根据所述书面语表达句子集合获得会议文本。
[0081]
在获得书面语表达句子集合之后，根据书面语表达句子集合中的句子顺序对书面语表达句子集合中的各句子进行拼接，将所有书面语表达句子集合中的句子拼接完成之后生成会议文本。具体的，所述会议文本包括发言人、发言人对应的书面文本、所述书面文本对应的时间区间。例如会议文本为“发言人1：***(00:10-08:05)。发言人2：****(08:10-13:00)
……”
其中，“发言人1”为会议中第一个发言的人，“***”为书面语表达句子，“00:10-08:05”表示发言人1是从第10秒开始说话，一直到8分5秒结束。
[0082]
步骤204：接收针对所述会议文本的会议属性信息。
[0083]
会议属性信息为用户输入的与会议有关的一些参数信息，例如会议主题、会议重点关注的发言人、会议日期等等。根据会议属性信息可以更好的从会议文本中提取会议纪要。
[0084]
具体的，接收针对所述会议文本的会议属性信息，包括：
[0085]
获取会议纪要模板，并将所述会议纪要模板和所述会议文本发送给用户；
[0086]
接收所述用户基于所述会议纪要模板输入的所述会议文本的会议属性信息。
[0087]
会议纪要模板是预先设置的、用于生成会议纪要的模板，存储于终端中，会议纪要模板可以是默认的，也可以由用户根据自己的实际需要进行个性化调整。终端将会议纪要模板和会议文本发送给用户，用户可以根据会议文本填写会议纪要模板，在会议纪要模板中可以输入会议主题、会议时间等信息，还可以结合会议文本填写需要重点关注的发言人，例如，张三是行业的专家学者，其说话的内容比较重要，可以在会议文本中确定张三对应的是发言人3，则可以在会议纪要模板中将发言人3标记为重点关注人，需要在后续生成会议纪要的过程中重点关注该发言人3对应的讲话内容。
[0088]
用户在根据会议文本填写完会议纪要模板之后，返回给终端(如服务器)，终端(如服务器)即可接收到用户基于会议纪要模板输入的会议属性信息。
[0089]
步骤206：将所述会议属性信息和所述会议文本输入至会议纪要生成模型。
[0090]
在获得会议属性信息和会议文本之后，即可将两者输入至会议纪要生成模型进行处理，会议纪要生成模型是根据会议属性信息在会议文本中提取相关信息，并生成对应的
会议纪要的深度学习模型，会议纪要生成模型可以使用采用了encoder-decoder模型框架的预训练模型框架，如transformer模型、mass模型，sequence2sequence模型，t5模型等等。
[0091]
会议纪要生成模型优选使用t5(text-to-text transfer transformer)模型框架，其中，会议纪要生成模型通过下述步骤s2062-s2068训练获得：
[0092]
s2062、获得样本会议文本和所述样本会议文本对应的样本会议纪要。
[0093]
样本会议文本和样本会议纪要组成了会议纪要生成模型的训练数据，样本会议文本与样本会议纪要成对出现，样本会议纪要作为样本会议文本的训练标签，在实际应用中，样本会议文本具体是指某次会议的会议音频文件经过转写后获得的会议文本以及会议文本对应的会议属性信息，会议属性信息包括会议主题、重点关注人等信息。样本会议纪要具体是指根据会议属性信息从会议文本中提取的相关信息，样本会议纪要中至少包括样本会议要点、样本会议结论、样本会议任务中的至少一项。
[0094]
s2064、将所述样本会议文本输入至待训练会议纪要生成模型进行处理，获得所述待训练会议纪要生成模型输出的预测会议纪要。
[0095]
将样本会议文本输入至待训练会议纪要生成模型中进行处理，待训练会议纪要生成模型具体是指还未训练成功的会议纪要生成模型，待训练会议纪要生成模型接收到样本会议文本后，提取样本会议文本中的会议要点信息、会议结论信息、会议任务信息等内容，并按照预设的格式进行拼接和输出，生成预测会议纪要，预测会议纪要中包括预测会议要点、预测会议结论、预测会议任务中的至少一项。在一个实施例中，以提取样本会议文本中的会议要点信息、会议结论信息，和会议任务信息为例，预设的格式进行拼接即可以为依照会议要点信息、会议结论信息，和会议任务信息的先后顺序进行拼接，并输出以生成该顺序的预测会议纪要。
[0096]
s2066、根据所述预测会议纪要和所述样本会议纪要计算模型损失值。
[0097]
在获得预测会议纪要之后，需要根据预测会议纪要和样本会议纪要计算模型损失值，计算模型损失值的损失函数在实际应用中可以为0-1损失函数、绝对值损失函数、平方损失函数、交叉熵损失函数等，在此，以0-1损失函数为例进行解释说明，参见下述公式2：
[0098][0099]
其中，l代表损失值，f(x)表示预测会议纪要向量表示，y表示样本会议纪要向量表示，在本技术中，对损失函数的选择不做限定，以实际应用为准。
[0100]
s2068、根据所述模型损失值调整所述待训练会议纪要生成模型的模型参数，并继续训练所述待训练会议纪要生成模型直至达到训练停止条件，获得训练好的会议纪要生成模型。
[0101]
将计算模型损失值loss之后，根据loss值反向传播调整待训练会议纪要生成模型中的学习率参数、batch_size参数等，并用下一批次样本数据继续训练待训练会议纪要生成模型，直至模型损失值小于预设阈值和/或训练轮次达到预设的轮次。
[0102]
在实际应用中，将会议属性信息和会议文本输入至会议纪要生成模型，既可以将会议属性信息和会议文本分别输入至会议纪要生成模型，也可以先将会议属性信息和会议文本进行拼接后，再输入至会议纪要生成模型，在本技术中对会议属性信息和会议文本信
息输入至会议纪要生成模型的具体形式不做限制。
[0103]
在本技术提供的一具体实施方式中，以将会议属性信息和会议文本进行拼接后输入会议纪要生成模型为例，将所述会议属性信息和所述会议文本输入至会议纪要生成模型，包括：
[0104]
将所述会议属性信息和所述会议文本进行拼接，获得待输入会议文本；
[0105]
将所述待输入会议文本输入至所述会议纪要生成模型。
[0106]
在实际应用中，可以将会议属性信息和会议文本进行拼接，获得待输入会议文本，即待输入会议文本包括会议属性信息和会议文本。例如会议属性信息为“会议主题1、会议主题2、重点发言人为发言人2”，将会议属性信息和会议文本进行拼接，获得待输入会议文本“会议主题1&会议主题2&重点发言人：发言人2&[text]文本段1[speaker]发言人1[starttime]00:10[endtime]10:00&[text]文本段2[speaker]发言人2[starttime]00:10[endtime]10:00&
……”
。将待输入会议文本输入至训练好的会议纪要生成模型。
[0107]
步骤208：通过所述会议纪要生成模型根据所述会议属性信息和所述会议文本生成会议纪要。
[0108]
会议纪要生成模型在接收到会议属性信息和会议文本后，根据会议属性信息在会议文本中提取相应的信息，再对提取的信息进行拼接，生成会议纪要，具体的，对照上述实施例中训练完成的会议纪要生成模型，所述会议纪要包括会议要点、会议结论和会议任务中的至少一项。例如，根据会议属性信息和会议文本生成会议纪要“[keypoints]要点1[keypoints]要点2[conclusion]结论1[conclusion]结论1[todo]任务1[end]”。
[0109]
本技术实施例提供的会议纪要生成方法，包括对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本；接收针对所述会议文本的会议属性信息；将所述会议属性信息和所述会议文本输入至会议纪要生成模型；通过所述会议纪要生成模型根据所述会议属性信息和所述会议文本生成会议纪要。通过本技术实施例提供的会议纪要方法，能够将会议音频中的口语转换为精简的书面语表达，再通过会议纪要生成模型在书面语表达中提取重点信息，组成更适合阅读的会议纪要，解决了口语化信息表达不规范，阅读效率低的问题，同时也解决了无法自动化智能生成会议纪要的问题，提升了用户的使用体验和工作效率。
[0110]
图4示出了本技术一实施例的会议纪要生成方法，该会议纪要生成方法以对会议场景为例进行描述，包括步骤402至步骤416。
[0111]
步骤402：接收某次会议的会议录音文件。
[0112]
在本技术提供的一具体实施例中，接收会议的会议录音文件“会议录音.mp3”。
[0113]
步骤404：将所述会议录音文件进行语音识别，获得对应的口语表达文本。
[0114]
其中，口语表达文本中包括发言人、发言人对应的口语表达文本，口语表达文本对应的时间区间。
[0115]
在本技术提供的一具体实施例中，沿用上例，将“会议录音.mp3”进行语音识别，生成对应的口语表达文本“会议录音-口语表达.txt”，如口语表达文本中某个口语表达句子为“在这个，这个智能手机这样一个领域，淘汰速度之快是非常的惊人啊，竞争之残酷也是非常的惊人”。
[0116]
步骤406：对所述口语表达文本进行处理，获得所述口语表达文本对应的会议文
本。
[0117]
在本技术提供的一具体实施例中，沿用上例，将口语表达文本“会议录音-口语表达.txt”输入至文本转换模型(该文本转换模型为上述实施例中已训练完成的文本转换模型)，获得文本转换模型输出的会议文本，以上述口语表达句子为例，在经过文本转换模型处理后，获得对应的书面语表达句子为“智能手机领域，具有淘汰速度快、竞争残酷的特点。”，其中，文本转换模型优选使用t5(text-to-text transfer transformer)模型的基本框架。
[0118]
步骤408：获取会议纪要模板，并将会议纪要模板和会议文本发送给用户。
[0119]
在本技术提供的一具体实施例中，沿用上例，获取会议纪要模板，会议纪要模板中至少包括“会议主题”、“重点关注人”等字段，用户根据会议文本可以在会议纪要模板中输入至少一个会议主题信息和/或至少一个重点关注人信息，在本实施例的会议中，会议文本中识别的发言人2是主讲人，因此将发言人2设置为重点关注人，同时设置会议主题为“主题1”、“主题2”。
[0120]
步骤410：接收所述用户基于所述会议纪要模板输入的所述会议文本的会议属性信息。
[0121]
在本技术提供的一具体实施例中，沿用上例，用户在填写完相关会议属性信息后，将填写的内容进行提交，即可获得用户输入的会议属性信息。
[0122]
步骤412：将所述会议属性信息和所述会议文本进行拼接，获得待输入会议文本。
[0123]
在本技术提供的一具体实施例中，沿用上例，将会议属性信息和会议文本进行拼接，获得待输入会议文本，如待输入会议文本为“[topic]主题1[topic]主题2[text]文本段1[important]speaker 2[speaker]1[starttime]00:10[endtime]10:00[text2]文本段2[speaker]2[starttime]10:30[endtime]20:00
……
[end]”，其中，“[topic]主题1”表示第一个会议主题，“[topic]主题2”表示第二个会议主题，[important]speaker 2表示发言人2是重点关注人，“[text]文本段1[speaker]1[starttime]00:10[endtime]10:00”表示文本段1的发言人为1，文本段1对应的语音时间段为“00:10-10:00”，“[text2]文本段2[speaker]2[starttime]10:30[endtime]20:00”表示文本段2的发言人为2，文本段2对应的语音时间段为“10:30-20:00”，“[end]”表示待输入会议文本结束。
[0124]
步骤414：将所述待输入会议文本输入至会议纪要生成模型。
[0125]
在本技术提供的一具体实施例中，沿用上例，将待输入会议文本输入至会议纪要生成模型进行处理，其中，会议纪要生成模型优选使用t5(text-to-text transfer transformer)模型的基本框架。
[0126]
步骤416：获得该会议纪要生成模型响应于待输入会议文本生成的会议纪要。
[0127]
在本技术提供的一具体实施例中，沿用上例，获得会议纪要生成模型生成的会议纪要“[keypoints]要点1[keypoints]要点2[conclusion]结论1[conclusion]结论2[todo]任务1
……
[end]”，其中，“[keypoints]要点1”表示会议的要点1，“[keypoints]要点2”表示会议的要点2，“[conclusion]结论1”表示会议的结论1，“[conclusion]结论2”表示会议的结论2，“[todo]任务1”表示会议的任务1，“[end]”表示会议纪要结束。
[0128]
本技术实施例提供的会议纪要生成方法，包括对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本；接收针对所述会议文本的会议属性信息；将
所述会议属性信息和所述会议文本输入至会议纪要生成模型；通过所述会议纪要生成模型根据所述会议属性信息和所述会议文本生成会议纪要。通过本技术实施例提供的会议纪要方法，能够将会议音频中的口语转换为精简的书面语表达，再通过会议纪要生成模型在书面语表达中提取重点信息，组成更适合阅读的会议纪要，解决了口语化信息表达不规范，阅读效率低的问题，同时也解决了无法自动化智能生成会议纪要的问题，提升了用户的使用体验和工作效率。
[0129]
与上述会议纪要生成方法实施例相对应，本技术还提供了会议纪要生成装置实施例，图5示出了本技术一个实施例的会议纪要生成装置的结构示意图。
[0130]
如图5所示，该装置包括：
[0131]
转写模块502，被配置为对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本；
[0132]
接收模块504，被配置为接收针对所述会议文本的会议属性信息；
[0133]
模型输入模块506，被配置为将所述会议属性信息和所述会议文本输入至会议纪要生成模型；
[0134]
生成模块508，被配置为通过所述会议纪要生成模型根据所述会议属性信息和所述会议文本生成会议纪要。
[0135]
可选的，所述转写模块502，进一步被配置为：
[0136]
将接收到的会议音频文件输入至语音识别模型，获得所述语音识别模型输出的口语表达文本；
[0137]
对所述口语表达文本进行处理，获得所述口语表达文本对应的会议文本。
[0138]
可选的，所述转写模块502，进一步被配置为：
[0139]
将所述口语表达文本进行分句处理，获得所述口语表达文本对应的口语表达句子集合；
[0140]
将所述口语表达句子集合中的口语表达句子输入至文本转换模型，获得所述口语表达句子集合对应的书面语表达句子集合；
[0141]
根据所述书面语表达句子集合获得会议文本。
[0142]
可选的，所述装置还包括文本转换模型训练模块，被配置为：
[0143]
获取样本口语表达句子和所述样本口语表达句子对应的样本书面语表达句子；
[0144]
将所述样本口语表达句子输入至待训练文本转换模型进行处理，获得所述待训练文本转换模型输出的预测书面语表达句子；
[0145]
根据所述预测书面语表达句子和所述样本书面语表达句子计算文本转换损失值；
[0146]
根据所述文本转换损失值调整所述待训练文本转换模型的模型参数，并继续训练所述待训练文本转换模型直至达到训练停止条件，获得训练好的文本转换模型。
[0147]
可选的，所述接收模块504，进一步被配置为：
[0148]
获取会议纪要模板，并将所述会议纪要模板和所述会议文本发送给用户；
[0149]
接收所述用户基于所述会议纪要模板输入的所述会议文本的会议属性信息。
[0150]
可选的，所述模型输入模块506，进一步被配置为：
[0151]
将所述会议属性信息和所述会议文本进行拼接，获得待输入会议文本；
[0152]
将所述待输入会议文本输入至所述会议纪要生成模型。
[0153]
可选的，所述装置还包括会议纪要生成模型训练模块，被配置为：
[0154]
获得样本会议文本和所述样本文本对应的样本会议纪要；
[0155]
将所述样本会议文本输入至待训练会议纪要生成模型进行处理，获得所述待训练会议纪要生成模型输出的预测会议纪要；
[0156]
根据所述预测会议纪要和所述样本会议纪要计算模型损失值；
[0157]
根据所述模型损失值调整所述待训练会议纪要生成模型的模型参数，并继续训练所述待训练会议纪要生成模型直至达到训练停止条件，获得训练好的会议纪要生成模型。
[0158]
可选的，所述会议文本包括发言人、发言人对应的书面文本、所述书面文本对应的时间区间。
[0159]
可选的，所述会议纪要包括会议要点、会议结论和会议任务中的至少一项。
[0160]
本技术实施例提供的会议纪要生成装置，包括对接收到的会议音频文件进行文本转写，获得所述会议音频文件对应的会议文本；接收针对所述会议文本的会议属性信息；将所述会议属性信息和所述会议文本输入至会议纪要生成模型；通过所述会议纪要生成模型根据所述会议属性信息和所述会议文本生成会议纪要。通过本技术实施例提供的会议纪要装置，能够将会议音频中的口语转换为精简的书面语表达，再通过会议纪要生成模型在书面语表达中提取重点信息，组成更适合阅读的会议纪要，解决了口语化信息表达不规范，阅读效率低的问题，同时也解决了无法自动化智能生成会议纪要的问题，提升了用户的使用体验和工作效率。
[0161]
上述为本实施例的一种会议纪要生成装置的示意性方案。需要说明的是，该会议纪要生成装置的技术方案与上述的会议纪要生成方法的技术方案属于同一构思，会议纪要生成装置的技术方案未详细描述的细节内容，均可以参见上述会议纪要生成方法的技术方案的描述。
[0162]
需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0163]
本技术一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述的会议纪要生成方法的步骤。
[0164]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的会议纪要生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述会议纪要生成方法的技术方案的描述。
[0165]
本技术一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述会议纪要生成方法的步骤。
[0166]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的会议纪要生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述会议纪要生成方法的技术方案的描述。
[0167]
本技术实施例公开了一种芯片，其存储有计算机指令，该计算机指令被处理器执
行时实现如前所述会议纪要生成方法的步骤。
[0168]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0169]
所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0170]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
[0171]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0172]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本技术的内容，可作很多的修改和变化。本技术选取并具体描述这些实施例，是为了更好地解释本技术的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于安全校验的数据传输方法、系统、计算机设备、介质与流程

一种会议纪要生成方法及装置与流程

相关文献

最热文献