文本生成方法、装置、电子设备及可读存储介质与流程

2021-10-09 02:04:00 来源：中国专利 TAG：电子设备装置生成可读文本

1.本技术属于通信技术领域，具体涉及一种文本生成方法、装置、电子设备及可读存储介质。

背景技术：

2.会议、课程等场景下的文本纪要，通常需要基于录制的音频文件或者视频文件进行整理。目前，通常通过对音频文件或者视频文件进行处理，将全部语音数据转换为文本数据，这样生成的文本较冗长。
3.可见，现有技术中基于语音数据生成的文本较冗长。

技术实现要素：

4.本技术实施例的目的是提供一种文本生成方法、装置、电子设备及可读存储介质，能够解决现有技术中基于语音数据生成的文本较冗长的问题。
5.第一方面，本技术实施例提供了一种文本生成方法，所述方法包括：
6.获取语音数据；
7.识别所述语音数据的特征信息，所述特征信息包括语气特征、人物特征中的至少一项；
8.基于所述语音数据的特征信息，提取所述语音数据的关键语音；
9.基于所述关键语音，显示所述语音数据对应的文本。
10.第二方面，本技术实施例提供了一种文本生成装置，所述装置包括：
11.获取模块，用于获取语音数据；
12.识别模块，用于识别所述语音数据的特征信息，所述特征信息包括语气特征、人物特征中的至少一项；
13.提取模块，用于基于所述语音数据的特征信息，提取所述语音数据的关键语音；
14.生成模块，用于基于所述关键语音，显示所述语音数据对应的文本。
15.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
16.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
17.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
18.在本技术实施例中，获取语音数据；识别所述多个语音片段的特征信息，所述特征信息包括语气特征、人物特征中的至少一项；基于所述语音数据的特征信息，提取所述语音数据的关键语音；基于所述关键语音，显示所述语音数据对应的文本。这样基于语音数据的
特征信息提取语音数据的关键语音，从而可以基于关键语音，显示语音数据对应的文本，相比现有技术中将全部语音数据转换得到的文本，本技术实施例提取文本的更加精炼且重点较为突出。
附图说明
19.图1是本技术实施例提供的一种文本生成方法的流程图之一；
20.图2是本技术实施例提供的一种划分句子级语音片段的原理示意图；
21.图3是本技术实施例提供的一种语气预测模型的结构示意图；
22.图4是本技术实施例提供的一种确定高频词组的原理示意图；
23.图5是本技术实施例提供的一种文本生成方法的流程图之二；
24.图6是本技术实施例提供的一种文本生成方法的流程图之三；
25.图7是本技术实施例提供的一种显示界面的示意图；
26.图8是本技术实施例提供的一种文本生成方法的流程图之四；
27.图9是本技术实施例提供的一种文本生成方法的流程图之五；
28.图10是本技术实施例提供的一种文本生成方法的流程图之六；
29.图11是本技术实施例提供的一种文本生成装置的结构图；
30.图12是本技术实施例提供的一种电子设备的结构图之一；
31.图13是本技术实施例提供的一种电子设备的结构图之二。
具体实施方式
32.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
33.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
34.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的文本生成方法进行详细地说明。
35.请参见图1，图1是本技术实施例提供的一种文本生成方法的流程图。
36.如图1所示，所述方法包括以下步骤：
37.步骤101、获取语音数据。
38.具体实现时，所述语音数据可以是实时采集的语音数据，也可以是预先采集的音频文件或者视频文件中的语音数据，具体可根据实际情况决定，本技术实施例在此不作限定。
39.步骤102、识别所述语音数据的特征信息，所述特征信息包括语气特征、人物特征中的至少一项。
40.本技术实施例中，所述语气特征可以是用于表征语音内容的感情色彩和分量的特征，基于所述语气特征可以确定不同语音内容所表现的情绪和情感，从而确定不同语音内容的重要程度，通常感情色彩和分量越重的语音内容，所表现的情绪和情感越浓厚，这样的语音内容为重要语音内容或关键语音内容的概率越高。基于所述语气特征提取的关键语音可能是所述语音数据中需要重点关注的语音内容，或者总结性、引导性的语音内容。
41.具体实现时，所述语气特征可以通过语音数据的音频音调确定，示例性地，音频音调较快较高的语音语气特征更鲜明，其对应的语音内容的感情色彩和分量可能较重，可能是总结性的语音内容或者需要重点关注的语音内容，这类语音可以提取为关键语音。
42.所述语气特征也可以通过语音数据中包含的用于表征语气的词组确定，所述用于表征语气的词组是指词义的感情色彩和分量的词组，示例性地，如“多么”、“非常”、“重要”、“特别”等形容词或者副词的感情色彩和分量较重，包含这类词组的语音内容可能是总结性的语音内容或者需要重点关注的语音内容，这类语音可以提取为关键语音。
43.所述语气特征还可以通过语音数据的句式确定，所述句式包括陈述句式、疑问句式、祈使句式、感叹句式等，不同句式所表征的感情色彩和分量不同，示例性地，疑问句式的语音内容之后可能引出会议的议题或者需要讨论的问题，祈使句式的语音内容可能为需要完成的任务或者需要重点关注的语音内容，这类语音可以提取为关键语音。
44.可以理解的是，所述语气特征的实现形式并不限于此，本技术实施例对此不作限定。
45.本技术实施例中，所述人物特征可以是语音内容对应的说话人物的特征，例如说话人物的身份特征等，通常所述人物特征表征的说话人物越重要，那么说话人物对应的语音内容越重要。基于所述语音数据的人物特征提取的关键语音可能是所述语音数据中需要重点分析的语音内容，或者总结性、引导性的语音内容。
46.具体实现时，所述人物特征可以通过语音内容对应的说话人物的身份特征确定。所述身份特征可以基于用户的人工标注确定，也可以基于语音内容的声纹特征确定，示例性地，通过预先配置的声纹特征与身份特征之间的对应关系，在识别语音内容的声纹特征后，可以确定所述语音内容对应的说话人物的身份特征。所述身份特征还可以基于预设规则确定，示例性地，基于语音内容在所述语音数据中的位置确定，位置靠后的语音内容对应的身份特征较重要。
47.步骤103、基于所述语音数据的特征信息，提取所述语音数据的关键语音。
48.本技术实施例中，可以基于上述至少一个特征信息，在所述语音数据中提取关键语音，这样提取的关键语音对应的语音内容可能是所述语音数据的主题、关键点、关键内容等，之后继续执行步骤104。
49.步骤104、基于所述关键语音，显示所述语音数据对应的文本。
50.具体实现时，可以对所述关键语音进行整理后转换成文本并显示。
51.可选地，所述对所述关键语音进行整理可以包括对所述关键语音去重，还可以包括以下至少一项：1)按照时间顺序，对去重后所述关键语音进行排序；2)基于预设关键词组，对去重后的所述关键语音进行分类，例如，所述语音数据的预设关键词组为场地、物资、嘉宾、安保，那么可以分别确定与场地相关联的关键语音、与物资相关联的关键语音、与嘉宾相关联的关键语音、与安保相关联的关键语音，以此对所述关键语音进行分类；3)基于声
纹特征，对去重后的所述关键语音进行分类，即将同一声纹特征对应的关键语音分为一类。可以理解的是，对所述关键语音进行整理的实现形式并不限于此，具体可根据实际情况决定，本技术实施例在此不作限定。
52.需要说明的是，在对所述语音数据进行处理时，可以先基于语音识别，将所述语音数据转换为文本数据后，再识别所述文本数据的特征信息；或者，也可以先识别所述语音数据的特征信息，在确定所述关键语音后，再将所述关键语音转换成文本；或者，针对不同特征信息，分别确定是先识别特征信息，再语音识别为文本，还是先语音识别为文本，再识别特征信息，具体可根据实际情况决定，本技术实施例中，以先识别所述语音数据的特征信息，在提取所述关键语音后，再将所述关键语音转换成文本为例进行说明。
53.本技术实施例提供的文本生成方法，获取语音数据；识别所述语音数据的特征信息；基于所述语音数据的特征信息，提取所述语音数据的关键语音；基于所述关键语音，显示所述语音数据对应的文本。这样基于语音数据的特征信息提取语音数据的关键语音，从而可以基于关键语音，显示语音数据对应的文本，相比现有技术中将全部语音数据转换得到的文本，本技术实施例提取文本的更加精炼且重点较为突出。
54.本技术实施例中，可以通过识别语气特征、人物特征中的至少一项来提取关键语音，下面分别进行说明。
55.1)所述特征信息包括语气特征的情况。
56.本情况下，可选地，所述识别所述语音数据的特征信息，包括：
57.识别所述语音数据中用于表征语气的词组，并基于所述用于表征语气的词组，确定所述语音数据的语气特征；
58.或，识别所述语音数据的语音特征，并基于所述语音数据的语音特征，确定所述语音数据的语气特征。
59.在第一种实施例中，所述识别所述语音数据的特征信息，包括：识别所述语音数据中用于表征语气的词组，并基于所述用于表征语气的词组，确定所述语音数据的语气特征。
60.具体实现时，所述词组可以是词、词组或短语。通过对所述语音数据进行词组拆分，可以获取所述语音数据包含的多个词组，所述词组通常是指名词词组或者动词词组。或者，可以预设语气词词库，所述语气词词库中包含用于表征各种语气的语气词，例如，用于表征强调语气的词组有“非常”、“重要”、“特别”等形容词或者副词，基于预设语气词库包含的预设语气词组，可以在所述语音数据中识别与所述预设语气词组相匹配的词组，可以是与任一预设语气词组完全相同的词组，也可以是与任一预设语气词组的词义相同或者相近的词组。若在所述语音数据中识别到与所述预设语气词库中的任一语气词相匹配的词组时，可以基于该语气词所表征的语气，确定所述语音数据的语气特征。
61.需要说明的是，可选地，在对所述语音数据进行处理之前，可以先将所述语音数据划分为多个语音片段。所述语音片段可以是所述语音数据中的一个词或词组或短语，也可以是一个句子，还可以是一个段落。在一种示例性地实现形式中，可以基于预设划分规则，将所述语音数据预先划分为多个句子级语音片段，所述预设划分规则可以基于所述语音数据中的语音停顿确定，也可以基于所述语音数据中的句式结构确定，具体可根据实际情况决定，本技术实施例在此不作限定。若在所述某一语音片段中识别到与所述预设语气词库中的任一语气词相匹配的词组时，可以基于该语气词所表征的语气，确定所述语音片段的
语气特征。
62.为方便理解，下面对基于所述语音数据中的语音停顿划分句子级语音片段进行说明：如图2所示，在划分句子级语音片段时，可以基于语音数据对应的音频波形中的停顿划分句子，在语音数据的分贝低于预设的分贝阈值超过一定时间时，可以将图中a线与b线之间的语音数据确定为一个停顿，则a线之前的语音数据可以确定为一个句子级语音片段，b线之后的语音数据可以确定为一个句子级语音片段。
63.在第二种实施例中，所述识别所述语音数据的特征信息，包括：识别所述语音数据的语音特征，并基于所述语音数据的语音特征，确定所述语音数据的语气特征。
64.具体实现时，可以基于所述语音数据的声音特征或音频频谱特征或声波纹特征等信息，识别语音片段的语音特征。
65.本实施例中，可选地，所述识别所述语音数据的语音特征，并基于所述语音数据的语音特征，确定所述语音数据的语气特征，包括：
66.将所述语音数据划分为多个语音片段；
67.基于所述语音片段中n个语音帧的语音特征，确定所述语音片段中n个语音帧的语音特征向量，n为正整数；
68.将所述n个语音帧的语音特征向量输入预先训练好的语气预测模型，预测所述语音片段含预设语气的语气级别；
69.获取所述语气预测模型输出的目标向量，所述目标向量用于表征所述语音片段含预设语气的语气级别；
70.基于所述目标向量，确定所述语音片段的语气特征。
71.本实现形式中，可以将所述语音数据划分为多个语音片段，并基于所述语音片段中n个语音帧提取语音特征向量。具体实现时，所述n个语音帧可以基于所述语音数据的帧率确定，例如，当所述语音数据的帧率为20毫秒时，则每20毫秒的语音数据为一帧。对每一语音帧，可以从k个维度进行特征提取，得到1*k的语音特征向量，k为正整数，一个语音片段对应的n个语音帧的语音特征向量可以组成n*k的语音特征矩阵，以作为所述语气预测模型的输入矩阵。本实现形式中，以k个低级描述符(low
‑
level descriptor，lld)描述所述k个维度为例进行说明，并不作任何限定。
72.所述k个低级描述符可以预先自定义。可选地，从声音特征和音频频谱特征中的至少一个角度确定所述k个低级描述符。其中，所述声音特征可以包括但不限于音调特征、音色特征、响度特征中的至少一项，例如声音的音调或音高、声音的亮度等，所述音频频谱特征可以包括但不限于时间特征、频率特征中的至少一项，示例性地，所述时间特征可以包括攻击时间、频谱质心、过零率等，所述频率特征可以包括幅度、基频、正弦分量、残差分量等。一种示例性地实现形式中，n＝20，k＝65，一个语音片段的处理流程如下：原始语音片段
→
20个原始语音帧
→
基于自定义的65个lld提取每一语音帧的语音特征向量
→
20个语音特征向量输入语气预测模型进行语气预测
→
确定语气特征。
73.或者，所述k个低级描述符也可以通过神经网络，例如卷积神经网络(convolutional neural networks,cnn)训练得到。一种示例性地实现形式中，n＝20，k＝65，一个语音片段的处理流程如下：原始语音片段
→
20个原始语音帧
→
cnn训练得到65个lld
→
基于训练得到的65个lld提取每一语音帧的语音特征向量
→
20个语音特征向量输入
语气预测模型进行语气预测
→
确定语气特征。可以理解的是，所述k个低级描述符的实现形式并不限于此，具体可根据实际情况决定，本技术实施例在此不作限定。
74.在一种可选地实现形式中，所述语音特征向量还可以通过对抗自动编码机(adversarial autoencoder，aae)进行解码，以对所述语音帧进行特征再表示。所述aae的隐式因子包括语音片段的情绪状态。由于所述语音帧的语音信号可能由多个隐式因子决定，例如情绪状态、年龄、性别以及说话的内容等，通过aae对语音帧进行解码，可以对决定语音信号的隐式因子进行推测，以重构所述语音帧，对语音帧的语音特征进行再表示。这样重构后的语音帧可以携带情绪标签，确定的语音特征能够更加明显。一种示例性地实现形式中，n＝20，k＝65，一个语音片段的处理流程如下：原始语音片段
→
20个原始语音帧
→
基于65个lld提取每一语音帧的语音特征向量
→
aae对每一语音特征向量进行特征再表示
→
20个语音特征向量输入语气预测模型进行语气预测
→
确定语气特征。
75.所述语气预测模型基于语音片段的n个语音特征向量和语气级别进行训练。具体地，所述语音预测模型可以基于一种预设语气进行训练，语气预测结果用于预测语音片段是否含所述预设语气以及含所述预设语气的语气级别，所述语气级别可以理解为含所述预设语气的强度。以所述预设语气为强调语气为例，所述语音预测模型的训练样本包括大量含强调语气的语音片段，以及预先确定的每个含强调语气的语音片段的语气级别。基于所述训练样本训练所述语气预测模型，使得所述语气预测结果可以表征语音片段是否含强调语气，以及含强调语气的语气级别，例如语气级别为1
‑
5，其中1代表稍微强调，5代表非常强调。需要说明的是，在其他实现形式中，也可以预先训练用于预测语音片段的语气类别的语气预测模型，这样的语预测模型的语气预测结果用于确定语音片段含哪种预设语气。
76.进一步，可选地，所述语气预测模型包括输入层、至少一个卷积层、全连接层和输出层，所述全连接层包括第一隐藏层和第二隐藏层；
77.所述将所述n个语音帧的语音特征向量输入预先训练好的语气预测模型，预测所述语音片段含预设语气的语气级别，包括：
78.在所述输入层中获取所述n个语音特征向量；
79.将所述n个语音特征向量输入所述至少一个卷积层进行特征提取，得到目标特征矩阵；
80.将所述目标特征矩阵输入所述第一隐藏层，在所述第一隐藏层中将第一预设权重矩阵与所述目标特征矩阵相乘并加上第一预设偏置矩阵，并通过第一预设激活函数进行激活，得到第一矩阵；
81.将所述第一矩阵输入所述第二隐藏层，在所述第二隐藏层中将第二预设权重矩阵与所述第一矩阵相乘并加上第二预设偏置矩阵，并通过第二预设激活函数进行激活，得到第二矩阵；
82.将所述第二矩阵输入所述输出层，在所述输出层中将第三预设权重矩阵与所述第二矩阵相乘并加上第三预设偏置向量，并通过第三预设激活函数进行激活，得到第三矩阵；所述第三矩阵为列向量，所述第三矩阵中一行对应一个语气级别，所述第三矩阵中目标行的值表征所述语音片段匹配到目标语气级别的匹配概率，所述目标行为所述第三矩阵中的任一行；
83.通过所述输出层输出所述目标向量，其中，所述目标向量用于表征所述第三矩阵
中匹配概率最高的语气级别。
84.具体实现时，以n＝20，k＝65，所述预设语气为强调语气为例，所述语气预测模型的一种示例性地实现形式如下，如图3所示：
85.所述语气预测模型包括输入层(input layer)、至少一个卷积层(convolutional layer)、全连接层(fully connected layer)和输出层(output layer)，所述全连接层包括第一隐藏层(hidden layer 1)和第二隐藏层(hidden layer 2)，所述第一隐藏层和所述第二隐藏层均设有256个节点，所述输出层设有5个节点，分别对应于5中含强调语气的级别1
‑
5，其中1表示稍微强调，5表示非常强调，含强调语气的强度由1至5逐渐递增。
86.所述语气预测模型的输入层设有20个节点，每个节点对应一个语音帧的语音特征向量，将所述n个语音特征向量输入所述至少一个卷积层，并在所述至少一个卷积层中，对所述n个语音特征向量组合成的语音特征矩阵中进行特征提取，得到目标特征矩阵。
87.之后将所述目标特征矩阵输入所述第一隐藏层。所述第一隐藏层中的每个节点均与输入层中的每个节点连接，每条连线上的权重值在预先训练中确定，所述第一隐藏层中256个节点与输入层中的20个节点之间的256*20条连线上的预设权重值可以构成所述第一预设权重矩阵。在所述第一隐藏层中，将第一预设权重矩阵与所述目标特征矩阵相乘并加上第一预设偏置矩阵，并通过第一预设激活函数进行激活，可以得到所述第一隐藏层的输出结果，在此记为所述第一矩阵。其中，所述第一预设激活函数可以为relu函数。
88.之后，将所述第一矩阵输入所述第二隐藏层。所述第二隐藏层中的每个节点均与所述第一隐藏层中的每个节点连接，每条连线上的权重值在预先训练中确定，所述第二隐藏层中256个节点与所述第一隐藏层中256个节点之间的256*256条连线上的预设权重值可以构成所述第二预设权重矩阵。在所述第二隐藏层中，将第二预设权重矩阵与所述第一矩阵相乘并加上第二预设偏置矩阵，并通过第二预设激活函数进行激活，可以得到所述第二隐藏层的输出结果，在此记为所述第二矩阵。其中，所述第二预设激活函数也可以为relu函数。
89.之后，将所述第二矩阵输入所述输出层。所述输出层中的每个节点均与所述第二隐藏层中的每个节点连接，每条连线上的权重值在预先训练中确定，所述输出层中5个节点与所述第二隐藏层中256个节点之间的5*256条连线上的预设权重值可以构成所述第三预设权重矩阵。在所述输出层中，将第三预设权重矩阵与所述第二矩阵相乘并加上第三预设偏置矩阵，并通过第三预设激活函数进行激活，可以得到所述第三矩阵。其中，所述第三预设激活函数可以为softmax函数。
90.所述第三矩阵为5*1的列向量，每一行对应一个语气级别，每一行的值为(0,1)的实数，某一行的值表征所述语音片段匹配到该行对应的语气级别的匹配概率，5行的值的和为1，示例性地，若所述第三矩阵为：
[0091][0092]
则当前语音片段匹配到语气级别1的概率为0.2，匹配到语气级别2的概率为0.2，匹配到语气级别3的概率为0.4，匹配到语气级别4的概率为0.1，匹配到语气级别5的概率为
0.1。
[0093]
之后，可以基于所述第三矩阵确定所述目标向量，示例性地，所述目标向量可以为5x1维的列向量，且每行的值为1或0，将所述第三矩阵中概率最高的行取值为1，其他行取值为0，例如，接上述示例，所述目标向量为：
[0094][0095]
所述语气预测模型输出所述目标向量，基于所述目标向量中可以确定所述语音片段的语气级别为3。需要说明的是，若输入所述语气预测模型的语音片段含强调语气，则所述目标向量存在目标行的取值为1，所述目标行对应的语气级别则为所述语音片段的语气级别。若输入所述语气预测模型的语音片段不含强调语气，则该语音片段匹配到任一语气级别的匹配概率均为0，则所述目标向量每行的取值均为0。可以理解的是，所述目标向量的实现形式并不限于次，具体可根据实际情况决定，本技术实施例在此不作限定。
[0096]
需要说明的是，在其他实现形式中，所述输出层的5个节点可以分别对应于5种含强调语气的级别1
‑
5，其中1表示不含强调语气，5表示非常强调，含强调语气的强度由1至5逐渐递增，具体可根据实际情况决定，本技术实施例在此不作限定。
[0097]
本情况下，可选地，所述基于所述语音数据的特征信息，提取所述语音数据的关键语音，包括：
[0098]
确定所述语音数据中含预设语气的第一语音数据，所述第一语音数据包括至少一个第一语音片段；
[0099]
基于所述语音数据中词组的出现频次，确定第一关键词，所述第一关键词满足以下至少一项：所述语音数据中出现频次大于第二阈值的词组；所述语音数据中加权频次大于第三阈值的词组，所述加权频次为所述出现频次与词组对应的第二权重的乘积；
[0100]
基于所述第一语音片段中所述第一关键词的出现频次或加权频次，或所述第一语音片段与目标词库的相关程度，确定所述第一语音片段对应的第一权重，所述目标词库的相关程度基于所述第一语音片段中与目标词库相匹配的第一关键词的出现频次或加权频次确定；
[0101]
提取所述第一权重大于第一阈值的第一语音片段，得到第二语音数据，所述关键语音包括所述第二语音数据。
[0102]
本实施例中，以所述预设语气为强调语气为例，所述第一语音数据为含强调语气的语音数据。然而，由于说话习惯的差异，所述第一语音数据中可能存在部分含强调语气但语音内容意义不大的语音数据，为了筛除这些语音内容意义不大的语音数据，可以提取所述第一语音数据中第一权重较高的第一语音片段作为关键语音，所述第一权重用于表征所述第一语音片段与所述语音数据的主要内容之间的相关性程度。
[0103]
需要说明的是，若在对所述语音数据进行处理之前，将所述语音数据划分为多个语音片段，所述第一语音片段则为所述多个语音片段中含预设语气的语音片段。若在对所述语音数据进行处理之前，未将所述语音数据划分为多个语音片段，可以在确定所述第一语音数据后，基于上述预设划分规则将所述第一语音数据划分为多个所述第一语音片段，
具体可根据实际情况决定，本技术实施例在此不作限定。
[0104]
具体实现时，所述第一权重可以基于所述第一语音片段中第一关键词的出现频次或加权频次确定，或基于所述第一语音片段与目标词库的相关程度确定。所述第一关键词为所述第一语音片段中的高频关键词。在确定所述语音数据中的多个词组后，可以确定每个词组的出现频次，并按照出现频次由高至低对多个词组进行排序。在所述出现频次为自然频次的情况下，基于所述第一阈值将多个词组分为高频词组和低频词组，或者在所述出现频次为加权频次的情况下，基于所述第二阈值将多个词组分为高频词组和低频词组，高频词组可以确定为所述第一关键词。示例性地，词组1、词组2，词组3、词组4和词组5的出现频次如图4所示，基于所述第一阈值，可以将上述5个词组分为两组，词组1、词组2和词组3的出现频次较高，为高频词组，词组4和词组5的出现频次较低，为低频词组。
[0105]
所述第一关键词的出现频次，是指所述第一关键词在所述第一语音片段中出现的次数，例如，假设所述第一关键词包括“s9”，那么语音片段“这次s9的推广活动我们要非常重视，针对这次s9推广活动，我们有如下方案”中，“s9”的出现频次为2。
[0106]
所述第一关键词的所述加权频次，是指所述第一关键词的出现频次与所述第一关键词对应的第二权重的乘积，例如，假设所述第一关键词“s9”的第二权重为1.5，那么语音片段“这次s9的推广活动我们要非常重视，针对这次s9推广活动，我们有如下方案”中，“s9”的加权频次为3。词组的第二权重可以通过用户自定义设置确定，也可以基于用户设备中预先采集的历史语音数据中词组的出现频次确定，具体可以根据实际情况决定，本技术实施例在此不作限定。
[0107]
所述第一语音片段与目标词库的相关程度，可以基于所述第一语音片段中与目标词库相匹配的第一关键词的出现频次或加权频次确定。具体地，可以预设多个词库，一个词库收集一种类型的词组，例如机型词库收集与用户设备的机型相关的词组、软件功能词库收集与用户设备上应用程序功能相关的词组、营销方案词库收集与营销方案相关的词组。当识别到所述第一语音片段中的某个词组属于目标词库时，可以将该词组的出现频次或加权频次计算在所述第一语音片段与目标词库的相关程度中。
[0108]
为方便理解，现举例说明：假设语音片段1包含的第一关键词分别为“s9”、“s8”和“推广活动”，语音片段2包含的第一关键词分别为“s9”和“推广活动”，其中“s9”和“s8”属于机型词库，“推广活动”属于活动词库，且“s9”、“s8”和“推广活动”的第二权重分别为1.5、1.5和1，那么，语音片段1与机型词库的相关程度为3，与活动词库的相关程度为1；语音片段2与机型词库的相关程度为1.5，与活动词库的相关程度为1。若将与机型词库的相关程度大于2的第一语音片段提取为关键语音，则语音片段1可以提取为关键语音，语音片段2可以不提取为关键语音；若将与活动词库的相关程度大于2的第一语音片段提取为关键语音，则语音片段1和语音片段2均可以不提取为关键语音。
[0109]
需要说明的是，在所述第二语音数据被提取为关键语音后，还可以将所述第一语音片段与相关程度较高的目标词库相关联，后续在对所述关键语音进行整理时，可以基于所述目标词库对文本进行有序地分类整理。
[0110]
需要说明的是，在本技术其他实施例中，可选地，所述第一权重还可以基于如下两种实现形式确定：
[0111]
第一种实现形式，基于所述第一语音片段在所述语音数据中的时间位置确定所述
第一权重。具体实现时，可以基于预设规则确定时间位置与第一权重的对应关系，所述预设规则可以为用户自定义设置的规则，也可以为电子设备默认设置的规则，示例性地，由于重要的发言内容通常在压轴位置，因此所述语音数据中时间位置靠后的第一语音片段的第一权重较高，而时间位置居中或者靠前的第二语音片段的第一权重较低。
[0112]
第二种实现形式，基于所述第二语音片段的人物特征确定所述第一权重。具体实现时，可以基于预设规则确定人物特征与所述第一权重的对应关系，所述预设规则可以为用户自定义设置的规则，也可以为电子设备默认设置的规则，示例性地，所述第一语音片段的人物特征表征其对应的说话人物为教授或者总经理时，所述第一语音片段的第一权重较高；所述第一语音片段的人物特征表征其对应的说话人物为主持人时，所述第一语音片段的第一权重较低。在识别所述语音数据的人物特征后，可以对应确定所述第一语音片段的第一权重。
[0113]
为方便理解，如图5所示，本情况下的一种示例性地实现流程如下：
[0114]
步骤5
‑
1，将所述语音数据划分为多个语音片段，并获取所述多个语音片段对应的文本片段。
[0115]
本示例中，所述语音片段为句子级语音片段。在获取所述语音数据后，先获取所述语音数据对应的音频波形。之后基于所述音频波形，如图2所示，若所述语音数据在某一部分的分贝小于70dbfs超过700毫秒，则将该部分确定为一个停顿，基于该停顿划分句子级的语音片段，并将得到的多个语音片段转换为多个文字片段。之后，可以执行步骤5
‑
2或步骤5
‑
3。
[0116]
步骤5
‑
2，提取含预设语气的语音片段，并转换成文本片段。
[0117]
将每个语音片段按帧提取语音特征向量，得到n*65的输入矩阵，并输入预先训练的语气预测模型，预测所述语音片段的强调语气的语气级别，提取所述多个语音片段中含强调语气的语音片段，并转换成文本片段。如图6所示，具体实现流程如下：
[0118]
a.采集语气预测模型的训练样本。采集大量含强调语气的样本语音片段，之后，提取每个样本语音片段中多个语音帧的语音特征向量，并确定每个样本语音片段的强调语气的语气级别，得到所述训练样本。
[0119]
b.利用aae对所述语音特征向量进行解码，以对所述语音特征向量进行特征再表示。
[0120]
c.将特征再表示后的语音特征向量和预先确定的每个样本语音片段的强调语气的语气级别训练语气预测模型。在训练过程中将语气预测模型中各层之间的多条连线上的权重值进行修正，以确定最优的权重值，得到后续使用的语气预测模型。
[0121]
d.获取当前语音数据中的多个语音片段，并提取每个所述语音片段中多个语音帧的语音特征向量，利用aae对所述语音特征向量进行解码。
[0122]
e.将一个语音片段的多个语音特征向量在解码后输入上述训练好的语气预测模型中预测强调语气的语气级别，基于语气预测模型输出的结果，确定该语音片段是否含强调语气的语音片段。
[0123]
步骤5
‑
3，提取含预设语气词的文本片段。
[0124]
对所述多个文本片段进行词组拆分，以识别所述多个文本片段中是否存在包含预设强调语气词的文本片段，所述预设强调语气词包括“非常”、“重要”、“特别”等。
[0125]
步骤5
‑
4，确定所述含强调语气的语音片段和所述含强调语气词的文本片段的第一权重。
[0126]
基于所述含强调语气的语音片段或所述含强调语气词的文本片段与目标词库的相关程度，确定对应的第一权重。以预先确定的第一关键词包括“s9”、“s8”和“推广活动”，且“s9”、“s8”和“推广活动”的第二权重分别为1.5、1.5和1，且第一阈值为3为例，现有带强调语气的语音片段1命中“s9”、“s8”和“推广活动”，带强调语气的语音片段2命中“s8”和“推广活动”，带强调语气的语音片段3命中“推广活动”。那么，语音片段1与机型词库的相关程度为3，与方案词库的相关程度为1，语音片段2与机型词库的相关程度为1.5，与方案词库的相关程度为1，语音片段3与机型词库的相关程度为0，与方案词库的相关程度为1。
[0127]
步骤5
‑
5，提取第一权重大于第一阈值的语音片段作为关键语音。
[0128]
接上述示例，将语音片段1提取为所述关键语音。需要说明的是，第一权重大于第一阈值的文本片段可以直接确定为关键语音对应的关键文本。
[0129]
2)所述特征信息包括人物特征的情况。
[0130]
本情况下，可选地，包括三种实现形式：
[0131]
第一种实现形式，所述识别所述语音数据的特征信息，包括：
[0132]
识别所述语音数据中用于表征人物身份的词组，并提取包含所述用于表征人物身份的词组的第三语音数据，所述第三语音数据包括至少一个第二语音片段；
[0133]
在预设句式集中确定与所述第二语音片段相匹配的目标句式；
[0134]
基于所述目标句式，在所述语音数据中确定与所述第二语音片段相关联的第三语音片段；
[0135]
基于所述第二语音片段中包含的用于表征人物身份的词组，确定所述第三语音片段的人物特征。
[0136]
本实现形式中，为方便阅读，将所述用于表征人物身份的词组表示为第二关键词。所述第二关键词可以包括用于表征姓名的词组，例如“张三”、“李四”，也可以包括用于表征职称或职务的词组，例如“教授”、“老师”、“经理”，也可以包括用于表征亲属关系的词组，例如“妈妈”、“爷爷”。每个所述第二关键词对应的人物特征可以通过用户预先设置，也可以基于所述第二关键词的词义自行确定，具体可根据实际情况决定，本技术实施例在此不作限定。
[0137]
具体实现时，所述预设句式集为用于确定语音片段的人物特征的句式集，可选地，可以包括以下三种句式：
[0138]
第一种，用于确定所述第二语音片段之前预设时间段内的语音数据的人物特征的句式。示例性地，所述预设句式集可以包括第一句式，所述第一句式为“xxx刚说的很对/总结的很好”，基于所述第一句式，可以确定当前第二语音片段之前预设时间段内，可能存在一语音片段的说话人物为“xxx”，则该语音片段的人物特征为“xxx”的人物特征。若所述第二语音片段相匹配的句式为所述第一句式或者所述第一句式相似的句式，则与所述第二语音片段相关联的第三语音片段为所述第二语音片段之前预设时间段内的语音片段，所述第三语音片段的人物特征为“xxx”的人物特征。
[0139]
第二种，用于确定所述第三语音片段之后预设时间段内的语音数据的人物特征的句式。示例性地，所述预设句式集可以包括第二句式，所述第二句式为“yyy，你觉得如何/你
怎么看？”，基于所述第二句式，可以确定当前第二语音片段之后预设时间段内，可能存在一语音片段的说话人物为“yyy”，则该语音片段的人物特征为“yyy”的人物特征。若所述第二语音片段相匹配的句式为所述第二句式或者所述第二句式相似的句式，则与所述第二语音片段相关联的第三语音片段为所述第三语音片段之后预设时间段内的语音片段，所述第三语音特征的人物特征为“yyy”的人物特征。
[0140]
第三种，用于确定所述第二语音片段的人物特征的句式。示例性地，所述预设句式集可以包括第三句式，所述第三句式为“我是zzz”，基于所述第三句式，可以确定当前第二语音片段对应的说话人物为“zzz”，则当前第二语音片段的人物特征为“zzz”的人物特征。若所述第二语音片段相匹配的句式为所述第三句式或者所述第三句式相似的句式，则与所述第二语音片段相关联的第三语音片段就是所述第二语音片段本身。
[0141]
第二种实现形式，所述识别所述语音数据的特征信息，包括：
[0142]
在预设声纹集中确定所述语音数据对应的目标声纹特征，所述预设声纹集中预设有声纹特征与人物特征的对应关系；
[0143]
基于所述声纹特征与人物特征的对应关系，根据所述目标声纹特征，确定所述语音数据的人物特征。
[0144]
本实现形式中，所述语音数据的人物特征可以基于所述语音数据的声纹特征确定。所述预设声纹集中可以预先存储有所述语音数据中各说话人物的声纹特征和人物特征，以及所述声纹特征与所述人物特征之间的对应关系。通过识别所述语音数据的目标声纹特征，可以在所述预设声纹集中查找所述目标声纹特征对应的人物特征，作为所述语音数据的人物特征。示例性地，所述预设声纹集中存储有声纹特征1，声纹特征2和声纹特征3，声纹特征1对应“杨教授”，声纹特征2对应“张经理”，声纹特征3对应“主持人a”，当识别到某一部分语音数据的声纹特征为声纹特征1，那么该部分语音数据的人物特征即为“杨教授”的人物特征。
[0145]
第三种实现形式，所述识别所述多个语音片段的特征信息，包括：
[0146]
接收用户的第一输入；
[0147]
响应于所述第一输入，确定所述语音数据的人物特征。
[0148]
本实现形式中，所述语音数据的人物特征基于用户的自定义输入确定。
[0149]
具体实现时，在一种可选地实现形式中，可以先基于所述语音数据的声纹特征区分所述语音数据中的多个说话人物，得到所述语音数据对应的说话人物列表，所述说话人物列表中的一个表项用于显示一个说话人物以及高说话人物对应的语音数据。通过将所述说话人物列表显示，用户可以逐一听取所述说话人物列表中的语音数据，并通过执行输入标注人物特征。
[0150]
本实施方式中，可选地，在所述特征信息包括人物特征的情况下，所述基于所述语音数据的特征信息，提取所述语音数据的关键语音，包括：
[0151]
基于所述语音数据的人物特征，提取与预设人物特征相匹配的第四语音数据，所述关键语音包括所述第四语音数据。
[0152]
本实现形式中，可选地，所述与预设人物特征相匹配的第四语音数据，包括：人物特征对应的第三权重大于第四阈值的语音数据。所述第三权重可以用于表征不同人物特征所体现的说话人物的重要程度，例如，“老师”的人物特征所确定的第三权重可能高于“学
生”的人物特征所确定的第三权重，“组长”的人物特征所确定的第三权重可能高于“组员”的人物特征所确定的第三权重。
[0153]
所述第三权重可以基于所述人物特征确定。示例性地，若语音片段1和语音片段2均为某学术会议的语音数据中的一个语音片段，且语音片段1的人物特征为“张教授”的人物特征，语音片段2的人物特征为“主持人张三”的人物特征，那么，语音片段1的第三权重可以预设为8，语音片段2的第三权重可以预设为2。
[0154]
所述第三权重也可以基于用户的输入确定。通过预先识别所述语音数据的声纹特征，以区分所述语音数据中不同的说话人物，并可以生成说话人物列表以向用户展示。之后可以接收用户对至少一个说话人物的选择输入，选择输入作用的说话人物的人物特征的第三权重高于选择输入未作用的说话人物的人物特征的第三权重。示例性地，如图7所示，在显示语音片段列表的情况下，若接收用户作用于“用户1”的输入，可以确定“用户1”对应的说话人物为关键人物，则“用户1”对应的人物特征的第三权重高于“用户2”和“用户3”对应的说话人物的人物特征的第三权重。
[0155]
在某一人物特征的第三权重大于所述第四阈值的情况下，可以认为该人物特征与预设人物特征相匹配，该人物特征对应的语音数据可以被提取为关键语音。
[0156]
为方便理解，如图8所示，本情况下的一种示例性地实现流程如下：
[0157]
步骤8
‑
1，确定所述语音数据中关键人物特征。
[0158]
包括两种方式：第一种方式，基于预设句式集，识别所述语音数据的人物特征，并确定每个人物特征的第三权重，进而确定第三权重大于第四阈值的关键人物特征。
[0159]
步骤8
‑
2，获取所述关键人物特征对应的语音数据的声纹特征。
[0160]
在此记为关键声纹特征。
[0161]
步骤8
‑
3，提取所述关键声纹特征相关联的语音数据作为关键语音。
[0162]
3)所述特征信息包括语气特征和人物特征的情况
[0163]
本情况下，可选地，所述基于所述语音数据的特征信息，提取所述语音数据的关键语音，包括：
[0164]
基于所述语音数据的人物特征，提取与预设人物特征相匹配的第五语音数据，所述第五语音数据包括至少一个第四语音片段；
[0165]
提取含预设语气的第四语音片段，得到第六语音数据，所述关键语音包括所述第六语音数据。
[0166]
本实施例中，在提取与预设人物特征相匹配的第五语音数据后，可以进一步在所述第五语音数据中提取含预设语气的第六语音数据。也就是说，上述情况1)和情况2)中的实现形式可以结合，具体实现形式可以参照上述实施例中的说明，在此不再赘述。
[0167]
需要说明的是，在本技术的其他实施例中，所述特征信息还可以包括词组频次，可选地，在所述特征信息包括词组频次的情况下，所述基于所述语音数据的特征信息，提取所述语音数据的关键语音，包括：
[0168]
基于所述语音数据中词组的出现频次，确定所述第一关键词，所述第一关键词满足以下至少一项：所述语音数据中出现频次大于第二阈值的词组；所述语音数据中加权频次大于第三阈值的词组，所述加权频次为所述出现频次与词组对应的第二权重的乘积；
[0169]
提取所述语音数据中包含所述第一关键词的第七语音数据，所述关键语音包括所
述第七语音数据。
[0170]
本实施例中，不同词组的出现频次可以表征不同词组在所述语音数据中的重要程度，示例性地，出现频次较高的词组可能是语音内容的主题或者关键点。也就是说，基于词组的出现频次提取的关键语音可以用于确定语音数据的主题或者关键点。
[0171]
为方便理解，如图9所示，本情况下一种示例性地实现流程如下：
[0172]
步骤9
‑
1，获取所述语音数据的文本数据。
[0173]
基于语音识别将所述语音数据转换成文本数据，并对所述文本数据按照预设句子划分规则进行划分，得到多个句子级的文本片段。
[0174]
步骤9
‑
2，对所述多个句子级的文本片段进行词组拆分。
[0175]
以语音片段“这次s9的推广活动我们要非常重视，针对这次s9推广活动，我们有如下方案”为例，可以拆分得到词组“s9”、“推广活动”和“方案”。所述语音数据中的其他句子级语音片段可以同样拆分得到至少一个词组。
[0176]
步骤9
‑
3，确定所述语音数据中每个词组的出现频次。
[0177]
步骤9
‑
4，基于每个词组的出现频次，确定所述语音数据中的高频关键词。
[0178]
步骤9
‑
5，提取包含所述高频关键词的语音片段作为关键语音。
[0179]
如图10所示，在本技术的一种示例性地实施例中，所述文本生成方法的实现流程如下：
[0180]
步骤10
‑
1，获取语音数据；
[0181]
步骤10
‑
2，对所述语音数据进行预处理。
[0182]
预处理可以包括词组划分，提取所述语音数据中的名词或者动词词组，并确定高频关键词；还包括可以句子划分，将所述语音数据按照预设划分规则，划分为多个句子级语音片段；还可以包括对所述语音数据进行声纹识别，区分所述语音数据中多个声纹特征对应的说话人物，并生成说话人物列表；还可以包括接收用户对所述说话人物执行的输入，确定所述语音数据中的关键人物。
[0183]
步骤10
‑
3，提取含高频关键词的第一关键语音。
[0184]
步骤10
‑
4，提取含预设语气的语音数据，并基于语音片段的第一权重提取第二关键语音。
[0185]
步骤10
‑
5，提取人物特征满足预设人物特征的第三关键语音。
[0186]
步骤10
‑
6，将所述第一关键语音、所述第二关键语音和所述第三关键语音进行整理。
[0187]
将所述第一关键语音、所述第二关键语音和所述第三关键语音转换成文本片段后，按照出现的时间先后顺序进行排序并去重，得到按照时间线排列的关键文本片段列表。
[0188]
步骤10
‑
7，用户对关键文本片段列表进行人工编辑，生成所述语音数据对应的文本并显示。
[0189]
综上所述，本技术实施例提供的文本生成方法，获取语音数据；识别所述多个语音片段的特征信息；基于所述语音数据的特征信息，提取所述语音数据的关键语音；基于所述关键语音，显示所述语音数据对应的文本。这样基于语音数据的特征信息提取语音数据的关键语音，从而可以基于关键语音，显示语音数据对应的文本，相比现有技术中将全部语音数据转换得到的文本，本技术实施例提取文本的更加精炼且重点较为突出。
[0190]
需要说明的是，本技术实施例提供的文本生成方法，执行主体可以为文本生成装置，或者该文本生成装置中的用于执行文本生成的方法的控制模块。本技术实施例中以文本生成装置执行文本生成的方法为例，说明本技术实施例提供的文本生成的装置。
[0191]
请参见图11，图11是本技术实施例提供的文本生成装置的结构图。
[0192]
如图11所示，文本生成装置1100包括：
[0193]
获取模块1101，用于获取语音数据；
[0194]
识别模块1102，用于识别所述语音数据的特征信息，所述特征信息包括语气特征、人物特征中的至少一项；
[0195]
提取模块1103，用于基于所述语音数据的特征信息，提取所述语音数据的关键语音；
[0196]
生成模块1104，用于基于所述关键语音，显示所述语音数据对应的文本。
[0197]
可选地，在所述特征信息包括语气特征的情况下，在所述特征信息包括语气特征的情况下，识别模块1102包括：
[0198]
第一识别单元，用于识别所述语音数据中用于表征语气的词组，并基于所述用于表征语气的词组，确定所述语音数据的语气特征；
[0199]
或，第二识别单元，用于识别所述语音数据的语音特征，并基于所述语音数据的语音特征，确定所述语音数据的语气特征。
[0200]
可选地，所述第二识别单元，包括：
[0201]
划分子单元，用于将所述语音数据划分为多个语音片段；
[0202]
第一确定子单元，用于基于所述语音片段中n个语音帧的语音特征，确定所述语音片段中n个语音帧的语音特征向量，n为正整数；
[0203]
预测子单元，用于将所述n个语音帧的语音特征向量输入预先训练好的语气预测模型，预测所述语音片段含预设语气的语气级别；
[0204]
第一获取子单元，用于获取所述语气预测模型输出的目标向量，所述目标向量用于表征所述语音片段含预设语气的语气级别；
[0205]
第二确定子单元，用于基于所述目标向量，确定所述语音片段的语气特征。
[0206]
可选地，所述语气预测模型包括输入层、至少一个卷积层、全连接层和输出层，所述全连接层包括第一隐藏层和第二隐藏层；
[0207]
所述预测子单元具体用于：
[0208]
在所述输入层中获取所述n个语音特征向量；
[0209]
将所述n个语音特征向量输入所述至少一个卷积层进行特征提取，得到目标特征矩阵；
[0210]
将所述目标特征矩阵输入所述第一隐藏层，在所述第一隐藏层中将第一预设权重矩阵与所述目标特征矩阵相乘并加上第一预设偏置矩阵，并通过第一预设激活函数进行激活，得到第一矩阵；
[0211]
将所述第一矩阵输入所述第二隐藏层，在所述第二隐藏层中将第二预设权重矩阵与所述第一矩阵相乘并加上第二预设偏置矩阵，并通过第二预设激活函数进行激活，得到第二矩阵；
[0212]
将所述第二矩阵输入所述输出层，在所述输出层中将第三预设权重矩阵与所述第
二矩阵相乘并加上第三预设偏置向量，并通过第三预设激活函数进行激活，得到第三矩阵；所述第三矩阵为列向量，所述第三矩阵中一行对应一个语气级别，所述第三矩阵中目标行的值表征所述语音片段匹配到目标语气级别的匹配概率，所述目标行为所述第三矩阵中的任一行；
[0213]
通过所述输出层输出所述目标向量，其中，所述目标向量用于表征所述第三矩阵中匹配概率最高的语气级别。
[0214]
可选地，在所述特征信息包括语气特征的情况下，提取模块1103包括：
[0215]
第一确定单元，用于确定所述语音数据中含预设语气的第一语音数据，所述第一语音数据包括至少一个第一语音片段；
[0216]
第二确定单元，用于基于所述语音数据中词组的出现频次，确定第一关键词，所述第一关键词满足以下至少一项：所述语音数据中出现频次大于第二阈值的词组；所述语音数据中加权频次大于第三阈值的词组，所述加权频次为所述出现频次与词组对应的第二权重的乘积；
[0217]
第三确定单元，用于基于所述第一语音片段中所述第一关键词的出现频次或加权频次，或所述第一语音片段与目标词库的相关程度，确定所述第一语音片段对应的第一权重，所述目标词库的相关程度基于所述第一语音片段中与目标词库相匹配的第一关键词的出现频次或加权频次确定；
[0218]
第一提取单元，用于提取所述第一权重大于第一阈值的第一语音片段，得到第二语音数据，所述关键语音包括所述第二语音数据。
[0219]
可选地，在所述特征信息包括人物特征的情况下，识别模块1102包括：
[0220]
第三识别单元，用于识别所述语音数据中用于表征人物身份的词组，并提取包含所述用于表征人物身份的词组的第三语音数据，所述第三语音数据包括至少一个第二语音片段；
[0221]
第四确定单元，用于在预设句式集中确定与所述第二语音片段相匹配的目标句式；
[0222]
第五确定单元，用于基于所述目标句式，在所述语音数据中确定与所述第二语音片段相关联的第三语音片段；
[0223]
第六确定单元，用于基于所述第二语音片段中包含的用于表征人物身份的词组，确定所述第三语音片段的人物特征。
[0224]
可选地，在所述特征信息包括人物特征的情况下，提取模块1103包括：
[0225]
第二提取单元，用于基于所述语音数据的人物特征，提取与预设人物特征相匹配的第四语音数据，所述关键语音包括所述第四语音数据。
[0226]
可选地，在所述特征信息包括语气特征和人物特征的情况下，所述基于所述语音数据的特征信息，提取模块1103包括：
[0227]
第三提取单元，用于基于所述语音数据的人物特征，提取与预设人物特征相匹配的第五语音数据，所述第五语音数据包括至少一个第四语音片段；
[0228]
第四提取单元，用于提取语气特征满足预设语气的第四语音片段，得到第六语音数据，所述关键语音包括所述第六语音数据。
[0229]
本技术实施例提供的文本生成装置，获取语音数据；识别所述多个语音片段的特
征信息，所述特征信息包括语气特征、人物特征中的至少一项；基于所述语音数据的特征信息，提取所述语音数据的关键语音；基于所述关键语音，显示所述语音数据对应的文本。这样基于语音数据的特征信息提取语音数据的关键语音，从而可以基于关键语音，显示语音数据对应的文本，相比现有技术中将全部语音数据转换得到的文本，本技术实施例提取文本的更加精炼且重点较为突出。
[0230]
本技术实施例中的文本生成装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra
‑
mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0231]
本技术实施例中的文本生成装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施例不作具体限定。
[0232]
本技术实施例提供的文本生成装置能够实现图1至图10的方法实施例实现的各个过程，为避免重复，这里不再赘述。
[0233]
可选地，如图12所示，本技术实施例还提供一种电子设备1200，包括处理器1201，存储器1202，存储在存储器1202上并可在所述处理器1201上运行的程序或指令，该程序或指令被处理器1201执行时实现上述文本生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0234]
需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0235]
图13为实现本技术实施例的一种电子设备的硬件结构示意图。
[0236]
该电子设备1300包括但不限于：射频单元1301、网络模块1302、音频输出单元1303、输入单元1304、传感器1305、显示单元1306、用户输入单元1307、接口单元1308、存储器1309、以及处理器1310等部件。
[0237]
本领域技术人员可以理解，电子设备1300还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1310逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图13中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
[0238]
其中，处理器1310用于：
[0239]
获取语音数据；
[0240]
识别所述语音数据的特征信息，所述特征信息包括语气特征、人物特征中的至少一项；
[0241]
基于所述语音数据的特征信息，提取所述语音数据的关键语音；
[0242]
基于所述关键语音，显示所述语音数据对应的文本。
[0243]
可选地，在所述特征信息包括语气特征的情况下，处理器1310具体用于：
[0244]
识别所述语音数据中用于表征语气的词组，并基于所述用于表征语气的词组，确定所述语音数据的语气特征；
[0245]
或，识别所述语音数据的语音特征，并基于所述语音数据的语音特征，确定所述语音数据的语气特征。
[0246]
可选地，处理器1310具体用于：
[0247]
将所述语音数据划分为多个语音片段；
[0248]
基于所述语音片段中n个语音帧的语音特征，确定所述语音片段中n个语音帧的语音特征向量，n为正整数；
[0249]
将所述n个语音帧的语音特征向量输入预先训练好的语气预测模型，预测所述语音片段含预设语气的语气级别；
[0250]
获取所述语气预测模型输出的目标向量，所述目标向量用于表征所述语音片段含预设语气的语气级别；
[0251]
基于所述目标向量，确定所述语音片段的语气特征。
[0252]
可选地，所述语气预测模型包括输入层、至少一个卷积层、全连接层和输出层，所述全连接层包括第一隐藏层和第二隐藏层；处理器1310具体用于：
[0253]
在所述输入层中获取所述n个语音特征向量；
[0254]
将所述n个语音特征向量输入所述至少一个卷积层进行特征提取，得到目标特征矩阵；
[0255]
将所述目标特征矩阵输入所述第一隐藏层，在所述第一隐藏层中将第一预设权重矩阵与所述目标特征矩阵相乘并加上第一预设偏置矩阵，并通过第一预设激活函数进行激活，得到第一矩阵；
[0256]
将所述第一矩阵输入所述第二隐藏层，在所述第二隐藏层中将第二预设权重矩阵与所述第一矩阵相乘并加上第二预设偏置矩阵，并通过第二预设激活函数进行激活，得到第二矩阵；
[0257]
将所述第二矩阵输入所述输出层，在所述输出层中将第三预设权重矩阵与所述第二矩阵相乘并加上第三预设偏置向量，并通过第三预设激活函数进行激活，得到第三矩阵；所述第三矩阵为列向量，所述第三矩阵中一行对应一个语气级别，所述第三矩阵中目标行的值表征所述语音片段匹配到目标语气级别的匹配概率，所述目标行为所述第三矩阵中的任一行；
[0258]
通过所述输出层输出所述目标向量，其中，所述目标向量用于表征所述第三矩阵中匹配概率最高的语气级别。
[0259]
可选地，在所述特征信息包括语气特征的情况下，处理器1310具体用于：
[0260]
确定所述语音数据中含预设语气的第一语音数据，所述第一语音数据包括至少一个第一语音片段；
[0261]
基于所述语音数据中词组的出现频次，确定第一关键词，所述第一关键词满足以下至少一项：所述语音数据中出现频次大于第二阈值的词组；所述语音数据中加权频次大于第三阈值的词组，所述加权频次为所述出现频次与词组对应的第二权重的乘积；
[0262]
基于所述第一语音片段中所述第一关键词的出现频次或加权频次，或所述第一语音片段与目标词库的相关程度，确定所述第一语音片段对应的第一权重，所述目标词库的
相关程度基于所述第一语音片段中与目标词库相匹配的第一关键词的出现频次或加权频次确定；
[0263]
提取所述第一权重大于第一阈值的第一语音片段，得到第二语音数据，所述关键语音包括所述第二语音数据。
[0264]
可选地，在所述特征信息包括人物特征的情况下，处理器1310具体用于：
[0265]
识别所述语音数据中用于表征人物身份的词组，并提取包含所述用于表征人物身份的词组的第三语音数据，所述第三语音数据包括至少一个第二语音片段；
[0266]
在预设句式集中确定与所述第二语音片段相匹配的目标句式；
[0267]
基于所述目标句式，在所述语音数据中确定与所述第二语音片段相关联的第三语音片段；
[0268]
基于所述第二语音片段中包含的用于表征人物身份的词组，确定所述第三语音片段的人物特征。
[0269]
可选地，在所述特征信息包括人物特征的情况下，处理器1310还用于：
[0270]
基于所述语音数据的人物特征，提取与预设人物特征相匹配的第四语音数据，所述关键语音包括所述第四语音数据。
[0271]
可选地，在所述特征信息包括语气特征和人物特征的情况下，处理器1310具体用于：
[0272]
基于所述语音数据的人物特征，提取与预设人物特征相匹配的第五语音数据，所述第五语音数据包括至少一个第四语音片段；
[0273]
提取语气特征满足预设语气的第四语音片段，得到第六语音数据，所述关键语音包括所述第六语音数据。
[0274]
本技术实施例提供的电子设备，获取语音数据；识别所述多个语音片段的特征信息，所述特征信息包括语气特征、人物特征中的至少一项；基于所述语音数据的特征信息，提取所述语音数据的关键语音；基于所述关键语音，显示所述语音数据对应的文本。这样基于语音数据的特征信息提取语音数据的关键语音，从而可以基于关键语音，显示语音数据对应的文本，相比现有技术中将全部语音数据转换得到的文本，本技术实施例提取文本的更加精炼且重点较为突出。
[0275]
应理解的是，本技术实施例中，输入单元1304可以包括图形处理器(graphics processing unit，gpu)13041和麦克风13042，图形处理器13041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1306可包括显示面板13061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板13061。用户输入单元1307包括触控面板13071以及其他输入设备13072。触控面板13071，也称为触摸屏。触控面板13071可包括触摸检测装置和触摸控制器两个部分。其他输入设备13072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1309可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1310中。
[0276]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指
令，该程序或指令被处理器执行时实现上述文本生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0277]
其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等。
[0278]
本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述文本生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0279]
应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0280]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
[0281]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0282]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音信息的处理方法、装置、设备及介质与流程

文本生成方法、装置、电子设备及可读存储介质与流程

相关文章

最热文献