音频问答方法、装置、电子设备及存储介质与流程

2022-05-11 13:30:56 来源：中国专利 TAG：

1.本发明涉及音频处理技术领域，具体而言，涉及一种音频问答方法、装置、电子设备及存储介质。

背景技术：

2.在许多应用场景中都存在问答匹配需求，即用户发起问题咨询然后将合适的答案反馈给用户。现有的音频问答方式，通常是将问题与音频的标题和简介进行匹配然后将对应音频反馈给用户，其存在准确度较低的问题。

技术实现要素：

3.有鉴于此，本发明的目的在于提供一种音频问答方法、装置、电子设备及存储介质。
4.为了实现上述目的，本发明实施例采用的技术方案如下：
5.第一方面，本发明提供一种音频问答方法，应用电子设备，所述电子设备预存有多个音频和索引信息，所述索引信息包括每个所述音频的每个关键段落和每个所述关键段落的语义特征，一个所述关键段落与所述音频的一个音频片段对应；所述方法包括：
6.根据用户输入的问题语句，获得所述问题语句的语义特征；
7.从全部关键段落中选取目标关键段落，所述目标关键段落的语义特征与所述问题语句的语义特征匹配；
8.将所述目标关键段落对应的目标音频片段，作为回答所述问题语句的音频片段。
9.在可选的实施方式中，所述根据用户输入的问题语句，获得所述问题语句的语义特征的步骤，包括：
10.计算所述问题语句的向量；
11.对所述问题语句进行分词处理，获得所述问题语句的目标词；
12.将所述向量和所述目标词作为所述问题语句的语义特征。
13.在可选的实施方式中，所述问题语句的语义特征包括向量和目标词；所述关键段落的语义特征包括向量和关键词，所述问题语句的向量的维度与所述关键段落的向量的维度相同；
14.所述从全部关键段落中选取目标关键段落的步骤，包括：
15.计算所述问题语句的向量和每个所述关键段落的向量的余弦，获得所述问题语句与每个所述关键段落的第一相似度；
16.从全部关键段落中选取所述第一相似度满足第一预设条件的第一关键段落；
17.从全部关键段落中选取多个待定关键段落，所述待定关键段落的关键词包含至少一个所述问题语句的目标词；
18.将所述问题语句与每个所述待定关键段落进行文本匹配，获得所述问题语句与每个所述待定关键段落的第二相似度；
19.从全部关键段落中选取所述第二相似度满足第二预设条件的第二关键段落；
20.将所述第一关键段落和所述第二关键段落均作为所述目标关键段落。
21.在可选的实施方式中，所述方法还包括：
22.将所述第一关键段落和所述第二关键段落均作为候选关键段落，得到多个候选关键段落；
23.通过预设模型评估所述问题语句与每个所述候选关键段落的匹配度；
24.将所述匹配度大于预设阈值的候选关键段落作为所述目标关键段落。
25.在可选的实施方式中，所述索引信息是按照以下方式得到的：
26.获取每个所述音频的文本信息；
27.对于每个所述音频，从所述音频的文本信息中抽取关键句，将所述音频的文本信息分割为多个段落，并将所述多个段落中包含所述关键句的段落作为所述音频的关键段落，得到每个所述音频的每个所述关键段落；
28.对每个所述关键段落的进行特征提取，获得每个所述的关键段落的语义特征。
29.第二方面，本发明提供一种音频问答装置，应用电子设备，所述电子设备预存有多个音频和索引信息，所述索引信息包括每个所述音频的每个关键段落和每个所述关键段落的语义特征，一个所述关键段落与所述音频的一个音频片段对应；所述装置包括：
30.获取模块，根据用户输入的问题语句，获得所述问题语句的语义特征；
31.匹配模块，从全部关键段落中选取目标关键段落，所述目标关键段落的语义特征与所述问题语句的语义特征匹配；
32.回复模块，将所述目标关键段落对应的目标音频片段，作为回答所述问题语句的音频片段。
33.在可选的实施方式中，所述获取模块具体用于：
34.计算所述问题语句的向量；
35.对所述问题语句进行分词处理，获得所述问题语句的目标词；
36.将所述向量和所述目标词作为所述问题语句的语义特征。
37.在可选的实施方式中，所述问题语句的语义特征包括向量和目标词；所述关键段落的语义特征包括向量和关键词，所述问题语句的向量的维度与所述关键段落的向量的维度相同；所述匹配模块具体用于：
38.计算所述问题语句的向量和每个所述关键段落的向量的余弦，获得所述问题语句与每个所述关键段落的第一相似度；
39.从全部关键段落中选取所述第一相似度满足第一预设条件的第一关键段落；
40.从全部关键段落中选取多个待定关键段落，所述待定关键段落的关键词包含至少一个所述问题语句的目标词；
41.将所述问题语句与每个所述待定关键段落进行文本匹配，获得所述问题语句与每个所述待定关键段落的第二相似度；
42.从全部关键段落中选取所述第二相似度满足第二预设条件的第二关键段落；
43.将所述第一关键段落和所述第二关键段落均作为所述目标关键段落。
44.第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现前述实施方式中任一项所述的方法。
45.第四方面，本发明提供一种存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现前述实施方式中任一项所述的方法。
46.本发明实施例提供的音频问答方法、装置、电子设备及存储介质，电子设备预存有多个音频和索引信息，索引信息包括每个音频的每个关键段落和每个关键段落的语义特征，一个关键段落与一个音频片段对应；通过根据用户输入的问题语句，获得问题语句的语义特征；然后从全部关键段落中选取与问题语句的语义特征匹配的目标关键段落；最后将目标关键段落对应的目标音频片段，作为回答问题语句的音频片段，实现通过音频对用户咨询的问题进行回答。通过关键段落挖掘出音频的更多内容，获取与问题语句的语义特征匹配的关键段落，从而提高了匹配的准确度，并通过反馈音频片段的形式使用户可以快速获取到相应的内容，提升了用户体验。
47.为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
48.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
49.图1示出了本发明实施例提供的电子设备方框示意图；
50.图2示出了本发明实施例提供的音频问答方法的一种流程示意图；
51.图3示出了本发明实施例提供的音频问答方法的又一种流程示意图；
52.图4示出了本发明实施例提供的音频问答方法的又一种流程示意图；
53.图5示出了本发明实施例提供的音频问答方法的又一种流程示意图；
54.图6示出了本发明实施例提供的音频问答装置的一种功能模块图。
55.图标：110-总线；120-处理器；130-存储器；150-i/o模块；170-通信接口；300-音频问答装置；310-获取模块；330-匹配模块；350-回答模块；370-构建模块。
具体实施方式
56.下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
57.因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
58.需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的
要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
59.在许多应用场景中都存在问答匹配需求，即用户发起问题咨询然后将合适的答案反馈给用户。现有的音频问答方式，通常是将问题与音频的标题和简介进行匹配然后将对应音频反馈给用户。例如，将问题与音频的标题和描述简介等内容进行匹配，然后基于匹配结果将对应的音频反馈给用户。由于标题和描述简介不一定能涵盖音频的全部内容，则会导致反馈给用户的音频不一定准确。并且当音频较长时，用户需要花费较多时间从音频中获取对应内容的音频，即不便于用户获取相应的音频片段。进而，本发明实施例提供了一种音频问答方法，以解决上述问题。
60.请参照图1，是本发明实施例提供的一种电子设备的方框示意图。电子设备包括总线110、处理器120、存储器130、i/o模块150、通信接口170。
61.总线110可以是将上述元件相互连接并在上述元件之间传递通信(例如控制消息)的电路。
62.处理器120可以通过总线110从上述其它元件(例如存储器130、i/o模块150、通信接口170等)接收命令，可以解释接收到的命令，并可以根据所解释的命令来执行计算或数据处理。
63.处理器120可以是一种集成电路芯片，具有信号处理能力。该处理器120可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
64.存储器130可以存储从处理器120或其它元件(例如i/o模块150、通信接口170等)接收的命令或数据或者由处理器120或其它元件产生的命令或数据。
65.存储器130可以是但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)。
66.i/o模块150可以接收经由输入-输出手段(例如，传感器、键盘、触摸屏等)从用户输入的命令或数据，并可以通过总线110向处理器120或存储器130传送接收到的命令或数据。并且用于显示从上述元件接收、存储、处理的各种信息(例如多媒体数据、文本数据)，可以向用户显示视频、图像、数据等。
67.通信接口170可用于与其他节点设备进行信令或数据的通信。
68.可以理解的是，图1所示的结构仅为电子设备的结构示意图，电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
69.本发明实施例提供的电子设备可以是智能手机、个人计算机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer，umpc)、上网本、个人数字助理(personaldigitalassistant，pda)等。本发明实施例对此不作任何限制。
70.可以理解的是，电子设备中安装有音频应用程序，在该音频应用程序运行过程中，执行本发明实施例提供的音频问答方法。
71.下面将以上述的电子设备作为执行主体，执行本发明实施例提供的各个方法中的各个步骤，并实现对应技术效果。
72.请参阅图2，图2是本发明实施例提供的一种音频问答方法的流程示意图。
73.需要说明的是，电子设备的音频应用程序中预存有多个音频和索引信息，索引信息包括每个音频的每个关键段落、每个关键段落的语义特征，一个关键段落与音频中的一个音频片段对应。即通过该索引信息可以获取与用户咨询的问题匹配的音频片段，以对用户的问题进行回答。
74.步骤s202，根据用户输入的问题语句，获得问题语句的语义特征；
75.可以理解的是，用户在使用音频应用程序过程中，可以通过交互操作输入问题语句。该交互操作可以通过交互按键、语音、物理按键、外部设备等方式实现。
76.在本实施例中，若用户输入的问题语句是音频格式，如用户通过语音交互操作输入问题语句，将该问题语句由音频格式转换为文本格式，获取问题语句的文本信息，根据问题语句的文本信息得到其语义特征。
77.若用户输入的问题语句是文本格式，如用户通过交互按键在咨询界面输入问题语句，则直接获取问题语句的文本信息，根据问题语句的文本信息得到其语义特征。
78.步骤s204，从全部关键段落中选取目标关键段落，目标关键段落的语义特征与问题语句的语义特征匹配；
79.在本实施例中，可以将上述步骤获得的问题语句的语义特征与索引信息中关键段落的语义特征进行比对，将与问题语句的语义特征匹配的关键段落作为目标关键段落，则从全部关键段落中选取出目标关键段落。目标关键段落可以理解为是该问题语句的文本形式的答案。
80.音频的关键段落可以理解为是用于表示该音频的主要内容的文本，相比与音频的标题和简介，通过关键段落可以挖掘出音频的更多内容。从全部关键段落中选取出来的目标关键段落，可以理解为是与用户咨询的问题语句匹配的文本，从而提高音频与问题语句匹配的准确度。
81.步骤s206，将目标关键段落对应的目标音频片段，作为回答问题语句的音频片段；
82.在本实施例中，索引信息中可以存储每个关键段落对应的标识、起始时间戳和结束时间戳。标识表示关键段落所属的音频；起始时间戳和结束时间戳表示关键段落在所属的音频中对应的音频片段。
83.基于上述步骤获取到目标关键段落，可以根据目标关键段落对应的标识，获得目标关键段落所属的音频即目标音频，然后根据目标关键段落的起始时间戳和结束时间戳，在目标音频中获取对应的目标音频片段，将目标音频片段作为回答问题语句的音频片段反馈给用户，实现通过音频回答用户咨询的问题。目标音频片段可以理解为是该问题语句的音频形式的答案。
84.可选地，将目标音频片反馈给用户时，可以通过在界面显示目标音频，并在目标音频的进度条上显示一组标签，一组标签中的两个标签分别对应起始时间戳和结束时间戳，使用户可以通过拉取播放标记，快速获取到目标音频片段。
85.可以理解的是，通过关键段落获取到音频片段，可以将一个完整的音频划分为多个音频片段，将与问题语句匹配的音频片段反馈给用户，可以使用户可以快速地获取到相
应的内容，提高了匹配效率。
86.可见基于上述设计，电子设备预存有多个音频和索引信息，索引信息包括每个音频的每个关键段落和每个关键段落的语义特征，一个关键段落与一个音频片段对应；通过根据用户输入的问题语句，获得问题语句的语义特征；然后从全部关键段落中选取与问题语句的语义特征匹配的目标关键段落；最后将目标关键段落对应的目标音频片段，作为回答问题语句的音频片段，实现通过音频对用户咨询的问题进行回答。相比与现有技术中基于标题和简介获取音频的方式，本发明通过关键段落挖掘出音频的更多内容，获取与问题语句的语义特征匹配的关键段落，从而提高了匹配的准确度，并通过反馈音频片段的形式使用户可以快速获取到相应的内容，提升了用户体验。
87.针对上述步骤s202，本发明实施例提供了一种可能的实现方式，请参阅图3，其中步骤s202包括以下步骤：
88.步骤s202-1，计算问题语句的向量；
89.在本实施中，获取到用户输入的问题语句，可以将问题语句的文本信息输入到句子转换器如sentence transformer中，计算该问题语句的向量，问题语句的向量可以理解为表征问题语句的语义特征的数值形式。
90.例如，用户输入的问题语句为“感冒发烧怎么办”，可以将该问题语句的文本信息输入到句子转换器中，可以得到问题语句的向量，该问题语句的向量的维度可以是预设维度。
91.步骤s202-3，对问题语句进行分词处理，获得问题语句的目标词；
92.在本实施例中，可以按照预设分词规则，对问题语句的文本信息进行分词处理，即将一句话切分为多个字符串，从多个字符串中选取作为匹配的字符串即获得目标词。问题语句的目标词可以理解为表征问题语句的语音特征的文本形式。
93.例如，用户输入的问题语句为“感冒发烧怎么办”，对该问题语句进行分词处理得到多个字符串为“感冒”、“发烧”、“怎么办”，选取“感冒”、“发烧”作为目标词。
94.步骤s202-5，将向量和目标词作为问题语句的语义特征；
95.在本实施例中，将上述步骤获得的向量和目标词作为问题语句的语义特征。
96.可见根据用户输入的问题语句，获得表征该问题语句的数值形式即向量和文本形式即目标词，以便于从多维度将问题语句与音频进行匹配，从而提高了匹配的准确度。
97.基于问题语句的语义特征包括向量和目标词，索引信息还包括每个关键段落的向量和关键词，问题语句的向量的维度与关键段落的向量的维度相同，可以均为预设维度。进而对于上述步骤s204，本发明实施例提供了一种可能的实现方式，请参阅图4，其中步骤s204包括以下步骤：
98.步骤s204-1，计算问题语句的向量和每个关键段落的向量的余弦，获得问题语句与每个关键段落的第一相似度；
99.在本实施例中，可以根据问题语句的向量和每个关键段落的向量，计算其余弦值，得到问题语句与每个关键段落的第一相似度。
100.例如，索引信息包括100个关键段落，计算问题语句为“感冒发烧怎么办”的向量和每个关键段落的向量的余弦值，得到问题语句和每个关键段落的第一相似度，即得到100个第一相似度。
101.可以理解的是，余弦值越接近1，则表示问题语句与关键段落越相似，则问题语句与关键段落越匹配。
102.步骤s204-3，从全部关键段落中选取第一相似度满足第一预设条件的第一关键段落；
103.在本实施例中，第一预设条件可以是第一预设值，可以从全部关键段落中选取第一相似度不小于第一预设值的关键段落，获得第一关键段落。
104.第一预设条件也可以是第一预设数目，可以对全部第一相似度按照从大到小的顺序进行排序，从最大第一相似度选取第一预设数目个第一相似度，得的第一预设数目个目标第一相似度，将每个目标第一相似度对应的关键段落作为第一关键段落。
105.例如，第一预设数目为10，对上述示例中得到的100个第一相似度，按照从大到小的顺序进行排序，获取前10个第一相似度对应的关键段落，得到10个第一关键段落。
106.需要说明的是，第一预设条件、第一预设值和第一预设数目，可以按照实际应用设计，本发明实施不作限定。
107.步骤s204-5，从全部关键段落中选取多个待定关键段落，待定关键段落的关键词包含至少一个问题语句的目标词；
108.在本实施例中，每个关键段落的关键词可以采用关键字映射表的方式进行记录。该关键字映射表是对全部关键段落进行倒排索引得到的文件，其包括多个关键词和每个关键词对应的关键段落。
109.获取到问题语句的目标词，可以从关键字映射表的多个关键词中，得到与目标词一致的目标关键词，获取目标关键词对应的关键段落，即从全部关键段落中获取到多个待定关键段落，一个待定关键段落的关键词包含至少一个目标词。
110.例如，问题语句的目标词为“感冒”和“发烧”，从关键字映射表的多个关键词中选取出目标关键词即“感冒”和“发烧”，并根据关键字映射表获取“感冒”对应的关键段落如20个，和“发烧”对应的关键段落如15个，得到多个待定关键段落即获得35个待定关键段落。
111.步骤s204-7，将问题语句与每个待定关键段落进行文本匹配，获得问题语句与每个待定关键段落的第二相似度；
112.在本实施例中，可以将问题语句的文本信息与每个待定关键段落的文本信息进行文本匹配，获得问题语句与每个待定关键段落的第二相似度。
113.例如，上述示例中得到的35个待定关键段落，将问题语句的文本信息与每个待定关键段落的文本信息进行文本匹配，获得问题语句与每个待定关键段落的第二相似度，即得到35个第二相似度。
114.步骤s204-9，从全部关键段落中选取第二相似度满足第二预设条件的第二关键段落；
115.在本实施例中，第二预设条件可以是第二预设值，可以从全部关键段落中选取第二相似度不小于第二预设值的关键段落，获得第二关键段落。
116.第二预设条件也可以是第二预设数目，可以对全部第二相似度按照从大到小的顺序进行排序，从最大第二相似度选取第二预设数目个第二相似度，得的第二预设数目个目标第二相似度，将每个目标第二相似度对应的关键段落作为第二关键段落。
117.例如，第二预设数目为10，对上述示例中得到的35个第二相似度，按照从大到小的
顺序进行排序，获取前10个第二相似度对应的关键段落，得到10个第二关键段落。
118.需要说明的是，第二预设条件、第二预设值和第二预设数目，可以按照实际应用设计，本发明实施不作限定。同时第一预设数目和第二预设数目可以相等，也可以不相等，其数目可以按照实际应用设计，本发明实施不作限定。
119.步骤s204-11，将第一关键段落和第二关键段落均作为目标关键段落；
120.在本实施例中，将上述步骤获得的第一关键段落和第二关键段落均作为目标关键段落。例如，将上述示例中得的到的10个第一关键段落和10个第二关键段落作为目标关键段落。
121.可见基于问题语句的向量和关键段落的向量选取出第一关键段落，基于问题语句的目标词和关键段落的关键词选取出第二关键段落。实现多维度将问题语句与音频的内容进行匹配，从而进一步提高匹配的准确度。
122.可选地，为了进一步提高匹配的准确度，在上述步骤s204-9之后，本发明实施例提供了一种可能的实现方式，步骤s204-9之后包括以下步骤：
123.步骤s204-13，将第一关键段落和第二关键段落均作为候选关键段落，得到多个候选关键段落；
124.在本实施例中，将上述步骤中获得的第一关键段落和第二关键段落均作为候选关键段落，得到多个候选关键段落。例如，将上述示例中得的到的10个第一关键段落和10个第二关键段落均作为候选关键段落，得到20个候选关键段落。
125.步骤s204-15，通过预设模型评估问题语句与每个候选关键段落的匹配度；
126.在本实施例中，可以预先基于polyencoder模型和colbert模型进行训练，集成得到预设模型。polyencoder模型可以对问题语句的每个词计算向量，经过注意力层生成多个向量，将其与关键段落的向量做交互。colbert模型可以对问题语句和关键段落编码得到多个向量并进行交互。
127.通过预设模型，可以评估问题语句与每个候选关键段落的匹配度。例如，上述步骤获得20个候选关键段落，通过预设模型评估问题语句和每个候选关键段落的匹配度，得到20个匹配度。
128.步骤s204-17，将匹配度大于预设阈值的候选关键段落作为目标关键段落；
129.在本实施例中，将每个匹配度与预设阈值进行大小比较，将匹配度大于预设阈值的候选关键段落作为目标关键段落。需要说明的是，预设阈值可以按照实际应用设置，本发明实施不做限定。
130.例如，将上述示例中20个匹配度与预设阈值进行比较，将匹配度大于预设阈值的候选关键段落如5个候选关键段落作为目标关键段落。
131.可见通过预设模型对问题语句和每个候选段落的匹配度进行评估，从而可以进一步地提高问题语句与音频匹配的准确度，可以获取到更加精准的音频片段，从而便于用户快速获取相应的内容，优化了用户体验。
132.对于上述示例中的索引信息，本发明实施例提供了一种获得索引信息的可能实现方式，请参阅图5，其中包括以下步骤：
133.步骤212，获取每个音频的文本信息；
134.在本实施例中，可以将多个音频的均转换为文本格式，得到每个音频的文本信息。
135.步骤214，对于每个音频，从音频的文本信息中抽取关键句，将音频的文本信息分割为多个段落，并将多个段落中包含关键句的段落作为音频的关键段落，得到每个音频的每个关键段落；
136.在本实施例中，对于每个音频，其获取关键段落的方式类似，下面以获取一个音频的关键段落为例进行说明。
137.通过textrank算法从音频的文本信息中抽取出关键句，该关键句可以理解为表示音频核心内容的文本；对音频的文本信息进行分割，得到多个段落，每个段落均有起始时间戳和结束时间戳；然后从多个段落中选取包含关键句的段落，得到音频的关键段落。
138.对每个音频执行上述的步骤，可以得到每个音频的每个关键段落。
139.步骤216，对每个关键段落的进行特征提取，获得每个的关键段落的语义特征；
140.在本实施例中，基于上述步骤得到的全部关键段落，可以对每个关键段落的进行特征提取，获得每个的关键段落的语义特征。
141.可选地，基于关键段落的语义特征包括向量和关键词，本发明实施例提供了一种获得关键段落的语义特征的可能实现方式。
142.计算每个关键段落的向量，并用向量存储工具如faiss和milvus，将每个关键段落的向量存储到索引信息中。
143.对全部关键段落建立倒排索引，得到关键词映射表，将关键词映射表存储到索引信息中。倒排索引是指“单词-文档矩阵”的这种记录形式。在获取到用户输入的问题语句时，可以根据问题语句的目标词，获取到与目标词一致的目标关键词，基于关键词映射表中目标关键词所对应的关键段落，可以快速地获取到至少包含一个目标词的关键段落，可以提高匹配的速度和效率。
144.可见通过获取每个音频的文本信息，并对音频的文本信息进行关键句抽取和段落分割，可以得到包含关键句的关键段落，实现对音频的内容进行提取，以便于与用户输入的问题语句进行匹配，从而获取到对应的音频片段，提高了匹配的准确度和提升了用户体验。
145.为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种音频问答装置的实现方式。请参阅图6，图6为本发明实施例提供的一种音频问答装置300的功能模块图。需要说明的是，本实施例所提供的音频问答装置300，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该音频问答装置300包括：
146.获取模块310，用于根据用户输入的问题语句，获得问题语句的语义特征；
147.匹配模块330，用于从全部关键段落中选取目标关键段落，目标关键段落的语义特征与问题语句的语义特征匹配；
148.回答模块350，用于将目标关键段落对应的目标音频片段，作为回答问题语句的音频片段。
149.可选地，获取模块310具体用于：计算问题语句的向量；对问题语句进行分词处理，获得问题语句的目标词；将向量和目标词作为问题语句的语义特征。
150.可选地，匹配模块330具体用于：计算问题语句的向量和每个关键段落的向量的余弦，获得问题语句与每个关键段落的第一相似度；从全部关键段落中选取第一相似度满足第一预设条件的第一关键段落；从全部关键段落中选取多个待定关键段落，待定关键段落
的关键词包含至少一个问题语句的目标词；将问题语句与每个待定关键段落进行文本匹配，获得问题语句与每个待定关键段落的第二相似度；从全部关键段落中选取第二相似度满足第二预设条件的第二关键段落；将第一关键段落和第二关键段落均作为目标关键段落。
151.可选地，匹配模块330具体用于：将第一关键段落和第二关键段落均作为候选关键段落，得到多个候选关键段落；通过预设模型评估问题语句与每个候选关键段落的匹配度；将匹配度大于预设阈值的候选关键段落作为目标关键段落。
152.可选地，音频问答装置300还包括构建模块370，构建模块370用于：获取每个音频的文本信息；对于每个音频，从音频的文本信息中抽取关键句，将音频的文本信息分割为多个段落，并将多个段落中包含关键句的段落作为音频的关键段落，得到每个音频的每个关键段落；对每个关键段落的进行特征提取，获得每个的关键段落的语义特征。
153.本发明实施例还提供了一种电子设备，包括处理器120和存储器130，存储器130存储有计算机程序，处理器执行计算机程序时，实现上述实施例揭示的音频问答方法。
154.本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器120执行时实现本发明实施例揭示的音频问答方法。
155.综上所述，本发明实施例提供的音频问答方法、装置、电子设备及存储介质，电子设备预存有多个音频和索引信息，索引信息包括每个音频的每个关键段落和每个关键段落的语义特征，一个关键段落与一个音频片段对应；通过根据用户输入的问题语句，获得问题语句的语义特征；然后从全部关键段落中选取与问题语句的语义特征匹配的目标关键段落；最后将目标关键段落对应的目标音频片段，作为回答问题语句的音频片段，实现通过音频对用户咨询的问题进行回答。相比与现有技术中基于标题和简介获取音频的方式，本发明通过关键段落挖掘出音频的更多内容，通过获取与问题语句的语义特征匹配的关键段落，从而提高了匹配的准确度，并通过反馈音频片段的形式使用户可以快速获取到相应的内容，提升了用户体验。
156.在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
157.另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
158.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计
算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
159.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于装修建材的装修净化数据分析系统及方法与流程

音频问答方法、装置、电子设备及存储介质与流程

相关文献

最热文献