一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

问答对挖掘方法及装置与流程

2021-10-29 20:50:00 来源:中国专利 TAG:答对 人工智能 挖掘 装置 方法


1.本技术涉及人工智能技术领域,具体而言,涉及一种问答对挖掘方法及装置。


背景技术:

2.随着人工智能技术的成熟,自动问答系统的应用越来越广泛,自动问答系统基于其内设置的问答模型,根据用户输入的提问语料,自动进行提问语料理解,并输入相对应的回答语料。在将问答模型进行上线之前,需要通过问答对对该问答模型进行训练,以保证问答模型所输出回答语料的准确性。
3.现有技术中,用于训练问答模型的问答对需要通过人工收集或者人工构建,问答对收集的效率低。


技术实现要素:

4.本技术的实施例提供了一种问答对挖掘方法及装置,以解决相关技术中构建问答对的效率低的问题。
5.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
6.根据本技术实施例的一个方面,提供了一种问答对挖掘方法,所述方法包括:根据目标提问语料中的分词进行检索,获得与所述目标提问语料中各分词相关联的第一样本提问语料;根据第一样本提问语料在搜索引擎中进行检索,获得所述第一样本提问语料对应的第一候选问答对,所述第一候选问答对包括第二提问语料和第二回答语料;计算所述第一样本提问语料和所述第二提问语料中任意两语料之间的第一语义相似度;根据所述第一语义相似度对第二候选问答对进行过滤,得到目标问答对,所述第二候选问答对包括所述第一样本提问语料与所对应第一候选问答对中的第二回答语料所组成的问答对和所述第一候选问答对;所述目标问答对用于对问答模型进行训练,所述问答模型用于根据输入的提问语料输出回答语料。
7.根据本技术实施例的一个方面,提供了一种问答对挖掘装置,所述装置包括:第一样本提问语料获取模块,用于根据目标提问语料中的分词进行检索,获得与所述目标提问语料中各分词相关联的第一样本提问语料;第一候选问答对获取模块,用于根据第一样本提问语料在搜索引擎中进行检索,获得所述第一样本提问语料对应的第一候选问答对,所述第一候选问答对包括第二提问语料和第二回答语料;第一语义相似度计算模块,用于计算所述第一样本提问语料和所述第二提问语料中任意两语料之间的第一语义相似度;过滤模块,用于根据所述第一语义相似度对第二候选问答对进行过滤,得到目标问答对,所述第二候选问答对包括所述第一样本提问语料与所对应第一候选问答对中的第二回答语料所组成的问答对和所述第一候选问答对;所述目标问答对用于对问答模型进行训练,所述问答模型用于根据输入的提问语料输出回答语料。
8.在本技术的一些实施例中,基于前述方案,第一样本提问语料获取模块包括:分词
单元,用于对所述目标提问语料进行分词,得到所述目标提问语料中的多个分词;倒排索引获取单元,用于获取与所述目标提问语料中各分词相关联的倒排索引,所述倒排索引指示了所述分词与样本提问语料之间的索引关系;第一样本提问语料获取单元,用于根据所述倒排索引获取与各个所述分词相关联的第一样本提问语料。
9.在本技术的一些实施例中,基于前述方案,问答对挖掘装置还包括:第二语义相似度计算模块,用于计算任意两个第一样本提问语料之间的第二语义相似度;第二过滤模块,用于根据所述第二语义相似度对所述第一样本提问语料进行过滤。
10.在本技术的一些实施例中,基于前述方案,第二语义相似度计算模块,包括:确定单元,用于以需进行第二语义相似度计算的两个第一样本提问语料中的一个语料作为标准提问语料,另一个语料作为对照提问语料;第二分词单元,用于对所述对照提问语料进行分词,得到所述对照提问语料中的多个分词;相关性分数计算单元,用于计算所述对照提问语料中的每个分词与所述标准提问语料之间的相关性分数;相关性权重计算单元,用于计算所述对照提问语料中的每个分词对应的相关性权重;第一加权单元,用于根据所述对照提问语料中各分词对应的相关性权重,对所述对照提问语料中的全部分词与所述标准提问语料与之间的相关性分数进行加权,得到所述对照提问语料与所述标准提问语料之间的第二语义相似度。
11.在本技术的一些实施例中,基于前述方案,问答对挖掘装置还包括:第三语义相似度计算模块,用于计算每一第一样本提问语料与所述目标提问语料之间的第三语义相似度;第三过滤模块,用于根据所述第三语义相似度对所述第一样本提问语料进行过滤。
12.在本技术的一些实施例中,基于前述方案,第三语义相似度计算模块,包括:第一输入单元,用于对于每一第一样本提问语料,将所述第一样本提问语料和所述目标提问语料输入语义匹配模型;第二输出单元,用于由所述语义匹配模型输出所述第一样本提问语料和所述目标提问语料之间的第三语义相似度。
13.在本技术的一些实施例中,基于前述方案,问答对挖掘装置还包括:训练数据获取模块,用于获取训练数据,所述训练数据包括若干样本语料对和所述样本语料对的标签,所述标签用于指示所述样本语料对中的两个样本语料的语义是否相似;训练模块,用于根据所述样本语料对和所述样本语料对的标签对所述语义匹配模型进行训练,直至所述语义匹配模型收敛。
14.在本技术的一些实施例中,基于前述方案,第一语义相似度计算模块包括:提问语料对集合获取单元,用于获取提问语料对集合,所述提问语料对集合包括若干提问语料对,所述提问语料对是将所述第一样本提问语料和所述第二提问语料中的语料进行两两组合得到的;第二输入单元,用于将所述提问语料对输入所述语义匹配模型;第二输出单元,用于由所述语义匹配模型输出所述提问语料对中两语料之间的第一语义相似度。
15.在本技术的一些实施例中,基于前述方案,过滤模块940包括:第二获取单元,用于获取每一所述第二候选问答对中提问语料所对应的第一语义相似度和所对应的第三语义相似度;第二加权单元,用于将所述第二候选问答对中提问语料所对应的第一语义相似度和所对应的第三语义相似度进行加权,得到所述第二候选问答对的目标分数;第四过滤单元,用于过滤所对应目标分数不满足预设分数范围的第二候选问答对,得到所述目标问答对。
16.根据本技术实施例的一个方面,提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述问答对挖掘方法。
17.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述问答对挖掘方法。
18.在本技术的方案中,先根据目标提问语料中的分词进行检索,获得与目标提问语料中分词相关联的第一样本提问语料,实现了提问语料的挖掘;然后将第一样本提问语料在搜索引擎中进行检索,从面向互联网众多用户的数据中检索出与第一样本提问语料的第一候选问答对,实现了基于提问语料进行问答对的挖掘;并将第一样本提问语料和所对应第一候选问答对中的第一回答语料组合,形成新的问答对,根据第一候选问答对进一步进行了问答对的扩展。在此基础上,根据所计算所得的第一语义相似度,对第一候选问答对和扩展得到的问答对进行过滤,得到目标问答对。通过如上的过程,实现了基于有限的样本提问语料自动进行了问答对的挖掘,相较于全部问答语料均通过人工构建和收集,大幅提高了问答对的挖掘效率。
19.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
21.图1示出了可以应用本技术实施例的技术方案的示例性系统架构的示意图。
22.图2是根据本技术的一个实施例示出的问答对挖掘方法的流程图。
23.图3是根据本技术一实施例示出的步骤210之前步骤的流程图。
24.图4是根据本技术一实施例示出的步骤220之前步骤的流程图。
25.图5是根据本技术另一实施例示出的步骤220之前步骤的流程图。
26.图6是根据一具体实施例示出的语义匹配模型的结构示意图。
27.图7是根据本技术一实施例示出的步骤230的流程图。
28.图8是根据本技术一实施例示出的步骤240的流程图。
29.图9是根据本技术一实施例示出的问答对挖掘装置的框图。
30.图10示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
31.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
32.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,
本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
33.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
34.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
35.需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
36.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
37.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
38.现有技术中,为了对用户提供服务,自动问答系统的应用越来越广泛,其中,自动问答系统基于其内设置的问答模型,根据用户输入的提问语料,自动进行提问语料理解,并输入相对应的回答语料。
39.在将问答模型进行上线之前,需要通过训练数据对该问答模型进行训练,以保证问答模型所输出回答语料的准确性。训练数据包括若干问答对,该问答对包括提问语料和回复语料。
40.现有技术中,用于训练问答模型的问答对需要通过人工收集或者人工构建,存在问答对收集的效率低的问题,为了解决该问题,提出了本技术的方案。
41.图1示出了可以应用本技术实施例的技术方案的示例性系统架构的示意图。
42.如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
43.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
44.在本技术的一些实施例中,问答对挖掘的方法可以由服务器105执行,以按照本技术的方法根据作为挖掘基础的目标提问语料来挖掘问答对。
45.在本技术的一些实施例中,还可以在服务器105中设置问答模型,然后通过所构挖掘出的问答对对对该问答模型进行训练。在训练完成后,该服务器105可以根据训练后的问答模型自动根据用户输入的提问语料输出回答语料。
46.在本技术的一些实施例中,用户可以基于终端设备向服务器105发起提问请求,该提问请求包括用户所输入的提问语料,然后服务器105通过问答模型通过分析提问语料的语义,并自动获取对应于提问语料的回复语料,并将所得到的回答语料返回至用户所在的终端。
47.以下对本技术实施例的技术方案的实现细节进行详细阐述:
48.图2示出了根据本技术的一个实施例示出的问答对挖掘方法的流程图,该方法可以由具备处理能力的计算机设备执行,例如服务器等,在此不进行具体限定。参照图2所示,该方法至少包括步骤210至240,详细介绍如下:
49.步骤210,根据目标提问语料中的分词进行检索,获得与所述目标提问语料中各分词相关联的第一样本提问语料。
50.目标提问语料是指作为进行问答对挖掘基础的提问语料,其可以是从已知语料中选择的一提问语料。
51.第一样本提问语料是指与目标提问语料中的分词相关联的样本提问语料。
52.在本技术的一些实施例中,可以将目标提问语料中的全部分词分别进行检索,以得到每一分词相关联的第一样本提问语料;也是可以仅将目标提问语料中的部分分词分别进行检索,具体可根据实际需要进行设定。
53.在步骤210之前,构建了样本提问语料集合,然后在步骤210中,在该样本提问语料集合中按照分词进行检索,得到第一提问语料。
54.在步骤210之前,先对目标提问语料进行分词,得到目标提问语料中所包括的多个分词。在此基础上,根据目标提问语料中的每一个语料分别在样本提问语料中进行提问语料的检索,获得与目标提问语料中每一分词相关联的第一样本提问语料。
55.可以借助于分词工具来对目标提问语料进行分词。分词工具利用其中设置的词典来进行分词。在具体实施例中,需要根据问答模型所适用的语言来选择分词工具,若问答模型用于进行中文问答,则选择构建了中文词典的分词工具来对目标提问语料进行分词;若问答模型用于进行英文问答,则选择构建了英文词典的分词工具来进行分词。
56.在本技术的一些实施例中,由于分词工具是基于其内所设置的词典进行分词,若问答模型是用于对某一专业技术领域进行自动问答,需要选择包括了该专业技术领域中的专业术语的词典的分词工具来对目标提问语料进行分词,例如若该问答模型用于医疗问答领域,则选择词典中包括医疗领域内术语的分词工具来进行分词。通过选择问答模型所应用技术领域相对应的分词工具来对目标提问语料进行分词,可以保证分词的准确性,进而保证问答对挖掘的有效性。
57.在本技术的一些实施例中,在步骤210之前,如图3所示,该方法还包括:
58.步骤310,对所述目标提问语料进行分词,得到所述目标提问语料中的多个分词。
59.步骤320,获取与所述目标提问语料中各分词相关联的倒排索引,所述倒排索引指示了所述分词与样本提问语料之间的索引关系。
60.步骤330,根据所述倒排索引获取与各个所述分词相关联的第一样本提问语料。
61.在本实施例中,在步骤320之前,先根据每一样本提问语料中的分词构建倒排索引。举例来说,若一样本提问语料a为:如何办理身份证挂失?其分词结果为:如何/办理/身份证/挂失,即该样本提问语料a中的分词包括:如何、办理、身份证和挂失。然后根据各个样本提问语料所包括的分词和各个样本提问语料的地址建立分词到语料地址的映射,即倒排索引,所建立倒排索引的结果可以如下所示:
[0062]“如何”:“样本提问语料a”的地址、“样本提问语料b”的地址、“样本提问语料c”的地址

[0063]“办理”:“样本提问语料a”的地址、“样本提问语料c”的地址、“样本提问语料d”的地址
……
[0064]“身份证”:“样本提问语料a”的地址、“样本提问语料e”的地址、“样本提问语料f”的地址
……
[0065]“挂失”:“样本提问语料a”的地址、“样本提问语料b”的地址、“样本提问语料g”的地址
……
[0066]
在步骤320中,基于所建立的倒排索引,将目标提问语料中的分词在倒排索引库中进行检索,检索到包括该分词的倒排索引,由于倒排索引中包括该与该分词所关联的样本提问语料的地址,从而,根据所检索到的倒排索引可以对应获取到与所得到分词所关联的第一样本提问语料。
[0067]
请继续参阅图2,步骤220,根据第一样本提问语料在搜索引擎中进行检索,获得所述第一样本提问语料对应的第一候选问答对,所述第一候选问答对包括第二提问语料和第二回答语料。
[0068]
由于搜索引擎所面向的检索基础是互联网上众多用户的提问与回答,因此,通过在搜索引擎中根据第一样本语料进行检索,可以进一步对第一样本提问语料进行丰富,挖掘出具有多样性的语料。而且,由于搜索引擎中,不仅包括提问语料,还包括针对该提问语料中的回答语料,因此,可以基于第一样本提问语料从搜索引擎中挖掘出问答对。
[0069]
值得一提的是,在本技术的方案中,通过每一第一样本提问语料在搜索引擎中进行检索的过程中,可以检索提问语料到与第一样本提问语料语义相近的问答对。也就是说,在每一次检索过程中,检索结果中的问答对是与作为检索基础的第一样本提问语料是相对应的。
[0070]
步骤230,计算所述第一样本提问语料和所述第二提问语料中任意两语料之间的第一语义相似度。
[0071]
在本技术的一些实施例中,可以分别构建第一样本提问语料和第二提问语料的语义向量,然后根据各提问语料的语义向量来计算任意两语料之间的语义相似度,为便于区分,将此处所计算得到的语义相似度称为第一语义相似度。
[0072]
在本技术的一些实施例中,可以根据基于两语料所分别对应的语义向量计算两语义向量的余弦距离,以该余弦距离作为两语料之间的第一语义相似度。在其他实施例中,还可以通过计算两语料所对应语义向量之间的欧式距离来确定两语料之间的第一语义相似度。
[0073]
步骤240,根据所述第一语义相似度对第二候选问答对进行过滤,得到目标问答对,所述第二候选问答对包括所述第一样本提问语料与所对应第一候选问答对中的第二回
答语料所组成的问答对和所述第一候选问答对;所述目标问答对用于对问答模型进行训练,所述问答模型用于根据输入的提问语料输出回答语料。
[0074]
如上所描述,基于一第一样本提问语料所检索到的多个第一候选问答对中的提问语料与作为检索基础的第一样本提问语料的语义存在相关性,因此,可以结合第一候选问答对中的第二回答语料,将第二回答语料与所在第一候选问答对对应的第一样本提问语料进行组合,形成新的问答对,实现问答对的丰富。
[0075]
在本技术的一些实施例中,在步骤240中,还可以基于所计算得到的第一语义相似度,还可以选取第一语义相似度小于第一相似度阈值的提问语料所在的第二的候选问答对作为目标问答对。通过该过程,过滤掉了语义相似度较高的提问语料所在的第二候选问答对,从而过滤掉提问语料的语义高度相似的目标问答对。
[0076]
在本技术的一些实施例中,可以设定一第二相似度阈值,然后根据与第二候选问答对中提问语料(即第一样本提问语料或者第一候选问答对中的第二提问语料)相关的多个第一语义相似度,统计所得到与该提问语料相关的多个相似度中超过该第二相似度阈值的相似度的数量,然后确定所统计的数量超过设定数量的提问语料所在的第二候选问答对。
[0077]
在本技术的一些实施例中,可以将所确定统计的数量超过设定数量的提问语料所在的第二候选问答对确定为目标问答对。
[0078]
在本实施例中,通过设定的第二相似度阈值和所设定数量来根据所计算得到的第一语义相似度进行对第二候选问答对进行筛选,由于所筛选出的目标问答对是所相关的多个第一语义相似度中,超过第二相似度阈值的第一语义相似度的数量超过设定数量的提问语料所在的第二候选问答对,第一语义相似度超过第二相似度阈值的数量超过设定数量,表明该提问语料在互联网中是常见的提问语料,因此,若将该提问语料所在的第二候选问答对确定为目标问答对,保证后续通过该目标问答对对问答模型进行训练后,可以保证该问答模型可以针对常见问题进行自动问答。
[0079]
在本技术的另一些实施例中,为了避免两目标问答对中提问语料高度相似,还可以在确定所统计的数量超过设定数量的提问语料所在的第二候选问答对的基础上,选取第一语义相似度阈值低于第三相似度阈值的提问语料所在的第二候选问答对作为目标问答对,其中,第三相似度阈值大于第一相似度阈值。
[0080]
在本技术的方案中,先根据目标提问语料中的分词进行检索,获得与目标提问语料中分词相关联的第一样本提问语料,实现了提问语料的挖掘;然后将第一样本提问语料在搜索引擎中进行检索,从面向互联网众多用户的数据中检索出与第一样本提问语料的第一候选问答对,实现了基于提问语料进行问答对的挖掘;并将第一样本提问语料和所对应第一候选问答对中的第一回答语料组合,形成新的问答对,根据第一候选问答对进一步进行了问答对的扩展。在此基础上,根据所计算所得的第一语义相似度,对第一候选问答对和扩展得到的问答对进行过滤,得到目标问答对。通过如上的过程,实现了基于有限的样本提问语料自动进行了问答对的挖掘,相较于全部问答语料均通过人工构建和收集,大幅提高了问答对的挖掘效率。
[0081]
在一应用场景中,由于一实体对象可能具有多重属性。例如,针对身份证这一实体对象,其属性包括身份证的有效期、办理流程、办理地点、从申请办理到拿到身份证的时间、
挂失等等多种属性。
[0082]
在自动问答场景中,需要问答模型可针对该实体对象的多种属性相关的问题均能够提供回答语料,因此,需要覆盖该实体对象的多重属性的问答对来对该问答模型进行训练。在此种应用场景中,可以通过本技术的方案来挖掘出与一实体对象的多种属性相关的问答对。
[0083]
在此种应用场景中,通过步骤210的过程,可以检索到与目标提问语料中的分词相关联的多个第一样本提问语料。由于目标提问语料中的分词包括用于描述该目标提问语料所针对实体对象的分词,在样本提问语料中的语料可以涵盖一个实体对象多种属性的基础上,通过步骤210的过程,可以检索到与该实体对象相关的多种问题。然后在通过步骤220的检索,进一步通过第一样本提问语料进行问答对的挖掘和丰富,进而确定目标问答对。由于所检索到的第一样本提问语料包括目标提问语料所针对实体对象的多种属性相关的问题,因此,可以保证所得到目标问答对包括了该目标提问语料所针对实体对象的多种属性的问答对。
[0084]
在本技术的一些实施例中,如图4所示,步骤220之前,该方法还包括:
[0085]
步骤410,计算任意两个第一样本提问语料之间的第二语义相似度。
[0086]
步骤420,根据所述第二语义相似度对所述第一样本提问语料进行过滤。
[0087]
如上所描述,第一样本语料是根据目标提问语料中的分词进行包括该分词的样本语料检索得到的,也就是说,第一样本语料的获得,仅仅关注了样本语料中是否包括目标提问语料中的一分词。所得到的与目标语料中的分词相关联的第一样本提问语料中可能存在语义高度相似的样本提问语料。若两第一样本提问语料的语义高度相似,在步骤220中,通过该两第一样本提问语料分别进行检索所得到的第二候选对可能是相同的,因此,为了避免出现该种情况,可以先对第一样本提问语料进行过滤。
[0088]
其中,两第一样本提问语料之间的语义相似度(为便于区分,将此次所计算得到的语义相似度称为第二语义相似度)可以如上第一语义相似度的计算过程,基于两第一样本语料所分别对应的语义向量进行距离计算,例如余弦距离、欧式距离等,进而确定对应对的第二语义相似度。
[0089]
在步骤420中,可以设定第四相似度阈值,基于与一第一样本提问语料(为便于描述,将其称为目标样本提问语料)相关的多个第二语义相似度,过滤掉第二语义相似度高于第四相似度阈值的第一样本提问语料,而保留与该目标提问语料之间的第二语义相似度不高于第四相似度阈值的第一样本提问语料。
[0090]
通过如上步骤410

420的过程,可以将语义相似度较高的多个第一样本提问语料中,仅保留其中的一个第一样本提问语料,而把其他的第一样本提问语料给过滤掉,以避免出现因用语义相似高的第一样本提问语料进行检索导致所得到多次检索结果中的第二候选问对高度相同的情况。
[0091]
请继续参阅图4所示,在本技术的一些实施例中,步骤410进一步包括:
[0092]
步骤411,以需进行第二语义相似度计算的两个第一样本提问语料中的一个语料作为标准提问语料,另一个语料作为对照提问语料。
[0093]
步骤412,对所述对照提问语料进行分词,得到所述对照提问语料中的多个分词。
[0094]
分词的方法可以参照上文中对目标提问语料进行分词的过程,在此不再赘述。
[0095]
步骤413,计算所述对照提问语料中的每个分词与所述标准提问语料之间的相关性分数。
[0096]
在本技术的一些实施例中,可以按照如下的公式来计算对照提问语料中的每个分词与标准提问语料之间的相关性分数:
[0097][0098][0099]
其中,k1、k2、b为调节因子,通常可根据经验来设定,例如设定k1=2,k2=1,b=0.75。f
i
为对照提问语料q中第i个分词q
i
在标准提问语料中d中的出现频率;qf
i
为对照提问语料中第i个分词q
i
在对照提问语料中的出现频率;dl为标准提问语料d的文本长度;avgdl为全部第一样本提问语料的平均文本长度。
[0100]
在通常情况下,对照提问语料中第i个分词q
i
在对照提问语料中只会出现一次,因此qf
i
=1,在此基础上,上述公式1可以进一步简化为:
[0101][0102]
步骤414,计算所述对照提问语料中的每个分词对应的相关性权重。
[0103]
在本技术的一些实施例中,可以按照如下的公式计算相关性权重:
[0104][0105]
其中,n为第一样本提问语料的总数量;n(q
i
)为包含对照提问语料中第i个分词q
i
的第一样本提问语料的数量。
[0106]
步骤415,根据所述对照提问语料中各分词对应的相关性权重,对所述对照提问语料中的全部分词与所述标准提问语料与之间的相关性分数进行加权,得到所述对照提问语料与所述标准提问语料之间的第二语义相似度。
[0107]
在通过如上步骤413和414确定对照提问语料中的每个分词与标准提问语料之间的相关性分数以及对照提问语料中的每个分词对应的相关性权重后,将对照提问语料中的每个分词对应的相关性权重作为加权系数,进行全部分词与标准提问语料之间的相关性分数的加权,即按照如下的公式进行加权:
[0108][0109]
其中,n为对照提问语料q中所包括分词的数量,score(q,d)为标准提问语料d与对照提问语料q之间的第二语义相似度。
[0110]
在本实施例的方案中,借助于对照提问语料中的每个分词与标准提问语料之间的相关性分数来体现对照提问语料与标准提问语料之间的语义相关性,进而计算得到对照提问语料与标准提问语料之间的语义相似度,实现了采用无监督的算法进行语义相似度的计算,相较于有监督的算法,其计算量较少。
[0111]
在本技术的一些实施例中,如图5所示,步骤220之前,该方法还包括:
[0112]
步骤510,计算每一第一样本提问语料与所述目标提问语料之间的第三语义相似度。
[0113]
步骤520,根据所述第三语义相似度对所述第一样本提问语料进行过滤。
[0114]
第一样本提问语料和目标提问语料之间的第三语义相似度可以通过如上先构建语料的语义向量然后计算语义向量之间的距离的方式来计算。也可以按照如上基于相关性权重和相关性分数的方式来计算,在此不进行具体限定。
[0115]
在步骤520中,可以根据设定的过滤范围来对第一样本提问语料进行过滤。若一第一样本提问语料对应的第三语义相似度位于过滤范围所限定的相似度范围内,则过滤掉该第一样本提问语料,反之,若一第一样本提问语料对应的第三语义相似度超出过滤范围所限定的相似度范围内,则保留该第一样本提问语料。
[0116]
在一具体实施例中,可以该过滤范围可以基于设定的过滤阈值来限定,过滤范围为小于过滤阈值的范围,即若一第一样本提问语料对应的第三语义相似度小于该过滤阈值,则将该第一样本提问语料过滤掉。
[0117]
在本技术的一些实施例中,步骤510可以进一步包括:对于每一第一样本提问语料,将所述第一样本提问语料和所述目标提问语料输入语义匹配模型;由所述语义匹配模型输出所述第一样本提问语料和所述目标提问语料之间的第三语义相似度。
[0118]
在本实施例的方案中,通过语义匹配模型来计算第一样本提问语料与目标提问语料之间的第三相似度。该语义匹配模型可以分别构建该第一样本提问语料和目标提问语料的向量表示,进而根据所分别对应的向量输出该两个提问语料之间的第三相似度。语义匹配模型可以是基于神经网络,例如循环神经网络、卷积神经网络等,构建的模型。
[0119]
图6是根据一具体实施例示出的语义匹配模型的结构示意图,如图6所示,该语义匹配模型包括表示层610、交互层620、聚合层630和输出层640,其中,表示层610是基于bi

lstm(bi

directional long

short term memory,双向长短期记忆网络)构建的,其用于根据文本语料的词向量输出隐状态序列。
[0120]
为描述方便,将第一样本提问语料中各分词的词向量依次表示为:a1、a2、a3……
a
l
;将目标提问语料中各分词的词向量依次表示为:b1、b2、b3……
b
m

[0121]
经过表示层中的bi

lstm作用,分别输出第一样本提问语料中各个分词对应的隐状态向量和和目标提问语料中各分词的隐状态向量
[0122]
交互层620用于进行第一样本提问语料中各分词的隐状态向量和目标提问语料中各分词的隐状态向量进行两语料之间的信息交互,生成交互之后的向量。
[0123]
具体的,交互层620先将第一样本提问语料中分词对应的隐状态向量与目标提问语料中分词的隐状态向量相乘,得到乘积向量e
ij

[0124][0125]
然后交互层620基于乘积向量和softmax函数计算两语料中各分词对应的交互向量:
[0126][0127][0128]
在得到第一样本提问语料和目标提问语料中各分词对应的隐状态序列、交互向量
的基础上,通过将隐状态序列、交互向量进行差和积运算,并把各种向量进行整合,得到各个分词对应的整合序列:
[0129][0130][0131]
然后再通过交互层620中的激活层621来对所得到各分词的整合序列进行激活,其中激活层可以采用relu函数作为激活函数。具体的,激活后的整合序列可以表示为:
[0132][0133][0134]
聚合层630包括双向长短期记忆网络(bi

lstm)层和池化层631,其中,双向长短期记忆网络层用于综合全部分词的信息来进行全局分析,经聚合层中的bi

lstm处理后,第一样本提问语料中分词对应的序列表示为目标提问语料中分词对应的序列表示为
[0135]
聚合层630中的池化层631包括平均池化(average pooling)层和最大池化(max pooling)层,平均池化层用于对第一样本提问语料中分词对应的序列和目标提问语料中分词对应的序列进行平均池化操作,将平均池化操作所得到的向量表示为v
a,avg
和v
b,avg
;最大池化层用于对第一样本提问语料中分词对应的序列和目标提问语料中分词对应的序列进行最大池化操作,将最大池化操作所分别得到的向量表示v
a,max
和v
b,max
。再将平均池化操作和最大池化操作所得到的向量进行整合生成目标向量v:v=[v
a,avg
,v
a,max
,v
b,avg
,v
b,max
]。
[0136]
最后由输出层640根据目标向量v输出第一样本提问语料与目标提问语料之间的第三语义相似度y=g(v)。
[0137]
当然,图6仅仅是对语义匹配模型的结构的示例性举例,在其他实施例中,还可以通过其他语义匹配模型来输出第一样本提问语料与目标提问语料之间的第三语义相似度,例如语义匹配模型可以是bimpm(bilateral multi

perspective matching,双边多视角匹配)模型等。
[0138]
为保证语义匹配模型所输出结果的准确性,还需要对该语义匹配模型进行训练。具体的,可通过如下的过程对该语义匹配模型进行训练:获取训练数据,所述训练数据包括若干样本语料对和所述样本语料对的标签,所述标签用于指示所述样本语料对中的两个样本语料的语义是否相似;根据所述样本语料对和所述样本语料对的标签对所述语义匹配模型进行训练,直至所述语义匹配模型收敛。
[0139]
在本技术的一些实施例中,若样本语料对中两语料的语义相似,可以将该样本语料对的标签标记为“1”,若样本语料对中两语料的语义不相似,可以将该样本语料对的标签标记为“0”。
[0140]
在本技术的一些实施例中,为了保证训练后的语义匹配模型与其应用相匹配,样本语料对中的样本语料可以是收集的提问语料。
[0141]
在本技术的一些实施例中,若样本语料对中的样本语料是提问语料,可以将训练数据中的样本语料作为本技术方案中的样本提问语料,进而在步骤210中,基于目标提问语
料中的分词在该样本提问语料中检索,得到与分词相关联的第一样本提问语料。
[0142]
在训练语义匹配模型的过程中,将样本语料对输入至语义匹配模型中,由该语义匹配模型输出该样本语料对中两语料之间的语义相似度,若所输出的语义相似度与该样本语料对的标签不符,则调整语义匹配模型的参数,然后通过调整参数后的语义匹配模型再次输出该样本语料对中两语料之间的语义相似度,直至所输出的语义相似度与该样本语料对的标签相符;在继续用下一样本语料对对该语义匹配模型进行训练。在训练过程中,计算语义匹配模型的损失函数值,若所计算得到的损失函数值指示该语义匹配模型收敛,则结束该语义匹配模型的训练。
[0143]
在本技术的一实施例中,可以基于设定阈值来判断语义匹配模型针对样本语料对所输出的语义相似度与该样本语料对的标签是否相符。具体的,若语义相似度大于设定阈值,则视为该样本语料对中两语料相似,反之,则视为样本语料对中两语料不相似。
[0144]
举例来说,若一样本语料对的标签指示该样本语料对中两语料相似,语义匹配模型针对该样本语料对所输出的语义相似度大于设定阈值,则表明语义匹配模型针对样本语料对所输出的语义相似度与该样本语料对的标签相符;若语义匹配模型针对该样本语料对所输出的语义相似度不大于设定阈值,则表明语义匹配模型针对样本语料对所输出的语义相似度与该样本语料对的标签不相符。
[0145]
在本技术的一些实施例中,可以同时结合图4所示的过滤过程和图5所示的过滤过程对步骤210所得到的第一样本提问语料进行过滤。具体的,可以先按照图4所示的过程对步骤210所得到的第一样本提问语料进行初次过滤,然后再按照图5所示的过程对初次过滤后的第一样本提问语料再次进行过滤。
[0146]
在图4所示的实施例中,基于相关性分数和相关性权重来计算两第一样本提问语料之间的第二语义相似度,通过无监督的算法来进行第一样本提问语料进行过滤,过滤效率更高,先根据图4的过程进行粗过滤,然后结合图5所示的过程进行精过滤,从而不需要针对每一第一样本提问语料均进行图5所示的匹配过程,减少了匹配计算量。
[0147]
在本技术的一些实施例中,如图7所示,步骤230,包括:
[0148]
步骤710,获取提问语料对集合,所述提问语料对集合包括若干提问语料对,所述提问语料对是将所述第一样本提问语料和所述第二提问语料中的语料进行两两组合得到的。
[0149]
步骤720,将所述提问语料对输入所述语义匹配模型。
[0150]
步骤730,由所述语义匹配模型输出所述提问语料对中两语料之间的第一语义相似度。
[0151]
在本实施例的方案中,通过图5所示实施例中的语义匹配来计算提问语料对的第一语义相似度。该语义匹配模型的结构图可以如图6所示。具体第一语义相似度的计算过程参照图5和图6对应实施例的描述,在此不再赘述。
[0152]
在本技术的一些实施例中,如图8所示,步骤240包括:
[0153]
步骤810,获取每一所述第二候选问答对中提问语料所对应的第一语义相似度和所对应的第三语义相似度。
[0154]
步骤820,将所述第二候选问答对中提问语料所对应的第一语义相似度和所对应的第三语义相似度进行加权,得到所述第二候选问答对的目标分数。
[0155]
步骤830,过滤所对应目标分数不满足预设分数范围的第二候选问答对,得到所述目标问答对。
[0156]
其中,第一语义相似度和第二语义相似度所对应的加权权重是可以根据实际需要进行设定,在此不进行具体限定。
[0157]
在本实施例的方案中,结合第二候选问答对中提问语料所对对应的第一语义相似度和第三语义相似度来综合计算目标分数,进而按照目标分数来进行第二候选问答对的过滤,实现了综合第一语义相似度和第三语义相似度来对第二候选问答对进行过滤。
[0158]
以下介绍本技术的装置实施例,可以用于执行本技术上述实施例中的方法。对于本技术装置实施例中未披露的细节,请参照本技术上述方法实施例。
[0159]
图9是根据一实施例示出的问答对挖掘装置的框图,如图9所示,该问答对挖掘装置包括:
[0160]
第一样本提问语料获取模块910,用于根据目标提问语料中的分词进行检索,获得与所述目标提问语料中各分词相关联的第一样本提问语料;
[0161]
第一候选问答对获取模块920,用于根据第一样本提问语料在搜索引擎中进行检索,获得所述第一样本提问语料对应的第一候选问答对,所述第一候选问答对包括第二提问语料和第二回答语料;
[0162]
第一语义相似度计算模块930,用于计算所述第一样本提问语料和所述第二提问语料中任意两语料之间的第一语义相似度;
[0163]
过滤模块940,用于根据所述第一语义相似度对第二候选问答对进行过滤,得到目标问答对,所述第二候选问答对包括所述第一样本提问语料与所对应第一候选问答对中的第二回答语料所组成的问答对和所述第一候选问答对;所述目标问答对用于对问答模型进行训练,所述问答模型用于根据输入的提问语料输出回答语料。
[0164]
在本技术的一些实施例中,第一样本提问语料获取模块910,包括:分词单元,用于对所述目标提问语料进行分词,得到所述目标提问语料中的多个分词;倒排索引获取单元,用于获取与所述目标提问语料中各分词相关联的倒排索引,所述倒排索引指示了所述分词与样本提问语料之间的索引关系;第一样本提问语料获取单元,用于根据所述倒排索引获取与各个所述分词相关联的第一样本提问语料。
[0165]
在本技术的一些实施例中,问答对挖掘装置还包括:第二语义相似度计算模块,用于计算任意两个第一样本提问语料之间的第二语义相似度;第二过滤模块,用于根据所述第二语义相似度对所述第一样本提问语料进行过滤。
[0166]
在本技术的一些实施例中,第二语义相似度计算模块,包括:确定单元,用于以需进行第二语义相似度计算的两个第一样本提问语料中的一个语料作为标准提问语料,另一个语料作为对照提问语料;第二分词单元,用于对所述对照提问语料进行分词,得到所述对照提问语料中的多个分词;相关性分数计算单元,用于计算所述对照提问语料中的每个分词与所述标准提问语料之间的相关性分数;相关性权重计算单元,用于计算所述对照提问语料中的每个分词对应的相关性权重;第一加权单元,用于根据所述对照提问语料中各分词对应的相关性权重,对所述对照提问语料中的全部分词与所述标准提问语料与之间的相关性分数进行加权,得到所述对照提问语料与所述标准提问语料之间的第二语义相似度。
[0167]
在本技术的一些实施例中,问答对挖掘装置还包括:第三语义相似度计算模块,用
于计算每一第一样本提问语料与所述目标提问语料之间的第三语义相似度;第三过滤模块,用于根据所述第三语义相似度对所述第一样本提问语料进行过滤。
[0168]
在本技术的一些实施例中,第三语义相似度计算模块,包括:第一输入单元,用于对于每一第一样本提问语料,将所述第一样本提问语料和所述目标提问语料输入语义匹配模型;第二输出单元,用于由所述语义匹配模型输出所述第一样本提问语料和所述目标提问语料之间的第三语义相似度。
[0169]
在本技术的一些实施例中,问答对挖掘装置还包括:训练数据获取模块,用于获取训练数据,所述训练数据包括若干样本语料对和所述样本语料对的标签,所述标签用于指示所述样本语料对中的两个样本语料的语义是否相似;训练模块,用于根据所述样本语料对和所述样本语料对的标签对所述语义匹配模型进行训练,直至所述语义匹配模型收敛。
[0170]
在本技术的一些实施例中,第一语义相似度计算模块930,包括:提问语料对集合获取单元,用于获取提问语料对集合,所述提问语料对集合包括若干提问语料对,所述提问语料对是将所述第一样本提问语料和所述第二提问语料中的语料进行两两组合得到的;第二输入单元,用于将所述提问语料对输入所述语义匹配模型;第二输出单元,用于由所述语义匹配模型输出所述提问语料对中两语料之间的第一语义相似度。
[0171]
在本技术的一些实施例中,过滤模块940,包括:第二获取单元,用于获取每一所述第二候选问答对中提问语料所对应的第一语义相似度和所对应的第三语义相似度;第二加权单元,用于将所述第二候选问答对中提问语料所对应的第一语义相似度和所对应的第三语义相似度进行加权,得到所述第二候选问答对的目标分数;第四过滤单元,用于过滤所对应目标分数不满足预设分数范围的第二候选问答对,得到所述目标问答对。
[0172]
图10示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
[0173]
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0174]
如图10所示,计算机系统1000包括中央处理单元(central processing unit,cpu)1001,其可以根据存储在只读存储器(read

only memory,rom)1002中的程序或者从存储部分1008加载到随机访问存储器(random access memory,ram)1003中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在ram 1003中,还存储有系统操作所需的各种程序和数据。cpu1001、rom1002以及ram 1003通过总线1004彼此相连。输入/输出(input/output,i/o)接口1005也连接至总线1004。
[0175]
以下部件连接至i/o接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0176]
特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实
施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时,执行本技术的系统中限定的各种功能。
[0177]
需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read

only memory,cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0178]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0179]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0180]
作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
[0181]
根据本技术的一个方面,还提供了一种电子设备,其包括:处理器;存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时,实现上述任一实施例中的方法。
[0182]
根据本技术实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机
程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的方法。
[0183]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0184]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
[0185]
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0186]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜