一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

智能问答处理方法、装置、计算机设备和存储介质与流程

2022-02-22 09:10:15 来源:中国专利 TAG:


1.本发明涉及人工智能领域,特别是涉及智能问答处理方法、装置、计算机设备和存储介质。


背景技术:

2.智能问答系统是一种结合了人工智能技术的高级信息检索系统,它能自动用准确、简洁的自然语言回答用户所提出的自然语言问题,以此满足人们快速准确地获取信息的需求。随着人工智能技术、互联网技术以及自然语言处理技术的不断发展,智能问答系统越来越多地应用在互联网搜索领域,用于解决用户在医疗、交通等各个领域的信息搜索需求。例如,现在智能问答系统应用最多的领域之一是医疗领域,用户经常会向智能问答系统输入关于某种药物例如某种疫苗等的信息的问题。
3.现有技术的智能问答系统,对于初始输入问句的处理准确度不够高,导致出现对初始输入问句理解错误,不能提供准确答案的情况。


技术实现要素:

4.基于此,有必要针对现有技术的智能问答系统对于初始输入问句的处理准确度不够高,导致出现对初始输入问句理解错误,不能提供准确答案的问题,提供一种智能问答处理方法、装置、计算机设备和存储介质。
5.一种智能问答处理方法,包括:
6.获取初始输入问句;
7.判断预先构建的知识数据库中是否存在与所述初始输入问句相匹配的多个相似问句,若存在,则从所述知识数据库中提取出所述多个相似问句;
8.处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度;
9.基于所述相似度从所述多个相似问句中确定需要检索的目标问句,并检索得到所述目标问句的答案;
10.将所述目标问句的答案作为对应于所述初始输入问句的答案输出。
11.在其中一个实施例中,所述从所述知识数据库中提取出所述多个相似问句,包括:
12.获取所述初始输入问句的特征;
13.从所述知识数据库中筛选出与所述特征的相似度大于预设相似度阈值的样本特征,得到多个目标特征;
14.获取所述目标特征对应的目标问句,得到与所述初始输入问句匹配成功的多个相似问句。
15.在其中一个实施例中,所述初始输入问句的特征为关键词;所述获取所述初始输入问句的特征,包括:
16.对所述初始输入问句进行分词,得到多个单独的词组;
17.利用所述多个单独的词组构建词组集;
18.根据网络使用频率获取所述词组集中的各所述词组的权重值;
19.根据各所述词组的权重值从所述词组集中提取权重值大于预设阈值的词组作为关键词。
20.在其中一个实施例中,所述处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度,包括:
21.确定处理模块的内核数量,根据所述内核数量创建多个进程;
22.通过所述多个进程对所述多个相似问句进行并行处理,得到每个所述相似问句与所述初始输入问句之间的相似度。
23.在其中一个实施例中,所述处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度,包括:
24.根据预设分词规则对所述相似问句和所述初始输入问句进行分词处理,得到第一分词向量和第二分词向量;所述第一分词向量为所述相似问句的分词向量,所述第二分词向量为所述初始输入问句的分词向量;
25.根据分词权重计算规则,计算得到所述第一分词向量中各分词的权重以及所述第二分词向量中各分词的权重;
26.根据所述第一分词向量中各分词的权重和所述第二分词向量中各分词的权重,分别计算得到第一向量模和第二向量模;其中,所述第一向量模为所述第一分词向量的模,所述第二向量模为所述第二分词向量的模;
27.获取所述第一分词向量和所述第二分词向量中相同的目标分词,并根据所述目标分词的权重,计算所述第一分词向量和所述第二分词向量的目标分词内积;
28.根据所述第一向量模、所述第二向量模和所述目标分词内积,计算得到所述相似问句和所述初始输入问句的相似度。
29.在其中一个实施例中,所述根据所述第一向量模、所述第二向量模和所述目标分词内积,计算得到所述相似问句和所述初始输入问句的相似度,包括:
30.计算第一积,所述第一积为所述第一向量模与所述第二向量模之积;
31.计算所述目标分词内积与所述第一积的商,所述商即为所述相似问句与所述初始输入问句的相似度。
32.在其中一个实施例中,所述基于所述相似度从所述多个相似问句中确定需要检索的目标问句,包括:
33.比较每一所述相似问句与所述初始输入问句的相似度,得到比较结果;
34.根据所述比较结果确定出与所述初始输入问句相似度最大的相似问句,作为需要检索的目标问句。
35.一种智能问答处理装置,包括:
36.获取模块,用于获取初始输入问句;
37.提取模块,用于判断预先构建的知识数据库中是否存在与所述初始输入问句相匹配的多个相似问句,若存在,则从所述知识数据库中提取出所述多个相似问句;
38.计算模块,用于处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度;
39.检索模块,用于基于所述相似度从所述多个相似问句中确定需要检索的目标问句,并检索得到所述目标问句的答案;
40.输出模块,用于将所述目标问句的答案作为对应于所述初始输入问句的答案输出。
41.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述智能问答处理方法的步骤。
42.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述智能问答处理方法的步骤。
43.上述智能问答处理方法、装置、计算机设备和存储介质,从预先构建的知识数据库中提取出与初始输入问句相匹配的多个相似问句,根据每个所述相似问句与所述初始输入问句之间的相似度确定需要检索的目标问句,并检索得到目标问句的答案,将目标问句的答案作为对应于初始输入问句的答案输出,对于初始输入问句的处理准确度高,处理速度快,对初始输入问句理解准确度高,能够提供准确答案,且能够较快地回答用户输入的问题,工作效率高。
附图说明
44.图1为一个实施例中提供的智能问答处理方法的实施环境图;
45.图2为一个实施例中计算机设备的内部结构框图;
46.图3为一个实施例中提供的智能问答处理方法的流程图;
47.图4为图3中步骤s20的一个实施方式的流程图;
48.图5为图3中步骤s30的一个实施方式的流程图;
49.图6为图3中步骤s30的另一实施方式的流程图;
50.图7为一个实施例中提供的智能问答处理装置的结构框图。
具体实施方式
51.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
52.可以理解,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。还应理解的是,虽然术语“第一”、“第二”、“第三”等在文本中在一些本技术实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语仅用于区分各种元素。
53.图1为一个实施例中提供的智能问答处理方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及终端120。终端120为用户所使用的终端设备。用户向终端120输入问题信息,终端120将用户输入的问题信息发送给计算机设备110,计算机设备110接收来自终端120的问题信息,然后计算机设备110执行智能问答处理方法。需要说明的是,终端120以及计算机设备 110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端110可以通过蓝牙、usb(universal serial bus,通
用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
54.图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种智能问答处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种智能问答处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
55.如图3所示,在一个实施例中,提出了一种智能问答处理方法,该智能问答处理方法,具体可以包括以下步骤:
56.s10、获取来自用户终端的初始输入问句。
57.问句是使用自然语言表达的问题内容,该问句可以是由文字、数字、字母和/或标点符号组成的一条文本语句。用户终端可以为个人计算机、平板电脑、笔记本电脑或智能手机等电子设备。用户通过用户终端输入初始输入问句。
58.例如,问句可以为“感冒发烧可以接种疫苗吗?”等。该问句还可以包括字母、数字和标点符号等,例如,问句可以为“这款疫苗总共需要接种1 针、2针还是3针?”等。
59.初始输入问句为来自用户终端的当前需要检索的问句,例如,初始输入问句可以为用户当前输入的问句。用户可以通过语音输入的方式或者文本输入的方式在用户终端的输入界面输入初始输入问句。当用户输入文本信息时,终端根据文本信息获得初始输入问句。当用户输入语音信息时,终端通过语音识别应用程序获取到初始输入问句。
60.s20、判断预先构建的知识数据库中是否存在与所述初始输入问句相匹配的多个相似问句;若存在,则从所述知识数据库中提取出所述多个相似问句;若不存在,则发出提醒信息。
61.首先判断预先构建的知识数据库中与所述初始输入问句相匹配的相似问句的数量,若存在至少两个相似问句,则将其提取出来;若与该初始输入问句相匹配的相似问句的数量不到两个,例如只有一个或一个也没有,则发出提醒信息,该提醒信息可以为显示出来的文字信息,例如显示文字信息“知识数据库中相似问句数量不足,请完善数据库”等等。
62.知识数据库也称为人工智能数据库,是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一领域问题求解的需要,采用至少一种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,例如某领域内有关的定义、定理和运算法则以及常识性知识等。
63.知识数据库也可以简称知识库,其中,本实施例的知识数据库可以包括多个范例问句和多个范例答案,一个范例问句可以对应一个范例答案,也可以对应多个范例答案。其中,范例问句可以为预先设定的问句,范例答案则可以为与范例问句相对应的答案。例如,知识数据库中可以包括范例问句a、范例问句b、范例问句c以及范例问句d,范例答案a、范例
答案b、范例答案c以及范例答案d,其中,范例问句a对应范例答案a,范例问句b对应范例答案 b,范例问句c对应范例答案c,范例问句d对应范例答案d。其中,相似问句可以为与初始输入问句相似的问句。
64.为了从知识数据库中检索出与初始输入问句匹配度最高的答案,可以先从知识数据库的多个范例问句中匹配出与初始输入问句相似的相似问句。具体地,可以通过将初始输入问句与知识数据库中的范例问句进行匹配,根据匹配成功的范例问句可以从知识数据库中确定该初始输入问句的相似问句。从知识数据库中查找出与初始输入问句相似的相似问句,以确保相似问句与初始输入问句之间的相似性。
65.在某些实施方式中,步骤从所述知识数据库中提取出所述多个相似问句可以包括:
66.s201、获取初始输入问句的特征;
67.s202、从知识数据库中筛选出与上述特征的相似度大于预设相似度阈值的样本特征,得到多个目标特征;
68.s203、获取目标特征对应的目标问句,得到与初始输入问句匹配成功的多个相似问句。
69.其中,特征为表征问句特点的信息,表征问句特点的信息例如可以包括关键词、语义或词性等。
70.通过不同的特征提取方式能够获得不同的特征。例如,可以对初始输入问句进行关键词提取预处理,得到初始输入问句的特征为关键词;或者可以对初始输入问句进行语义分析预处理,得到初始输入问句的特征为语义;或者可以对初始输入问句进行词性判断预处理,得到初始输入问句的特征为词性;等等。
71.可以通过上述任一种特征提取方式对初始输入问句进行特征提取,从而得到在该特征提取方式下初始输入问句的特征。在本技术实施例中,优选对初始输入问句进行关键词提取预处理的特征提取方式。
72.具体地,在某些实施方式中,对初始输入问句进行关键词提取预处理,包括以下步骤:
73.1)对初始输入问句进行分词,得到多个单独的词组,利用前述多个单独的词组构建词组集。
74.例如,词组集w={w1、w2、

、wi、

wn},其中,wi代表w中的一个词组,i代表词组的编号,n代表词组的个数。
75.2)根据网络使用频率获取词组集中的各个词组的权重值。
76.各词组的网络使用频率可以是根据预先统计的历史经验数据获得的。网络使用频率越高的词组的权重值越大,网络使用频率越低的词组的权重值越小。
77.3)根据各个词组的权重值从词组集中提取权重值大于预设阈值的词组作为关键词。
78.通过自然语言处理技术中的语句预处理来提取初始输入问句的特征可以包括:采集初始输入问句中的多个单词,统计每个单词在该初始输入问句中出现的次数,计算得到每个单词的出现频率,基于初始输入问句中每个单词的出现频率,可以得到初始输入问句所对应的特征。
79.在本技术实施例中,可以通过自然语言处理技术中的语句预处理方式来提取初始输入问句的特征,从而从知识数据库中查询出与初始输入问句相似的相似问句,可以缩小检索范围,进而提高查询效率。
80.其中,知识数据库中可以包括多个样本特征以及每个样本特征对应的范例问句,也即知识数据库包括多个样本特征和多个范例问句,以及样本特征与范例问句之间的关联关系。其中,范例问句可以为智能问答系统中预先设定的问句,在不同应用场景的智能问题系统中,范例问句可能存在不同。例如,在医疗领域智能问答系统中,范例问句可以为预测用户对疫苗可能进行检索为问句。获取每一范例问句的特征,例如,特征可以为关键词,则可以提取范例问句对应的关键词信息,建立每一范例问句与该范例问句的关键词信息之间的关联关系,将所有范例问句以及范例问句的特征进行存储,可以得到知识数据库。
81.在某些实施方式中,为了提升匹配效率,在确定初始输入问句的特征,可以将知识数据库中的样本特征与初始输入问句的特征进行相似度比对,得到每个样本特征与初始输入问句的特征的相似度,然后筛选出与初始输入问句的特征的相似度大于预设阈值的样本特征。基于样本特征与范例问句的关联关系,从数据库中找到大于预设阈值的样本特征对应的问句,即得到初始输入问句的相似问句,其中,在知识数据库中,至少可以包括两个与初始输入问句相似的相似问句。
82.通过将初始输入问句的特征与知识数据库中的样本特征进行匹配,可以快速查找出与初始输入问句相似的相似问句,提高问句的匹配效率。
83.知识数据库是预先构建的。在某些实施方式中,知识数据库的构建方法,包括以下步骤:
84.(1)、从互联网上爬取文本语料,基于预设属性表述格式判断所爬取的文本语料中是否包含预设属性信息。
85.命名实体识别(named entity recognition)又称作“专名识别”,是指识别文本中具有特定意义的实体,实体例如可以为人名、地名、机构名、专有名词或专业术语等。实体可以为本领域的专业术语或专有名词等。预设实体集合是预先设定的本行业领域内的实体的集合。
86.预设属性表述格式可以包括用于确定文本语料中包含预设属性信息的词汇、句式或二者的结合,预设属性信息可以包括预设实体集合中的实体的属性信息。预设属性表述格式也可以称为预设属性描述模式。
87.在医疗行业领域,预设实体集合中的实体可以包括药品、疾病等,药品的属性信息可以为药品名称、组分及含量、禁忌对象等,疾病的属性信息可以为疾病名称、禁忌药物等。
88.例如,以该实施例中的实体为疫苗,构建有关疫苗的知识数据库为例,则预设属性表述格式是描述疫苗名称、组分及含量、禁忌对象等。禁忌对象例如可以包括不能打该疫苗的人群,例如患有某种疾病的人群等。
89.在某些实施方式中,服务器可以使用爬虫软件爬取网页中的文本语料,并根据上述预设属性表述格式判断文本语料中是否包含疫苗的禁忌对象。
90.(2)、在确定文本语料中包含预设属性信息时,提取预设属性信息,利用预设属性信息以及对应于该预设属性信息的实体组合构成知识数据库。
91.预设属性信息可以包括预设实体集合中的实体的属性信息。在某些实施方式中,
当确定文本语料中包含疫苗的禁忌对象时,可以提取禁忌对象,并将疫苗的禁忌对象写入数据库中。
92.本实施例知识数据库的构建方法能够自动完成知识数据库的构建,实现过程中不需要通过人工操作的方式进行知识挖掘,节省了人力且提高了知识数据库的构建效率。
93.s30、处理上述多个相似问句,得到每个相似问句与初始输入问句之间的相似度。
94.在某些实施方式中,步骤s30包括以下步骤:
95.s301、确定处理模块的内核数量,根据内核数量创建多个进程。
96.其中,处理模块可以为具有计算处理功能的模块,例如,处理模块可以为中央处理器(cpu)或者一般处理器。其中,内核也称为处理内核,内核数量指的是中央处理器或者一般处理器的内核的个数,内核数量为至少一个。
97.其中,进程(process)也称为处理进程,表示的是程序的运行,具体地,进程可以用来对程序中的任务进行处理。进程是正在运行的程序的实例,广义上来讲是一个具有一定独立功能的程序关于某个数据集合的一次运行活动。它是操作系统动态执行的基本单元,在传统的操作系统中,进程既是基本的分配单元,也是基本的执行单元。
98.在某些实施方式中,在确定处理模块的内核数量后,可以根据内核数量确定进程数量,进程数量可以小于或者等于内核数量。例如,处理模块的内核数量可以为8,那么进程数量可以为8,则可以创建8个进程,在相关技术中,在智能问答系统中仅通过一个处理模块的内核(core)上创建的进程对智能问答任务进行处理,而在本技术实施例中,通过在处理模块的不同内核上分别创建进程,可以通过多个处理模块内核上的进程对智能问答的多个任务并行进行处理,可以提高处理模块中每个内核的资源利用率,同时可以提高智能问答的任务处理效率。
99.在对相似问句进行相似度计算时,如果仅利用处理模块的一个内核进行处理,则当计算量较大时,通过一个内核进行处理会导致该内核出现计算负载超负荷,影响计算处理的效率,同时,其他内核处于空闲状态,导致处理模块中的内核资源的浪费。因此,本技术实施例提出创建多个进程,将每个进程与处理模块的内核进行绑定,可以通过多个进程并行处理计算任务,以实现处理模块的多个内核资源的共同使用,确保处理模块的内核资源的高效利用率,从而提高计算处理的效率。
100.s302、通过多个进程对多个相似问句进行并行处理,得到每个相似问句与初始输入问句之间的相似度。
101.在某些实施方式中,通过多个进程并行地对多个相似问句进行处理,可以包括:
102.为每个相似问句创建相应的计算任务,得到多个计算任务;
103.确定进程数目和计算任务数目;
104.若进程数目大于或等于计算任务数目,则将计算任务数目的计算任务分别分配至不同的进程进行并行相似度计算。
105.其中,计算任务可以是计算相似问句与初始输入问句的相似度,则每个相似问句对应的计算任务可以是计算该相似问句与初始输入问句的相似度。通过计算初始输入问句与每一相似问句的相似度,可以从多个相似问句中确定与初始输入问句最相似的问句,以便于后续检索出与初始输入问句最匹配的答案,提高问题检索的准确性。
106.例如,初始输入问句可以为:“哪些情况不能接种疫苗?”,相似问句可以为:“感冒
发烧可以接种疫苗吗?”,“怀孕期间可以接种疫苗吗?”,“糖尿病患者可以接种疫苗吗?”等,则基于初始输入问句与相似问句可以得到计算任务:计算“哪些情况不能接种疫苗?”与“感冒发烧可以接种疫苗吗?”的相似度,计算“哪些情况不能接种疫苗?”与“怀孕期间可以接种疫苗吗?”的相似度,计算“哪些情况不能接种疫苗?”与“糖尿病患者可以接种疫苗吗?”的相似度。
107.在某些实施方式中,当进程数目大于或者等于计算任务数目时,也即进程的个数大于或者等于计算任务的个数,则可以将计算任务数目的计算任务分别分配至不同的进程进行并行相似度计算。
108.通过处理模块的多个内核创建多个进程,将多个计算任务分别分配至多个进程并行处理,加快任务处理速度,从而提高问题检索效率,提高了智能问答的效率。
109.在某些实施方式中,计算相似问句与初始输入问句之间的相似度,包括以下步骤:
110.s30-1、根据预设分词规则对相似问句和初始输入问句进行分词处理,得到第一分词向量和第二分词向量;第一分词向量为相似问句的分词向量,第二分词向量为初始输入问句的分词向量。
111.其中,预设分词规则为预先设定的对语句进行分词的规则,例如可以根据数据库中的词进行分词。分词处理指的是将一个语句划分为多个词的处理操作。通过对相似问句和初始输入问句进行分词处理,能够减小计算量,提高计算速度。
112.s30-2、根据分词权重计算规则,计算得到第一分词向量中各分词的权重以及第二分词向量中各分词的权重。分词权重计算规则可以为预先设定的计算分词权重的规则,可以采用现有技术中的计算规则,在此不再赘述。
113.具体地,步骤s30-2包括以下步骤:
114.将第一分词向量中各分词的权重设置为相等;根据第一预设值、第二预设值、第三预设值和当前分词在第一分词向量中出现的次数以及当前分词在第二分词向量中出现的次数,计算当前分词在第二分词向量中的权重。
115.s30-3、根据第一分词向量中各分词的权重和第二分词向量中各分词的权重,分别计算得到第一向量模和第二向量模;其中,第一向量模为第一分词向量的模,第二向量模为第二分词向量的模。
116.s30-4、获取第一分词向量和第二分词向量中相同的目标分词,并根据目标分词的权重,计算第一分词向量和第二分词向量的目标分词内积;
117.s30-5、根据第一向量模、第二向量模和目标分词内积,计算得到相似问句和初始输入问句的相似度。
118.具体地,相似度的计算公式为:相似度=目标分词内积/(第一向量模
×
第二向量模)。即,首先计算第一积,该第一积为第一向量模与第二向量模之积,然后计算目标分词内积与前述第一积的商,该商即为相似问句与初始输入问句的相似度。
119.通过分别对相似问句和初始输入问句进行分词处理,并计算每个分词的权重,根据权重计算得到相似问句和初始输入问句的相似度,准确率高,计算速度快。
120.s40、基于相似度从多个相似问句中确定需要检索的目标问句,以及检索得到目标问句的答案。其中,相似度可以包括每一相似问句与初始输入问句的相似度。
121.在某些实施方式中,步骤基于相似度从多个相似问句中确定需要检索的目标问
句,可以包括:比较每一相似问句与初始输入问句的相似度,得到比较结果;根据所述比较结果确定出与所述初始输入问句相似度最大的相似问句,作为需要检索的目标问句。
122.在知识数据库中,包括有多个范例问句与多个答案,不同的范例问句可以对应不同的答案。当接收到初始输入问句后,可以从多个范例问句与初始输入问句进行匹配,通过计算初始输入问句与范例问句之间的相似度,确定知识数据库中与初始输入问句最相似的目标问句,然后在知识数据库中确定该目标问句对应的答案,得到初始输入问句的答案,可以从知识数据库中检索出与初始输入问句最匹配的答案,提高智能问答的准确性。其中,目标问句可以为最终需要进行检索的问句。具体地,从初始输入问句对应的多个相似问句中,提取与初始输入问句相似度最大的相似问句,作为初始输入问句对应的目标问句。
123.s50、将上述目标问句的答案作为对应于初始输入问句的答案输出。
124.将上述目标问句的答案作为初始输入问句的答案,输出该初始输入问句的答案。例如,可以将该答案发送到用户终端,以问答形式显示在用户终端的应用界面上,以使用户得到初始输入问句的答案。
125.本技术实施例提供的一种智能问答处理方法,从预先构建的知识数据库中提取出与初始输入问句相匹配的多个相似问句,根据每个所述相似问句与所述初始输入问句之间的相似度确定需要检索的目标问句,并检索得到目标问句的答案,将目标问句的答案作为对应于初始输入问句的答案输出,对于初始输入问句的处理准确度高,处理速度快,对初始输入问句理解准确度高,能够提供准确答案,且能够较快地回答用户输入的问题,工作效率高。
126.在一个实施例中,提出了一种智能问答处理装置,包括:
127.获取模块,用于获取初始输入问句;
128.提取模块,用于判断预先构建的知识数据库中是否存在与所述初始输入问句相匹配的多个相似问句,若存在,则从所述知识数据库中提取出所述多个相似问句;
129.计算模块,用于处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度;
130.检索模块,用于基于所述相似度从所述多个相似问句中确定需要检索的目标问句,并检索得到所述目标问句的答案;
131.输出模块,用于将所述目标问句的答案作为对应于所述初始输入问句的答案输出。
132.在某些实施方式中,上述的提取模块包括:
133.第一获取单元,用于获取所述初始输入问句的特征;
134.筛选单元,用于从所述知识数据库中筛选出与所述特征的相似度大于预设相似度阈值的样本特征,得到多个目标特征;
135.第二获取单元,用于获取所述目标特征对应的目标问句,得到与所述初始输入问句匹配成功的多个相似问句。
136.在某些实施方式中,所述初始输入问句的特征为关键词;前述的第一获取单元包括:
137.分词子单元,用于对所述初始输入问句进行分词,得到多个单独的词组;
138.构建子单元,用于利用所述多个单独的词组构建词组集;
139.计算子单元,用于根据网络使用频率获取所述词组集中的各所述词组的权重值;
140.提取子单元,用于根据各所述词组的权重值从所述词组集中提取权重值大于预设阈值的词组作为关键词。
141.在某些实施方式中,前述的计算模块包括:
142.创建子单元,用于确定处理模块的内核数量,根据所述内核数量创建多个进程;
143.并行处理子单元,用于通过所述多个进程对所述多个相似问句进行并行处理,得到每个所述相似问句与所述初始输入问句之间的相似度。
144.在某些实施方式中,前述的计算模块包括:
145.分词处理单元,用于根据预设分词规则对所述相似问句和所述初始输入问句进行分词处理,得到第一分词向量和第二分词向量;所述第一分词向量为所述相似问句的分词向量,所述第二分词向量为所述初始输入问句的分词向量;
146.权重计算单元,用于根据分词权重计算规则,计算得到所述第一分词向量中各分词的权重以及所述第二分词向量中各分词的权重;
147.向量模计算单元,用于根据所述第一分词向量中各分词的权重和所述第二分词向量中各分词的权重,分别计算得到第一向量模和第二向量模;其中,所述第一向量模为所述第一分词向量的模,所述第二向量模为所述第二分词向量的模;
148.目标分词内积计算单元,用于获取所述第一分词向量和所述第二分词向量中相同的目标分词,并根据所述目标分词的权重,计算所述第一分词向量和所述第二分词向量的目标分词内积;
149.相似度计算单元,用于根据所述第一向量模、所述第二向量模和所述目标分词内积,计算得到所述相似问句和所述初始输入问句的相似度。
150.在某些实施方式中,相似度计算单元,包括:
151.第一子单元,用于计算第一积,所述第一积为所述第一向量模与所述第二向量模之积;
152.第二子单元,用于计算所述目标分词内积与所述第一积的商,所述商即为所述相似问句与所述初始输入问句的相似度。
153.在某些实施方式中,所述检索模块所实现的基于所述相似度从所述多个相似问句中确定需要检索的目标问句,包括:
154.比较每一所述相似问句与所述初始输入问句的相似度,得到比较结果;
155.根据所述比较结果确定出与所述初始输入问句相似度最大的相似问句,作为需要检索的目标问句。
156.在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
157.获取初始输入问句;
158.判断预先构建的知识数据库中是否存在与所述初始输入问句相匹配的多个相似问句,若存在,则从所述知识数据库中提取出所述多个相似问句;
159.处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度;
160.基于所述相似度从所述多个相似问句中确定需要检索的目标问句,并检索得到所述目标问句的答案;
161.将所述目标问句的答案作为对应于所述初始输入问句的答案输出。
162.在一个实施例中,所述处理器所执行的从所述知识数据库中提取出所述多个相似问句,包括:
163.获取所述初始输入问句的特征;
164.从所述知识数据库中筛选出与所述特征的相似度大于预设相似度阈值的样本特征,得到多个目标特征;
165.获取所述目标特征对应的目标问句,得到与所述初始输入问句匹配成功的多个相似问句。
166.在一个实施例中,初始输入问句的特征为关键词;所述处理器所执行的获取所述初始输入问句的特征,包括:
167.对所述初始输入问句进行分词,得到多个单独的词组;
168.利用所述多个单独的词组构建词组集;
169.根据网络使用频率获取所述词组集中的各所述词组的权重值;
170.根据各所述词组的权重值从所述词组集中提取权重值大于预设阈值的词组作为关键词。
171.在一个实施例中,所述处理器所执行的处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度,包括:
172.确定处理模块的内核数量,根据所述内核数量创建多个进程;
173.通过所述多个进程对所述多个相似问句进行并行处理,得到每个所述相似问句与所述初始输入问句之间的相似度。
174.在一个实施例中,所述处理器所执行的处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度,包括:
175.根据预设分词规则对所述相似问句和所述初始输入问句进行分词处理,得到第一分词向量和第二分词向量;所述第一分词向量为所述相似问句的分词向量,所述第二分词向量为所述初始输入问句的分词向量;
176.根据分词权重计算规则,计算得到所述第一分词向量中各分词的权重以及所述第二分词向量中各分词的权重;
177.根据所述第一分词向量中各分词的权重和所述第二分词向量中各分词的权重,分别计算得到第一向量模和第二向量模;其中,所述第一向量模为所述第一分词向量的模,所述第二向量模为所述第二分词向量的模;
178.获取所述第一分词向量和所述第二分词向量中相同的目标分词,并根据所述目标分词的权重,计算所述第一分词向量和所述第二分词向量的目标分词内积;
179.根据所述第一向量模、所述第二向量模和所述目标分词内积,计算得到所述相似问句和所述初始输入问句的相似度。
180.在一个实施例中,所述处理器所执行的根据所述第一向量模、所述第二向量模和所述目标分词内积,计算得到所述相似问句和所述初始输入问句的相似度,包括:
181.计算第一积,所述第一积为所述第一向量模与所述第二向量模之积;
182.计算所述目标分词内积与所述第一积的商,所述商即为所述相似问句与所述初始输入问句的相似度。
183.在一个实施例中,所述处理器所执行的基于所述相似度从所述多个相似问句中确定需要检索的目标问句,包括:
184.比较每一所述相似问句与所述初始输入问句的相似度,得到比较结果;
185.根据所述比较结果确定出与所述初始输入问句相似度最大的相似问句,作为需要检索的目标问句。
186.在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
187.获取初始输入问句;
188.判断预先构建的知识数据库中是否存在与所述初始输入问句相匹配的多个相似问句,若存在,则从所述知识数据库中提取出所述多个相似问句;
189.处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度;
190.基于所述相似度从所述多个相似问句中确定需要检索的目标问句,并检索得到所述目标问句的答案;
191.将所述目标问句的答案作为对应于所述初始输入问句的答案输出。
192.在一个实施例中,所述处理器所执行的从从所述知识数据库中提取出所述多个相似问句,包括:
193.获取所述初始输入问句的特征;
194.从所述知识数据库中筛选出与所述特征的相似度大于预设相似度阈值的样本特征,得到多个目标特征;
195.获取所述目标特征对应的目标问句,得到与所述初始输入问句匹配成功的多个相似问句。
196.在一个实施例中,初始输入问句的特征为关键词;所述处理器所执行的获取所述初始输入问句的特征,包括:
197.对所述初始输入问句进行分词,得到多个单独的词组;
198.利用所述多个单独的词组构建词组集;
199.根据网络使用频率获取所述词组集中的各所述词组的权重值;
200.根据各所述词组的权重值从所述词组集中提取权重值大于预设阈值的词组作为关键词。
201.在一个实施例中,所述处理器所执行的处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度,包括:
202.确定处理模块的内核数量,根据所述内核数量创建多个进程;
203.通过所述多个进程对所述多个相似问句进行并行处理,得到每个所述相似问句与所述初始输入问句之间的相似度。
204.在一个实施例中,所述处理器所执行的处理所述多个相似问句,得到每个所述相似问句与所述初始输入问句之间的相似度,包括:
205.根据预设分词规则对所述相似问句和所述初始输入问句进行分词处理,得到第一
分词向量和第二分词向量;所述第一分词向量为所述相似问句的分词向量,所述第二分词向量为所述初始输入问句的分词向量;
206.根据分词权重计算规则,计算得到所述第一分词向量中各分词的权重以及所述第二分词向量中各分词的权重;
207.根据所述第一分词向量中各分词的权重和所述第二分词向量中各分词的权重,分别计算得到第一向量模和第二向量模;其中,所述第一向量模为所述第一分词向量的模,所述第二向量模为所述第二分词向量的模;
208.获取所述第一分词向量和所述第二分词向量中相同的目标分词,并根据所述目标分词的权重,计算所述第一分词向量和所述第二分词向量的目标分词内积;
209.根据所述第一向量模、所述第二向量模和所述目标分词内积,计算得到所述相似问句和所述初始输入问句的相似度。
210.在一个实施例中,所述处理器所执行的根据所述第一向量模、所述第二向量模和所述目标分词内积,计算得到所述相似问句和所述初始输入问句的相似度,包括:
211.计算第一积,所述第一积为所述第一向量模与所述第二向量模之积;
212.计算所述目标分词内积与所述第一积的商,所述商即为所述相似问句与所述初始输入问句的相似度。
213.在一个实施例中,所述处理器所执行的基于所述相似度从所述多个相似问句中确定需要检索的目标问句,包括:
214.比较每一所述相似问句与所述初始输入问句的相似度,得到比较结果;
215.根据所述比较结果确定出与所述初始输入问句相似度最大的相似问句,作为需要检索的目标问句。
216.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory, rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram) 等。
217.以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
218.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献