一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

租车企业知识图谱构建方法与流程

2022-04-27 12:18:47 来源:中国专利 TAG:


1.本发明涉及文本处理技术领域,尤其涉及一种租车企业知识图谱构建方法。


背景技术:

2.智能客服系统是在大规模知识处理基础上发展起来的自动问答系统,应用于各行各业,可以有效分担人工客服的压力。对于租车行业,在客户发问时,智能客服系统可以解析问题内容并从租车企业知识图谱中匹配最优答案,从而为租车企业和海量客户之间提供快捷有效的沟通。然而,由于租车企业知识图谱完全基于客户历史输入的数据并使用自然语言处理(nlp)等技术对输入数据进行解析、整理、抽取、归纳和关联等处理后所得到的,不能准确识别客户近期最关心的问题即热点问题,使得智能客服系统匹配到的答案不能满足客户的需求,则客户会纷纷转至人工服务,致使每逢业务高峰期人工客服压力骤增。


技术实现要素:

3.本发明的目的在于提供一种租车企业知识图谱构建方法,可以根据定期获取的用户提问文本获取提问热点,以构建知识图谱,使得智能客服系统可以准确识别并回复热点问题,从而减小人工客服的压力。
4.为了达到上述目的,本发明通过以下技术方案实现:
5.租车企业知识图谱构建方法,包括:
6.定期获取用户的问题集和人工客服对应的回复集;所述问题集包括若干个提问文本,所述回复集包括若干个答复文本,且每一所述提问文本和每一所述答复文本皆包括若干个文本词;
7.计算所述问题集中每一提问文本和其他提问文本之间的距离,以得到所述问题集中每一提问文本和其他提问文本的词向量间关系;
8.根据所述问题集中每一提问文本和其他提问文本的词向量间关系,构建所述问题集中每一提问文本的似然模型,以得到提问热点;以及
9.根据所述提问热点及所述答复文本构建知识图谱。
10.优选地,计算所述问题集中每一提问文本和其他提问文本之间的距离的步骤包括:
11.对所述问题集中每一提问文本和其他提问文本之间的jaro距离和匹配窗口距离进行计算;以及
12.将所述问题集中每一提问文本和其他提问文本之间的jaro距离和匹配窗口距离进行比较,以得到所述问题集中每一提问文本和其他提问文本的词向量间关系。
13.优选地,所述问题集中每一提问文本和其他提问文本之间的jaro距离采用如下公式进行计算:
14.15.其中,d
ij
为所述问题集中第i个提问文本和第j个提问文本之间的jaro距离,且j≠i;n
ij
为第i个提问文本和第j个提问文本的匹配数目;si为第i个提问文本的长度;sj为第j个提问文本的长度;t
ij
为第i个提问文本和第j个提问文本的换位数目。
16.优选地,所述问题集中每一提问文本和其他提问文本之间的匹配窗口距离采用如下公式进行计算:
[0017][0018]
其中,d

ij
为所述问题集中第i个提问文本和第j个提问文本之间的匹配窗口距离。
[0019]
优选地,所述问题集中两个提问文本之间的jaro距离值大于对应的匹配窗口距离,则两个提问文本的词向量间关系为相异;
[0020]
所述问题集中两个提问文本之间的jaro距离小于对应的匹配窗口距离,则两个提问文本的词向量间关系为相同。
[0021]
优选地,构建所述问题集中每一提问文本的似然模型,以得到提问热点的步骤包括:
[0022]
将所述问题集中任一提问文本及与其词向量间关系为相同的提问文本构成一数据集;
[0023]
采用似然函数对同一所述数据集构建一似然模型,以得到同一所述数据集中每一提问文本的似然估计值;以及
[0024]
将同一所述数据集中对应似然估计值大于预设值的所有提问文本构成一热点组。
[0025]
优选地,构建所述问题集中每一提问文本的似然模型,以得到提问热点的步骤还包括:
[0026]
对同一所述热点组中每一提问文本的文本词的tf-idf值进行计算;
[0027]
将同一所述热点组中所有文本词按照tf-idf值递减的顺序进行排序;以及
[0028]
选取同一所述热点组中tf-idf值位于前20%的文本词为提问热点。
[0029]
优选地,同一所述热点组中每一提问文本的文本词的tf-idf值采用如下公式进行计算:
[0030]
tf-idf(x)=tf(x)
·
idf(x)
[0031][0032]
其中,tf-idf(x)为文本词x的tf-idf值;tf(x)为文本词x在对应所述热点组中所有文本词中出现的频率;idf(x)为文本词x的逆文本频率;n为对应所述热点组中提问文本的总数;n(x)为对应所述热点组中包含文本词x的提问文本的数量。
[0033]
优选地,根据所述提问热点及所述答复文本构建知识图谱的步骤包括:根据所述提问热点和对应的所述答复文本,采用lstm crf模型构建所述知识图谱。
[0034]
优选地,执行采用似然函数对同一所述数据集构建一似然模型的步骤之前还包括:采用主成分分析算法对同一所述数据集中所有提问文本进行降维处理。
[0035]
本发明与现有技术相比至少具有以下优点之一:
[0036]
本发明提供的一种租车企业知识图谱构建方法,通过定期获取用户的问题集,可
以计算问题集中每一提问文本和其他提问文本之间的距离,从而得到问题集中每一提问文本和其他提问文本的词向量间关系,进而构建问题集中每一提问文本的似然模型,以得到提问热点;通过提问热点及人工客服对应的答复文本则可以构建知识图谱,使得智能客服系统可以准确识别并回复用户近期最关心的问题即热点问题,从而减小人工客服的压力。
[0037]
本发明中通过计算问题集中每一提问文本和其他提问文本之间的jaro距离和匹配窗口距离并进行比较,可以得到问题集中每一提问文本和其他提问文本的词向量间关系。
[0038]
本发明中可以将问题集中任一提问文本及与其词向量间关系为相同的提问文本构成一数据集,并采用似然函数对同一数据集构建似然模型,以得到同一数据集中每一提问文本的似然估计值,从而得到同一所述数据集对应的热点组;将同一热点组中所有文本词按照tf-idf值进行排序则可以获取提问热点。
[0039]
本发明中采用经典的lstm crf模型作可以对提问热点和对应的答复文本进行序列标注,以得到描述实体关系的三元组,从而构建所述知识图谱。
附图说明
[0040]
图1是本发明一实施例提供的一种租车企业知识图谱构建方法的流程图。
具体实施方式
[0041]
以下结合附图和具体实施方式对本发明提出的租车企业知识图谱构建方法作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
[0042]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0043]
结合附图1所示,本实施例提供一种租车企业知识图谱构建方法,包括:步骤s110、定期获取用户的问题集和人工客服对应的回复集;所述问题集包括若干个提问文本,所述回复集包括若干个答复文本,且每一所述提问文本和每一所述答复文本皆包括若干个文本词;步骤s120、计算所述问题集中每一提问文本和其他提问文本之间的距离,以得到所述问题集中每一提问文本和其他提问文本的词向量间关系;步骤s130、根据所述问题集中每一提问文本和其他提问文本的词向量间关系,构建所述问题集中每一提问文本的似然模型,
以得到提问热点;以及步骤s140、根据所述提问热点及所述答复文本构建知识图谱。
[0044]
具体的,在本实施例中,步骤s110中,可以基于预设周期定期获取用户的问题集和人工客服对应的回复集,以定期构建所述知识图谱或定期更新所述知识图谱,使得智能客服系统可以准确识别并回复用户近期最关心的问题即热点问题,从而减小人工客服的压力。优选地,所述问题集中提问文本的数量和所述回复集中答复文本的数量相同;所述预设周期可以为3天,但本发明不以此为限。
[0045]
请继续参考图1,所述步骤s120包括:对所述问题集中每一提问文本和其他提问文本之间的jaro距离和匹配窗口距离进行计算;以及将所述问题集中每一提问文本和其他提问文本之间的jaro距离和匹配窗口距离进行比较,以得到所述问题集中每一提问文本和其他提问文本的词向量间关系。
[0046]
可以理解的是,在一些其他的实施例中,所述问题集中每一提问文本和其他提问文本之间的jaro距离采用如下公式进行计算:
[0047][0048]
其中,d
ij
为所述问题集中第i个提问文本和第j个提问文本之间的jaro距离,且j≠i;n
ij
为第i个提问文本和第j个提问文本的匹配数目即第i个提问文本和第j个提问文本中相同文本词的数量;si为第i个提问文本的长度;sj是第j个提问文本的长度;t
ij
为第i个提问文本和第j个提问文本的换位数目。
[0049]
在一些实施例中,所述问题集中每一提问文本和其他提问文本之间的匹配窗口距离采用如下公式进行计算:
[0050][0051]
其中,d

ij
为所述问题集中第i个提问文本和第j个提问文本之间的匹配窗口距离。
[0052]
在一些实施例中,所述问题集中两个提问文本之间的jaro距离值大于对应的匹配窗口距离,则两个提问文本的词向量间关系为相异;所述问题集中两个提问文本之间的jaro距离小于对应的匹配窗口距离,则两个提问文本的词向量间关系为相同。
[0053]
请继续参考图1,所述步骤s130包括:将所述问题集中任一提问文本及与其词向量间关系为相同的提问文本构成一数据集;采用似然函数对同一所述数据集构建一似然模型,以得到同一所述数据集中每一提问文本的似然估计值;以及将同一所述数据集中对应似然估计值大于预设值的所有提问文本构成一热点组。
[0054]
可以理解的是,在一些其他的实施例中,执行采用似然函数对同一所述数据集构建一似然模型的步骤之前还包括:采用主成分分析算法(pca)对同一所述数据集中所有提问文本进行降维处理。
[0055]
具体的,在本实施例中,构建所述热点组时,可以将同一所述数据集中每一提问文本的似然估计值与所述预设值比较,以在同一所述数据集中选取部分提问文本构成一所述热点组,且被选取的部分提问文本的似然估计值大于所述预设值。此外,通过降维处理可以在最大化保留提问文本中所包含的信息的前提下,有效降低提问文本中文本词维数,从而便于后续似然模型的构建及似然估计值的计算。更具体的,用于降维处理的所述主成分分
析算法为:设l维向量w为目标子空间的一个坐标轴方向(称为映射向量),最大化数据映射后的方差,有:
[0056][0057]
其中m是数据实例的个数,x
p
是数据实例p的向量表达,x是所有数据实例的平均向量。定义w为包含所有映射向量为列向量的矩阵,经过线性代数变换,可以得到如下优化目标函数i:
[0058][0059][0060]
其中tr表示矩阵的迹,a是数据协方差矩阵。
[0061]
容易得到最优的w是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。此时pca的输出就是y=wx,由x的原始维度降低到了k维,且x={x1,x2,x3,...,x
p
,...}。
[0062]
在其他的实施例中,还可以采用线性判别分析法(lda)对同一所述数据集中所有提问文本进行降维处理,但本发明不以此为限。
[0063]
请继续参考图1,所述步骤s130还包括:对同一所述热点组中每一提问文本的文本词的tf-idf值进行计算;将同一所述热点组中所有文本词按照tf-idf值递减的顺序进行排序;以及选取同一所述热点组中tf-idf值位于前20%的文本词为提问热点。
[0064]
可以理解的是,在一些其他的实施例中,同一所述热点组中每一提问文本的文本词的tf-idf值采用如下公式进行计算:
[0065]
tf-idf(x)=tf(x)
·
idf(x)
ꢀꢀꢀ
(6)
[0066][0067]
其中,tf-idf(x)为文本词x的tf-idf值;tf(x)为文本词x在对应所述热点组中所有文本词中出现的频率;idf(x)为文本词x的逆文本频率;n为对应所述热点组中提问文本的总数;n(x)为对应所述热点组中包含文本词x的提问文本的数量。
[0068]
具体的,在本实施例中,由于每一所述热点组由若干个提问文本构成,每一提问文本包括若干个文本词,在每一所述热点组中可以包括若干个文本词。tf(x)则为文本词x的词频,即为文本词x在对应所述热点组中出现的总次数与该所述热点组中文本词总数量的比值。通过计算每一所述热点组中每一文本词的tf-idf值可以提取对应所述热点组的分类主题,即为提问热点,但本发明不以此为限。
[0069]
请继续参考图1,所述步骤s140包括:根据所述提问热点和对应的所述答复文本,采用lstm crf模型构建所述知识图谱。
[0070]
具体的,在本实施例中,所述知识图谱通常由若干个三元组构成的,且每一所述三元组包含两个实体和一个关系(即两个实体间的关系),则构建所述知识图谱时,需要将所
述提问热点和所述提问热点对应的所述答复文本进行数据关联及实体关系联合抽取。lstm crf模型作为经典的方法,可以对所述提问热点和对应的所述答复文本进行序列标注,以得到描述实体关系的三元组,从而构建所述知识图谱。在其他的实施例中,还可以使用表填充的方法,得到描述实体关系的三元组,并组合为所述知识图谱,但本发明不以此为限。
[0071]
综上所述,本实施例提供一种租车企业知识图谱构建方法,通过定期获取用户的问题集,可以计算问题集中每一提问文本和其他提问文本之间的距离,从而得到问题集中每一提问文本和其他提问文本的词向量间关系,进而构建问题集中每一提问文本的似然模型,以得到提问热点;通过提问热点及人工客服对应的答复文本则可以构建知识图谱,使得智能客服系统可以准确识别并回复用户近期最关心的问题即热点问题,从而减小人工客服的压力。
[0072]
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献