一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

关键句抽取方法及装置与流程

2022-07-30 13:13:56 来源:中国专利 TAG:
1.本技术涉及自然语言处理
技术领域
:,特别涉及一种关键句抽取方法。本技术同时涉及一种关键句抽取装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
::2.随着计算机
技术领域
:人工智能的发展,自然语言处理领域也得到了快速发展,根据文本进行信息检索是自然语言处理领域的一个重要分支。人工智能(artificialintelligence;ai)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。自然语言处理(nlp,naturallanguageprocessing)是计算机科学领域的一个重要研究方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。随着自然语言处理技术的发展以及生活节奏的加快,需要传递给用户的有效信息变得越来越短,此时可以采用自然语言处理中的关键句抽取技术进行关键句提取,以缩短有效信息。3.对于长文本的文档,由于具有数量较多的语句,且随着文档的增大,语句的数量增大,使得寻找关键句较难,且确定的关键句不准确。为了保证关键句的准确性,当前需通过人工寻找文章中的关键句。然而该方法需要花费大量的人力物力,且效率极低。因此,亟需一种有效的方案以解决上述问题。技术实现要素:4.有鉴于此,本技术实施例提供了一种关键句抽取方法,以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种关键句抽取装置,一种计算设备,以及一种计算机可读存储介质。5.根据本技术实施例的第一方面,提供了一种关键句抽取方法,包括:6.获取目标文档,基于目标文档的文字内容,提取关键词和第一关键句集;7.提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,并根据第一语义特征和各第二语义特征,确定第二关键句集;8.根据第一关键句集和第二关键句集,确定目标关键句集。9.根据本技术实施例的第二方面,提供了一种关键句抽取装置,包括:10.第一获取模块,被配置为获取目标文档,基于目标文档的文字内容,提取关键词和第一关键句集;11.第一确定模块,被配置为提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,并根据第一语义特征和各第二语义特征,确定第二关键句集;12.第二确定模块,被配置为根据第一关键句集和第二关键句集,确定目标关键句集。13.根据本技术实施例的第三方面,提供了一种计算设备,包括:14.存储器和处理器;15.存储器用于存储计算机可执行指令,处理器执行计算机可执行指令时实现关键句抽取方法的步骤。16.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现关键句抽取方法的步骤。17.根据本技术实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现关键句抽取方法的步骤。18.本技术提供的关键句抽取方法,获取目标文档,基于目标文档的文字内容,提取关键词和第一关键句集;提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,并根据第一语义特征和各第二语义特征,确定第二关键句集;根据第一关键句集和第二关键句集,确定目标关键句集。通过目标文档的文字内容来确定第一关键句集,保证了第一关键句集中的关键句携带了文本层面信息;通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,能够更精准地从语义层面确定关键句,也即保证了第一关键句集中的关键句携带了语义层面信息,进而根据第一关键句集和第二关键句集确定目标关键句集,可以使目标关键句中的关键句既包含文本层面信息又包含语义层面信息,也即提高了确定关键词的准确率。此外,基于本技术提供的关键句抽取方法,实现了自动化提取关键句,在保证关键词的准确率的同时,避免了花费大量的人力物力提取关键词,提高了关键词提取的效率,降低了关键词提取的成本。附图说明19.图1是本技术一实施例提供的一种关键句抽取方法的结构示意图;20.图2是本技术一实施例提供的一种关键句抽取方法的流程图;21.图3a是本技术一实施例提供的一种关键句抽取方法中,相似度分析模型的结构示意图;22.图3b是本技术一实施例提供的一种关键句抽取方法中,确定文本相似度的处理流程图;23.图4是本技术一实施例提供的一种应用于文档召回的关键句抽取方法的处理流程图;24.图5是本技术一实施例提供的一种关键句抽取装置的结构示意图;25.图6是本技术一实施例提供的一种计算设备的结构框图。具体实施方式26.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。27.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。28.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。29.首先,对本发明一个或多个实施例涉及的名词术语进行解释。30.textrank算法是自然语言处理领域一种比较常见的关键词提取算法,可用于提取关键词、短语、关键句和自动生成文本摘要,同时也是一种基于图的排序算法。31.tf-idf(termfrequency–inversedocumentfrequency)算法是一种用于信息检索与数据挖掘的常用加权技术。tf是词频(termfrequency),idf是逆文本频率指数(inversedocumentfrequency)。32.lda(latentdirichletallocation)算法是主题模型(topicmodels)的一种计算方法,和词向量并无直接关系。33.潜在语义分析(lsa,latentsemanticanalysis)算法主要用于文本的主题提取,挖掘文本背后的含义、数据降维等。34.在本技术中,提供了一种关键句抽取方法。本技术同时涉及一种关键句抽取装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。35.本技术实施例提供的关键句抽取方法的执行主体可以是服务器,也可以是终端,本技术实施例对此不作限定。并且,该终端可以是任何一种可与用户进行人机交互的电子产品,例如pc(personalcomputer,个人计算机)、手机、掌上电脑ppc(pocketpc)、平板电脑等。该服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心,本技术实施例对此不做限定。36.参见图1所示的一种关键句抽取方法的结构示意图,先获取目标文档;然后基于目标文档的文字内容,提取目标文档的关键词和第一关键句集;接着,确定关键词的第一语义特征和目标文档中各文本语句的第二语义特征;进一步地,根据第一语义特征和各第二语义特征,确定第二关键句集;最后根据第一关键句集和第二关键句集,确定目标文档的目标关键句集。37.本技术提供的关键句抽取方法,获取目标文档,基于目标文档的文字内容,提取关键词和第一关键句集;提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,并根据第一语义特征和各第二语义特征,确定第二关键句集;根据第一关键句集和第二关键句集,确定目标关键句集。通过目标文档的文字内容来确定第一关键句集,保证了第一关键句集中的关键句携带了文本层面信息;通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,能够更精准地从语义层面确定关键句,也即保证了第一关键句集中的关键句携带了语义层面信息,进而根据第一关键句集和第二关键句集确定目标关键句集,可以使目标关键句中的关键句既包含文本层面信息又包含语义层面信息,也即提高了确定关键句的准确率。此外,基于本技术提供的关键句抽取方法,实现了自动化提取关键句,在保证关键句的准确率的同时,避免了花费大量的人力物力提取关键句,提高了关键句提取的效率,降低了关键句提取的成本。38.图2出了根据本技术一实施例提供的一种关键句抽取方法的流程图,具体包括以下步骤:39.步骤202:获取目标文档,基于目标文档的文字内容,提取关键词和第一关键句集。40.本技术实施例的核心在于抽取关键句(集),针对于不同领域或者不同类别的文本,例如医学领域的文本、天文学领域的文本、长文本、短文本,提取关键词的过程基本相同,下面对抽取关键句过程进行详细介绍。41.具体的,文本是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合,一个文本可以是一个句子、一个段落或者一个篇章,都属于文本;文档是指包含文本的文件;目标文档是指待提取关键词的文档;文字内容也即文本内容;关键词是指用于表达文档主题内容的词语;关键句是指用于表达文档主题内容的语句;关键句集是指一个或多个关键句的总称或者集合;第一关键句集是指从文字或文本层面获取的关键句集。42.实际应用中,获取目标文档的方式有多种,例如,可以是运营人员向执行主体发送关键句抽取的指令,或者发送获取目标文档的指令,相应地,执行主体在接收到该指令后,开始对目标文档进行获取;也可以是服务器每隔预设时长,自动获取目标文档,例如,经过预设时长后,具有关键句抽取功能的服务器自动获取目标文档;或者经过预设时长后,具有关键句抽取功能的终端自动获取目标文档。本说明书对获取目标文档的方式不做任何限定。43.此外,目标文档可以为任意一种格式的文档,可以为doc(document)格式的文档,可以为txt格式的文档,可以为图像格式的文档,还可以为pdf(portabledocumentformat)格式的文档,本说明书对此不做限定。44.在获取到目标文档后,可以提取目标文档的文字内容:根据目标文档的格式选择对应的文本框提取工具,然后通过文本框提取工具从目标文档中提取文本框,文本框中包含有组成文字内容的文字,或者组成文本内容的文本。如此,选择与目标文档的格式对应的文本框提取工具,提取文本框,可以提高提取文字内容的准确性和速度。45.例如,获取到的目标文档为pdf格式,则选择pdf格式对应的pdfominer工具,对目标文档中进行提取操作,从而提取出目标文档中的至少一个包含有文字内容的文本框,得到目标文档的文字内容。又如,获取到的目标文档为图像格式,则选择图像格式对应的运用光学字符识别工具(ocr,opticalcharacterrecognition),对目标文档中进行提取操作,从而提取出目标文档中的至少一个包含有文字内容的文本框,得到目标文档的文字内容。46.在本说明书一个或多个可选的实施例中,在获取到目标文档的文字内容后,可以通过预设的关键词句提取工具,直接从文字内容提取的关键词和至少一个关键句,将得到的关键词确定为目标文档的关键词,将得到的至少一个关键句确定为目标文档的第一关键句集。如此,可以提高确定提取关键词和第一关键句集的效率。47.步骤204:提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,并根据第一语义特征和各第二语义特征,确定第二关键句集。48.在基于目标文档的文字内容得到关键词和第一关键句集的基础上,进一步地,根据关键词的第一语义特征和各文本语句的第二语义特征,确定目标文档的第二关键句集。49.具体的,语义特征是指多个文字单元的语言含义对应的特征;第一语义特征是指关键词的语义特征;第二语义特征是指文本语句的语义特征;第二关键句集是指从语义层面获取的关键句集。50.在本说明书一个或多个可选的实施例中,在获取到关键词后,可以通过预设的语义特征提取工具,先提取关键词的第一语义特征,再分别提取目标文档中各文本语句的第二语义特征,如此,可以提高确定提取第一语义特征和第二语义特征的准确性。51.进一步地,将关键词的第一语义特征与各文本语句的第二语义特征进行对比,从各文本语句中确定出目标文档的第二关键句集。52.步骤206:根据第一关键句集和第二关键句集,确定目标关键句集。53.在确定第一关键句集和第二关键句集的基础上,进一步地,根据第一关键句集和第二关键句集,确定目标文档的目标关键句集。54.具体的,目标关键句集是指最终确定的目标文档的关键句集,也即包含有目标关键句的关键句集。55.在本说明书实施例的一种可能的实现方式中,在获取到第一关键句集和第二关键句集后,可以对第一关键句集和第二关键句集求并集,得到目标文档的关键句集,也即将第一关键句集和第二关键句集中包含的关键句合并到一个集合中,得到目标文档的目标关键句集。如此,可以保证目标关键句集的完整性,也即提高抽取关键句的完整性和准确性。56.例如第一关键句集中包括关键句1、关键句2、关键句3和关键句4,第二关键句集中包括关键句2、关键句4、关键句5和关键句6,则目标关键句集中包含了关键句1、关键句2、关键句3、关键句4、关键句5和关键句6。57.在本说明书实施例的另一种可能的实现方式中,在获取到第一关键句集和第二关键句集后,可以对第一关键句集和第二关键句集求交集,得到目标文档的关键句集,也即将第一关键句集和第二关键句集均包含的关键句组成目标文档的目标关键句集。如此,可以保证目标关键句集的准确性,也即保证抽取的关键句具有文字内容层面和语义层面的关键信息。58.沿用上例,第一关键句集中包括关键句1、关键句2、关键句3和关键句4,第二关键句集中包括关键句2、关键句4、关键句5和关键句6,则目标关键句集中包含了关键句2和关键句4。59.本技术提供的关键句抽取方法,获取目标文档,基于目标文档的文字内容,提取关键词和第一关键句集;提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,并根据第一语义特征和各第二语义特征,确定第二关键句集;根据第一关键句集和第二关键句集,确定目标关键句集。通过目标文档的文字内容来确定第一关键句集,保证了第一关键句集中的关键句携带了文本层面信息;通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,能够更精准地从语义层面确定关键句,也即保证了第一关键句集中的关键句携带了语义层面信息,进而根据第一关键句集和第二关键句集确定目标关键句集,可以使目标关键句中的关键句既包含文本层面信息又包含语义层面信息,也即提高了确定关键词的准确率。此外,基于本技术提供的关键句抽取方法,实现了自动化提取关键句,在保证关键词的准确率的同时,避免了花费大量的人力物力提取关键词,提高了关键词提取的效率,降低了关键词提取的成本。60.在本说明书一个或多个可选的实施例中,可以通过预设的关键词句提取工具,直接提取到目标文档的关键词和第一关键句集;还可以通过预设的关键词句提取工具,直接提取到目标文档的关键词和第三关键句集,再根据关键词与目标文档,确定出目标文档的第四关键句集,其中第三关键句集和第四关键句集统称为第一关键句集。也即在第一关键句集包括第三关键句集和第四关键句集的情况下,基于目标文档的文字内容,提取关键词和第一关键句集,具体实现过程可以如下:61.根据目标文档的文字内容,利用基于文字内容的提取算法,提取目标文档的关键词和第三关键句集;62.根据关键词,识别目标文档中包含有关键词的目标文本语句,基于目标文本语句构建目标文档的第四关键句集。63.具体的,第三关键句集是指基于文字内容的提取算法从文字内容中直接获取的关键句集;第四关键句集是指包含关键词的关键句组成的关键句集。64.实际应用中,在获取到目标文档的文字内容后,可以通过预设的关键词句提取工具,直接从文字内容提取的关键词和至少一个关键句,将得到的关键词确定为目标文档的关键词,将得到的至少一个关键句确定为目标文档的第三关键句集。然后,针对目标文档中的任一文本语句,查看该文本语句是否包含关键词,若是,则将该文本语句确定为目标文本语句,若否,则将该文本语句确定为非目标文本语句。遍历目标文档中的各文本语句,将得到的所有目标文本语句构成第四关键句集。如此,可以将提高第一关键句集的完整性,进一步的提高确定目标关键句集的效率。65.在本说明书一个或多个可选的实施例中,可以通过词频-逆文本频率指数(tf-idf,termfrequency–inversedocumentfrequency)提取算法,提取目标文档的关键词。还可以通过基于图的排序算法,提取目标文档的关键词,也即根据目标文档的文字内容,利用基于文字内容的提取算法,提取目标文档的关键词,具体实现过程可以如下:66.将目标文档的文字内容进行分词和去停用词处理,得到多个候选词;67.根据预设滑动窗口,以各候选词为节点,并以各候选词之间的共现关系为边,构建词图;68.根据词图,迭代计算各候选词对应的第一初始权重,直至达到第一预设收敛条件,得到各候选词对应的第一目标权重;69.基于第一目标权重,从各候选词确定目标文档的关键词。70.具体的,分词是指将文字内容中的字符串匹配的分词过程,可以是正向最大匹配法,也可以是反向最大匹配法,还可以是最短路径分词法或双向最大匹配法四种方法,本技术对此不做限定;去停用词处理是指删除或过滤词与词语中的停用词;候选词是指对文字内容进行分词和去停用词处理后得到所有的词;共现关系是指共同出现的关系;词图是指以词语,也即候选词为节点构成的图;第一初始权重是指基于词图确定的候选词的权重;第一目标权重是指趋于稳定或者收敛的第一初始权重。71.实际应用中,可以将目标文档的文字内容直接进行分词处理,得到多个词语;还可以先将文字内容按照整句进行分割,得到多个句子,再对各句子进行分词,得到多个词语。72.进一步地,对得到的多个词语进行去停用词处理,也即剔除多个词语中的停用词,得到多个候选词,如对各词语进行词性标注,以确定各词语的词性,再根据各词语的词性,将多个词语中为虚词的词语,也即停用词进行删除,得到多个候选词。73.之后,根据各候选词构建词图:以各候选词为节点,采用共现关系构造任意两个节点之间的边,也即以各候选词之间的共现关系为边,两个节点之间存在边,仅当它们对应的候选词在长度为k的预设滑动窗口中共现,k表示预设滑动窗口的大小,即最多共现k个候选词,其中,k为正整数,如k=2,构建词图。74.然后,根据词图中节点之间的连接关系,按照预设的权重计算公式,如式1所示,迭代计算各候选词对应的第一初始权重。在某候选词对应的第一初始权重直至达到第一预设收敛条件,如第一初始权重趋于稳定,将稳定后的第一初始权重确定为该候选词对应的第一目标权重。[0075][0076]式1中,vi表示第i个候选词;vj表示第j个候选词;s(vi)表示第i个候选词的第一初始权重;s(vj)表示第j个候选词的第一初始权重;d表示阻尼系数,如0.85;in(vi)是指指向第i个候选词的候选词组成的集合;out(vj)是指由第j个候选词指向的候选词组成的集合;|out(vj)|是指out(vj)的数量。[0077]在确定了各第一目标权重的基础上,可以将第一目标权重大于第一权重阈值的候选词确定目标文档的关键词;还可以将各候选词按照第一目标权重从大到小的顺序进行排列,将排名前n个的候选词确定目标文档的关键词,其中,n为预设设置的正整数。如此,可以提高提取关键词的效率和准确率。[0078]例如,可以通过textrank算法,先将文字内容按照整句进行分割,得到多个句子,再对各句子进行分词,得到多个词语;然后对各词语进行词性标注,以确定各词语的词性,再根据各词语的词性,将停用词进行删除,得到多个候选词。之后以各候选词为节点,以各候选词之间的共现关系为边,基于预设滑动窗口的大小为2,构建词图。然后通过式1计算各候选词的第一初始权重,直至达到第一预设收敛条件,得到各候选词对应的第一目标权重。最后将第一目标权重最大的5个候选词确定为目标文档的关键词。[0079]在本说明书一个或多个可选的实施例中,可以根据语句与目标文档的标题的语义相关度,得到目标文档的关键句;还可以通过基于图的排序算法,提取目标文档的关键句,得到第三关键句集,也即根据目标文档的文字内容,利用基于文字内容的提取算法,提取第三关键句集,具体实现过程可以如下:[0080]将目标文档的文字内容进行分句处理,得到多个候选语句;[0081]以各候选语句为节点,并以各候选语句之间的语句相似度为边,构建句图;[0082]根据句图,迭代计算各候选语句对应的第二初始权重,直至达到第二预设收敛条件,得到各候选词对应的第二目标权重;[0083]基于第二目标权重,从各候选语句确定目标文档的第三关键句集。[0084]具体的,分句是指将文字内容中的句子进行分割的过程;候选语句是指对文字内容进行分句处理后得到所有的句子;语句相似度是指句子语义的相似程度;句图是指以句子,也即候选语句为节点构成的图;第二初始权重是指基于句图确定的候选语句的权重;第二目标权重是指趋于稳定或者收敛的第二初始权重。[0085]实际应用中,以先将文字内容按照整句进行分割,也即分句处理,得到多个候选语句。然后根据各候选语句构建句图:以各候选语句为节点,以候选语句之间的语句相似度构造节点之间的边,得到句图。接着,根据句图中节点之间的连接关系,按照预设的权重计算公式,如式2所示,迭代计算各候选语句对应的第二初始权重。在某候选语句对应的第二初始权重直至达到第二预设收敛条件,如第二初始权重趋于稳定,将稳定后的第二初始权重确定为该候选语句对应的第二目标权重。进一步地,可以将第二目标权重大于第二权重阈值的候选语句确定目标文档的关键句;还可以将各候选语句按照第一目标权重从大到小的顺序进行排列,将排名前m个的候选语句确定目标文档的关键词,其中,m为预设设置的正整数。得到的所有关键句构成了目标文档的第三关键句集。[0086]如此,可以提高提取第三关键句集的效率和准确率。[0087][0088]式2中,vi表示第i个候选语句;vj表示第j个候选语句;ws(vi)表示第i个候选语句的第二初始权重;ws(vj)表示上次迭代出的第j个候选语句的第二初始权重;d表示阻尼系数,如0.85;in(vi)是指指向第i个候选语句的候选语句组成的集合;out(vj)是指由第j个候选语句指向的候选语句组成的集合;wji表示第i个候选语句与第j个候选语句的语句相似度;wjk表示第k个候选语句与第j个候选语句的语句相似度。[0089]例如,可以通过textrank算法,先将文字内容按照整句进行分割,得到多个候选语句。然后以各候选语句为节点,以各候选语句之间的语句相似度为边,构建句图。然后通过式2计算各候选语句的第二初始权重,直至达到第二预设收敛条件,得到各候选语句对应的第二目标权重。最后将第二目标权重最大的3个候选词构成目标文档的第三关键句集。[0090]在本说明书一个或多个可选的实施例中,第一关键句集包括第三关键句集和第四关键句集,在根据第一关键句集和第二关键句集,确定目标关键句集时:可以对第二关键句集、第三关键句集和第四关键句集求并集,获得目标关键语句,也即将第二关键句集、第三关键句集和第四关键句集中包含的所有关键句合并到一个集合中,得到目标文档的目标关键句集。还可以对第二关键句集、第三关键句集和第四关键句集求交集,获得目标关键句集。[0091]需要说明的是,在对第二关键句集、第三关键句集和第四关键句集求交集,获得目标关键句集时,可以将第二关键句集、第三关键句集和第四关键句集均包含的关键句组成目标文档的目标关键句集;还可以根据各初始关键语句相对于第二关键句集、第三关键句集和第四关键句集的初始置信度,得到各初始关键语句的目标置信度,再根据目标置信度,确定目标关键句集,也即对第二关键句集、第三关键句集和第四关键句集求交集,获得目标关键句集,具体实现过程可以如下:[0092]确定初始关键句相对于第二关键句集的第一初始置信度、相对于第三关键句集的第二初始置信度和相对于第四关键句集的第三初始置信度,其中,初始关键句是指第二关键句集、第三关键句集和第四关键句中的任一关键句;[0093]根据第一初始置信度、第二初始置信度和第三初始置信度,确定初始关键句的目标置信度;[0094]基于目标置信度,从第二关键句集、第三关键句集和第四关键句集中确定目标关键句;[0095]基于目标关键句构建目标关键句集。[0096]具体的,置信度也称为可靠度,或置信水平、置信系数;第一初始置信度是指某初始关键句相对于第二关键句集的置信度;第二初始置信度是指某初始关键句相对于第三关键句集的置信度;第三初始置信度是指某初始关键句相对于第四关键句集的置信度;目标置信度是指对各初始置信度进行处理后得到的综合置信度;目标关键句是指构成目标关键句集的最小文字单元;初始关键句是指构成第二关键句集、第三关键句集和第四关键句集的最小文字单元。[0097]实际应用中,每个初始关键句针对第二关键句集、第三关键句集和第四关键句集都有对应的初始置信度,当第二关键句集、第三关键句集和第四关键句集中某各关键句集不包含某初始关键句时,该初始关键句相对于该关键句集的初始置信度为第一预设数值,例如第二关键句集中不包含初始关键句a,则初始关键句a的第一初始置信度为0;当第二关键句集、第三关键句集和第四关键句集中某各关键句集包含某初始关键句时,该初始关键句相对于该关键句集的初始置信度为第二预设数值,例如又如第三关键句集中包含初始关键句a,则初始关键句a的第一初始置信度为1。[0098]将初始关键句分别相对于第二关键句集、第三关键句集和第四关键句集的第一初始置信度、第二初始置信度和第三初始置信度。然后将第一初始置信度、第二初始置信度和第三初始置信度输入指预设的计算公式(如式3所示)中进行计算,得到初始关键句的目标置信度。然后将第二关键句集、第三关键句集和第四关键句中目标置信度大于置信度阈值的关键句确定目标文档的目标关键句;还可以将第二关键句集、第三关键句集和第四关键句中的关键句按照目标置信度从大到小的顺序进行排列,将排名前l个的关键句确定为目标文档的目标关键词,其中,l为预设设置的正整数。得到的所有目标关键句构成了目标文档的目标关键句集。如此,可以提高目标关键句的准确率和效率。[0099]y=a1*x1 a2*x2 a3*x3(式3)[0100]式3中,y为目标置信度,x1、x2和x3分别为第一初始置信度、第二初始置信度和第三初始置信度,a1、a2和a3分别为第一初始置信度、第二初始置信度和第三初始置信度对应的权值。[0101]此外,当第二关键句集、第三关键句集和第四关键句集中某各关键句集包含某初始关键句时,该初始关键句相对于该关键句集的初始置信度还可以为确定该关键句集时该初始关键句对应的权重:例如利用textrank算法得到第三关键句集时会获得第三关键句集中各关键句的权重,将该权重作为关键句的第一置信度;再如,利用textrank算法得到关键词时会获得关键词的权重,进而基于包含由关键词的目标文本语句构建的第四关键句集,此时第四关键句集中的各目标文本语句,也即关键句的权重为该关键句包含的关键词的权重之和;又如,根据第一语义特征和各第二语义特征的语义关联度确定的第二关键句集中,关键句的权重为该关键句对应的语义关联度。[0102]在本说明书一个或多个可选的实施例中,关键句抽取方法可以用于文档召回,也即目标文档可以是查询文档,也可以是候选文档,也可以是查询文档和候选文档。在目标文档包括查询文档和多个候选文档的情况下,在根据第一关键句集和第二关键句集,确定目标关键句集之后,还包括:[0103]根据查询文档的目标关键句集和多个候选文档的目标关键句集,确定查询文档分别与各候选文档的文本相似度。[0104]具体的,查询文档是指用户输入用于检索的文档;候选文档是指数据库中存储的文档;文本相似度是指查询文档与候选文档的文字内容的相似程度。[0105]实际应用中,基于关键句抽取方法,得到查询文档的目标关键句集和各候选文档的目标关键句集,计算查询文档的目标关键句集分别与各候选文档的目标关键句集之间的文本相似度,也即确定查询文档分别与各候选文档的文本相似度。如此,基于目标关键句集计算文档之间的文本相似度,可以提高获取的文本相似度的准确率和可靠性。[0106]可以根据预设的向量转化算法,将查询文档和多个候选文档的目标关键句集转换为特征向量,然后根据预设的相似度算法,如欧几里得距离(euclediandistance)算法、曼哈顿距离(manhattandistance)算法、明可夫斯基距离(minkowskidistance)算法,计算查询文档对应的特征向量与各候选文档对应的特征向量之间的相似度,也即查询文档分别与各候选文档的文本相似度。[0107]在本说明书一个或多个可选的实施例中,在根据查询文档的目标关键句集和多个候选文档的目标关键句集,确定查询文档分别与各候选文档的文本相似度之后,还可以根据各文本相似度,从多个候选文档中召回查询文档的相似文档。例如,可以将文本相似度大于文本相似度阈值的候选文档确定查询文档的相似文档,还可以将各相似文档按照文本相似度从大到小的顺序进行排列,将排名前q个的候选词确定查询文档的相似文档,其中,q为预设设置的正整数。然后反馈相似文档。如此,基于文本相似度确定并召回相似文档,可以提高召回相似文档的效率和准确率。[0108]需要说明的是,文档召回是根据用户的查询文档,从而返回与查询文档相似度高的相似文档。而文档长度相对较长,故对长文本相似度计算的研究具有重要意义。当前长文本相似度计算的方法主要有:基于字符的相似度确定方法,即采用编辑距离、汉明距离、杰卡德距离等直接计算文本字符的相似度,该方法粗糙简单,仅在字符层面计算相似度,忽略了语义层面;基于传统机器学习的相似度确定方法:通过tf-idf算法、lsa算法、lda算法等方法手动构建文本特征向量,然后通过计算余弦相似度、欧氏距离等得到文本相似度,该方法需要人工构建特征,且不能充分利用文本上下文语义信息;基于文本截取深度学习的文本相似度方法:由于文档的文本较长,通常截取文档前面部分或者中间部分作为文本,通过长短时记忆网络(lstm,longshorttermmemory)模型、卷积神经网络(cnn,convolutionalneuralnetworks)、bert(bidirectionalencoderrepresentationsfromtransformer)模型等进行文本相似度计算,该方法由于文本较长,无法全部输入神经网络模型,而截取文档中部分文本可能会造成关键信息缺失,影响相似文档召回的准确性。[0109]而说明书提供的方法,与基于字符文本的相似度确定方法相比,通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,有效利用了语义信息,大大提高文本相似度的确定准确率;与基于传统机器学习的相似度确定方法相比,无需人工构建特征,同时通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,充分利用文本上下文语义信息;与基于文本截断深度学习的文本相似度方法相比,由于未抽取文档关键句从而实现截断,并未减弱文本关键信息缺失,进而提高相似文档召回的准确性。可避免复杂的特征提取,如计算tf-idf、lda、lsa等构建向量特,方便快捷,有效提高了相似文档召回的准确率。[0110]在本说明书一个或多个可选的实施例中,还可以将查询文档的目标关键句集和多个候选文档的目标关键句集输入至预先训练的相似度分析模型,得到查询文档分别与各候选文档的文本相似度。也即在根据查询文档的目标关键句集和多个候选文档的目标关键句集,确定查询文档分别与各候选文档的文本相似度之前,还包括:[0111]获取预训练的相似度分析模型,其中,相似度分析模型基于携带有相似度标签的样本语句集对训练得到;[0112]根据查询文档的目标关键句集和多个候选文档的目标关键句集,确定查询文档分别与各候选文档的文本相似度,包括:[0113]将查询文档的目标关键句集和多个候选文档的目标关键句集输入至相似度分析模型,得到查询文档分别与各候选文档的文本相似度。[0114]具体的,相似度分析模型是指预先训练的神经网络模型,如神经网络模型、概率神经网络模型,又如bert模型、transformer模型、sentence-bert模型等;样本语句是指用于训练得到相似度分析模型的语句;样本语句对是指包含两个样本语句的集合;样本语句集是指包含多个样本语句对的集合;相似度标签是指样本语句对中两个样本语句真实的文本相似度。[0115]实际应用中,可以先获取基于携带有相似度标签的样本语句集对训练得到的相似度分析模型。然后在获取到查询文档的目标关键句集和多个候选文档的目标关键句集的基础上,进一步地,将查询文档的目标关键句集和多个候选文档的目标关键句集输入至相似度分析模型,由相似度分析模型对查询文档的目标关键句集和多个候选文档的目标关键句集进行相似度计算,输出目查询文档分别与各候选文档的文本相似度。通过预先训练的相似度分析模型,基于查询文档的目标关键句集和多个候选文档的目标关键句集,计算查询文档分别与各候选文档的文本相似度,能够提高确定文本相似度的速率和准确率。[0116]在本说明书一个或多个可选的实施例中,所述相似度分析模型包括特征提取层和池化层;此时将查询文档的目标关键句集和多个候选文档的目标关键句集输入至相似度分析模型,得到查询文档分别与各候选文档的文本相似度,具体实现过程可以如下:[0117]针对任一候选文档,将查询文档的目标关键句集和该候选文档的目标关键句集分别输入至特征提取层进行特征提取处理,获得查询特征向量和候选特征向量;[0118]将查询特征向量和候选特征向量分别输入至池化层进行池化处理,获得查询嵌入向量和候选嵌入向量;[0119]根据查询嵌入向量和候选嵌入向量,确定查询文档和该候选文档之间的文本相似度。[0120]具体的,特征提取层可以神经网络模型,如bert(bidirectionalencoderrepresentationsfromtransformer)模型;池化层也称下采样层,也即pooling层,其可以将输入的实体特征向量和文本特征向量进行压缩,一方面减少了特征和参数,可以简化后续相似度计算时的复杂度,另一方面保持了实体特征向量和文本特征向量的某种不变性;查询特征向量是指将查询文档的目标关键句集输入至特征提取层处理后得到的隐层表示;候选特征向量指将候选文档的目标关键句集输入至特征提取层处理后得到的隐层表示;隐层表示就是把输入的实目标关键句集的特征,抽象到另一个维度空间,来展现目标关键句集更抽象化的特征,此外隐层表示能更好的进行线性划分;池化处理就是去除杂余信息、保留关键信息的处理;查询嵌入向量是指将查询特征向量进行池化处理后得到的向量表示;候选嵌入向量是指将候选特征向量进行池化处理后得到的向量表示。[0121]实际应用中,参见图3a,图3a示出了本技术一实施例提供的一种关键句抽取方法中,相似度分析模型的结构示意图,相似度分析模型包括特征提取层和池化层。在获取查询文档的目标关键句集和多个候选文档的目标关键句集的基础上,可以将查询文档的目标关键句集和任一候选文档的目标关键句集分别输入至特征提取层中,特征提取层分别对查询文档的目标关键句集和该候选文档的目标关键句集进行特征提取处理之后,输出查询特征向量和候选特征向量。然后为了降低数据处理量,查询特征向量和候选特征向量分别输入至池化层中进行池化处理,在池化完成后,池化层输出查询嵌入向量和候选嵌入向量。进一步地,将查询嵌入向量和候选嵌入向量进行比较,计算两者的相似度,也即查询文档和该候选文档之间的文本相似度。如此,可以提高确定文本相似度的效率和准确率。[0122]在本说明书一个或多个可选的实施例中,为了提高特征提取层进行特征提取的效率与精度,可以在特征提取层中设置两个结构、参数类型与参数数量均相同的子特征提取层,即特征提取层包括结构、参数类型与参数数量均相同的第一子特征提取层和第二子特征提取层,如此可以使其中一个子特征提取层对查询文档的目标关键句集进行特征提取,另一个子特征提取层对候选文档的目标关键句集进行特征提取。也即在特征提取层包括结构、参数类型与参数数量均相同的第一子特征提取层和第二子特征提取层的情况下,将查询文档的目标关键句集和该候选文档的目标关键句集分别输入至特征提取层进行特征提取处理,获得查询特征向量和候选特征向量,具体实现过程可以如下:[0123]将查询文档的目标关键句集输入至第一子特征提取层进行特征提取处理,获得查询特征向量;[0124]将该候选文档的目标关键句集输入至第二子特征提取层进行特征提取处理,获得候选特征向量。[0125]实际应用中,参见图3a,图3a示出了本技术一实施例提供的一种关键句抽取方法中,相似度分析模型的结构示意图,其中特征提取层中包含两个子特征提取层:第一子特征提取层和第二子特征提取层。在对查询文档的目标关键句集和该候选文档的目标关键句集进行特征提取时,需要将查询文档的目标关键句集输入至第一子特征提取层中,第一子特征提取层对查询文档的目标关键句集进行特征提取之后,输出查询文档的目标关键句集对应的查询特征向量;将该候选文档的目标关键句集输入至第二子特征提取层中,第二子特征提取层对该候选文档的目标关键句集进行特征提取之后,输出该候选文档的目标关键句集对应的候选特征向量。[0126]为了提高池化层进行池化处理的效率与精度,进一步相似度分析模型确定文本相似度的效率,可以在池化层中设置两个结构、参数类型与参数数量均相同的子池化层,即池化层包括结构、参数类型与参数数量均相同的第一子池化层和第二子池化层,如此可以使其中一个子池化层对查询特征向量进行池化处理,另一个子池化层对候选特征向量进行池化处理。也即在池化层包括结构、参数类型与参数数量均相同的第一子池化层和第二子池化层的情况下,将查询特征向量和候选特征向量分别输入至池化层进行池化处理,获得查询嵌入向量和候选嵌入向量,具体实现过程可以如下:[0127]将查询特征向量输入至第一子池化层进行池化处理,获得查询嵌入向量;[0128]将候选特征向量输入至第二子池化层进行池化处理,获得候选嵌入向量。[0129]实际应用中,参见图3a,图3a示出了本技术一实施例提供的一种关键句抽取方法中,相似度分析模型的结构示意图,其中池化层中包含两个子池化层:第一子池化层和第二子池化层。在对查询特征向量和候选特征向量进行池化处理时,将查询特征向量输入至第一子池化层中,第一子池化层对查询特征向量进行池化处理后,输出查询特征向量对应的查询嵌入向量;将候选特征向量输入至第二子池化层中,第二子池化层对候选特征向量进行池化之后,输出查询候选特征向量对应的候选嵌入向量。[0130]在获取预训练的相似度分析模型之前,还需要对语言表征模型进行训练,以得到相似度分析模型。也即在获取预训练的相似度分析模型之前,还包括:[0131]获取预设的语言表征模型和样本集,其中,样本集中包含多个携带相似度标签的样本语句集对,样本语句集对包括第一样本语句集和第二样本语句集;[0132]从样本集中提取任一样本语句集对,将该样本语句集对中的第一样本语句集和第二样本语句集输入至语言表征模型,得到第一样本语句集和第二样本语句集的预测相似度;[0133]根据预测相似度和该样本语句集对携带的相似度标签,确定损失值;[0134]根据损失值,调整语言表征模型的模型参数,继续执行从样本集中提取任一样本语句集对的步骤,在达到第一预设训练停止条件的情况下,将训练好的语言表征模型确定为相似度分析模型。[0135]具体的,语言表征模型是指预先指定的预训练的神经网络模型,如roberta模型;第一样本语句集和第二样本语句集为样本语句集对包含的两个样本语句集;预测相似度是指语言表征模型确定的第一样本语句集与第二样本语句集的相似度;第一训练停止条件可以是损失值小于或等于预设阈值,还可以是迭代训练次数达到预设迭代值,也可以是损失值收敛,即损失值随着继续训练不再减小。[0136]实际应用中,获取语言表征模型和样本集的方式有多种,例如,可以是运营人员向执行主体发送语言表征模型的训练指令,或者发送语言表征模型和样本集的获取指令,相应地,执行主体在接收到该指令后,开始对语言表征模型和样本集进行获取;也可以是服务器每隔预设时长,自动获取语言表征模型和样本集,例如,经过预设时长后,具有模型训练功能的服务器自动获取指定存取区域内的语言表征模型和样本集;或者经过预设时长后,具有模型训练功能的终端自动获取存储于本地的语言表征模型和样本集。本说明书对获取语言表征模型和样本集的方式不做任何限定。[0137]在获取语言表征模型和样本集之后,从样本集中提取一个样本语句集对,然后将该样本语句集对包含的第一样本语句集和第二样本语句集输入至语言表征模型,由语言表征模型确定对第一样本语句集和第二样本语句集进行相似度计算,输出第一样本语句集和第二样本语句集的预测相似度。接着,根据预测相似度和该样本语句集对携带的相似度标签,按照预设的第一损失函数,确定损失值,在未达到第一预设训练停止条件的情况下,根据损失值调整语言表征模型的模型参数,然后再次从样本集中提取一个样本语句集对,进行下一轮训练;在达到第一预设训练停止条件的情况下,将训练好的语言表征模型确定为相似度分析模型。如此,通过多个样本语句集对对语言表征模型进行训练,能够提高相似度分析模型确定文本相似度的准确性和速率,提高相似度分析模型的鲁棒性。[0138]在本说明书一个或多个可选的实施例中,在提取了关键词的第一语义特征和目标文档中各文本语句的第二语义特征之后,可以根据第一语义特征与各第二语义特征的语义关联度,确定第二关键句集。也即根据第一语义特征和各第二语义特征,确定第二关键句集,具体实现过程可以如下:[0139]确定第一语义特征与各第二语义特征的语义关联度;[0140]根据语义关联度,从各文本语句中确定第二关键句集。[0141]具体的,语义关联度是指第一语义特征与第二语义特征的相似度。[0142]实际应用中,可以根据预设的相似度算法,如欧几里得距离(euclediandistance)算法、曼哈顿距离(manhattandistance)算法、明可夫斯基距离(minkowskidistance)算法,计算第一语义特征与各第二语义特征之间的相似度,也即语义关联度。然后将语义关联度大于语义关联度阈值的文本语句添加指第二关键句集,得到第二关键句集;还可以将各文本语句按照语义关联度从大到小的顺序进行排列,将排名前p个的文本语句添加指第二关键句集,得到第二关键句集,其中,p为预设设置的正整数。如此,可以将提高第二关键句集的完整性,进一步的提高确定目标关键句集的效率。[0143]在本说明书一个或多个可选的实施例中,还可以将关键词和目标文档中的各文本语句输入至预先训练的关联度分析模型,得到第一语义特征与各第二语义特征的语义关联度。也即在提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征之前,还包括:[0144]获取预训练的关联度分析模型,其中,关联度分析模型包括特征提取子模型和关联度计算子模型;[0145]提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,包括:[0146]将关键词和目标文档中的各文本语句输入至特征提取子模型,得到关键词的第一语义特征和各文本语句的第二语义特征;[0147]确定第一语义特征与各第二语义特征的语义关联度,包括:[0148]将第一语义特征和各第二语义特征输入至关联度计算子模型,得到第一语义特征与各第二语义特征的语义关联度。[0149]具体的,关联度分析模型是指预先训练的神经网络模型,如神经网络模型、概率神经网络模型,又如bert模型、transformer模型、sentence-bert模型等;特征提取子模型是指关联度分析模型中对关键词或者文本语句进行特征提取的部分;关联度计算子模型是指关联度分析模型中计算语义关联度的部分。[0150]实际应用中,可以先获取包括特征提取子模型和关联度计算子模型的关联度分析模型。然后在获取到关键词和目标文档中的各文本语句的基础上,进一步地,将关键词和各文本语句输入至特征提取子模型,由特征提取子模型对关键词和各文本语句进行特征提取,得到关键词的第一语义特征和各文本语句的第二语义特征;接着将第一语义特征和各第二语义特征输入至关联度计算子模型,由关联度计算子模型对第一语义特征和各第二语义特征进行关联度计算,输出第一语义特征和各第二语义特征的语义关联度,也即关键词与各文本语句的语义关联度。通过预先训练的关联度分析模型,基于关键词和目标文档中的各文本语句,得到关键词与各文本语句的语义关联度,能够提高确定语义关联度的速率和准确率。[0151]在获取预训练的关联度分析模型之前,还需要对神经网络模型进行训练,以得到关联度分析模型。也即获取预训练的关联度分析模型之前,还包括:[0152]获取预设的神经网络模型和训练集,其中,神经网络模型包括特征提取子模型和关联度计算子模型,训练集中包含多个携带关联度标签的样本对,样本对包括样本词语和样本语句;[0153]从训练集中提取任一样本对,将该样本对中的样本词语和样本语句输入至特征提取子模型,得到样本词语的第一预测特征和样本语句的第二预测特征;[0154]将第一预测特征和第二预测特征输入至关联度计算子模型,得到第一预测特征和第二预测特征的预测关联度;[0155]根据预测关联度和该样本对携带的关联度标签,确定差异值;[0156]根据差异值,调整特征提取子模型和关联度计算子模型的模型参数,继续执行从训练集中提取任一样本对的步骤,在达到第二预设训练停止条件的情况下,将训练好的神经网络模型确定为关联度分析模型。[0157]具体的,神经网络模型是指神经网络模型是以神经元的数学模型,如bert模型;样本语句是指用于训练得到关联度分析模型的语句;样本词语是指训练得到关联度分析模型的词语;样本对是指包含一个样本语句和一个样本词语的集合;训练集是指包含多个样本对的集合;关联度标签是指样本对中样本词语和样本语句真实的关联度;第一预测特征是指特征提取子模型确定的样本词语的语义特征;第二预测特征是指特征提取子模型确定的样本语句的语义特征;预测关联度是指关联度计算子模型确定的第一预测特征与第二预测特征的关联度;第二训练停止条件可以是损失值小于或等于预设阈值,还可以是迭代训练次数达到预设迭代值,也可以是损失值收敛,即损失值随着继续训练不再减小。[0158]实际应用中,获取神经网络模型和训练集的方式有多种,例如,可以是运营人员向执行主体发送神经网络模型的训练指令,或者发送神经网络模型和训练集的获取指令,相应地,执行主体在接收到该指令后,开始对神经网络模型和训练集进行获取;也可以是服务器每隔预设时长,自动获取神经网络模型和训练集,例如,经过预设时长后,具有模型训练功能的服务器自动获取指定存取区域内的神经网络模型和训练集;或者经过预设时长后,具有模型训练功能的终端自动获取存储于本地的神经网络模型和训练集。本说明书对获取神经网络模型和训练集的方式不做任何限定。[0159]在获取神经网络模型和样本集之后,从训练集中提取一个样本对,然后将该样本对包含的样本词语和样本语句输入至特征提取子模型,由特征提取子模型确定对样本词语和样本语句进行特征提取,第一预测特征和样本语句的第二预测特征;然后将第一预测特征和第二预测特征输入至关联度计算子模型,由关联度计算子模型对第一预测特征和第二预测特征进行关联度计算,输出第一预测特征和第二预测特征的预测关联度。接着,根据预测关联度和该样本对携带的关联度标签,按照预设的第二损失函数,确定差异值,在未达到第二预设训练停止条件的情况下,根据差异值调整神经网络模型的模型参数,然后再次从训练集中提取一个样本对,进行下一轮训练;在达到第二预设训练停止条件的情况下,将训练好的神经网络模型确定为关联度分析模型。如此,通过多个样本对对神经网络模型进行训练,能够提高关联度分析模型确定语义关联度的准确性和速率,提高关联度分析模型的鲁棒性。[0160]参见图3b,图3b示出了本技术一实施例提供的一种关键句抽取方法中,确定文本相似度的处理流程图,以一个查询文档和一个候选文档为例进行说明:[0161]s1,先获取查询文档和候选文档关键词的第一关键句集,其中第一关键句集包括第三关键句集和第四关键句集。[0162]s1-1,获取查询文档和候选文档关键词的第三关键句集:利用textrank方法分别抽取查询文档和候选文档的关键词和关键句,分别生成查询文档和候选文档的第三关键句集;[0163]s1-2,然后获取查询文档和候选文档的第四关键句集:根据步骤s1-1生成的关键词,对应分别查找查询文档和候选文档中包含关键词的目标文本语句,确定查询文档的第四关键句集和候选文档的第四关键句集。[0164]s2,将查询文档的关键词和查询文档的每个文本语句输入关联度分析模型,获取查询文档的关键词语义关联度最高的第一预设数量的文本语句,作为查询文档的第二关键句集;同理得到候选文档的第二关键句集。[0165]s3,生成目标关键句集:分别将查询文档的第二关键句集、第三关键句集和第四关键句集求交集,得到查询文档的目标关键句集;同理得到候选文档的目标关键句集。[0166]s4,确定文本相似度:将查询文档的目标关键句集和候选文档的目标关键句集输入预训练的相似度分析模型,得到查询文档和候选文档的文本相似度。[0167]本技术提供的关键句抽取方法,获取目标文档,基于目标文档的文字内容,提取关键词和第一关键句集;提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,并根据第一语义特征和各第二语义特征,确定第二关键句集;根据第一关键句集和第二关键句集,确定目标关键句集。通过目标文档的文字内容来确定第一关键句集,保证了第一关键句集中的关键句携带了文本层面信息;通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,能够更精准地从语义层面确定关键句,也即保证了第一关键句集中的关键句携带了语义层面信息,进而根据第一关键句集和第二关键句集确定目标关键句集,可以使目标关键句中的关键句既包含文本层面信息又包含语义层面信息,也即提高了确定关键句的准确率。此外,基于本技术提供的关键句抽取方法,实现了自动化提取关键句,在保证关键句的准确率的同时,避免了花费大量的人力物力提取关键句,提高了关键句提取的效率,降低了关键句提取的成本。[0168]下述结合附图4以本技术提供的关键句抽取方法对文档召回应用为例,对所述关键句抽取方法进行进一步说明。其中,图4示出了本技术一实施例提供的一种应用于文档召回的关键句抽取方法的处理流程图,具体包括以下步骤:[0169]步骤402:获取查询文档和多个候选文档。[0170]步骤404:针对查询文档和多个候选文档中的任一文档,根据该文档的文字内容,利用基于文字内容的提取算法,提取该文档的关键词和第三关键句集。[0171]可选地,根据该文档的文字内容,利用基于文字内容的提取算法,提取该文档的关键词,包括:[0172]将该文档的文字内容进行分词和去停用词处理,得到多个候选词;[0173]根据预设滑动窗口,以各候选词为节点,并以各候选词之间的共现关系为边,构建词图;[0174]根据词图,迭代计算各候选词对应的第一初始权重,直至达到第一预设收敛条件,得到各候选词对应的第一目标权重;[0175]基于第一目标权重,从各候选词确定该文档的关键词。[0176]可选地,根据该文档的文字内容,利用基于文字内容的提取算法,提取该文档第三关键句集,包括:[0177]将该文档的文字内容进行分句处理,得到多个候选语句;[0178]以各候选语句为节点,并以各候选语句之间的语句相似度为边,构建句图;[0179]根据句图,迭代计算各候选语句对应的第二初始权重,直至达到第二预设收敛条件,得到各候选词对应的第二目标权重;[0180]基于第二目标权重,从各候选语句确定该文档的第三关键句集。[0181]步骤406:根据关键词,识别该文档中包含有关键词的目标文本语句,基于目标文本语句构建该文档的第四关键句集。[0182]步骤408:获取预训练的关联度分析模型,其中,关联度分析模型包括特征提取子模型和关联度计算子模型。[0183]可选地,获取预训练的关联度分析模型之前,还包括:[0184]获取预设的神经网络模型和训练集,其中,神经网络模型包括特征提取子模型和关联度计算子模型,训练集中包含多个携带关联度标签的样本对,样本对包括样本词语和样本语句;[0185]从训练集中提取任一样本对,将该样本对中的样本词语和样本语句输入至特征提取子模型,得到样本词语的第一预测特征和样本语句的第二预测特征;[0186]将第一预测特征和第二预测特征输入至关联度计算子模型,得到第一预测特征和第二预测特征的预测关联度;[0187]根据预测关联度和该样本对携带的关联度标签,确定差异值;[0188]根据差异值,调整特征提取子模型和关联度计算子模型的模型参数,继续执行从训练集中提取任一样本对的步骤,在达到第二预设训练停止条件的情况下,将训练好的神经网络模型确定为关联度分析模型。[0189]步骤410:将关键词和该文档中的各文本语句输入至特征提取子模型,得到关键词的第一语义特征和各文本语句的第二语义特征。[0190]步骤412:将第一语义特征和各第二语义特征输入至关联度计算子模型,得到第一语义特征与各第二语义特征的语义关联度。[0191]步骤414:根据语义关联度,从各文本语句中确定第二关键句集。[0192]步骤416:对第二关键句集、第三关键句集和第四关键句集求交集,获得该文档的目标关键句集。[0193]可选地,对第二关键句集、第三关键句集和第四关键句集求交集,获得该文档的目标关键句集,包括:[0194]确定初始关键句相对于第二关键句集的第一初始置信度、相对于第三关键句集的第二初始置信度和相对于第四关键句集的第三初始置信度,其中,初始关键句是指第二关键句集、第三关键句集和第四关键句中的任一关键句;[0195]根据第一初始置信度、第二初始置信度和第三初始置信度,确定初始关键句的目标置信度;[0196]基于目标置信度,从第二关键句集、第三关键句集和第四关键句集中确定目标关键句;[0197]基于目标关键句构建该文档的目标关键句集。[0198]步骤418:获取预训练的相似度分析模型,其中,相似度分析模型基于携带有相似度标签的样本语句集对训练得到。[0199]可选地,在获取预训练的相似度分析模型之前,还包括:[0200]获取预设的语言表征模型和样本集,其中,样本集中包含多个携带相似度标签的样本语句集对,样本语句集对包括第一样本语句集和第二样本语句集;[0201]从样本集中提取任一样本语句集对,将该样本语句集对中的第一样本语句集和第二样本语句集输入至语言表征模型,得到第一样本语句集和第二样本语句集的预测相似度;[0202]根据预测相似度和该样本语句集对携带的相似度标签,确定损失值;[0203]根据损失值,调整语言表征模型的模型参数,继续执行从样本集中提取任一样本语句集对的步骤,在达到第一预设训练停止条件的情况下,将训练好的语言表征模型确定为相似度分析模型。[0204]步骤420:将查询文档的目标关键句集和多个候选文档的目标关键句集输入至相似度分析模型,得到查询文档分别与各候选文档的文本相似度。[0205]步骤422:根据各文本相似度,从多个候选文档中召回查询文档的相似文档。[0206]本技术提供的关键句抽取方法,通过目标文档的文字内容来确定第一关键句集,保证了第一关键句集中的关键句携带了文本层面信息;通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,能够更精准地从语义层面确定关键句,也即保证了第一关键句集中的关键句携带了语义层面信息,进而根据第一关键句集和第二关键句集确定目标关键句集,可以使目标关键句中的关键句既包含文本层面信息又包含语义层面信息,也即提高了确定关键句的准确率。此外,基于本技术提供的关键句抽取方法,实现了自动化提取关键句,在保证关键句的准确率的同时,避免了花费大量的人力物力提取关键句,提高了关键句提取的效率,降低了关键句提取的成本。[0207]此外,与基于字符文本的相似度确定方法相比,本技术提供的关键句抽取方法通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,有效利用了语义信息,大大提高文本相似度的确定准确率;与基于传统机器学习的相似度确定方法相比,无需人工构建特征,同时通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,充分利用文本上下文语义信息;与基于文本截断深度学习的文本相似度方法相比,由于未抽取文档关键句从而实现截断,并未减弱文本关键信息缺失,进而提高相似文档召回的准确性。[0208]与上述方法实施例相对应,本技术还提供了关键句抽取装置实施例,图5示出了本技术一实施例提供的一种关键句抽取装置的结构示意图。如图5所示,该装置包括:[0209]第一获取模块502,被配置为获取目标文档,基于目标文档的文字内容,提取关键词和第一关键句集;[0210]第一确定模块504,被配置为提取关键词的第一语义特征和目标文档中各文本语句的第二语义特征,并根据第一语义特征和各第二语义特征,确定第二关键句集;[0211]第二确定模块506,被配置为根据第一关键句集和第二关键句集,确定目标关键句集。[0212]可选地,第一关键句集包括第三关键句集和第四关键句集;[0213]第一获取模块502,还被配置为:[0214]根据目标文档的文字内容,利用基于文字内容的提取算法,提取目标文档的关键词和第三关键句集;[0215]根据关键词,识别目标文档中包含有关键词的目标文本语句,基于目标文本语句构建目标文档的第四关键句集。[0216]可选地,第一获取模块502,还被配置为:[0217]将目标文档的文字内容进行分词和去停用词处理,得到多个候选词;[0218]根据预设滑动窗口,以各候选词为节点,并以各候选词之间的共现关系为边,构建词图;[0219]根据词图,迭代计算各候选词对应的第一初始权重,直至达到第一预设收敛条件,得到各候选词对应的第一目标权重;[0220]基于第一目标权重,从各候选词确定目标文档的关键词。[0221]可选地,第一获取模块502,还被配置为:[0222]将目标文档的文字内容进行分句处理,得到多个候选语句;[0223]以各候选语句为节点,并以各候选语句之间的语句相似度为边,构建句图;[0224]根据句图,迭代计算各候选语句对应的第二初始权重,直至达到第二预设收敛条件,得到各候选词对应的第二目标权重;[0225]基于第二目标权重,从各候选语句确定目标文档的第三关键句集。[0226]可选地,第二确定模块506,还被配置为:[0227]对第二关键句集、第三关键句集和第四关键句集求交集,获得目标关键句集。[0228]可选地,第二确定模块506,还被配置为:[0229]确定初始关键句相对于第二关键句集的第一初始置信度、相对于第三关键句集的第二初始置信度和相对于第四关键句集的第三初始置信度,其中,初始关键句是指第二关键句集、第三关键句集和第四关键句中的任一关键句;[0230]根据第一初始置信度、第二初始置信度和第三初始置信度,确定初始关键句的目标置信度;[0231]基于目标置信度,从第二关键句集、第三关键句集和第四关键句集中确定目标关键句;[0232]基于目标关键句构建目标关键句集。[0233]可选地,目标文档包括查询文档和多个候选文档;[0234]可选地,该装置还包括第三确定模块,被配置为:[0235]根据查询文档的目标关键句集和多个候选文档的目标关键句集,确定查询文档分别与各候选文档的文本相似度。[0236]可选地,该装置还包括召回模块,被配置为:[0237]根据各文本相似度,从多个候选文档中召回查询文档的相似文档。[0238]可选地,该装置还包括第二获取模块,被配置为:[0239]获取预训练的相似度分析模型,其中,相似度分析模型基于携带有相似度标签的样本语句集对训练得到;[0240]第三确定模块,还被配置为:[0241]将查询文档的目标关键句集和多个候选文档的目标关键句集输入至相似度分析模型,得到查询文档分别与各候选文档的文本相似度。[0242]可选地,该装置还包括第一训练模块,被配置为:[0243]获取预设的语言表征模型和样本集,其中,样本集中包含多个携带相似度标签的样本语句集对,样本语句集对包括第一样本语句集和第二样本语句集;[0244]从样本集中提取任一样本语句集对,将该样本语句集对中的第一样本语句集和第二样本语句集输入至语言表征模型,得到第一样本语句集和第二样本语句集的预测相似度;[0245]根据预测相似度和该样本语句集对携带的相似度标签,确定损失值;[0246]根据损失值,调整语言表征模型的模型参数,继续执行从样本集中提取任一样本语句集对的步骤,在达到第一预设训练停止条件的情况下,将训练好的语言表征模型确定为相似度分析模型。[0247]可选地,第一确定模块504,还被配置为:[0248]确定第一语义特征与各第二语义特征的语义关联度;[0249]根据语义关联度,从各文本语句中确定第二关键句集。[0250]可选地,该装置还包括第三获取模块,被配置为:[0251]获取预训练的关联度分析模型,其中,关联度分析模型包括特征提取子模型和关联度计算子模型;[0252]第一确定模块504,还被配置为:[0253]将关键词和目标文档中的各文本语句输入至特征提取子模型,得到关键词的第一语义特征和各文本语句的第二语义特征;[0254]将第一语义特征和各第二语义特征输入至关联度计算子模型,得到第一语义特征与各第二语义特征的语义关联度。[0255]可选地,该装置还包括第二训练模块,被配置为:[0256]获取预设的神经网络模型和训练集,其中,神经网络模型包括特征提取子模型和关联度计算子模型,训练集中包含多个携带关联度标签的样本对,样本对包括样本词语和样本语句;[0257]从训练集中提取任一样本对,将该样本对中的样本词语和样本语句输入至特征提取子模型,得到样本词语的第一预测特征和样本语句的第二预测特征;[0258]将第一预测特征和第二预测特征输入至关联度计算子模型,得到第一预测特征和第二预测特征的预测关联度;[0259]根据预测关联度和该样本对携带的关联度标签,确定差异值;[0260]根据差异值,调整特征提取子模型和关联度计算子模型的模型参数,继续执行从训练集中提取任一样本对的步骤,在达到第二预设训练停止条件的情况下,将训练好的神经网络模型确定为关联度分析模型。[0261]本技术提供的关键句抽取装置,通过目标文档的文字内容来确定第一关键句集,保证了第一关键句集中的关键句携带了文本层面信息;通过关键词的第一语义特征和目标文档中各文本语句的第二语义特征,确定第二关键句集,能够更精准地从语义层面确定关键句,也即保证了第一关键句集中的关键句携带了语义层面信息,进而根据第一关键句集和第二关键句集确定目标关键句集,可以使目标关键句中的关键句既包含文本层面信息又包含语义层面信息,也即提高了确定关键句的准确率。此外,基于本技术提供的关键句抽取方法,实现了自动化提取关键句,在保证关键句的准确率的同时,避免了花费大量的人力物力提取关键句,提高了关键句提取的效率,降低了关键句提取的成本。[0262]上述为本实施例的一种关键句抽取装置的示意性方案。需要说明的是,该关键句抽取装置的技术方案与上述的关键句抽取方法的技术方案属于同一构思,关键句抽取装置的技术方案未详细描述的细节内容,均可以参见上述关键句抽取方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。[0263]图6示出了根据本技术一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。[0264]计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。[0265]在本技术的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。[0266]计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备600还可以是移动式或静止式的服务器。[0267]其中,处理器620用于执行所述关键句抽取方法的计算机可执行指令。[0268]上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的关键句抽取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述关键句抽取方法的技术方案的描述。[0269]本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于关键句抽取方法。[0270]上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的关键句抽取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述关键句抽取方法的技术方案的描述。[0271]所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。[0272]本技术一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述关键句抽取方法的步骤。[0273]需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。[0274]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。[0275]以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属
技术领域
:技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献