信息比对方法、装置、电子设备及存储介质与流程

2022-11-13 13:10:53 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及智能搜索技术领域。

背景技术：

2.文件经年累月的累积加上不断完成的新文本，导致文件数量巨大。虽然可采用数据库来管理各种文件，通过模糊查询等查询方式也能够检索到相关文件。但如何从海量文件中筛选出期望的文件一直是需要改善的课题。

技术实现要素：

3.本公开提供了一种信息比对方法、装置、电子设备及存储介质。
4.根据本公开的第一方面，提供了一种信息比对方法，包括：
5.从参考文件的文本内容中提取多项文本信息，以及基于参考文件的元数据提取元数据特征；
6.分别提取各项文本信息的文本特征，并对各项文本信息的文本特征进行融合处理，得到综合文本特征；
7.基于元数据特征和综合文本特征，确定参考文件与待比对文件的相似度。
8.根据本公开的第二方面，提供了一种信息比对装置，包括：
9.获取模块，用于从参考文件的文本内容中提取多项文本信息，以及基于参考文件的元数据提取元数据特征；
10.提取模块，用于分别提取各项文本信息的文本特征，并对各项文本信息的文本特征进行融合处理，得到综合文本特征；
11.比对模块，用于基于元数据特征和综合文本特征，确定参考文件与待比对文件的相似度。
12.根据本公开的第三方面，提供了一种电子设备，包括：
13.至少一个处理器；以及
14.与该至少一个处理器通信连接的存储器；其中，
15.该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行前述第一方面的方法。
16.根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行前述第一方面的方法。
17.根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述第一方面的方法。
18.本实施例提供的方案，从参考文件中提取多项文本信息，并分别从每项文本信息中提取出文本特征，有利于单独提炼每项文本信息独立表达的思想特征。结合多个文本特征，得到的综合文本特征能够代表参考文件的整体文本特征。进一步结合了参考文件的元数据特征，能够从多个维度实现对参考文件的特征描述，进而能够提高文件相似度的准确
性。
19.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
20.附图用于更好地理解本方案，不构成对本公开的限定。其中：
21.图1是本公开一实施例的信息比对方法的流程示意图；
22.图2是本公开另一实施例的信息比对方法的另一流程示意图；
23.图3是本公开一实施例的信息比对方法中提取文本特征的模型结构示意图；
24.图4是本公开另一实施例的信息比对方法的另一流程示意图；
25.图5是本公开另一实施例的信息比对方法中提取文本特征的另一模型结构示意图；
26.图6是本公开另一实施例的信息比对方法的另一流程示意图；
27.图7是本公开另一实施例的信息比对方法的另一流程示意图；
28.图8是本公开一实施例的信息比对方法中提取综合文本特征的模型结构示意图；
29.图9是本公开另一实施例的信息比对方法中提取综合文本特征的另一模型结构示意图；
30.图10是本公开另一实施例的信息比对方法中提取综合文本特征和元数据特征的模型结构示意图；
31.图11是根据本公开一实施例的信息比对装置的一种组成结构示意图；
32.图12是根据本公开另一实施例的信息比对装置的另一种组成结构示意图；
33.图13是用来实现本公开实施例的信息比对方法的电子设备的框图。
具体实施方式
34.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
35.本公开的说明书实施例和权利要求书的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
36.本公开实施例提供一种信息比对方法，如图1所示为该方法的流程示意图，包括以下步骤：
37.s101，从参考文件的文本内容中提取多项文本信息，以及基于参考文件的元数据提取元数据特征。
38.s102，分别提取各项文本信息的文本特征，并对各项文本信息的文本特征进行融合处理，得到综合文本特征。
39.以专利申请文件为例，多项文本信息可包括以下至少两种：摘要、标题、权利要求书和技术效果说明。摘要能够反映专利申请文件的核心发明点以及完成对技术方案的概述；专利申请文件的标题是对专利申请文件所涉及内容的主题总结；权利要求书能够简洁、直接的表达出专利申请的核心方案，而技术效果说明能够深入的说明实施方案所带来的技术效果。以上各项文本信息均能够反映专利申请文件的核心内容，因此，采用以上至少一项文本信息能够提炼出专利申请文件的核心思想，以便于准确检索到专利申请文件的相似专利。
40.此外，针对其他类型的文件，例如论文、期刊、杂志、小说等，一般都会有摘要、标题。对于其他类型的文件，多项文本信息可选择摘要和/或标题。亦或者根据实际的需求，例如根据期刊的模板要求，选择合适的多项文本信息，本公开实施例对此不作限定。
41.s103，基于元数据特征和综合文本特征，确定参考文件与待比对文件的相似度。
42.本公开实施例中，从参考文件中提取多项文本信息，并分别从每项文本信息中提取出文本特征，有利于单独提炼每项文本信息独立表达的思想特征。然后结合每项文本信息的文本特征，得到参考文件的综合文本特征，使得综合文本特征包含各项文本信息独立表述的思想特征的同时，又能够代表参考文件的整体文本特征。本公开实施例，进一步结合了参考文件的元数据特征，能够从多个维度实现对参考文件的特征描述。在和待比对文件进行比对时，基于多个维度的特征描述，能够准确的描述参考文件和待比对文件之间的相似度。
43.在一些实施例中，为了能够更好的提取出参考文件的文本特征，本公开实施例在分别提取各项文本信息的文本特征时，可针对每项文本信息分别执行如图2所示的操作，包括：
44.s201，采用文本信息对应的第一语言模型提取文本信息的初始文本特征。
45.本公开实施例中，语言模型可选择预训练好的bert(bidirectional encoder representation from transformers，基于转换器的双向编码表征)模型。也可以选择roberta(a robustly optimized bert pretraining approach，一种鲁棒优化的bert预训练方法)模型、还可以选择nezha(哪吒)即一种基于bert的中文预训练语言模型等，具体可以根据实际需求确定，本公开实施例对此不做限定。
46.s202，将文本信息的初始文本特征输入文本信息对应的第一全连接层，得到第一全连接层输出的文本信息的文本特征。
47.从参考文件提取多项文本信息之后，每项文本信息为一段文本序列，实施时得到的文本序列中可包含标点符号也可以剔除标点符号，本公开实施例对此不作限定。例如，对于偏重文学的文件可能需要表达情感，则保留标点符号在文本序列中，而专利申请文件比较偏重技术方案，可剔除标点符号。
48.得到每个文本信息的文本序列之后，可以将文本序列中每个字符转换为词向量，得到文本序列的词向量表示。实施时，可通过word embedding(词嵌入)技术，比如fasttext(快速的文本分类器)、word2vec(词到向量)等实现将文本序列转换为词向量表示。
49.然后将文本序列的词向量表示分别输入各自的bert(即第一语言模型)提取出各项文本信息的初始文本特征。如图3所示，假设从参考文件提取的多项文本信息包括文本项1、文本项2和文本项3，则每个文本项的词向量表示分别输入各自对应的bert模型，得到初
始文本特征，然后经由fc(fully connected layers，全连接层)(即第一全连接层)处理后输出各项文本信息的文本特征。
50.本公开实施例中，每项文本信息分别对应有各自的第一语言模型，并行采用多个语言模型提取各项文本信息的初始文本特征，能够提高初始文本特征的提取效率。然后，将初始文本特征输入全连接层得到文本特征。其中，由于全连接层的每一个节点都与上一层的所有节点相连，能够将语言模型提取到的特征综合起来。将语言模型提取的初始文本特征经由全连接层处理，全连接层可起到“分类器”的作用，全连接层也起到将语言模型学到的“分布式特征表示”映射到其他特征空间的作用，使得语言模型提取的特征能够进一步得到升华转化为能够区别于其他文件的特征，且能够保证相似特征的一致性。由此，本公开实施例，基于语言模型和全连接层，能够提取出用于文本比对的准确特征，以提高文件比对的准确性。
51.在一些实施例中，可能有些文本项(即文本信息)比较复杂。例如专利申请文件中的摘要包括一个段落，标题也包括一个段落，而权利要求书中包括多条权利要求，本公开实施例中每条权利要求视为一个段落，显然权利要求书的内容更为复杂。有鉴于此，本公开实施例中可定义包括多个段落的文本信息为复杂文本项。针对复杂文本项，由于每个段落会单独表达一个内容，如权利要求书中每条权利要求单独表达一个内容，因此可对复杂文本项的每个段落分别处理，以期望获得复杂文本项的全面的特征表述。本公开实施例中，对包含单个段落的文本信息可采用如图2和图3所描述的方式提取出文本特征，对复杂文本项除了可采用图2和图3描述的方式提取出文本特征之外，本公开实施例中还提供了如图4所示的方式提取复杂文本项的文本特征，包括以下步骤：
52.s401，基于复杂文本项对应的第二语言模型，分别提取复杂文本项中各段文本的子文本特征。
53.s402，对各段文本的子文本特征进行降维处理，得到复杂文本项的降维特征。
54.s403，将复杂文本项的降维特征输入复杂文本项对应的第二全连接层，得到第二全连接层输出的复杂文本项的文本特征。
55.在图3的基础上，提取复杂文本项的文本特征的操作如图5所示。在图5中，假设文本项3为复杂文本项，则复杂文本项中的每段文本分别对应一段文本序列，每段文本序列经过词嵌入技术，得到词向量表示。复杂文本项的词向量表示构成一个多维矩阵，输入到bert模型中得到每个段落的初始文本特征。
56.由于复杂文本项的初始文本特征较多，为了避免侧重于复杂文本项的文本特征而轻视了段落较少的文本项的文本特征，本公开实施例中对复杂文本项的多个段落的文本特征进行降维处理。此外，通过降维处理还能够进一步提取复杂文本项的文本特征的深层次特征，以提高参考文件和待比对文件的比对结果的准确性。
57.本公开实例中降维的方式可选择如图5所示的avg(word averaging)模型对每段文本的初始文本特征求均值，实现特征降维。
58.在其他实施例中，还可以选择线性降维方法如子集选择、主成分分析等方法进行降维。
59.以上介绍了如何提取各项文本信息的文本特征，下面就如何对各项文本信息的文本特征进行融合处理，得到综合文本特征进行说明。
60.一种可能的实施方式，可基于层次注意力(attention)机制处理各项文本信息的文本特征，得到综合文本特征。由此，基于层次注意力机制能够关注重点的特征，使得得到的综合文本特征更加适用于信息比对，提高信息比对的准确性。
61.在另一种实施方式中，还可以基于层次注意力机制处理各项文本信息的文本特征，得到参考文件的语义特征。之后，将语义特征与至少一项文本信息的文本特征进行拼接，得到综合文本特征。本公开实施例中，层次注意力机制能够帮助提取参考文件的深层语义特征。采用语义特征和其他文本信息的文本特征进行拼接，使得综合文本特征既能够表达参考文件的语义还能综合其他文本特征，由此能够从多个维度综合描述参考文件的特征，提高文本对比的准确性。
62.在一些实施例中，基于层次注意力机制处理各项文本信息的文本特征，得到综合文本特征，可实施为如图6所示：
63.s601，确定多项文本信息中包含多个段落的复杂文本项，并确定多项文本信息中除复杂文本项之外的文本信息为简单文本信息；
64.s602，基于复杂文本项，确定层次注意力机制的键特征、值特征和查询特征；其中，复杂文本项的文本特征中每个段落的子文本特征为键特征和值特征，简单文本信息的文本特征为查询特征；
65.s603，基于键特征、值特征和查询特征确定复杂文本项的优化文本特征；
66.s604，将复杂文本项的优化文本特征和简单文本项的文本特征进行拼接处理，得到综合文本特征。
67.亦可理解为，以复杂文本项的文本特征中每个段落的子文本特征为层次注意力机制的键特征和值特征，以每个简单文本信息的文本特征分别为查询特征，得到各简单文本信息分别对应的子语义特征(亦可理解为前文语义特征中的子语义特征)；基于子语义特征，确定复杂文本项的优化文本特征。
68.以专利申请文件为例，提取的多项文本信息包括标题、摘要和权利要求书。标题的文本特征为query向量(即查询特征)，权利要求书的文本表征中的每条权利要求的子文本特征分别为key向量(即键特征)和value向量(即值特征)。其中，为权利要求书中第i条权利要求的子文本特征，权利要求总数为s。其中，每条权利要求可视为一个段落。
69.通过query向量、key向量和value向量计算attention权重，然后对权利要求书中各子文本特征进行加权求和，计算过程如式(1)所示：
[0070][0071]
其中，为的attention权重；
[0072]
用来度量标题与权利要求项的相似度，可以选择点乘、余弦相似度等方式进行计算；query向量、key向量和value向量的维度均为dk，因此√dk为预设的超参数。
[0073]
同理，还可以摘要为query向量，以多条权利要求为query向量，以多条权利要求为key向量和value向量，通过query向量、key向量和value向量计算attention权重，然后对权利要求进行加权求和，计算过程如式(2)所示：
[0074][0075]
其中为的attention权重；
[0076]
用来度量标题与权利要求项的相似度，可以选择点乘、余弦相似度等方式进行计算，√dk为预设的超参数。
[0077]
之后，将得到的以标题和以摘要为query的子语义特征求平均值，得到参考文件的语义特征，记作计算过程如式(3)所示：
[0078][0079]
综上，本公开实施例中，对复杂文本项能够考虑其中每个段落的传达的内容差异，以每个段落的子文本特征为基准，采用其他文本信息的文本特征得到子语义特征，从而使得提取的子语义的特征更能够关注到关键特征。基于子语义特征得到参考文件的语义特征能够全面描述复杂文本项传达的信息特点，提高语义特征提取的准确性。
[0080]
进一步的，仍以专利申请文件为例，将标题、摘要的文本表征和语义特征三种表征进行拼接得到拼接表征，拼接特征可表示为然后经过全连接层处理拼接表征，得到参考文件的综合文本特征，通过全连接层处理拼接特征的处理过程可表示为公式(4)所示：
[0081][0082]
其中，wo和bo为全连接层的参数。
[0083]
在一些实施例中，语义特征可以和摘要的文本特征进行拼接，也可以单独和标题的文本特征进行拼接，当然也可以和摘要、标题、权利要求书的文本特征进行拼接。也即本公开实施例中，语义特征可以和多项文本信息的部分文本信息的文本特征进行拼接，也可以和所有文本信息的文本特征进行拼接，本公开实施例对此不作限定。
[0084]
在一些实施例中，除了采用层次注意力机制得到综合文本特征之外，还可以对各项文本信息的文本特征进行拼接处理，得到综合文本特征。拼接处理简单易操作，能够得到综合文本特征的同时，提高提取综合文本特征的效率。
[0085]
本公开实施例中，分别提取各项文本信息的文本特征，并对各项文本信息的文本特征进行融合处理，得到综合文本特征，可基于综合文本特征网络模型来实现，也即，通过综合文本特征网络模型得到各项文本信息的文本特征，并进行融合得到综合文本特征。
[0086]
综合文本特征网络模型能够利用人工智能技术挖掘出参考文件的文本特征，以提高参考文件和待比对文件的比对结果的准确性。
[0087]
综合文本特征网络模型可以采用前述层次注意力机制得到综合文本特征，也可以基于前述的对各项文本信息的文本特征进行拼接的方式得到综合文本特征。无论采用何种方式，本公开实施例均可以采用如下方法训练综合文本特征网络模型，如图7所示，包括以下步骤：
[0088]
s701，从同一文件中提取多项文本信息，构建正样本，并从不同文件中提取多项文本信息，构建负样本。
[0089]
例如，多项文本信息包括标题、摘要和权利要求书。若这三项文本信息均来自同一专利申请文件，则为正样本，若其中至少一项文本信息来自其他文件则为负样本。例如，从专利申请文件a中提取了标题、摘要和权利要求书这三项文本信息，构建了一个正样本。从专利申请文件a中提取了标题和摘要，但从专利申请文件b中提取了权利要求书，则这三项文本信息构建为负样本。
[0090]
s702，将正样本和负样本分别输入初始文本特征网络，得到初始文本特征网络输出的正样本的综合文本特征、和负样本的综合文本特征。
[0091]
s703，采用分类器对正样本的综合文本特征和负样本的综合文本特征分别进行分类处理，得到分类处理结果，其中，分类器的分类类别包括正样本和负样本。
[0092]
s704，基于分类处理结果、正样本的类别标签和负样本的类别标签，确定分类损失值。
[0093]
本公开实施例中，将正负样本输入至分类器进行判别预测得到正负样本的分类处理结果，损失函数可以采用常用的交叉熵损失函数。
[0094]
s705，基于分类损失值，调整初始文本特征网络的模型参数，得到综合文本特征网络模型。
[0095]
本公开实施例中，训练样本无需人工标注提高样本获取的效率。且采用分类模型结合正样本和负样本进行训练，训练时只需要分类出正负样本即可，模型训练方式简单易行，且训练效率高，能够尽快得到收敛的综合文本特征网络模型。
[0096]
下面分别对拼接文本特征得到综合文本特征，和以层次注意力机制得到综合文本特征的两种综合文本特征网络模型结构分别进行说明。
[0097]
如图8所示，为以拼接文本特征得到综合文本特征的综合文本特征网络模型的结构示意图，在图8中该网络模型包括语言模型(bert)、全连接层(fc)、降维层和拼接层。
[0098]
以专利申请文件为例，从专利申请文本中提取标题、摘要和权利要求书的文本序列，其中权利要求书中每条权利要求视为一个段落，从每条权利要求中分别提取文本序列。定义标题的文本序列的词向量表示为定义标题的文本序列的词向量表示为摘要的词向量表式为权利要求书的词向量表式为其中l为词序列长度、s为权利要求的数量；
[0099]
如图8所示，各项文本信息的词向量表示分别经过各自的语言模型处理后再经过各自的全连接层，得到标题的文本特征摘要的文本特征以及权利要求书的文本特征图8中，权利要求书中以各条权利要求为单位分别经过语言模型提取特征后，所有权
利要求的特征经过avg降维层进行降维处理再输入全连接层fc。
[0100]
经全连接层的处理的过程如式(5)所示：
[0101][0102]
在式(5)中，w
t
、b
t
、wa、ba、wc、bc分别为各个全连接层需要训练的参数；表示标题中第i个词向量经由bert模型处理之后得到的结果；l
t
表示标题中文本序列的长度；同理，表示摘要中第i个词向量经由bert模型处理之后得到的结果；la表示摘要中文本序列的长度；表示权利要求书中第i项权利要求的词向量经由bert模型处理之后得到的结果；表示权利要求书中权利要求项的项数。
[0103]
最后，标题的文本特征摘要的文本特征以及权利要求书的文本特征经由拼接层concat拼接得到综合文本特征
[0104]
如图9所示，为以层次注意力机制得到综合文本特征的综合文本特征网络模型的结构示意图，在图9中该网络模型包括语言模型(bert)、第三全连接层(fc)、层次注意力机制网络、拼接层和第四全连接层。
[0105]
以专利申请文件为例，从专利申请文本中提取标题、摘要和权利要求书的文本序列。其中权利要求书中每条权利要求视为一个段落分别提取文本序列；定义标题的文本序列的词向量表示为摘要的词向量表示为权利要求书的词向量表示为权利要求书的词向量表示为其中l为词序列长度、s为权利要求的数量。
[0106]
分别经过各自的语言模型处理后再经过第一全连接层，得到标题的文本特征摘要的文本特征以及权利要求书的文本特征
[0107]
各项文本信息经由各自的第三全连接层的处理的过程如式(5)所示，此处不在赘述。需要说明的是图9中可不对权利要求书的特征进行降维处理。
[0108]
然后以标题的为query向量，以权利要求的为key向量和value向量，通过层次注意力机制网络(图9中的attention)，得到第一子语义特征。
[0109]
同理，以摘要的为query向量，以权利要求的为key向量和value向量，通过层次注意力机制网络(图9中的attention)，得到第二子语义特征。
[0110]
然后将第一子语义特征和第二子语义特征求均值得到语义特征最后，将语义
特征标题的文本特征以及摘要的文本特征经由concat层处理，再经由第四全连接层处理后得到综合文本特征
[0111]
在图9的基础上，综合文本特征可以和参考文件的元数据特征进行融合，得到参考文件的特征表示。图10中示出了用于提取元数据特征的引用表征网络的示意图。本公开实施例中可定义专利嵌入网络，专利嵌入网络包括综合文本特征网络模型用于提取综合文本特征，还包括引用表征网络用于提取元数据特征。
[0112]
为便于理解，下面参照图10对如何得到引用表征网络进行说明。
[0113]
本公开实施例中，首先从参考文件中提取元数据，以专利申请文件为例，元数据内容如表1所示。需要说明的是，表1仅用于举例说明本公开实施例，而非限定本公开实施例。
[0114]
表1
[0115][0116][0117]
其中，前向引用趋势可基于近几年的专利a的前向引用情况确定。例如2017年，前向引用数量为a，2018年前向引用数据为b。则可以基于这几年的前向引用数量来表示前向引用趋势。
[0118]
得到元数据后，建立引用表征网络f，引用表征网络f中每个节点为一个文件，每个节点的属性表征为该文件的元数据。
[0119]
引用网络g＝{v,e,x}，其中，v＝{vk|k＝1,2,
…
,n}表示所有的文件节点，表示文件节点之间的引用关系，x＝{xk|k∈s
p
}表示文件节点的元数据。如果文件节点引用了文件节点那么可以观测到一条边
这条边就表示了文件节点之间的引用关系，具有引用关系的节点成为邻居节点。之后，通过网络嵌入学习，将高维的非结构化的引用表征网络的节点的属性表征转换为低维的表征，从而实现对文件特征更精准的刻画。
[0120]
以专利申请文件为例，首先整合所有专利申请文件的属性表征，形成属性矩阵其中n为专利申请文件的个数，dm为每个节点的属性表征的维度。属性矩阵xm的第k行记为xk，代表专利k的属性表征。
[0121]
按照随机游走策略，以专利引用网络g中的每一个节点为根节点，对其邻居节点进行随机采样，可以产生不同的路径如：
[0122]
《root,neighborhood1,neighborhood2,
…
》
[0123]
对于上述每一条路径，称之为专利k的邻居节点集合亦称之为专利k的情境信息，情境信息表达式如式(6)所示：
[0124]
context(vk)＝{v
k-s
,
…
,v
k s
}\{vk}
ꢀꢀꢀ
(6)
[0125]
式(6)表示提取到的专利k的情境信息中需要排除k自身；s用于限制情境信息的长度。
[0126]
之后，通过最大化以下条件概率(如式(7)所示)，训练得到引用表征网络f，式(7)表达了以邻居节点推测k为中心节点的概率：
[0127][0128]
其中，元素值域j表示k的邻居节点；和分别代表专利k经由引用表征网络f输出的元数据特征和情境信息经由引用表征网络f输出的元数据特征，定义为如式(8)所示：
[0129][0130]
其中，表示专利k的情境信息中邻居节点j经由引用表征网络f输出的元数据特征。
[0131]
为了将专利节点的xm嵌入到网络学习过程中，定义引用表征网络嵌入到网络学习过程中，定义引用表征网络针对每一个专利k，其属性表征的转换过程为
[0132]
训练引用表征网络f时，本公开实施例中，专利节点k的非相邻节点作为专利节点k的负样本。通过负采样策略近似目标函数，进行参数优化，目标函数如式(9)所示：
[0133][0134]
其中，式9中σ()函数的参数用x简化表示，σ(x)＝1/(1 exp(-x))为sigmoid函数，neg为针对每一个正样本k所采样的负样本的数量，e为数学期望，pn(v)
∝dv3/4
为layer负样本节点的噪声分布，dv表示节点v的出度。
[0135]
引用表征网络训练完以后，针对每一个专利k，输入其属性矩阵，即可获得其元数
据特征
[0136]
如图10所示，引用表征网络的输入层(input layer)输入了专利引用网络，其中以节点k为中心。从专利引用网络中通过序列生成提取节点k的情境信息和属性表征情境信息和属性表征输入引用表征网络f用于训练引用表征网络。训练好的引用表征网络能够基于专利k的属性表征和情境信息得到专利k的元数据特征。图10中引用表征网络，用于将属性矩阵通过嵌入学习投射(projection)到元数据特征的特征空间。引用表征网络提取的元数据特征和综合文本特征网络模型提取的综合文本特征在融合层(fusion layer)先经过concat层进行拼接，然后交由全连接层fc处理后，得到专利申请文件的比对特征，该比对特征可以和其他文件的比对特征计算相似度。从而能够查询到专利申请文件的相似专利。
[0137]
基于相同的技术构思，本公开实施例，还提供一种信息比对装置，如图11所示，包括：
[0138]
获取模块1101，用于从参考文件的文本内容中提取多项文本信息，以及基于参考文件的元数据提取元数据特征；
[0139]
提取模块1102，用于分别提取各项文本信息的文本特征，并对各项文本信息的文本特征进行融合处理，得到综合文本特征；
[0140]
比对模块1103，用于基于元数据特征和综合文本特征，确定参考文件与待比对文件的相似度。
[0141]
在一些实施例中，在图11的基础上，如图12所示，提取模块1102，用于基于层次注意力机制处理各项文本信息的文本特征，得到综合文本特征。
[0142]
在一些实施例中，在图11基础上，如图12所示，提取模块1102包括：
[0143]
文本项确定单元1201，用于确定多项文本信息中包含多个段落的复杂文本项，并确定多项文本信息中除复杂文本项之外的文本信息为简单文本信息；
[0144]
特征确定单元1202，用于基于复杂文本项，确定层次注意力机制的键特征、值特征和查询特征；其中，复杂文本项的文本特征中每个段落的子文本特征为键特征和值特征，简单文本信息的文本特征为查询特征；
[0145]
特征优化单元1203，用于基于键特征、值特征和查询特征确定复杂文本项的优化文本特征；
[0146]
拼接单元1204，用于将复杂文本项的优化文本特征和简单文本项的文本特征进行拼接处理，得到综合文本特征。
[0147]
在一些实施例中，提取模块1102，用于对各项文本信息的文本特征进行拼接处理，得到综合文本特征。
[0148]
在一些实施例中，提取模块1102，用于针对每项文本信息分别执行以下操作：
[0149]
采用文本信息对应的第一语言模型提取文本信息的初始文本特征；
[0150]
将文本信息的初始文本特征输入文本信息对应的第一全连接层，得到第一全连接层输出的文本信息的文本特征。
[0151]
在一些实施例中，针对多项文本信息中包含多个段落的复杂文本项，提取模块1102，基于以下方法提取复杂文本项的文本特征：
[0152]
基于复杂文本项对应的第二语言模型，分别提取复杂文本项中各段文本的子文本特征；
[0153]
对各段文本的子文本特征进行降维处理，得到复杂文本项的降维特征；
[0154]
将复杂文本项的降维特征输入复杂文本项对应的第二全连接层，得到第二全连接层输出的复杂文本项的文本特征。
[0155]
在一些实施例中，提取模块1102，用于基于综合文本特征网络模型，分别提取各项文本信息的文本特征，并对各项文本信息的文本特征进行融合处理，得到综合文本特征。
[0156]
在一些实施例中，还包括训练模块1203，用于基于以下方法训练得到综合文本特征网络模型：
[0157]
从同一文件中提取多项文本信息，构建正样本，并从不同文件中提取多项文本信息，构建负样本；
[0158]
将正样本和负样本分别输入初始文本特征网络，得到初始文本特征网络输出的正样本的综合文本特征、和负样本的综合文本特征；
[0159]
采用分类器对正样本的综合文本特征和负样本的综合文本特征分别进行分类处理，得到分类处理结果，其中，分类器的分类类别包括正样本和负样本；
[0160]
基于分类处理结果、正样本的类别标签和负样本的类别标签，确定分类损失值；
[0161]
基于分类损失值，调整初始文本特征网络的模型参数，得到综合文本特征网络模型。本公开实施例中在第一排序值的基础上，进一步利用用户对同类别的参考推荐信息的调整参数对第一排序值进行调整，从而实现基于同类别信息来调整第一排序值，从而提高排序的准确性。
[0162]
根据本公开的另一实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0163]
图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0164]
如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器(rom)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(ram)1303中的计算机程序，来执行各种适当的动作和处理。在ram 1303中，还可存储电子设备1300操作所需的各种程序和数据。计算单元1301、rom1302以及ram 1303通过总线1304彼此相连。输入/输出(i/o)接口1305也连接至总线1304。
[0165]
电子设备1300中的多个部件连接至i/o接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0166]
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的
人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的信息比对方法。在一些实施例中，信息比对方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由rom1302和/或通信单元1309而被载入和/或安装到电子设备1300上。当计算机程序加载到ram 1303并由计算单元1301执行时，可以执行信息比对方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息比对方法。
[0167]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0168]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0169]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0170]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
[0171]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0172]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0173]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0174]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

信息比对方法、装置、电子设备及存储介质与流程

相关文献

最热文献