一种基于DIKW的专利内容检索方法及系统与流程

2021-10-24 05:45:00 来源：中国专利 TAG：检索专利方法内容系统

一种基于dikw的专利内容检索方法及系统
技术领域
1.本发明涉及检索技术领域，尤其涉及一种基于dikw的专利内容检索方法及系统。

背景技术：

2.在专利申请过程中，对专利进行检索是一项必须要进行的工作。例如当申请人想要就某一技术方案申请专利时，需要对现有技术进行检索，以判断该技术方案是否具备新颖性和创造性；当专利处于审查过程中时，审查员对专利是否具有新颖性或创造性进行审查时，也需要对现有技术进行检索。因此专利检索在专利申请到授权整个周期内都是极其重要的。传统的检索都是通过搜索引擎技术根据用户的查询要求快速检索和排序网页资源。但是网络资源是极其庞大的，传统的搜索引擎无法独自完成对海量资源的筛选工作，仍然需要人的参与排查，导致专利检索工作效率低下。

技术实现要素：

3.鉴以此，本发明的目的在于提供一种基于dikw的专利内容检索方法及系统，以至少解决以上问题。
4.一种基于dikw的专利内容检索方法，所述方法包括以下步骤：
5.s1:根据用户搜索的需求确定搜索目标集合，所述目标集合包括资源类型和资源总量(|initial_res|)；
6.s2:计算在dikw图谱各层上的搜索资源代价(searchcost)；
7.s3:计算在dikw各层图谱上搜索目标资源的效率(searchefficiency)；
8.s4:根据搜索资源代价和搜索目标资源效率综合排序，确定要优先遍历的资源处理架构。
9.进一步的，在步骤s2中计算在dikw图谱各层上的搜索资源代价(searchcost)，计算公式如下：
10.searchcost＝(λ*α*scale(graph
dik
) (1
‑
λ)*β*reasoningcost)*|initial_res|
11.reasoningcost＝n
cost
e
cost
12.其中scale表示图谱的规模，即节点数和边的个数，graph
dik
代表dikw图谱中的dikw资源,reasoningcost表示知识推理代价，λ表示图谱上存在答案的概率，α和β表示直接搜索代价和推理代价占搜索代价的权重，n
cost
和e
cost
分别表示推理出新节点和新关系的代价。
13.进一步的，在步骤s3中计算在dikw各层图谱上搜索目标资源的效率(searchefficiency)，计算公式如下：
[0014][0015]
其中resource表示在该层图谱上搜索到的资源量。
[0016]
进一步的，服务器将用户搜索的需求进行建模，并分别计算具有正趋势的资源权
重weight
p
和负趋势的资源权重weight
n
,计算公式如下：
[0017][0018][0019]
其中resource
p
代表正资源量，resource
n
代表负资源量，resource
t
代表所有资源的总量。
[0020]
进一步的，根据得到的正负双向资源所在权重分配用户投入，确定正向和反向搜索分别要花费的时间和金钱，进而确定正负双向搜索分别要递进搜索的次数，计算公式如下：
[0021]
t
(p/n)
＝t*weight
(p/n)
[0022]
m
(p/n)
＝m*weight
(p/n)
[0023]
其中t
(p/n)
表示正向与反向搜索分别要花费的时间，m
(p/n)
表示正向与反向搜索分别要花费的金钱，weight
(p/n)
表示正负双向资源所占权重，p/n表示正或反。
[0024]
进一步的，计算渐进式搜索的时间，计算公式如下：
[0025][0026]
其中，t表示用户的预期等待时间，s_times表示由用户投资决定的渐进式搜索时间，s_items表示每次搜索的项目数量，pert_item表示每个项目的搜索时间。
[0027]
进一步的，计算资源的信息熵范围为0到1，越大，置信度越低，越小，置信度越高，计算公式如下：
[0028][0029]
其中表示根据逐步搜索中的某个因素在时间t
k
中获得的资源的熵，p
i
表示每种类型答案的概率，entropy表示根据一定的相关因子进行渐进式搜索时，不同条件下资源的加权平均熵；
[0030]
计算拥有相同趋势的所有资源的总熵entropy,计算公式如下：
[0031][0032]
计算资源的时效性timeliness，计算公式如下：
[0033][0034]
计算资源的置信度confidence，计算公式如下：
[0035][0036]
进一步的，根据获得的资源计算出的置信度，判断双向资源置信度的正负比是否大于阈值t或小于1/t；如果满足阈值条件，则以高置信度将搜索结果返回给用户，否则，继续分配用户的投资，以继续进行渐进式搜索。
[0037]
相应的，本发明还公开了一种基于dikw的专利内容检索系统，包括服务器，所述服务器包括
[0038]
一个或多个处理器；
[0039]
存储装置，其上存储有一个或多个程序；
[0040]
当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1
‑
8任一项所述的基于dikw的专利智能检索方法。
[0041]
与现有技术相比，本发明的有益效果是：
[0042]
本发明提供一种基于dikw的专利内容检索方法及系统，通过计算资源在dikw图谱各层上的搜索代价，然后通过比较排序，选择代价最低的图谱进行遍历，最终实现搜索载体的优化，快速找到相对应的专利检索文件。
附图说明
[0043]
为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0044]
图1是本发明实施例的搜索载体优化步骤流程图。
[0045]
图2是本发明实施例的正负双向策略将搜索构建为服务的流程图。
具体实施方式
[0046]
以下结合附图对本发明的原理和特征进行描述，所列举实施例只用于解释本发明，并非用于限定本发明的范围。
[0047]
参照图1，本发明提供一种基于dikw的专利内容检索方法，所述方法包括以下步骤：
[0048]
s1:根据用户搜索的需求确定搜索目标集合，所述目标集合包括资源类型和资源总量(|initial_res|)；
[0049]
s2:计算在dikw图谱各层上的搜索资源代价(searchcost)；
[0050]
s3:计算在dikw各层图谱上搜索目标资源的效率(searchefficiency)；
[0051]
s4:根据搜索资源代价和搜索目标资源效率综合排序，确定要优先遍历的资源处理架构。
[0052]
在步骤s2中计算在dikw图谱各层上的搜索资源代价(searchcost)，计n
cost
算公式如下：
[0053]
searchcost＝(λ*α*scale(graph
dik
) (1
‑
λ)*β*reasoningcost)*|initial_res|
[0054]
reasoningcost＝n
cost
e
cost
[0055]
其中scale表示图谱的规模，即节点数和边的个数，graph
dik
代表dikw图谱中的dikw资源,reasoningcost表示知识推理代价，λ表示图谱上存在答案的概率，α和β表示直接搜索代价和推理代价占搜索代价的权重，和e
cost
分别表示推理出新节点和新关系的代价。
[0056]
在步骤s3中计算在dikw各层图谱上搜索目标资源的效率(searchefficiency)，计算公式如下：
[0057][0058]
其中resource表示在该层图谱上搜索到的资源量。
[0059]
通过上述步骤可以计算出资源处理架构的搜索资源代价和搜索目标资源效率，筛选出搜索资源代价小和搜索目标资源效率高的资源处理架构，则依据该数值以此对资源处理架构进行优先遍历进而得到更优的检索结果。
[0060]
所述资源类型包括数据类型、信息类型和知识类型，所述dikw图谱包括数据图谱、信息图谱和知识图谱，通过对数据类型归集为数据图谱，信息类型归集为信息图谱和知识类型归集为知识图谱，可以精准的确定用户的搜索内容，方便对资源进行管理。
[0061]
所述资源处理架构为数据图谱、信息图谱和知识图谱中的一种，dikw图谱由服务器根据国知局专利数据库中的所有内容建立，目标资源可以理解为用户根据自身需要进行搜索的资源，以dikw图谱为架构可以更加清晰的区分用户的搜索需求，首先根据用户搜索的目标资源，确定搜索的资源类型，比如数据资源，信息资源和知识资源。数据资源可以理解为结构化的资源，比如说发明人，申请号，代理人等；信息资源可以理解为那些非结构化的资源，比如摘要或说明书中的一些句子；知识资源可以理解为规则，比如权利要求书里面的技术方案。用户搜索需求可以为专利中的发明人的信息、申请号、代理人、摘要、技术方案等，即用户根据自身需求输入的关键字进行搜索，资源总量为资源的集合，当用户输入的是申请号时，直接将申请号在数据图谱中遍历，直接就能找到；当用户输入的是句子时，在信息图谱中遍历相似的句子结构、步骤、过程等；当用户输入的是规则时，跟在信息图谱中遍历的情形一样，不过搜索的是规则信息；在专利检索中，有些内容可以理解为信息，也可以理解为知识，数据信息知识都是可以相互转化的，当在数据图谱上遍历的效率大于在信息图谱上遍历效率并且数据图谱上遍历的效率大于在知识图谱上遍历的效率时，则进行遍历数据图谱；当在数据图谱上遍历的效率大于在信息图谱上遍历效率，但在数据图谱上遍历的效率小于知识图谱上遍历的效率时，则进行遍历知识图谱；当在数据图谱上遍历的效率小于在信息图谱上遍历效率并且在信息图谱上遍历效率小于在知识图谱上遍历的效率时，则进行知识图谱的遍历；当在数据图谱上遍历的效率小于在信息图谱上遍历效率并且在信息图谱上遍历效率大于在知识图谱上遍历的效率时，则遍历信息图谱。
[0062]
优选的，参照图2，服务器将用户搜索的需求进行建模，并分别计算具有正趋势的资源权重weight
p
和负趋势的资源权重weight
n
,计算公式如下：
[0063][0064][0065]
其中resource
p
代表正资源量，resource
n
代表负资源量，resource
t
代表所有资源的总量。
[0066]
将用户的搜索需求划分为正趋势和负趋势，再计算其权重可以更快速的锁定用户的搜索需求。
[0067]
优选的，根据得到的正负双向资源所在权重分配用户投入，确定正向和反向搜索分别要花费的时间和金钱，进而确定正负双向搜索分别要递进搜索的次数，计算公式如下：
[0068]
t
(p/n)
＝t*weight
(p/n)
[0069]
m
(p/n)
＝m*weight
(p/n)
[0070]
其中t
(p/n)
表示正向与反向搜索分别要花费的时间，m
(p/n)
表示正向与反向搜索分别要花费的金钱，weight
(p/n)
表示正负双向资源所占权重，p/n表示正或反。
[0071]
计算渐进式搜索的时间，计算公式如下：
[0072][0073]
其中，t表示用户的预期等待时间，s_times表示由用户投资决定的渐进式搜索时间，s_items表示每次搜索的项目数量，pert_item表示每个项目的搜索时间，假设用户的预期等待时间t是已知的，则渐进搜索的每个过程的项目和对每个项目的搜索时间是固定的。
[0074]
对于用户提出的问题，执行动态平衡的双向搜索服务策略，并遍历资源处理体系结构以搜索相关资源。根据获得的资源，找到资源中与关键字相关的因素，计算资源的信息熵范围为0到1，越大，置信度越低，越小，置信度越高，计算公式如下：
[0075][0076]
其中表示根据逐步搜索中的某个因素在时间t
k
中获得的资源的熵，p
i
表示每种类型答案的概率，entropy表示根据一定的相关因子进行渐进式搜索时，不同条件下资源的加权平均熵；
[0077]
计算拥有相同趋势的所有资源的总熵entropy,计算公式如下：
[0078][0079]
计算资源的时效性timeliness，计算公式如下：
[0080][0081]
计算资源的置信度confidence，计算公式如下：
[0082][0083]
根据获得的资源计算出的置信度，判断双向资源置信度的正负比是否大于阈值t或小于1/t；如果满足阈值条件，则以高置信度将搜索结果返回给用户，否则，继续分配用户的投资，以继续进行渐进式搜索，根据搜索时间和每次搜索的项数来计算资源的熵，以表示具有正负趋势的资源的可靠性，在渐进式搜索过程中，将消除具有歧义倾向和虚假信息的资源，并提高搜索结果的质量，同时避免针对无限和复杂问题的死循环。
[0084]
一种基于dikw的专利内容检索系统，包括服务器，所述服务器包括：
[0085]
一个或多个处理器；
[0086]
存储装置，其上存储有一个或多个程序；
[0087]
当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的一种基于dikw的专利智能检索方法。
[0088]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于DIKW的专利内容检索方法及系统与流程

相关文献

最热文献