信息查找方法、装置、电子设备及存储介质与流程

2022-07-19 20:42:23 来源：中国专利 TAG：

1.本公开涉及数据处理领域，尤其涉及信息查找方法、装置、电子设备及存储介质。

背景技术：

2.随着时间的推移，各行各业的资料越来越多。用户常需要查找某个行业的资料，如：该行业的某些文章的相关记载、该行业的基础知识等。
3.当前，用户需要通过检索词来对资料进行检索。有时，用户需要撰写一个文案，该文案会涉及到很多内容，有些内容可以概括为检索词，有些内容无法用检索词来概括，这就使得通过检索词无法有效检索到所需要的资料。同时，一个文案涉及的内容较多，通过检索词进行检索也较为繁琐。

技术实现要素：

4.鉴于上述问题，本公开提供一种克服上述问题或者至少部分地解决上述问题的信息查找方法、装置、电子设备及存储介质，技术方案如下：
5.第一方面，提供一种信息查找方法，包括：
6.获得目标行业的目标文本，其中，所述目标文本为提纲性文本；
7.在所述目标行业的语料文本库中查找所述目标文本的关联文本，从所述关联文本中抽取至少一个语句；
8.在所述目标行业的知识图谱中查找所述目标文本的关联节点，确定所述关联节点对应的行业信息；
9.将所述行业信息和所述语句作为查找结果。
10.在第一方面的一种可能的实现方式中，所述在所述目标行业的语料文本库中查找所述目标文本的关联文本，包括：
11.在所述目标行业的语料文本库的文本索引中查询与所述目标文本匹配的至少一个文本；
12.通过第一相似度计算方法计算获得所述至少一个文本分别与所述目标文本的相似度，获得所述至少一个文本的词向量，分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量，确定所述每一个文本分别与所述目标文本的关联度；
13.根据所述关联度从所述至少一个文本中确定所述目标文本的关联文本。
14.在第一方面的一种可能的实现方式中，所述分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量，确定所述每一个文本分别与所述目标文本的关联度，包括：
15.获得所述至少一个文本的词向量的平均池化得分；
16.对所述至少一个文本中每一个文本：确定与该文本的评价池化得分匹配的第一权重，确定与该文本的所述第一相似度匹配的第二权重，通过所述第一权重和所述第二权重，对所述评价池化得分和所述第一相似度进行加权计算，获得该文本与所述目标文本的关联
度。
17.在第一方面的一种可能的实现方式中，所述从所述关联文本中抽取至少一个语句，包括：
18.确定所述关联文本中多个语句的重要性评分，在所述重要性评分最高的n个语句中随机选取至少一个语句，其中，所述n为自然数且n大于1。
19.在第一方面的一种可能的实现方式中，所述在所述目标行业的知识图谱中查找所述目标文本的关联节点，确定所述关联节点对应的行业信息，包括：
20.获得所述目标行业的目标信息类型，在所述目标行业的知识图谱中查找所述目标文本匹配的目标节点，将查找到的所述目标节点确定为关联节点，所述目标节点对应的信息的类型为所述目标信息类型；
21.对每一个所述目标节点：在该目标节点对应的信息的类型为预设类型时，将与该目标节点具有第一连接关系的其他节点也确定为所述目标文本的关联节点；
22.确定各所述关联节点对应的行业信息。
23.在第一方面的一种可能的实现方式中，所述方法还包括：
24.通过预先训练的语言模型对所述目标文本进行续写，将所述语言模型续写的内容确定为推荐的开始部分。
25.在第一方面的一种可能的实现方式中，还包括：
26.将所述查找结果作为根据所述目标文本生成的所述目标行业的文案；
27.和/或，根据所述查找结果和所述目标行业的预设文案模板，生成所述目标行业的文案。
28.第二方面，提供一种信息查找装置，包括：文本获得单元、语句抽取单元、信息确定单元和结果获得单元，
29.所述文本获得单元，被配置为执行获得目标行业的目标文本，其中，所述目标文本为提纲性文本；
30.所述语句抽取单元，被配置为执行在所述目标行业的语料文本库中查找所述目标文本的关联文本，从所述关联文本中抽取至少一个语句；
31.所述信息确定单元，被配置为执行在所述目标行业的知识图谱中查找所述目标文本的关联节点，确定所述关联节点对应的行业信息；
32.所述结果获得单元，被配置为执行将所述行业信息和所述语句作为查找结果。
33.在第二方面的一种可能的实现方式中，所述语句抽取单元，包括：文本查询子单元、关联度确定子单元、关联文本确定子单元和语句抽取子单元，
34.所述文本查询子单元，被配置为执行在所述目标行业的语料文本库的文本索引中查询与所述目标文本匹配的至少一个文本；
35.所述关联度确定子单元，被配置为执行通过第一相似度计算方法计算获得所述至少一个文本分别与所述目标文本的相似度，获得所述至少一个文本的词向量，分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量，确定所述每一个文本分别与所述目标文本的关联度；
36.所述关联文本确定子单元，被配置为执行根据所述关联度从所述至少一个文本中确定所述目标文本的关联文本；
37.所述语句抽取子单元，被配置为执行从所述关联文本中抽取至少一个语句。
38.在第二方面的一种可能的实现方式中，所述关联度确定子单元分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量，确定所述每一个文本分别与所述目标文本的关联度，被具体配置为执行：
39.获得所述至少一个文本的词向量的平均池化得分；
40.对所述至少一个文本中每一个文本：确定与该文本的评价池化得分匹配的第一权重，确定与该文本的所述第一相似度匹配的第二权重，通过所述第一权重和所述第二权重，对所述评价池化得分和所述第一相似度进行加权计算，获得该文本与所述目标文本的关联度。
41.在第二方面的一种可能的实现方式中，所述语句抽取单元从所述关联文本中抽取至少一个语句，被具体配置为执行：
42.确定所述关联文本中多个语句的重要性评分，在所述重要性评分最高的n个语句中随机选取至少一个语句，其中，所述n为自然数且n大于1。
43.在第二方面的一种可能的实现方式中，所述信息确定单元包括：节点查找子单元、节点确定子单元和信息确定子单元，
44.所述节点查找子单元，被配置为执行获得所述目标行业的目标信息类型，在所述目标行业的知识图谱中查找所述目标文本匹配的目标节点，将查找到的所述目标节点确定为关联节点，所述目标节点对应的信息的类型为所述目标信息类型；
45.所述节点确定子单元，被配置为执行对每一个所述目标节点：在该目标节点对应的信息的类型为预设类型时，将与该目标节点具有第一连接关系的其他节点也确定为所述目标文本的关联节点；
46.所述信息确定子单元，被配置为执行确定各所述关联节点对应的行业信息。
47.在第二方面的一种可能的实现方式中，所述方法还包括：续写单元，被配置为执行通过预先训练的语言模型对所述目标文本进行续写，将所述语言模型续写的内容确定为推荐的开始部分。
48.在第二方面的一种可能的实现方式中，还包括：第一文案生成单元和/或第二文案生成单元，
49.所述第一文案生成单元，被配置为执行将所述查找结果作为根据所述目标文本生成的所述目标行业的文案；
50.所述第二文案生成单元，被配置为执行根据所述查找结果和所述目标行业的预设文案模板，生成所述目标行业的文案。
51.第三方面，提供一种存储介质，其上存储有程序，所述程序被处理器执行时实现如第一方面提供的任一种信息查找方法。
52.第四方面，提供一种电子设备，所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如第一方面提供的任一种信息查找方法。
53.借由上述技术方案，本公开提供的一种信息查找方法、装置、电子设备及存储介质，可以直接根据提纲性文本进行检索，并不局限于检索词，因此用户可以通过提纲性文本
进行信息检索，方便快捷。同时，本公开还可以同时检索关联文本中的语句和行业信息，检索结果的内容丰富，有效提高了检索质量。
54.上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。
附图说明
55.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
56.图1示出了本公开实施例提供的一种信息查找方法的流程图；
57.图2示出了本公开实施例提供的另一种信息查找方法中步骤s300的具体执行过程的流程图；
58.图3示出了本公开实施例提供的一种信息查找装置的结构示意图；
59.图4示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
60.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
61.如图1所示，本公开实施例提供的一种信息查找方法，可以包括：
62.s100、获得目标行业的目标文本。
63.其中，上述目标文本可以包括：一个或多个语句。在实际应用中，上述目标文本可以为：提纲性文本。
64.其中，提纲性文本是一种概括地叙述纲目、要点的文本，它不把全文的所有内容写出来，只把那些主要内容，提纲挈领式地写出来。
65.其中，目标行业可以为各行各业，如：旅游业、通信业、运输行业、母婴行业、律师行业、人工智能行业等。
66.下面提供一种母婴行业的提纲性文本的例子：
[0067]“题目：某国婴幼儿配方奶粉添加成分分析。
[0068]
第一部分：某国婴幼儿配方奶粉现状。
[0069]
第二部分：某国婴幼儿配方奶粉添加成分汇总。
[0070]
第三部分：某国婴幼儿配方奶粉添加成分分析及结论。
[0071]
第四部分：对某国婴幼儿配方奶粉行业的建议。”[0072]
可选的，本公开中的提纲性文本可以多种文本类型，例如：广告类型、论文类型、新闻类型、报告类型等。对于不同文本类型的提纲性文本，其所包括的内容以及各内容的顺序可以相同或不同。
[0073]
可选的，本公开可以根据目标行业的某种类型的提纲性文本进行信息查找，以查
找和该提纲性文本包括的内容相关联的信息和文本。
[0074]
在实际应用中，本公开可以分别依据提纲性文本所包括的各内容进行步骤s200和步骤s300。例如：上述母婴行业的提纲性文本的例子，本公开可以首先依据其包括的第一部分执行步骤s200和步骤s300，然后依据第二部分执行步骤s200和步骤s300，以此类推。再获得四个部分的查找结果后，将依据这四个部分查找到的行业信息和所述语句作为查找结果。
[0075]
当然，本公开也可以直接依据提纲性文本这个整体执行步骤s200和步骤s300。
[0076]
可以理解的是，当提纲性文本的文本类型不同时，其包括的内容不同，则后续执行步骤s200和步骤s300查找到的关联文本、行业信息也可能不同。可见，通过该提纲性文本，本公开可以有效提高提取的文本和信息的针对性。
[0077]
s200、在目标行业的语料文本库中查找目标文本的关联文本，从关联文本中抽取至少一个语句。
[0078]
可选的，步骤s200可以具体包括：在目标行业的语料文本库中分别查找目标文本包括的各部分的关联文本，从关联文本中抽取至少一个语句。
[0079]
其中，目标文本的关联文本可以为与目标文本具有某种关系的文本，如：关联文本与目标文本的相似度较高，或，关联文本与目标文本所涉及的对象为同一个对象或同一类对象。
[0080]
本公开可以收集目标行业的多个语料文本，并将收集的语料文本保存于语料文本库中。在实际应用中，本公开可以构建多个行业的语料文本库。语料文本库中的语料文本的类型可以有多种，如：期刊文献、新闻报道、公众号文章、企业广告文本、质检部门报告、裁判文书等。在实际应用中，本公开可以通过多种方式收集语料文本，如通过爬虫爬取。
[0081]
本公开可以为语料文本库设置文本索引，以便于通过文本索引对语料文本进行查询。可选的，本公开的语料文本库可以包括快速文本检索引擎，本公开可以对该快速文本检索引擎的文本索引进行设置。在实际应用中，本公开可以将语料文本库中的各语料文本添加到知识图谱中并与知识图谱中的节点对应。可选的，每一个语料文本均可以和知识图谱中的一个节点对应。可选的，本公开可以通过neo4j构建知识图谱，上述快速文本检索引擎可以为neo4j的底层组件lucene检索引擎。
[0082]
可选的，当将语料文本库中的各语料文本添加到知识图谱中并与知识图谱中的节点对应时。本公开可以直接通过知识图谱进行关联文本的查询，如：通过lucene检索引擎查询与目标文本的关联文本。
[0083]
可选的，在实际应用中，本公开可以将目标文本拆分为多个部分，并分别在目标行业的语料文本库中查找各部分的关联文本。当然，本公开也可以直接在目标行业的语料文本库中查找整个的目标文本的关联文本。
[0084]
可选的，步骤s200在目标行业的语料文本库中查找目标文本的关联文本，可以具体包括：
[0085]
在目标行业的语料文本库的文本索引中查询与目标文本匹配的至少一个文本；
[0086]
通过第一相似度计算方法计算获得至少一个文本分别与目标文本的相似度，获得至少一个文本的词向量，分别根据至少一个文本中每一个文本对应的第一相似度和词向量，确定每一个文本分别与目标文本的关联度；
[0087]
根据关联度从至少一个文本中确定目标文本的关联文本。
[0088]
其中，上述在目标行业的语料文本库的文本索引中查询与目标文本匹配的至少一个文本，可以具体包括：
[0089]
通过文本匹配的方式，在目标行业的语料文本库的文本索引中查询与目标文本匹配的至少一个文本。
[0090]
该文本匹配的方式可以快速的对文本进行初步筛选。
[0091]
可选的，第一相似度计算方式可以有多种，如：bm25(best matching25)、tf-idf(term frequency
–
inverse document frequency)等。可选的，本公开可以通过word2vec模型获得至少一个文本的词向量。
[0092]
在实际应用中，本公开可以将关联度较高的文本确定为目标文本的关联文本。
[0093]
在一可选实施例中，上述分别根据至少一个文本中每一个文本对应的第一相似度和词向量，确定每一个文本分别与目标文本的关联度，可以具体包括：
[0094]
获得至少一个文本的词向量的平均池化得分；
[0095]
对至少一个文本中每一个文本：确定与该文本的评价池化得分匹配的第一权重，确定与该文本的第一相似度匹配的第二权重，通过第一权重和第二权重，对评价池化得分和第一相似度进行加权计算，获得该文本与目标文本的关联度。
[0096]
其中，词向量的平均池化得分是将多个词向量变为一个文本向量的方法，本公开可以将一个文本的各词向量进行平均，从而获得该文本的词向量的平均池化得分。
[0097]
在实际应用中，本公开可以建立目标行业的权重对照表，为不同的评价池化得分设置不同的第一权重，为不同的第一相似度设置不同的第二权重。可选的，第一权重和第二权重之和可以为预设值，如1。
[0098]
当然，在实际应用中，对某个目标行业，其第一权重和第二权重可以是固定值。可选的，不同行业的第一权重可以不同，和/或，不同行业的第二权重可以不同。
[0099]
在一可选实施例中，步骤s200从关联文本中抽取至少一个语句，可以具体包括：
[0100]
确定关联文本中多个语句的重要性评分，在重要性评分最高的n个语句中随机选取至少一个语句，其中，n为自然数且n大于1。
[0101]
可选的，本公开可以采用textrank算法确定关联文本中多个语句的重要性评分。通过上述重要性评分，本公开可以将相对重要的语句进行抽取。
[0102]
可以理解的是，相对重要的语句理论上能表达文本中比较核心的内容/主旨，再通过对相对重要的语句进行随机抽取，可以使得抽取的语句在蕴含重要信息的同时保持表述上的多样性。
[0103]
s300、在目标行业的知识图谱中查找目标文本的关联节点，确定关联节点对应的行业信息。
[0104]
可选的，s300可以具体包括：在目标行业的知识图谱中分别查找目标文本的各部分的关联节点，确定关联节点对应的行业信息。
[0105]
可选的，步骤s200和步骤s300的执行先后顺序可以有多种，本公开不做限定。
[0106]
可选的，本公开可以预先构建目标行业的知识图谱，该知识图谱中可以包括多个节点，至少其中部分节点与行业信息对应。其中，行业信息所涉及的具体信息的类型可以有多种，如：目标行业内的企业、目标行业内的产品、目标行业内的经销商、目标行业内某产品
所包含的物质、目标行业内某产品的价格等。
[0107]
可以理解的是，与行业信息对应的节点之间可以通过边连接，不同节点之间的边所代表的连接关系可以相同或不同。具体的连接关系可以有多种，如：属于关系等。当然，本公开也可以将目标行业的语料文本库中的语料文本也加入知识图谱中，即：知识图谱中包括与语料文本对应的节点。当然，与语料文本对应的节点之间也可以通过连接关系相连。与语料文本对应的节点以及与行业信息对应的节点之间也可以通过连接关系相连。
[0108]
在实际应用中，由于行业信息的类型有多种，因此用户可以设定需要检索的目标信息类型，以约束检索结果。这样，本公开只需要检索目标信息类型的行业信息即可。
[0109]
可选的，如图2所示，步骤s300可以具体包括步骤s310至步骤s330：
[0110]
步骤s310、获得目标行业的目标信息类型，在目标行业的知识图谱中查找目标文本匹配的目标节点，将查找到的目标节点确定为关联节点，目标节点对应的信息的类型为目标信息类型。
[0111]
可选的，本公开可以通过知识图谱查询语句(如neo4j查询语句)在目标行业的知识图谱中查找目标文本匹配的目标节点。
[0112]
步骤s320、对每一个目标节点：在该目标节点对应的信息的类型为预设类型时，将与该目标节点具有第一连接关系的其他节点也确定为目标文本的关联节点。
[0113]
本公开不仅可以将目标文本匹配的目标节点确定为关联节点，还可以将与目标节点具有第一连接关系的其他节点也确定为目标文本的关联节点。这样，步骤s320实现了对关联节点的扩展，可以获得更多的关联节点，从而有效提高检索到的行业信息的数量。
[0114]
步骤s330、确定各关联节点对应的行业信息。
[0115]
s400、将行业信息和语句作为查找结果。
[0116]
可选的，本公开可以将查找到的行业信息和语句作为查找结果输出。在输出时，行业信息和语句可以具有一定的排序。
[0117]
可选的，行业信息的排序可以是随机的，也可以是不随机的。例如：行业信息的排序为：目标节点对应的行业信息排名靠前，与目标节点具有第一连接关系的其他节点对应的行业信息排名靠后。
[0118]
可选的，语句的排序可以是随机的，也可以是不随机的。例如：语句按照重要性评分进行排序。
[0119]
在实际应用中，行业信息和语句可以输出到目标文本的对应部分，例如：对本公开提供的一种母婴行业的提纲性文本的例子而言，奶粉添加的成分数据以及记载有奶粉成分数据的文献可以输出到第二部分。通过输出到目标文本的相应部分，本公开可以方便用户在撰写该部分时参考该检索结果。
[0120]
本公开实施例提供的一种信息查找方法，可以直接根据文本进行检索，并不局限于检索词，因此用户可以通过提纲性文本等目标文本进行信息检索，方便快捷。同时，本公开还可以同时检索关联文本中的语句和行业信息，检索结果的内容丰富，有效提高了检索质量。
[0121]
可选的，目标文本为提纲性文本，本公开实施例提供的另一种信息查找方法，还包括：
[0122]
通过预先训练的语言模型对目标文本进行续写，将语言模型续写的内容确定为推
荐的开始部分。
[0123]
可选的，本公开中语言模型可以为gpt-2模型。通过预先训练的语言模型，本公开可以生成文案的开始部分。在实际应用中，语言模型续写的内容可以为文案的常用用语。可选的，本公开可以将目标文本输出到预先训练的语言模型，获得语言模型续写的内容。
[0124]
可选的，本公开实施例提供的另一种信息查找方法，还包括：
[0125]
将查找结果作为根据目标文本生成的目标行业的文案；
[0126]
和/或，根据查找结果和目标行业的预设文案模板，生成目标行业的文案。
[0127]
本公开实施例可以直接将查找结果作为根据目标文本生成的目标行业的文案，这样本公开就自动生成了目标行业的文案。
[0128]
当然，为了提高文案的质量，可以按照目标行业的预设文案模板对查找结果调整，生成目标行业的文案。
[0129]
在实际应用中，本公开所要生成的目标行业的文案的文案类型与本公开步骤s100中的提纲性文本的文本类型相同。即：本公开可以根据所要生成的文案的文案类型来选择相应类型的提纲性文本，从而有效提高查找到的信息和文本的针对性和准确性，进而提高生成的文案的质量，使得生成的文案符合其文案类型的特点。
[0130]
与上述方法实施例相对应，本公开还提供了一种信息查找装置。
[0131]
如图3所示，本公开实施例提供的一种信息查找装置，可以包括：文本获得单元100、语句抽取单元200、信息确定单元300和结果获得单元400，
[0132]
文本获得单元100，被配置为执行获得目标行业的目标文本，其中，目标文本为提纲性文本；
[0133]
语句抽取单元200，被配置为执行在目标行业的语料文本库中查找目标文本的关联文本，从关联文本中抽取至少一个语句；
[0134]
信息确定单元300，被配置为执行在目标行业的知识图谱中查找目标文本的关联节点，确定关联节点对应的行业信息；
[0135]
结果获得单元400，被配置为执行将行业信息和语句作为查找结果。
[0136]
可选的，语句抽取单元200，包括：文本查询子单元、关联度确定子单元、关联文本确定子单元和语句抽取子单元，
[0137]
文本查询子单元，被配置为执行在目标行业的语料文本库的文本索引中查询与目标文本匹配的至少一个文本；
[0138]
关联度确定子单元，被配置为执行通过第一相似度计算方法计算获得至少一个文本分别与目标文本的相似度，获得至少一个文本的词向量，分别根据至少一个文本中每一个文本对应的第一相似度和词向量，确定每一个文本分别与目标文本的关联度；
[0139]
关联文本确定子单元，被配置为执行根据关联度从至少一个文本中确定目标文本的关联文本；
[0140]
语句抽取子单元，被配置为执行从关联文本中抽取至少一个语句。
[0141]
可选的，关联度确定子单元分别根据至少一个文本中每一个文本对应的第一相似度和词向量，确定每一个文本分别与目标文本的关联度，被具体配置为执行：
[0142]
获得至少一个文本的词向量的平均池化得分；
[0143]
对至少一个文本中每一个文本：确定与该文本的评价池化得分匹配的第一权重，
确定与该文本的第一相似度匹配的第二权重，通过第一权重和第二权重，对评价池化得分和第一相似度进行加权计算，获得该文本与目标文本的关联度。
[0144]
可选的，语句抽取单元200从关联文本中抽取至少一个语句，被具体配置为执行：
[0145]
确定关联文本中多个语句的重要性评分，在重要性评分最高的n个语句中随机选取至少一个语句，其中，n为自然数且n大于1。
[0146]
可选的，信息确定单元300可以包括：节点查找子单元、节点确定子单元和信息确定子单元，
[0147]
节点查找子单元，被配置为执行获得目标行业的目标信息类型，在目标行业的知识图谱中查找目标文本匹配的目标节点，将查找到的目标节点确定为关联节点，目标节点对应的信息的类型为目标信息类型；
[0148]
节点确定子单元，被配置为执行对每一个目标节点：在该目标节点对应的信息的类型为预设类型时，将与该目标节点具有第一连接关系的其他节点也确定为目标文本的关联节点；
[0149]
信息确定子单元，被配置为执行确定各关联节点对应的行业信息。
[0150]
可选的，图3所示装置还可以包括：续写单元，被配置为执行通过预先训练的语言模型对目标文本进行续写，将语言模型续写的内容确定为推荐的开始部分。
[0151]
可选的，图3所示装置还可以包括：第一文案生成单元和/或第二文案生成单元，
[0152]
第一文案生成单元，被配置为执行将查找结果作为根据目标文本生成的目标行业的文案；
[0153]
第二文案生成单元，被配置为执行根据查找结果和目标行业的预设文案模板，生成目标行业的文案。
[0154]
本公开提供的一种信息查找装置，可以直接根据提纲性文本进行检索，并不局限于检索词，因此用户可以通过提纲性文本进行信息检索，方便快捷。同时，本公开还可以同时检索关联文本中的语句和行业信息，检索结果的内容丰富，有效提高了检索质量。
[0155]
信息查找装置包括处理器和存储器，上述文本获得单元、语句抽取单元、信息确定单元和结果获得单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0156]
处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来查找信息。
[0157]
本公开实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述信息查找方法。
[0158]
本公开实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述信息查找方法。
[0159]
如图4所示，本公开实施例提供了一种电子设备70，电子设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703；其中，处理器701、存储器702通过总线703完成相互间的通信；处理器701用于调用存储器702中的程序指令，以执行上述的信息查找方法。本文中的设备可以是服务器、pc、pad、手机等。
[0160]
本公开还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：
[0161]
获得目标行业的目标文本，其中，所述目标文本为提纲性文本；
[0162]
在所述目标行业的语料文本库中查找所述目标文本的关联文本，从所述关联文本中抽取至少一个语句；
[0163]
在所述目标行业的知识图谱中查找所述目标文本的关联节点，确定所述关联节点对应的行业信息；
[0164]
将所述行业信息和所述语句作为查找结果。
[0165]
可选的，所述在所述目标行业的语料文本库中查找所述目标文本的关联文本，包括：
[0166]
在所述目标行业的语料文本库的文本索引中查询与所述目标文本匹配的至少一个文本；
[0167]
通过第一相似度计算方法计算获得所述至少一个文本分别与所述目标文本的相似度，获得所述至少一个文本的词向量，分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量，确定所述每一个文本分别与所述目标文本的关联度；
[0168]
根据所述关联度从所述至少一个文本中确定所述目标文本的关联文本。
[0169]
可选的，所述分别根据所述至少一个文本中每一个文本对应的所述第一相似度和所述词向量，确定所述每一个文本分别与所述目标文本的关联度，包括：
[0170]
获得所述至少一个文本的词向量的平均池化得分；
[0171]
对所述至少一个文本中每一个文本：确定与该文本的评价池化得分匹配的第一权重，确定与该文本的所述第一相似度匹配的第二权重，通过所述第一权重和所述第二权重，对所述评价池化得分和所述第一相似度进行加权计算，获得该文本与所述目标文本的关联度。
[0172]
可选的，所述从所述关联文本中抽取至少一个语句，包括：
[0173]
确定所述关联文本中多个语句的重要性评分，在所述重要性评分最高的n个语句中随机选取至少一个语句，其中，所述n为自然数且n大于1。
[0174]
可选的，所述在所述目标行业的知识图谱中查找所述目标文本的关联节点，确定所述关联节点对应的行业信息，包括：
[0175]
获得所述目标行业的目标信息类型，在所述目标行业的知识图谱中查找所述目标文本匹配的目标节点，将查找到的所述目标节点确定为关联节点，所述目标节点对应的信息的类型为所述目标信息类型；
[0176]
对每一个所述目标节点：在该目标节点对应的信息的类型为预设类型时，将与该目标节点具有第一连接关系的其他节点也确定为所述目标文本的关联节点；
[0177]
确定各所述关联节点对应的行业信息。
[0178]
可选的，所述方法还包括：
[0179]
通过预先训练的语言模型对所述目标文本进行续写，将所述语言模型续写的内容确定为推荐的开始部分。
[0180]
可选的，还包括：
[0181]
将所述查找结果作为根据所述目标文本生成的所述目标行业的文案；
[0182]
和/或，根据所述查找结果和所述目标行业的预设文案模板，生成所述目标行业的文案。
[0183]
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0184]
在一个典型的配置中，设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
[0185]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
[0186]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0187]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0188]
本领域技术人员应明白，本公开的实施例可提供为方法、系统或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0189]
以上仅为本公开的实施例而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：口罩佩戴检测方法、装置、计算机可读存储介质及设备与流程

信息查找方法、装置、电子设备及存储介质与流程

相关文献

最热文献