一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于标签匹配的搜索方法、系统、计算机设备及存储介质与流程

2022-05-11 12:21:36 来源:中国专利 TAG:


1.本发明实施例涉及数据处理技术领域,尤其涉及一种基于标签匹配的搜索方法、系统、计算机设备及存储介质。


背景技术:

2.政策文章不同于其他文本内容,使用的词汇及句法有其固有特点,在生活中并不常见。非政府人员或非相关研究员在搜索查找政策时,往往使用更加生化话的用词及句式来描述自己所需,如果使用传统的模糊匹配方式直接搜索,不但很难找到目标政策,往往还会出现大量的错误政策召回,给政策搜寻带来较大困难。


技术实现要素:

3.有鉴于此,本发明实施例的目的是提供一种基于标签匹配的搜索方法、系统、计算机设备及存储介质,用以解决政策文本搜索准确率低的问题。
4.为实现上述目的,本发明实施例提供了一种基于标签匹配的搜索方法,所述方法包括:
5.接收查询信息;
6.对所述查询信息进行语义提取,并根据提取到的语义信息确定对应的查询问题;
7.根据所述查询问题从预设的政策标签体系中确定查询标签;
8.基于所述查询标签从政策数据库中选取匹配率大于预设阈值的政策文本作为目标文本;
9.将所述目标文本推送给用户。
10.进一步地,所述接收查询信息,包括:
11.接收所述用户的查询请求,并基于所述查询请求展示查询页面,所述查询页面包括多个政策问题;
12.通过所述查询页面接收所述用户从多个政策问题中选定的所述查询信息或者用户在所述查询页面输入的所述查询信息。
13.进一步地,所述对所述查询信息进行语义提取,并根据提取到的语义信息确定对应的查询问题,包括:
14.获取多个政策问题;
15.对所述查询信息进行语义提取,得到语义信息;
16.分别计算所述语义信息与所述多个政策问题的匹配率,并将匹配率最高的政策问题作为所述查询问题。
17.进一步地,所述对所述查询信息进行语义提取,并根据提取到的语义信息确定对应的查询问题之前,所述方法还包括:
18.获取预设范围内的政策数据,所述政策数据中包括多个政策文本;
19.收集所述预设范围内的用户集群对于所述政策数据的多个调研报告;
20.基于所述多个调研报告确定多个政策问题。
21.进一步地,所述根据所述查询问题从预设的政策标签体系中确定查询标签之前,包括:
22.基于所述政策数据与所述多个调研报告建立政策标签体系,其中,所述政策标签体系包括多个类别的标签,每个类别的标签包括多层级标签,所述政策标签体系中的最低层级标签与所述多个政策问题对应。
23.进一步地,所述根据所述查询问题从预设的政策标签体系中确定查询标签,包括:
24.根据所述查询问题从预设的政策标签体系中查询与所述查询问题对应的目标标签;
25.将目标标签对应的类别标签作为查询标签。
26.进一步地于,所述基于所述查询标签从政策数据库中选取匹配率大于预设阈值的政策文本作为目标文本之前,所述方法还包括:
27.对所述多个政策文本进行数据清洗,得到打标文本;
28.获取所述打标文本中与所述标签相关的关键词组;
29.通过自然语言处理技术查询与所述关键词组相关的近义词组;
30.将所述近义词组补充至所述政策标签体系,并将所述近义词组与所述打标文本进行关联,得到政策数据库。
31.为实现上述目的,本发明实施例提供了一种基于标签匹配的搜索系统,所述系统包括:
32.接收模块,用于接收查询信息;
33.提取模块,用于对所述查询信息进行语义提取,并根据提取到的语义信息确定对应的查询问题;
34.确定模块,用于根据所述查询问题从预设的政策标签体系中确定查询标签;
35.选取模块,用于基于所述查询标签从政策数据库中,选取匹配率大于预设阈值的政策文本作为目标文本;
36.推送模块,用于将所述目标文本推送给用户。
37.为实现上述目的,本发明实施例提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的基于标签匹配的搜索方法的步骤。
38.为实现上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行上述的基于标签匹配的搜索方法的步骤。
39.本发明实施例提供的基于标签匹配的搜索方法、系统、计算机设备及存储介质,有效解决用户语言和政策语言的不同造成的搜索困难,提高了搜索的准确率。将开放式检索问题,转化为标签的双向匹配问题,以标签为节点,从政策文本提取特征并对应到政策标签上,用户搜索时再把生活化的搜索用词映射到既有标签上,从而精准的找到对应的政策,形成一种创新的搜索方法,同时提升召回率和准确率。
附图说明
40.图1为本发明基于标签匹配的搜索方法实施例一的流程图。
41.图2为本发明基于标签匹配的搜索系统实施例二的程序模块示意图。
42.图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
43.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
44.实施例一
45.参阅图1,示出了本发明实施例一之基于标签匹配的搜索方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
46.步骤s100、接收查询信息。
47.具体地,接收用户基于查询页面选定的或者输入的查询信息。
48.示例性地,所述步骤s100还包括:
49.步骤s101、接收所述用户的查询请求,并基于所述查询请求展示查询页面,所述查询页面包括多个政策问题。步骤s102、通过所述查询页面接收所述用户从多个政策问题中选定的所述查询信息或者用户在所述查询页面输入的所述查询信息。
50.具体地,用户打开查询页面时,生成查询请求,将查询请求展示给用户。查询页面设置有输入框,用户可以在输入框中搜索需要进行查询的查询信息。输入框下方可展示与政策相关的多个政策问题,以供用户进行选择;也可在查询页面中设置问题选择区域,从问题选择区域中可查看到政策问题。也可当用户在输入框进行输入时,根据用户输入的词组推荐相应的问题供用户进行选择,以提高查询效率。
51.步骤s120、对所述查询信息进行语义提取,并根据提取到的语义信息确定对应的查询问题。
52.具体地,可以通过nlp自然语言处理技术或者深度学习算法对查询信息进行语义提取,即,提取出关键词,例如:查询问题为:2016年社保缴纳是怎样的?语义提取后为:2016年,社保缴纳;再将关键词与政策问题进行匹配,确定最接近的政策问题为查询问题。
53.示例性地,所述步骤s120还包括:
54.步骤s121、获取多个政策问题。步骤s122、对所述查询信息进行语义提取,得到语义信息。步骤s123、分别计算所述语义信息与所述多个政策问题的匹配率,并将匹配率最高的政策问题作为所述查询问题。
55.具体地,将查询问题中提取出的关键词与政策问题进行匹配,找出最接近的政策问题,作为查询问题,匹配算法不限于余弦相似度计算等。当用户输入的查询问题为政策问题时,不需要进行上述操作。
56.步骤s140、根据所述查询问题从预设的政策标签体系中确定查询标签。
57.具体地,预先为查询问题设置问题id,问题id与政策标签体系进行关联,可快速确
定对应的查询标签。政策标签体系中包括多个层级的查询标签,每个同级层级也包括多个标签,问题id与查询标签的最低层级相关联,将该类别的标签集作为查询标签,以便后续进行政策查询。
58.步骤s160、基于所述查询标签从政策数据库中选取匹配率大于预设阈值的政策文本作为目标文本。
59.具体地,政策数据库中预先存储有多个政策文本,每个政策文本依据标签进行打标处理,可以理解为,通过查询标签匹配时,只要政策文本上关联有查询标签即匹配出来,可以匹配到多个政策文本。为了节省用户的查询时间,按照政策文本关联的查询标签中的标签个数对查询标签进行排序,将个数排名前十的政策文本作为目标文本,选取政策文本的个数可根据需求进行设置。匹配率即为政策文本中关联的查询标签中标签的数值。
60.步骤s180、将所述目标文本推送给用户。
61.具体地,将目标文本中与查询标签相关的文本内容进行高亮显示,再推送给用户。用户可以自行阅读推送的目标文本,同时在文本界面也可以添加和本条政策相关的其他政策及外链,可以增加用户的服务体验。
62.示例性地,当用户对推荐的目标文本不满意时,可以调整自己的输入内容,从而开始新一轮的匹配。对于多轮匹配仍然无法满足需求的用户,可以添加留言或客服机制,对用户提供人工服务。
63.本实施例所采用的方法有效解决用户语言和政策语言的不同造成的搜索困难,提高了搜索的准确率。将开放式检索问题,转化为标签的双向匹配问题,以标签为节点,从政策文本提取特征并对应到政策标签上,用户搜索时再把生活化的搜索用词映射到既有标签上,从而精准的找到对应的政策,形成一种创新的搜索方法,同时提升召回率和准确率。
64.示例性地,所述步骤s120之前,包括政策问题设置的步骤:
65.获取预设范围内的政策数据,所述政策数据中包括多个政策文本;收集所述预设范围内的用户集群对于所述政策数据的多个调研报告;基于所述多个调研报告确定多个政策问题。
66.具体地,预设范围可以为地级市,例如广西省及下属地级市,搜集所属范围的政策数据,需要包括每条政策的发布时间、发布单位、政策标题、政策正文等核心内容。根据政策数据设置多个调研报告,通过调研报告针对用户做调研,挖掘用户需求,以得到政策问题。
67.示例性地,所述步骤s140之前,所述方法还包括建立政策标签体系的步骤:
68.基于所述政策数据与所述多个调研报告建立政策标签体系,其中,所述政策标签体系包括多个类别的标签,每个类别的标签包括多层级标签,所述政策标签体系中的最低层级标签与所述多个政策问题对应。
69.具体地,针对用户做调研,挖掘用户需求,并结合政策数据,构建知识图谱,即政策标签体系,一般为多级标签,层层递进,最低一级要详细到与用户的政策问题可以做到一一对应。可以理解为,最低层级的标签即为政策问题。设置政策标签体系的同时也可以设置问题库,主要来源于用户需求调研,问题库的词法和句法要偏向于生活化使用习惯。
70.示例性地,所述步骤s140还包括:
71.步骤s141、根据所述查询问题从预设的政策标签体系中查询与所述查询问题对应的目标标签。步骤s142、将目标标签对应的类别标签作为查询标签。
72.具体地,得到查询问题后,快速的从政策标签体系中定位到与查询问题对应的最低层级标签,即目标标签,将目标标签所属的类别的所有标签作为查询标签进行查询,以提高查询的准确性。
73.示例性地,所述步骤s160之前,所述方法还包括构建政策数据库的步骤:
74.对获取所述打标文本中与所述标签相关的关键词组;通过自然语言处理技术查询与所述关键词组相关的近义词组;将所述近义词组补充至所述政策标签体系,并将所述近义词组与所述打标文本进行关联,得到政策数据库。
75.具体地,针对政策文本的完整度和重复情况做数据清洗,政策文本需要做段落和句子的分割,以用于后续打标算法。打标之前,通过政策标签体系,为每个标签寻找少量的样本政策样例数据,用于做后续算法的学习样本。对样本政策样例数据进行表征,提取出样本政策样例政策中符合标签的特有关键词语组合,并通过标签的词向量及句子向量等方式采用nlp手段寻找近意表达,扩充关键词语组合,得到近义词组。通过近义词组匹配的方法,批量地对打标后的政策文本进行标签标注,从而更新政策数据库集合。本实施例通过加表征优化的打标算法,提高了样例政策的利用效果,也提升了细分政策标注的准确率。
76.实施例二
77.请继续参阅图2,示出了本发明基于标签匹配的搜索系统实施例二的程序模块示意图。在本实施例中,基于标签匹配的搜索系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于标签匹配的搜索方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于标签匹配的搜索系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
78.接收模块200,用于接收查询信息。
79.具体地,接收用户基于查询页面选定的或者输入的查询信息。
80.示例性地,所述接收模块200还用于:
81.接收所述用户的查询请求,并基于所述查询请求展示查询页面,所述查询页面包括多个政策问题;通过所述查询页面接收所述用户从多个政策问题中选定的所述查询信息或者用户在所述查询页面输入的所述查询信息。
82.具体地,用户打开查询页面时,生成查询请求,将查询请求展示给用户。查询页面设置有输入框,用户可以在输入框中搜索需要进行查询的查询信息。输入框下方可展示与政策相关的多个政策问题,以供用户进行选择;也可在查询页面中设置问题选择区域,从问题选择区域中可查看到政策问题。也可当用户在输入框进行输入时,根据用户输入的词组推荐相应的问题供用户进行选择,以提高查询效率。
83.提取模块202,用于对所述查询信息进行语义提取,并根据提取到的语义信息确定对应的查询问题。
84.具体地,可以通过nlp自然语言处理技术或者深度学习算法对查询信息进行语义提取,即,提取出关键词,例如:查询问题为:2016年社保缴纳是怎样的?语义提取后为:2016年,社保缴纳;再将关键词与政策问题进行匹配,确定最接近的政策问题为查询问题。
85.示例性地,所述提取模块202还用于:
86.获取多个政策问题;对所述查询信息进行语义提取,得到语义信息;分别计算所述
语义信息与所述多个政策问题的匹配率,并将匹配率最高的政策问题作为所述查询问题。
87.具体地,将查询问题中提取出的关键词与政策问题进行匹配,找出最接近的政策问题,作为查询问题,匹配算法不限于余弦相似度计算等。当用户输入的查询问题为政策问题时,不需要进行上述操作。
88.确定模块204,用于根据所述查询问题从预设的政策标签体系中确定查询标签。
89.具体地,预先为查询问题设置问题id,问题id与政策标签体系进行关联,可快速确定对应的查询标签。政策标签体系中包括多个层级的查询标签,每个同级层级也包括多个标签,问题id与查询标签的最低层级相关联,将该类别的标签集作为查询标签,以便后续进行政策查询。
90.示例性地,所述确定模块204还用于:
91.根据所述查询问题从预设的政策标签体系中查询与所述查询问题对应的目标标签;将目标标签对应的类别标签作为查询标签。
92.具体地,得到查询问题后,快速的从政策标签体系中定位到与查询问题对应的最低层级标签,即目标标签,将目标标签所属的类别的所有标签作为查询标签进行查询,以提高查询的准确性。
93.选取模块206,用于基于所述查询标签从政策数据库中选取匹配率大于预设阈值的政策文本作为目标文本。
94.具体地,政策数据库中预先存储有多个政策文本,每个政策文本依据标签进行打标处理,可以理解为,通过查询标签匹配时,只要政策文本上关联有查询标签即匹配出来,可以匹配到多个政策文本。为了节省用户的查询时间,按照政策文本关联的查询标签中的标签个数对查询标签进行排序,将个数排名前十的政策文本作为目标文本,选取政策文本的个数可根据需求进行设置。匹配率即为政策文本中关联的查询标签中标签的数值。
95.推送模块208,用于将所述目标文本推送给用户。
96.具体地,将目标文本中与查询标签相关的文本内容进行高亮显示,再推送给用户。用户可以自行阅读推送的目标文本,同时在文本界面也可以添加和本条政策相关的其他政策及外链,可以增加用户的服务体验。
97.示例性地,当用户对推荐的目标文本不满意时,可以调整自己的输入内容,从而开始新一轮的匹配。对于多轮匹配仍然无法满足需求的用户,可以添加留言或客服机制,对用户提供人工服务。
98.本实施例所采用的方法有效解决用户语言和政策语言的不同造成的搜索困难,提高了搜索的准确率。将开放式检索问题,转化为标签的双向匹配问题,以标签为节点,从政策文本提取特征并对应到政策标签上,用户搜索时再把生活化的搜索用词映射到既有标签上,从而精准的找到对应的政策,形成一种创新的搜索方法,同时提升召回率和准确率。
99.示例性地,所述基于标签匹配的搜索系统还包括构建模块210,用于:
100.基于所述政策数据与所述多个调研报告建立政策标签体系,其中,所述政策标签体系包括多个类别的标签,每个类别的标签包括多层级标签,所述政策标签体系中的最低层级标签与所述多个政策问题对应。
101.具体地,针对用户做调研,挖掘用户需求,并结合政策数据,构建知识图谱,即政策标签体系,一般为多级标签,层层递进,最低一级要详细到与用户的政策问题可以做到一一
对应。可以理解为,最低层级的标签即为政策问题。设置政策标签体系的同时也可以设置问题库,主要来源于用户需求调研,问题库的词法和句法要偏向于生活化使用习惯。
102.示例性地,所述构建模块210还用于:
103.对获取所述打标文本中与所述标签相关的关键词组;通过自然语言处理技术查询与所述关键词组相关的近义词组;将所述近义词组补充至所述政策标签体系,并将所述近义词组与所述打标文本进行关联,得到政策数据库。
104.具体地,针对政策文本的完整度和重复情况做数据清洗,政策文本需要做段落和句子的分割,以用于后续打标算法。打标之前,通过政策标签体系,为每个标签寻找少量的样本政策样例数据,用于做后续算法的学习样本。对样本政策样例数据进行表征,提取出样本政策样例政策中符合标签的特有关键词语组合,并通过标签的词向量及句子向量等方式采用nlp手段寻找近意表达,扩充关键词语组合,得到近义词组。通过近义词组匹配的方法,批量地对打标后的政策文本进行标签标注,从而更新政策数据库集合。本实施例通过加表征优化的打标算法,提高了样例政策的利用效果,也提升了细分政策标注的准确率。
105.实施例三
106.参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于标签匹配的搜索系统20。其中:
107.本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的基于标签匹配的搜索系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
108.处理器22在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于标签匹配的搜索系统20,以实现实施例一的基于标签匹配的搜索方法。
109.所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统
(global system of mobile communication,gsm)、宽带码分多址(wideband code division multiple access,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。在本实施例中,存储于存储器21中的所述基于标签匹配的搜索系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
110.例如,图2示出了所述实现基于标签匹配的搜索系统20实施例二的程序模块示意图,该实施例中,所述基于标签匹配的搜索系统20可以被划分为所述接收模块200、所述提取模块202、所述确定模块204、所述选取模块206以及所述推送模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于标签匹配的搜索系统20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述,在此不再赘述。
111.实施例四
112.本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器、app应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于计算机程序,被处理器执行时实现实施例一的基于标签匹配的搜索方法。
113.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
114.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
115.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献