一种基于循环神经网络的信息查询方法及系统与流程

2022-02-19 11:41:25 来源：中国专利 TAG：

1.本发明主要涉及数据管理技术领域，具体地说，涉及一种基于循环神经网络的信息查询方法及系统。

背景技术：

2.随着社会与经济的发展和社会保障事业的进步，越来越多的公众开始关注社保基金的政策制定、执行、收入支出等信息，社保基金管理机构提供了面向公众开放的信息平台，但还存在很多信息生态问题，例如：公众对社保基金的政策不了解、公众对社保基金办理渠道的不理解、公众对社保基金办理方式的不熟悉、公众对社保收入支出信息的不知晓等等，导致公众在办理和查询社保基金信息时遇到了很大的阻碍。
3.因此，需要提供一种基于循环神经网络的信息查询方法及系统，用于便于用户获取社保信息。

技术实现要素：

4.本说明书实施例之一提供一种基于循环神经网络的信息查询系统，包括：信息获取模块，用于获取社保相关数据，还用于建立社保数据库，所述社保数据库用于存储所述社保相关数据；信息查询模块，用于获取训练好的循环神经网络模型，还用于获取社保查询指令，所述循环神经网络模型用于基于所述社保查询指令从所述社保数据库中获取与所述社保查询指令对应的社保相关数据。
5.在一些实施例中，所述信息查询模块还包括指令数值化单元，所述指令数值化单元用于将所述社保查询指令中的文本数据转换为数值型数据，所述指令数值化单元输出所述数值型数据至所述循环神经网络模型。
6.在一些实施例中，所述指令数值化单元基于独热编码将所述社保查询指令中的所述文本数据转换为所述数值型数据。
7.在一些实施例中，所述循环神经网络模型的输入层包括word2vec模型，所述word2vec模型用于将所述数值型数据转换为指令词向量；所述word2vec模型包括连续词袋（cbow，continues bag ofwords）子模型及skip
‑
gram子模型；所述数值型数据分别输入所述连续词袋（cbow，continues bag ofwords）子模型及所述skip
‑
gram子模型，所述word2vec模型基于所述连续词袋（cbow，continues bag ofwords）子模型输出的词向量及所述skip
‑
gram子模型输出的词向量确定所述社保查询指令对应的所述指令词向量。
8.在一些实施例中，所述信息获取模块还用于获取训练好的养老金预测长短期记忆网络（lstm，long short
‑
term memory）模型；所述信息获取模块还用于获取用户在多个过去时间点的养老保险相关数据；所述养老金预测长短期记忆网络（lstm，long short
‑
term memory）模型用于基于所述用户在所述多个过去时间点的所述养老保险相关数据预测所述用户在至少一个未来时间点的养老金预测数据；所述社保相关数据包括所述用户在至少一个未来时间点的养老金预测数据。
9.本说明书实施例之一提供一种基于循环神经网络的信息查询方法，获取社保相关数据；建立社保数据库，所述社保数据库用于存储所述社保相关数据；获取训练好的循环神经网络模型；获取社保查询指令；通过所述循环神经网络模型基于所述社保查询指令从所述社保数据库中获取与所述社保查询指令对应的社保相关数据。
10.在一些实施例中，所述通过所述循环神经网络模型基于所述社保查询指令从所述社保数据库中获取与所述社保查询指令对应的社保相关数据，包括：将所述社保查询指令中的文本数据转换为数值型数据；将所述数值型数据输入至所述数值型数据至所述循环神经网络模型，从所述社保数据库中获取与所述社保查询指令对应的社保相关数据。
11.在一些实施例中，基于独热编码将所述社保查询指令中的所述文本数据转换为所述数值型数据。
12.在一些实施例中，所述循环神经网络模型的输入层包括word2vec模型，所述word2vec模型用于将所述数值型数据转换为指令词向量；所述word2vec模型包括连续词袋（cbow，continues bag ofwords）子模型及skip
‑
gram子模型；所述数值型数据分别输入所述连续词袋（cbow，continues bag ofwords）子模型及所述skip
‑
gram子模型，所述word2vec模型基于所述连续词袋（cbow，continues bag ofwords）子模型输出的词向量及所述skip
‑
gram子模型输出的词向量确定所述社保查询指令对应的所述指令词向量。
13.在一些实施例中，所述社保相关数据包括用户在至少一个未来时间点的养老金预测数据；所述获取社保相关数据，包括：获取训练好的养老金预测长短期记忆网络（lstm，long short
‑
term memory）模型；获取用户在多个过去时间点的养老保险相关数据；通过所述养老金预测长短期记忆网络（lstm，long short
‑
term memory）模型基于所述用户在所述多个过去时间点的所述养老保险相关数据预测所述用户在至少一个未来时间点的养老金预测数据。
附图说明
14.本技术将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：图1是根据本技术一些实施例所示的一种基于循环神经网络的信息查询系统的应用场景示意图；图2是根据本技术的一些实施例所示的计算设备的示例性的框图；图3是根据本技术一些实施例所示的一种基于循环神经网络的信息查询系统的示例性框图；图4是根据本技术一些实施例所示的一种基于循环神经网络的信息查询方法的示例性流程图。
15.图中，100、基于循环神经网络的信息查询系统；110、处理设备；120、网络；130、用户终端；140、存储设备；200、计算设备；210、处理器；220、只读存储器；230、随机存储器；240、通信端口；250、输入/输出接口；260、硬盘。
具体实施方式
16.为了更清楚地说明本技术的实施例的技术方案，下面将对实施例描述中所需要使
用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本技术的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本技术应用于其他类似情景。应当理解，给出这些示例性的实施例仅仅是为了使相关领域的技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。
17.应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。
18.如本技术和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。
19.虽然本技术对根据本技术的实施例的系统中的某些模块或单元做出了各种引用，然而，任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。
20.本技术中使用了流程图用来说明根据本技术的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。
21.图1是根据本技术一些实施例所示的一种基于循环神经网络的信息查询装置的应用场景示意图。
22.如图1所示，基于循环神经网络的信息查询装置100可以包括处理设备110、网络120、用户终端130和存储设备140。
23.在一些实施例中，基于循环神经网络的信息查询系统100可以对信息查询提供帮助。在一些实施例中，基于循环神经网络的信息查询系统100可以在用户输入查询指令时，自动识别查询指令，并获取与社保查询指令对应的社保相关数据。需要注意的是，基于循环神经网络的信息查询系统100还可以应用在其它需要进行信息查询的设备、场景和应用程序中，在此不作限定，任何可以使用本技术所包含的基于循环神经网络的信息查询方法的设备、场景和/或应用程序都在本技术的保护范围内。
24.在一些实施例中，处理设备110可以用于处理与信息查询相关的信息和/或数据。例如，处理设备110可以获取社保相关数据，还可以建立社保数据库，社保数据库用于存储社保相关数据。还例如，处理设备110可以获取训练好的循环神经网络模型，还可以获取社保查询指令，并通过循环神经网络模型基于所述社保查询指令从所述社保数据库中获取与所述社保查询指令对应的社保相关数据。处理设备110更多的描述可以参见本技术其他部分的描述。例如，图2、3及其描述。
25.在一些实施例中，处理设备110可以是区域的或者远程的。例如，处理设备110可以通过网络120访问存储于用户终端130和存储设备140中的信息和/或资料。在一些实施例中，处理设备110可以直接与用户终端130和存储设备140连接以访问存储于其中的信息和/或资料。在一些实施例中，处理设备110可以在云平台上执行。例如，该云平台可以包括私有
云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
26.在一些实施例中，处理设备110可以包含处理器210，处理器210可以包含一个或多个子处理器（例如，单芯处理设备或多核多芯处理设备）。仅仅作为范例，处理器可包含中央处理器（cpu）、专用集成电路（asic）、专用指令处理器（asip）、图形处理器（gpu）、物理处理器（ppu）、数字信号处理器（dsp）、现场可编程门阵列（fpga）、可编辑逻辑电路（pld）、控制器、微控制器单元、精简指令集电脑（risc）、微处理器等或以上任意组合。
27.网络120可促进基于循环神经网络的信息查询系统100中数据和/或信息的交换。在一些实施例中，基于循环神经网络的信息查询系统100中的一个或多个组件（例如，处理设备110、用户终端130和存储设备140）可以通过网络120发送数据和/或信息给基于循环神经网络的信息查询系统100中的其他组件。例如，存储设备140存储的社保相关数据可以通过网络120传输至处理设备110。又例如，用户终端130可以通过网络120将社保查询指令传输至处理设备110。又例如，处理设备110可以通过网络120将与社保查询指令对应的社保相关数据传输至目标员工的用户终端130。在一些实施例中，网络120可以是任意类型的有线或无线网络。例如，网络120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络（lan）、广域网络（wan）、无线区域网络（wlan）、都会区域网络（man）、公共电话交换网络（pstn）、蓝牙网络、zigbee网络、近场通讯（nfc）网络等或以上任意组合。在一些实施例中，网络120可以包括一个或多个网络进出点。例如，网络120可以包含有线或无线网络进出点，如基站和/或网际网络交换点，通过这些进出点，基于循环神经网络的信息查询系统100的一个或多个组件可以连接到网络120上以交换数据和/或信息。
28.在一些实施例中，用户终端130可以获取基于循环神经网络的信息查询系统100中的信息或数据。例如，用户终端130可以通过网络120将社保查询指令传输至处理设备110。又例如，用户终端130可以通过网络120从处理设备110获取与社保查询指令对应的社保相关数据。在一些实施例中，用户终端130可以包括移动装置、平板电脑、笔记本电脑等中的一种或其任意组合。在一些实施例中，移动装置可以包括可穿戴装置、智能行动装置、虚拟实境装置、增强实境装置等或其任意组合。在一些实施例中，可穿戴装置可以包括智能手环、智能眼镜、智能头盔、智能手表、智能背包、智能手柄等或其任意组合。在一些实施例中，智能行动装置可以包括智能电话、个人数字助理（pda）、游戏装置、导航装置、pos装置等或其任意组合。
29.在一些实施例中，存储设备140可以与网络120连接以实现与基于循环神经网络的信息查询系统100的一个或多个组件（例如，处理设备110、用户终端130等）通讯。基于循环神经网络的信息查询系统100的一个或多个组件可以通过网络120访问存储于存储设备140中的资料或指令。在一些实施例中，存储设备140可以直接与基于循环神经网络的信息查询系统100中的一个或多个组件（如，处理设备110、用户终端130）连接或通讯。在一些实施例中，存储设备140可以是处理设备110的一部分。
30.应该注意的是，上述描述仅出于说明性目的而提供，并不旨在限制本技术的范围。对于本领域普通技术人员而言，在本技术内容的指导下，可做出多种变化和修改。可以以各种方式组合本技术描述的示例性的实施例的特征、结构、方法和其他特征，以获得另外的和/或替代的示例性的实施例。例如，存储设备140可以是包括云计算平台的数据存储设备，例如公共云、私有云、社区和混合云等。然而，这些变化与修改不会背离本技术的范围。
31.图2是根据本技术的一些实施例所示的计算设备的示例性的框图。
32.在一些实施例中，处理设备110和/或用户终端130可以在计算设备200上实现。例如，处理设备110可以在计算设备200上实施并执行本技术所公开的获取工作任务。
33.如图2所示，计算设备200可以包括处理器210、只读存储器220、随机存储器230、通信端口240、输入/输出接口250和硬盘260。
34.处理器210可以执行计算指令（程序代码）并执行本技术描述的基于循环神经网络的信息查询系统100的功能。所述计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能（所述功能指本技术中描述的特定功能）。例如，处理器210可以处理从基于循环神经网络的信息查询系统100的存储设备140获取的多个样本员工信息。在一些实施例中，处理器210可以包括微控制器、微处理器、精简指令集计算机（risc）、专用集成电路（asic）、应用特定指令集处理器（asip）、中央处理器（cpu）、图形处理单元（gpu）、物理处理单元（ppu）、微控制器单元、数字信号处理器（dsp）、现场可编程门阵列（fpga）、高级risc机（arm）、可编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等，或其任意组合。仅为了说明，图2中的计算设备200只描述了一个处理器，但需要注意的是，本技术中的计算设备200还可以包括多个处理器。
35.计算设备200的存储器（例如，只读存储器（rom）220、随机存储器（ram）230、硬盘260等）可以存储从基于循环神经网络的信息查询系统100的任何其他组件获取的数据/信息。例如，从存储设备140获取多个样本员工的员工信息等。又例如，存储设备140存储的从多个工作任务中确定目标工作任务的指令。示例性的rom可以包括掩模rom（mrom）、可编程rom（prom）、可擦除可编程rom（perom）、电可擦除可编程rom（eeprom）、光盘rom（cd
‑
rom）和数字通用盘rom等。示例性的ram可以包括动态ram（dram）、双倍速率同步动态ram（ddr sdram）、静态ram（sram）、晶闸管ram（t
‑
ram）和零电容（z
‑
ram）等。
36.输入/输出接口250可以用于输入或输出信号、数据或信息。在一些实施例中，输入/输出接口250可以使用户与基于循环神经网络的信息查询系统100进行联系。例如，员工通过输入/输出接口250向处理设备110发送社保查询指令。还例如，员工通过输入/输出接口250接收处理设备110发送的与社保查询指令对应的社保相关数据。在一些实施例中，输入/输出接口250可以包括输入装置和输出装置。示例性的输入装置可以包括键盘、鼠标、触摸屏和麦克风等，或其任意组合。示例性的输出装置可以包括显示设备、扬声器、打印机、投影仪等或其任意组合。示例性的显示装置可以包括液晶显示器（lcd）、基于发光二极管（led）的显示器、平板显示器、曲面显示器、电视设备、阴极射线管（crt）等或其任意组合。通信端口240可以连接到网络以便数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等或其任意组合。无线连接可以包括蓝牙、wi
‑
fi、wimax、wlan、zigbee、移动网络（例如，3g、4g或5g等）等或其任意组合。在一些实施例中，通信端口240可以是标准化端口，如rs232、rs485等。在一些实施例中，通信端口240可以是专门设计的端口。
37.仅仅为了说明，计算设备200只描述了一个中央处理器和/或处理器。然而，需要注意的是，本技术中的计算设备200可以包括多个中央处理器和/或处理器，因此本技术中描述的由一个中央处理器和/或处理器实现的操作和/或方法也可以共同地或独立地由多个中央处理器和/或处理器实现。例如，计算设备200的中央处理器和/或处理器可以执行步骤
a和步骤b。在另一示例中，步骤a和步骤b也可以由计算设备200中的两个不同的中央处理器和/或处理器联合或单独地执行（例如，第一处理器执行步骤a并且第二处理器执行步骤b，或第一和第二处理器共同执行步骤a和b）。
38.图3是根据本技术一些实施例所示的一种基于循环神经网络的信息查询系统100的示例性框图。
39.如图3所示，一种基于循环神经网络的信息查询系统100可以包括信息获取模块及信息查询模块。在一些实施例中，信息获取模块及信息查询模块可以被实现在处理设备110或计算设备200上。
40.在一些实施例中，信息获取模块可以用于获取社保相关数据，信息获取模块还可以用于建立社保数据库，社保数据库可以用于存储社保相关数据。在一些实施例中，信息获取模块还可以用于获取训练好的养老金预测长短期记忆网络（lstm，long short
‑
term memory）模型，信息获取模块还可以用于获取用户在多个过去时间点的养老保险相关数据；养老金预测长短期记忆网络（lstm，long short
‑
term memory）模型可以用于基于用户在多个过去时间点的养老保险相关数据预测用户在至少一个未来时间点的养老金预测数据。在一些实施例中，社保相关数据包括用户在至少一个未来时间点的养老金预测数据。
41.在一些实施例中，信息查询模块可以用于获取训练好的循环神经网络模型，还用于获取社保查询指令，循环神经网络模型用于基于社保查询指令从社保数据库中获取与社保查询指令对应的社保相关数据。在一些实施例中，信息查询模块还可以包括指令数值化单元，指令数值化单元用于将社保查询指令中的文本数据转换为数值型数据，指令数值化单元输出数值型数据至循环神经网络模型。在一些实施例中，指令数值化单元可以基于独热编码将社保查询指令中的文本数据转换为数值型数据。
42.在一些实施例中，循环神经网络模型的输入层可以包括word2vec模型，word2vec模型用于将数值型数据转换为指令词向量；word2vec模型包括连续词袋（cbow，continues bag ofwords）子模型及skip
‑
gram子模型；数值型数据分别输入连续词袋（cbow，continues bag ofwords）子模型及skip
‑
gram子模型，word2vec模型基于连续词袋（cbow，continues bag ofwords）子模型输出的词向量及skip
‑
gram子模型输出的词向量确定社保查询指令对应的指令词向量。
43.图4是根据本技术一些实施例所示的一种基于循环神经网络的信息查询方法的示例性流程图。如图4所示，一种基于循环神经网络的信息查询方法包括下述步骤。在一些实施例中，一种基于循环神经网络的信息查询方法可以被实现在处理设备110或计算设备200上。
44.步骤410，获取社保相关数据。在一些实施例中，步骤410可以信息获取模块由执行。
45.在一些实施例中，社保相关数据可以包括多个地区的社保缴纳标准信息，其中，因养老保险属于省级统筹，以所在省为单位；其他四险（即医疗保险、失业保险、工伤保险、生育保险）为市级统筹，故地区可以为中国的某个市（例如，成都市、重庆市等）。在一些实施例中，社保缴纳标准信息可以包括多个地区中的每一个地区的社保缴费基数及比例。
46.在一些实施例中，信息获取模块可以基于网络爬虫获取当前周期的多个地区的社保缴纳标准信息。在一些实施例中，信息获取模块基于网络爬虫获取多个地区的社保缴纳
标准信息，可以包括：获取至少一个初始网页的父url（uniform resource locator，统一资源定位器），其中，初始网页可以为与预设主题的相关度大于预设相关度阈值的网页，爬虫可以根据各项的标签对网页的数据进行解构，提取有用的数据，然后在对数据进行切词、抽词，生成至少一个待分析词，根据预设主题确定至少一个主题词（例如，社保新政策、养老保险、公积金等）基于相似度算法（例如，基于空间向量的余弦算法、基于语义相似度的文本相似度算法、基于拼音相似度的汉语模糊搜索算法等），计算每一个待分析词与每一个主题词的词语相似度，当该待分析词与任意一个主题词的相似度大于预设阈值（例如，90%）时，将该分析词作为目标分析词，计算目标分析词的数量占待分析词总数量的比例，若该比例大于预设比例阈值（例如，50%），则该网页可以作为初始网页；在一些实施例中，初始网页可以为公开的政府官方网站中的网页，例如，中华人民共和国国家社会保险公共服务平台中的网页；从至少一个初始网页的父url中提取至少一个子url，其中，子url可以是至少一个初始网页中的链接对应的url；基于至少一个子url的发布时间及至少一个子url的网页内容与预设主题的相关度，从至少一个子url中确定至少一个目标子url，其中，预设主题可以为；社保新政策、养老保险、公积金等；在一些实施例中，当至少一个子url的网页内容与预设主题的相关度大于预设相关度阈值，则该子url为目标子url；其中，爬虫可以根据各项的标签对子url对应的网页的数据进行解构，提取有用的数据，然后在对数据进行切词、抽词，生成至少一个待分析词，根据预设主题确定至少一个主题词（例如，社保新政策、养老保险、公积金等）基于相似度算法（例如，基于空间向量的余弦算法、基于语义相似度的文本相似度算法、基于拼音相似度的汉语模糊搜索算法等），计算每一个待分析词与每一个主题词的词语相似度，当该待分析词与任意一个主题词的相似度大于预设阈值（例如，90%）时，将该分析词作为目标分析词，计算目标分析词的数量占待分析词总数量的比例，若该比例大于预设比例阈值（例如，50%），则该子url可以作为目标子url；对至少一个初始网页的父url及至少一个目标子url进行数据抓取，获取当前周期的多个地区的社保缴纳标准信息。
47.在一些实施例中，社保相关数据还可以包括员工社保信息，其中，员工社保信息可以包括员工身份信息（例如，身份证号、姓名等）、岗位信息（例如，所属公司、岗位、薪资等）及社保缴纳记录信息（例如，每次缴纳社保的具体时间、每次缴纳社保的基数、实际缴纳社保的金额等）。在一些实施例中，社保缴纳记录信息可以包括该员工在多个过去时间点的养老保险相关数据（例如，养老保险的具体时间、每次缴纳的养老保险的基数、实际缴纳的养老保险的金额等）。
48.在一些实施例中，信息获取模块还可以用于获取训练好的养老金预测长短期记忆网络（lstm，long short
‑
term memory）模型。在一些实施例中，养老金预测长短期记忆网络（lstm，long short
‑
term memory）模型可以用于基于员工身份信息（例如，身份证号、姓名等）、岗位信息（例如，所属公司、岗位、薪资等）及用户在多个过去时间点的养老保险相关数据（养老保险的具体时间、每次缴纳的养老保险的基数、实际缴纳的养老保险的金额等）预测用户在至少一个未来时间点的养老金预测数据，其中，在未来时间点的养老金预测数据可以为用户在未来的某个时间点可以领取的养老金的数额。在一些实施例中，社保相关数
据可以包括用户在至少一个未来时间点的养老金预测数据。
49.步骤420，建立社保数据库。在一些实施例中，步骤420可以信息获取模块由执行。
50.在一些实施例中，社保数据库可以用于存储社保相关数据。在一些实施例中，社保数据库可以基于数据库系统（db2数据库系统、oracle数据库系统、sybase数据库系统、mysql数据库系统、sql server数据库系统等）实现。
51.在一些实施例中，社保数据库可以包括多个子数据库（例如，子数据库a及子数据库b）。在一些实施例中，信息获取模块可以对获取的每个社保相关数据进行分类，确定每个社保相关数据的类型。在一些实施例中，类型可以为缴纳标准类、员工社保类。在一些实施例中，信息获取模块还可以进一步确定每个缴纳标准类的社保相关数据的至少一个第一特征，其中，第一特征可以包括第一时间特征（例如，2012年、2013年、2014年等）、城市特征（例如，杭州、成都、上海等）及第一险种特征（例如，养老保险类、医疗保险类、失业保险类、工伤保险类、生育保险类）等。在一些实施例中，信息获取模块可以基于第一特征生成对应的第一特征标签。例如，社保相关数据为“2021年成都市的企业职工基本养老保险的单位缴纳比例为16%、个人缴纳比例为8%”，则该社保相关数据的类型为缴纳标准类，该社保相关数据的第一特征标签可以包括与第一时间特征对应的第一特征标签“2021年”、与城市特征对应的第一特征标签“成都市”、与第一险种特征对应的第一特征标签“养老金类”。
52.在一些实施例中，信息获取模块还可以进一步确定每个员工社保类的社保相关数据的至少一个第二特征，其中，第二特征可以包括第二时间特征（例如，2012年、2013年、2014年等）、身份特征（例如，身份证号或基于员工身份信息生成的唯一标识码等）及第二险种特征（例如，养老保险类、医疗保险类、失业保险类、工伤保险类、生育保险类及养老金预测类）等。在一些实施例中，信息获取模块可以基于第二特征生成对应的第二特征标签。例如，对于社保相关数据：“2060年身份证号为512386166723863498的员工a的养老金为4560元”，该社保相关数据的第二特征标签可以包括与第二时间特征对应的第二特征标签“2060年”、与身份特征对应的第二特征标签“512386166723863498”、与第二险种特征对应的第二特征标签“养老金预测类”。
53.在一些实施例中，子数据库a可以用于存储每个缴纳标准类的社保相关数据对应第一特征标签及每个缴纳标准类的社保相关数据的存储路径，子数据库b可以用于存储员工社保类的每个社保相关数据对应第二特征标签及每个员工社保类的社保相关数据的存储路径。
54.步骤430，获取训练好的循环神经网络模型。在一些实施例中，步骤420可以由信息获取模块执行。
55.在一些实施例中，信息获取模块可以从处理设备110、存储设备140或计算设备200获取训练好的循环神经网络模型。
56.在一些实施例中，循环神经网络模型的输入层可以包括word2vec模型，word2vec模型用于将数值型数据转换为指令词向量；word2vec模型包括连续词袋（cbow，continues bag ofwords）子模型及skip
‑
gram子模型。
57.在一些实施例中，循环神经网络模型的中间层可以为长短期记忆网络（lstm，long short
‑
term memory）。在一些实施例中，循环神经网络模型的中间层可以包括分类层、第一相似度计算层和第二相似度计算层。
58.步骤440，获取社保查询指令。在一些实施例中，步骤440可以由信息查询模块执行。
59.在一些实施例中，信息查询模块可以从用户端130接收社保查询指令，其中，社保查询指令可以为文字指令，社保查询指令还可以为语音指令，信息查询模块可以将语音指令转换为文字指令。在一些实施例中，信息查询模块还包括指令数值化单元，指令数值化单元用于将社保查询指令中的文本数据转换为数值型数据，指令数值化单元输出数值型数据至循环神经网络模型。在一些实施例中，指令数值化单元可以基于独热（one
‑
hot）编码将社保查询指令中的文本数据转换为数值型数据。在一些实施例中，独热（one
‑
hot）编码利用一个向量来表示一句话，这个向量的维数就是由原始句子切分后所得到的词语组成的语料库中字词的个数，这个向量只包含0或1这两个元素。例如，一个句子为“我喜欢香蕉”，在对句子进行切分之后，可以得到“我”、“喜欢”、“香蕉”这3组单词，那么利用独热（one
‑
hot）编码转化成的向量维数度是3，可以观察到“属于”一词的编码向量为[0,1,0]，这句话经独热（one
‑
hot）编码后的向量为：。社保查询指令通过one
‑
hot编码后变为词向量，但是独热（one
‑
hot）编码没有考虑组成社保查询指令的多个单词之间的相对位置，任意两个单词之间都是孤立的，因此，信息查询模块需要将独热（one
‑
hot）编码后的数值型数据分别输入至连续词袋（cbow，continues bag ofwords）子模型及skip
‑
gram子模型，连续词袋（cbow，continues bag ofwords）子模型及skip
‑
gram子模型将数值型数据转换为指令词向量。在一些实施例中，信息查询模块可以基于连续词袋（cbow，continues bag ofwords）子模型输出的词向量及skip
‑
gram子模型输出的词向量确定社保查询指令对应的指令词向量。例如，信息查询模块可以将连续词袋（cbow，continues bag ofwords）子模型输出的词向量及skip
‑
gram子模型输出的词向量去重后剩余的词向量作为社保查询指令对应的指令词向量。在一些实施例中，指令词向量的序列可以作为循环神经网络模型的中间层的输入。
[0060]
步骤450，通过循环神经网络模型基于社保查询指令从社保数据库中获取与社保查询指令对应的社保相关数据。在一些实施例中，步骤450可以由信息查询模块执行。
[0061]
在一些实施例中，循环神经网络模型的分类层用于基于社保查询指令对应的指令词向量的序列判断社保查询指令查找的社保相关数据属于缴纳标准类的概率及属于员工社保类的概率，并取概率最大的类型作为社保查询指令查找的社保相关数据的所属类型。
[0062]
在一些实施例中，分类层判断社保查询指令查找的社保相关数据属于缴纳标准类时，第一相似度计算层用于基于社保查询指令对应的指令词向量的序列与数据库a中每个缴纳标准类的社保相关数据对应第一特征标签，计算社保查询指令对应的指令词向量的序列与的数据库a中每个缴纳标准类的社保相关数据的第一相似度。
[0063]
在一些实施例中，分类层判断社保查询指令查找的社保相关数据属于员工社保类时，第二相似度计算层用于基于社保查询指令对应的指令词向量的序列与数据库b中每个员工社保类的社保相关数据对应第二特征标签，计算社保查询指令对应的指令词向量的序列与的数据库b中每个员工社保类的社保相关数据的第二相似度。
[0064]
在一些实施例中，循环神经网络模型包括第一输出层及第二输出层。
[0065]
在一些实施例中，分类层判断社保查询指令查找的社保相关数据属于缴纳标准类时，第一输出层用于基于社保查询指令对应的指令词向量的序列与的数据库a中每个缴纳标准类的社保相关数据的第一相似度及每个缴纳标准类的社保相关数据的存储路径输出
与社保查询指令对应的指令词向量的第一相似度大于预设阈值的缴纳标准类的社保相关数据。
[0066]
在一些实施例中，分类层判断社保查询指令查找的社保相关数据属于员工社保类时，第二输出层用于基于社保查询指令对应的指令词向量的序列与的数据库b中每个员工社保类的社保相关数据的第二相似度及每个员工社保类的社保相关数据的存储路径输出与社保查询指令对应的指令词向量的第二相似度大于预设阈值的员工社保类的社保相关数据。
[0067]
在本技术的另一些实施例中，提供了一种基于循环神经网络的信息查询装置，包括至少一个处理设备以及至少一个存储设备；至少一个存储设备用于存储计算机指令，至少一个处理设备用于执行计算机指令中的至少部分指令以实现如上的一种基于循环神经网络的信息查询方法。
[0068]
在本技术的又一些实施例中，提供了一种计算机可读存储介质，存储介质存储计算机指令，当计算机指令被处理设备执行时实现如上的基于循环神经网络的信息查询方法。
[0069]
上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本技术的限定。虽然此处并没有明确说明，本领域技术人员可能会对本技术进行各种修改、改进和修正。该类修改、改进和修正在本技术中被建议，所以该类修改、改进、修正仍属于本技术示范实施例的精神和范围。
[0070]
同时，本技术使用了特定词语来描述本技术的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本技术至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本技术的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
[0071]
此外，本领域技术人员可以理解，本技术的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本技术的各个方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本技术的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。
[0072]
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、rf、或类似介质，或任何上述介质的组合。
[0073]
本技术各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c 、c#、vb.net、python等，常规程序化编程语言如c语言、visual basic、fortran 2003、perl、cobol 2002、
php、abap，动态编程语言如python、ruby和groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（lan）或广域网（wan），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（saas）。
[0074]
此外，除非权利要求中明确说明，本技术所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本技术流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本技术实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。
[0075]
同理，应当注意的是，为了简化本技术披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本技术实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本技术对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。
[0076]
一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本技术一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。
[0077]
针对本技术引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本技术作为参考。与本技术内容不一致或产生冲突的申请历史文件除外，对本技术权利要求最广范围有限制的文件（当前或之后附加于本技术中的）也除外。需要说明的是，如果本技术附属材料中的描述、定义、和/或术语的使用与本技术内容有不一致或冲突的地方，以本技术的描述、定义和/或术语的使用为准。
[0078]
最后，应当理解的是，本技术中所述实施例仅用以说明本技术实施例的原则。其他的变形也可能属于本技术的范围。因此，作为示例而非限制，本技术实施例的替代配置可视为与本技术的教导一致。相应地，本技术的实施例不仅限于本技术明确介绍和描述的实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：训练模型数据的检验方法、电子设备及存储介质与流程

一种基于循环神经网络的信息查询方法及系统与流程

相关文献

最热文献