一种搜索引擎索引的构建方法、装置、介质及电子设备与流程

2022-05-18 08:37:18 来源：中国专利 TAG：

1.本发明涉及数据存储技术领域，尤其涉及一种搜索引擎索引的构建方法、装置、介质及电子设备。

背景技术：

2.随着电子信息技术的发展，大数据也随之快速发展，在人们生活中扮演着日趋重要的作用。医疗大数据对于精准医疗、疾病风控和预警等有着重要的意义，医疗数据搜索可以快速定位病人、病历数据，帮助医生、病人快速获取自己所需的数据。
3.现有技术中，通过从医疗数据库导出所有的医疗数据，经搜索业务预处理之后，在spark平台(专为大数据设计的快速搜索引擎)使用建库脚本发送到搜索引擎中生成搜索引擎索引，基于搜索引擎索引可实现医疗数据搜索。
4.使用现有技术方案来构建搜索引擎索引耗时非常长，因为一个患者访问一次医院就可能产生大量医疗数据(如大量检验记录、问诊记录，用药记录等)，可见全量的医疗数据量很大。由于搜索引擎本身能够承受的写库任务并发数有限，海量的医疗数据导入时造成搜索引擎索引构建时间太长，另外搜索引擎索引更新时，同样更新量太大，引起检索引擎负载升高，进而影响线上搜索请求。

技术实现要素：

5.本发明提供一种搜索引擎索引的构建方法、装置、存储介质及电子设备，以至少解决现有技术中存在的以上技术问题。
6.本发明一方面提供一种搜索引擎索引的构建方法，该方法包括：
7.获取第一版本医疗数据和第二版本医疗数据，所述第一版本医疗数据的记录日期早于所述第二版本医疗数据的记录日期；所述第一版本医疗数据包括多条第一用户数据，所述第二版本医疗数据包括多条第二用户数据；
8.通过快照恢复与所述第一版本医疗数据对应的搜索引擎索引库，同时确定与所述第一用户数据存在差异的第二用户数据为差量数据；
9.当差量数据的总条数小于预设阈值，则待所述搜索引擎索引库恢复完成，确定所述搜索引擎索引库中是否存在与差量数据所属用户对应的搜索引擎索引；
10.若存在，则从所述用户对应的搜索引擎索引中删除所述用户的第一用户数据，并将所述用户的差量数据写入所述用户对应的搜索引擎索引中；
11.若不存在，则生成新搜索引擎索引，将所述用户的差量数据写入新搜索引擎索引。
12.在一可实施方式中，该方法还包括：
13.若所述差量数据的总条数大于等于预设阈值，则停止所述搜索引擎索引库的恢复，生成与所述第二版本医疗数据对应的搜索引擎索引库。
14.在一可实施方式中，所述第一用户数据或所述第二用户数据包括用户的基础数据和至少一条病历数据。
15.在一可实施方式中，确定与所述第一用户数据存在差异的第二用户数据为差量数据，包括：
16.根据所述第一版本医疗数据和所述第二版本医疗数据，确定所述第二版本医疗数据中新增用户的第二用户数据为差量数据；
17.根据所述第一版本医疗数据和所述第二版本医疗数据，确定同一用户的与第一用户数据不同的第二用户数据为差量数据。
18.在一可实施方式中，所述确定同一用户的与第一用户数据不同的第二用户数据为差量数据，包括：
19.将所述用户的第一用户数据中的基础数据和至少一条病例数据进行聚合得到第一聚合数据，所述第一聚合数据中包括多个字段；
20.将所述用户的第二用户数据中的基础数据和至少一条病例数据进行聚合得到第二聚合数据，所述第二聚合数据中包括多个字段；
21.将所述第一聚合数据与所述第二聚合数据中的字段均按照预设顺序排序；
22.将排序后的第一聚合数据转换为第一纯文本数据，将排序后的第二聚合数据转换为第二纯文本数据；
23.根据所述用户对应的所述第一纯文本数据和所述第二纯文本数据，确定所述所述用户的第一用户数据和第二用户数据是否相同。
24.在一可实施方式中，所述根据所述用户对应的所述第一纯文本数据和所述第二纯文本数据，确定所述用户的第一用户数据和第二用户数据是否相同，包括：
25.分别获取所述第一纯文本数据和所述第二纯文本数据对应的字符串；
26.若所述第一纯文本数据的字符串与所述第二纯文本数据的字符串不相等，则确定用户的第一用户数据和第二用户数据不相同，所述用户的第二用户数据为差量数据。
27.本发明另一方面提供一种搜索引擎索引的构建装置，该装置包括：
28.获取模块，用于获取第一版本医疗数据和第二版本医疗数据，所述第一版本医疗数据的记录日期早于所述第二版本医疗数据的记录日期；所述第一版本医疗数据包括多条第一用户数据，所述第二版本医疗数据包括多条第二用户数据；
29.确定模块，用于通过快照恢复与所述第一版本医疗数据对应的搜索引擎索引库，同时确定与所述第一用户数据存在差异的第二用户数据为差量数据；
30.判断模块，用于当差量数据的总条数小于预设阈值，则待所述搜索引擎索引库恢复完成，确定所述搜索引擎索引库中是否存在与差量数据所属用户对应的搜索引擎索引；
31.更新模块，用于确定若所述搜索引擎索引库中存在与差量数据所属用户对应的搜索引擎索引，则从所述用户对应的搜索引擎索引中删除所述用户的第一用户数据，并将所述用户的差量数据写入所述用户对应的搜索引擎索引中；
32.第一构建模块，用于确定若所述搜索引擎索引库中不存在与差量数据所属用户对应的搜索引擎索引，则生成新搜索引擎索引，将所述用户的差量数据写入新搜索引擎索引。
33.在一可实施方式中，该装置还包括：
34.第二构建模块，用于确定若所述差量数据的总条数大于等于预设阈值，则停止所述搜索引擎索引库的恢复，生成与所述第二版本医疗数据对应的搜索引擎索引库。
35.在一可实施方式中，所述第一用户数据或所述第二用户数据包括用户的基础数据
和至少一条病历数据。
36.在一可实施方式中，所述确定模块包括：
37.第一确定单元，用于根据所述第一版本医疗数据和所述第二版本医疗数据，确定所述第二版本医疗数据中新增用户的第二用户数据为差量数据；
38.第二确定单元，用于根据所述第一版本医疗数据和所述第二版本医疗数据，确定同一用户的与第一用户数据不同的第二用户数据为差量数据。
39.在一可实施方式中，所述第二确定单元具体用于：
40.将所述用户的第一用户数据中的基础数据和至少一条病例数据进行聚合得到第一聚合数据，所述第一聚合数据中包括多个字段；
41.将所述用户的第二用户数据中的基础数据和至少一条病例数据进行聚合得到第二聚合数据，所述第二聚合数据中包括多个字段；
42.将所述第一聚合数据与所述第二聚合数据中的字段均按照预设顺序排序；
43.将排序后的第一聚合数据转换为第一纯文本数据，将排序后的第二聚合数据转换为第二纯文本数据；
44.根据所述用户对应的所述第一纯文本数据和所述第二纯文本数据，确定所述所述用户的第一用户数据和第二用户数据是否相同。
45.在一可实施方式中，所述根据所述用户对应的所述第一纯文本数据和所述第二纯文本数据，确定所述用户的第一用户数据和第二用户数据是否相同，包括：
46.分别获取所述第一纯文本数据和所述第二纯文本数据对应的字符串；
47.若所述第一纯文本数据的字符串与所述第二纯文本数据的字符串不相等，则确定用户的第一用户数据和第二用户数据不相同，所述用户的第二用户数据为差量数据。
48.本发明再一方面提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明所述的一种搜索引擎索引的构建方法。
49.本发明还一方面提供一种电子设备，包括：
50.处理器；
51.用于存储所述处理器可执行指令的存储器；
52.所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明所述的一种搜索引擎索引的构建方法。
53.在本发明的上述方案中，通过获取第一版本医疗数据和第二版本医疗数据，恢复与第一版本医疗数据对应的搜索引擎索引库时，同时确定第一版本医疗数据与第二版本医疗数据的差量数据，搜索引擎索引库的恢复与差量数据的确定同时进行，能够节省搜索引擎索引构建的时间；另外根据差量数据的数据量大小确定不同的搜索引擎索引构建方法，若差量数据的总条数小于预设阈值，则待搜索引擎索引库恢复完成，确定搜索引擎索引库中是否存在与差量数据所属用户对应的搜索引擎索引，若存在，则从该用户对应的搜索引擎索引中删除该用户的第一用户数据，并将该用户的差量数据写入该用户对应的搜索引擎索引中；若不存在，则生成新搜索引擎索引，将该用户的差量数据写入新搜索引擎索引。本发明搜索引擎索引的构建方法具有构建速度快、构建时间短的效果。
附图说明
54.图1示出了本发明一实施例提供的一种搜索引擎索引的构建方法的流程示意图；
55.图2示出了本发明又一实施例提供的一种搜索引擎索引的构建方法的流程示意图；
56.图3示出了本发明一实施例提供的一种搜索引擎索引的构建装置的结构示意图；
57.图4示出了本发明又一实施例提供的一种搜索引擎索引的构建装置的结构示意图；。
具体实施方式
58.为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
59.如图1示出了本发明提供的一种搜索引擎索引的构建方法的流程示意图，该构建方法包括：
60.步骤s101、获取第一版本医疗数据和第二版本医疗数据，所述第一版本医疗数据的记录日期早于所述第二版本医疗数据的记录日期；所述第一版本医疗数据包括多条第一用户数据，所述第二版本医疗数据包括多条第二用户数据。
61.例如，第一版本医疗数据为2021年12月1的数据，即记录的是截止到2021年12月1日某医院所有患者的医疗数据；第二版本医疗数据为2021年12月5日的数据，即记录的是截止到2021年12月5日某医院所有患者的医疗数据。第一版本医疗数据和第二版本医疗数据均存储在医疗数据库中或者备份在分布式文件系统(hdfs)中，本实施例获取第一版本医疗数据和第二版本医疗数据的方式可以从医疗数据库中获取，也可以通过快照恢复备份的第一版本医疗数据和第二版本医疗数据，本发明对第一版本医疗数据和第二版本医疗数据的具体获取方式不做限制。
62.第一版本医疗数据包括多条第一用户数据，第二版本医疗数据包括多条第二用户数据，用户在医院就诊产生的所有数据为用户数据，第二用户数据的总条数不小于第一用户数据的总条数。
63.步骤s102、通过快照恢复与所述第一版本医疗数据对应的搜索引擎索引库，同时确定与所述第一用户数据存在差异的第二用户数据为差量数据。
64.为了避免根据第二版本医疗数据中全量的第二用户数据构建搜索引擎索引，导致搜索引擎索引构建时间太长，因此先通过快照恢复与第一版本医疗数据对应的搜索引擎索引库，由于搜索引擎索引库的恢复需要时间，因此将搜索引擎索引库的恢复与差量数据的确定同时进行，从而节省搜索引擎索引构建的时间。
65.确定与第一用户数据存在差异的第二用户数据为差量数据，例如，2021年12月5日的第二版本医疗数据与2021年12月1日的第一版本医疗数据相比，第二用户数据与第一用户数据存在差异，则该第二用户数据为差量数据，差量数据包括2021年12月1日至2021年12月5日新增的用户产生的数据以及同一用户二次或多次到访医院产生的数据。
66.步骤s103、当差量数据的总条数小于预设阈值，则待所述搜索引擎索引库恢复完
成，确定所述搜索引擎索引库中是否存在与差量数据所属用户对应的搜索引擎索引。
67.若一条第二用户数据与第一用户数据相比存在差异，则该条第二用户数据为一条差量数据，假设预设阈值为2000条，若存在1500条第二用户数据与第一用户数据存在差异，则有1500条差量数据。由于差量数据的总条数小于预设阈值，等待搜索引擎索引库恢复完成，搜索引擎索引库中包括多条搜索引擎索引，一条搜索引擎索引包括多个用户的多条数据，搜索引擎索引库恢复完成后，确定搜索引擎索引库中是否存在与差量数据所属用户对应的搜索引擎索引。假设其中一条差量数据所属用户为用户a，确定搜索引擎索引库中是否存在与用户a对应的搜索引擎索引。
68.步骤s104、若存在，则从所述用户对应的搜索引擎索引中删除所述用户的第一用户数据，并将所述用户的差量数据写入所述用户对应的搜索引擎索引中。
69.若搜索引擎索引库中存在与用户a对应的搜索引擎索引，由于用户a的第二用户数据与第一用户数据相比存在差异，则从与用户a对应的搜索引擎索引中删除用户a的第一用户数据，并将用户a的差量数据即用户a的第二用户数据写入与用户a对应的搜索引擎索引中。
70.步骤s105、若不存在，则生成新搜索引擎索引，将所述用户的差量数据写入新搜索引擎索引。
71.若搜索引擎索引库中不存在与用户a对应的搜索引擎索引，则生成新搜索引擎索引，将用户a的差量数据即用户a的第二用户数据写入新搜索引擎索引。
72.本实施例搜索引擎可以是es(elastic search基于lucene的搜索服务器)，搜索引擎索引为es索引。
73.在本发明的上述方案中，通过获取第一版本医疗数据和第二版本医疗数据，恢复与第一版本医疗数据对应的搜索引擎索引库时，同时确定第一版本医疗数据与第二版本医疗数据的差量数据，搜索引擎索引库的恢复与差量数据的确定同时进行，能够节省搜索引擎索引构建的时间；另外根据差量数据的数据量大小确定不同的搜索引擎索引构建方法，若差量数据的总条数小于预设阈值，则待搜索引擎索引库恢复完成，确定搜索引擎索引库中是否存在与差量数据所属用户对应的搜索引擎索引，若存在，则从该用户对应的搜索引擎索引中删除该用户的第一用户数据，并将该用户的差量数据写入该用户对应的搜索引擎索引中；若不存在，则生成新搜索引擎索引，将该用户的差量数据写入新搜索引擎索引。相较于现有技术中利用全量医疗数据(某医院所有患者的所有医疗数据)构建搜索引擎索引，本发明搜索引擎索引的构建方法具有构建速度快、构建时间短的效果。
74.在一个示例中，步骤s101中，所述第一用户数据或所述第二用户数据包括用户的基础数据和至少一条病历数据。
75.其中，用户数据为表征用户个人信息的数据，例如用户姓名、年龄、性别、身高、体重、身份证号、就诊卡号等数据；第一用户数据或第二用户数据包括至少一条病历数据，例如用户到访医院一次，则产生一条病历数据，到访医院多次，则相应的产生多条病历数据。每一条病历数据中包括用户在医院就诊所产生的医学诊断、检验结果、检查结果、用药记录等与用户相关的医学数据。
76.第一用户数据或第二用户数据中还包括版本记录(data_version)等信息，例如2021年12月1日用户a的第一用户数据的版本记录为20211201，2021年12月5日用户a的第二
用户数据的版本记录为20211205。
77.在一个示例中，步骤s102中，确定与所述第一用户数据存在差异的第二用户数据为差量数据，包括：
78.根据所述第一版本医疗数据和所述第二版本医疗数据，确定所述第二版本医疗数据中新增用户的第二用户数据为差量数据；
79.根据所述第一版本医疗数据和所述第二版本医疗数据，确定同一用户的与第一用户数据不同的第二用户数据为差量数据。
80.在一个示例中，所述所述第二版本医疗数据中新增用户的第二用户数据为差量数据，包括：
81.比较所述第一版本医疗数据和所述第二版本医疗数据确定新增用户；
82.确定新增用户的第二用户数据为差量数据。
83.例如，通过比较第一版本医疗数据与第二版本医疗数据中用户的身份证号或者就诊卡号，确定第二版本医疗数据中的哪些用户为新增用户，新增用户即第一版本医疗数据中不存在的用户，该用户是第一版本医疗数据记录时间与第二版本医疗数据记录时间之间首次到访医院的用户，该用户的第二用户数据即为差量数据。例如，某用户在2021年12月1日与2021年12月5日之间是第一次到访医院，该用户产生的第二用户数据为差量数据。
84.例如在第二版本医疗数据和第一版本医疗数据间隔的时间段内有些用户对应的第一用户数据与第二用户数据没有发生变化，例如某用户在2021年12月1日与2021年12月5日之间没有到访医院，其在医院产生的基础数据和病历数据未发生变化，则该用户的第一用户数据与第二用户数据相同。有些用户在2021年12月1日与2021年12月5日之间到访过医院一次或多次，该用户每次到访均会产生相应的第二用户数据，该第二用户数据中的基础数据和病历数据中的数据内容与该用户第一用户数据中的基础数据和病历数据相比发生新增或变化，假设该用户增加了检验指标，产生新增的检验结果，或检验结果中的某一指标的数据发生了变化，均导致该用户的第二用户数据与第一用户数据存在差异，因此确定该用户的第二用户数据为差量数据。
85.例如，用户a在第一版本医疗数据中对应的第一用户数据为：体重为65kg，检验结果为血糖高、血脂高，用户a在第二版本医疗数据中对应的第二用户数据为：体重为63kg，检验结果为血糖正常、血脂正常，则用户a的第二用户数据为差量数据。例如用户b在第一版本医疗数据中对应的第一用户数据不包括血压检测结果，用户b在第二版本医疗数据中对应的第二用户数据新增了血压检测结果，导致用户b的第二用户数据与第一用户数据存在差异，因此用户b的第二用户数据为差量数据。例如用户c是第二版本医疗数据中新增的用户，则用户c产生的第二用户数据为差量数据，其中新增的用户c可以到访医院一次或多次。
86.在一个示例中，所述确定同一用户的与第一用户数据不同的第二用户数据为差量数据，包括：
87.将所述用户的第一用户数据中的基础数据和至少一条病例数据进行聚合得到第一聚合数据，所述第一聚合数据中包括多个字段；
88.将所述用户的第二用户数据中的基础数据和至少一条病例数据进行聚合得到第二聚合数据，所述第二聚合数据中包括多个字段；
89.将所述第一聚合数据与所述第二聚合数据中的字段均按照预设顺序排序；
90.将排序后的第一聚合数据转换为第一纯文本数据，将排序后的第二聚合数据转换为第二纯文本数据；
91.根据所述用户对应的所述第一纯文本数据和所述第二纯文本数据，确定所述所述用户的第一用户数据和第二用户数据是否相同。
92.例如根据标识用户唯一性的账号确定第一版本医疗数据和第二版本医疗数据中的同一用户，例如使用用户的身份证号或者就诊时的就诊卡号等账号用于标识同一用户，本发明对此不做限制。以用户a为例说明，将第一版本医疗数据中用户a的第一用户数据中的基础数据和至少一条病例数据进行聚合得到第一聚合数据，由于用户a的第一用户数据包括基础数据和病历数据，因此第一聚合数据中包括多个字段。将第二版本医疗数据中用户a的第二用户数据中的基础数据和至少一条病例数据进行聚合得到第二聚合数据，第二聚合数据中也包括多个字段。第一聚合数据与第二聚合数据按照预设顺序排序，例如预设顺序为姓名、年龄、性别、医学诊断、检验结果、检查结果、用药信息，第一聚合数据与第二聚合顺序均按照上述预设顺序排列字段，得到排序后的第一聚合数据和排序后的第二聚合数据。需要指出的是，预设顺序中包含的字段为全量字段(即用户数据涉及的所有字段)，而某用户的第一聚合数据或第二聚合数据中的字段可能是全量字段，也可能仅是部分字段(例如，用户未做手术，那么第一聚合数据或第二聚合数据中手术相关字段的值即为空，或者，不包含这些字段)。本发明通过对第一聚合数据与第二聚合数据进行字段排序，目的是提高同一用户的第一聚合数据与第二聚合数据比较的准确性，从而准确判断同一用户的第一用户数据与第二用户数据是否相同。
93.将排序后的第一聚合数据转换为第一纯文本数据，将排序后的第二聚合数据转换为第二纯文本数据，由于纯文本数据之间的对比更方便，因此将排序后的聚合数据转化为纯文本数据有利于提高比较的准确性和对比的效率。再根据同一用户对应的第一纯文本数据和第二纯文本数据确定同一用户的第一用户数据与第二用户数据是否相同。
94.在一个示例中，所述根据所述用户对应的所述第一纯文本数据和所述第二纯文本数据，确定所述用户的第一用户数据和第二用户数据是否相同，包括：
95.分别获取所述第一纯文本数据和所述第二纯文本数据对应的字符串；
96.若所述第一纯文本数据的字符串与所述第二纯文本数据的字符串不相等，则确定用户的第一用户数据和第二用户数据不相同，所述用户的第二用户数据为差量数据。
97.例如，通过哈希算法将第一纯文本数据和第二纯文本数据缩短简化为字符串，第一纯文本数据和第二纯文本数据作为哈希算法的输入，经过哈希算法的计算后，会输出与第一纯文本数据对应的哈希值以及与第二纯文本数据对应的哈希值，其中哈希值即为字符串。若与第一纯文本数据对应的哈希值与第二纯文本数据对应的哈希值相同，则说明第一纯文本数据与第二纯文本数据的内容一致，即第二版本医疗数据与第一版本医疗数据中同一用户的第一用户数据与第二用户数据相同；若第一纯文本数据对应的哈希值与第二纯文本数据对应的哈希值不同，则说明第一纯文本数据与第二纯文本数据的内容不同，即第二版本医疗数据和第一版本医疗数据中同一用户的第一用户数据与第二用户数据有差异，差异包括该用户的第二用户数据发生新增或变化，例如新增了检验指标、诊断结果发生改变等，因此确定该用户的第二用户数据为差量数据。除哈希算法外，本发明还可以使用md5算法等，本发明对此不做限制。
98.在一个示例中，将所述第一聚合数据与所述第二聚合数据中的字段均按照预设顺序排序之前，该方法还包括：
99.删除所述第一聚合数据和所述第二聚合数据中的干扰字段。
100.用户数据中对于搜索引擎索引的构建无关的数据内容为干扰字段，需要删除，例如第一用户数据或第二用户数据中包括的版本记录(data_version)，在对第一聚合数据与第二聚合数据中的字段排序之前，删除这类干扰字段。因为第一用户数据的版本记录与第二用户数据的版本记录不一致，这类干扰字段的存在，一方面会延长第一聚合数据和第二聚合数据对比的时间；另一方面由于版本记录的数据不同，即使某些用户的基础数据和病历数据均没有发生变化，也会导致第一聚合数据和第二聚合数据经过对比后得到的都是第一聚合数据与第二聚合数据不同的结果，降低对比结果的准确度。因此删除干扰字段，有利于提高第一聚合数据和第二聚合数据对比的准确度和速度。
101.经过上述方法确定第二版本医疗数据中所有的差量数据后，当差量数据的总条数小于预设阈值，则待所述搜索引擎索引库恢复完成，确定所述搜索引擎索引库中是否存在与差量数据所属用户对应的搜索引擎索引。若存在，则从所述用户对应的搜索引擎索引中删除所述用户的第一用户数据，并将所述用户的差量数据写入所述用户对应的搜索引擎索引中；若不存在，则生成新搜索引擎索引，将所述用户的差量数据写入新搜索引擎索引。
102.如图2所示为本发明又一实施例提供的一种搜索引擎索引的构建方法，该方法还包括：
103.步骤s106、若所述差量数据的总条数大于等于预设阈值，则停止所述搜索引擎索引库的恢复，生成与所述第二版本医疗数据对应的搜索引擎索引库。
104.假设预设阈值为2000条，若差量数据的总条数超过2000条，则停止搜索引擎索引库的恢复，因为差量数据量较大，继续恢复搜索引擎索引库会降低搜索引擎索引构建的效率。因此通过全量的第二版本医疗数据构建搜索引擎索引，将所有第二版本医疗数据导入搜索引擎搜索服务器中，通过提交spark任务生成与第二版本医疗数据对应的搜索引擎索引。
105.如图3所示为本发明提供的一种搜索引擎索引的构建装置，该装置包括：
106.获取模块201，用于获取第一版本医疗数据和第二版本医疗数据，所述第一版本医疗数据的记录日期早于所述第二版本医疗数据的记录日期；所述第一版本医疗数据包括多条第一用户数据，所述第二版本医疗数据包括多条第二用户数据；
107.确定模块202，用于通过快照恢复与所述第一版本医疗数据对应的搜索引擎索引库，同时确定与所述第一用户数据存在差异的第二用户数据为差量数据；
108.判断模块203，用于当差量数据的总条数小于预设阈值，则待所述搜索引擎索引库恢复完成，确定所述搜索引擎索引库中是否存在与差量数据所属用户对应的搜索引擎索引；
109.更新模块204，用于确定若所述搜索引擎索引库中存在与差量数据所属用户对应的搜索引擎索引，则从所述用户对应的搜索引擎索引中删除所述用户的第一用户数据，并将所述用户的差量数据写入所述用户对应的搜索引擎索引中；
110.第一构建模块205，用于确定若所述搜索引擎索引库中不存在与差量数据所属用户对应的搜索引擎索引，则生成新搜索引擎索引，将所述用户的差量数据写入新搜索引擎
索引。
111.如图4所示，本发明又一实施例提供了一种搜索引擎索引的构建装置，该装置还包括：
112.第二构建模块206，用于确定若所述差量数据的总条数大于等于预设阈值，则停止所述搜索引擎索引库的恢复，生成与所述第二版本医疗数据对应的搜索引擎索引库。
113.在一个示例中，所述第一用户数据或所述第二用户数据包括用户的基础数据和至少一条病历数据。
114.在一个示例中，所述确定模块202包括：
115.第一确定单元，用于根据所述第一版本医疗数据和所述第二版本医疗数据，确定所述第二版本医疗数据中新增用户的第二用户数据为差量数据；
116.第二确定单元，用于根据所述第一版本医疗数据和所述第二版本医疗数据，确定同一用户的与第一用户数据不同的第二用户数据为差量数据。
117.在一个示例中，所述第二确定单元具体用于：
118.将所述用户的第一用户数据中的基础数据和至少一条病例数据进行聚合得到第一聚合数据，所述第一聚合数据中包括多个字段；
119.将所述用户的第二用户数据中的基础数据和至少一条病例数据进行聚合得到第二聚合数据，所述第二聚合数据中包括多个字段；
120.将所述第一聚合数据与所述第二聚合数据中的字段均按照预设顺序排序；
121.将排序后的第一聚合数据转换为第一纯文本数据，将排序后的第二聚合数据转换为第二纯文本数据；
122.根据所述用户对应的所述第一纯文本数据和所述第二纯文本数据，确定所述所述用户的第一用户数据和第二用户数据是否相同。
123.在一个示例中，所述根据所述用户对应的所述第一纯文本数据和所述第二纯文本数据，确定所述用户的第一用户数据和第二用户数据是否相同，包括：
124.分别获取所述第一纯文本数据和所述第二纯文本数据对应的字符串；
125.若所述第一纯文本数据的字符串与所述第二纯文本数据的字符串不相等，则确定用户的第一用户数据和第二用户数据不相同，所述用户的第二用户数据为差量数据。
126.本发明再一方面提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明所述的一种搜索引擎索引的构建方法。
127.本发明还一方面提供一种电子设备，包括：
128.处理器；
129.用于存储所述处理器可执行指令的存储器；
130.所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明所述的一种搜索引擎索引的构建方法。
131.除了上述方法和设备以外，本技术的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的方法中的步骤。
132.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如
java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
133.此外，本技术的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的方法中的步骤。
134.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
135.以上结合具体实施例描述了本技术的基本原理，但是，需要指出的是，在本技术中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本技术的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本技术为必须采用上述具体的细节来实现。
136.本技术中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。
137.还需要指出的是，在本技术的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本技术的等效方案。
138.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本技术。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本技术的范围。因此，本技术不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。
139.为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本技术的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种双层护发喷雾及其制备方法与流程

一种搜索引擎索引的构建方法、装置、介质及电子设备与流程

相关文献

最热文献