文本数据采集方法、装置、存储设备及终端与流程

2021-10-24 05:01:00 来源：中国专利 TAG：数据采集终端存储设备装置文本

1.本发明涉及数据采集的技术领域，具体涉及一种文本数据采集方法、装置、存储设备及终端。

背景技术：

2.医疗信息化的快速发展为提升医疗服务效率、改善就医流程提供了有力支撑，多个医院间的业务协作及区域医疗中心的建设离不开跨院的数据交互。而文本数据是医疗信息化发展过程中的重要数据类型，但目前由于不同医院之间的信息系统架构及数据格式的差异较大，导致出现了跨院的电子病历数据难以共享的问题；不仅如此，在现有技术中的各类数据传输过程中，经常会出现数据异常、重复传送等情况，而为了解决上述问题，相关人员通常会采用手动筛选的方式来提高传送数据的合格率，这就导致了工作量较大，效率较低。

技术实现要素：

3.针对相关技术中存在的不足，本发明所要解决的技术问题在于：提供一种文本数据采集方法及装置，能够实现跨医院之间医疗文本数据的共享，并且使得交互后的数据具有较高的合格率。
4.为解决上述技术问题，本发明采用的技术方案为：文本数据采集方法，包括：s10、根据预先制定的数据采集规范，部署web service接口程序；s20、通过web service接口模块接收文本数据；s30、对接收到的文本数据进行预处理，以使所述文本数据符合预先制定的数据采集规范；s40、采用多层检查机制，对经过预处理后的文本数据进行逐层筛选，最终得到合格的文本数据；s50、将所述合格的文本数据，存入标准数据库中。
5.优选地，步骤s30中，所述对接收到的文本数据进行预处理，以使所述文本数据符合预先制定的数据采集规范，具体包括：s301、提取出所述文本数据中包含的所有属性；s302、将每一项所述属性一一定义成对应的一组元素集，所述元素集中的元素包括下列元素中的一个或多个：字段名称、数据值、数据类型、字段长度限制、该数据项是否为必填项以及其他未标注出的信息；s303、根据数据采集规范，将具有唯一性的至少一项属性设定为主键属性。
6.优选地，步骤s40中，采用多层检查机制，对经过预处理后的文本数据进行逐层筛选，最终得到合格的文本数据，具体包括：s401、对所述文本数据的所有属性进行逐一检查，判断所有要求必填的属性元素集中的数据值是否均有值，若是，则执行步骤s402，否则，将所述文本数据认定为不合格的文本数据，并进行删除，结束；s402、将所述文本数据的主键属性元素集中的数据值，分别与标准数据库中存储的所有文本数据的主键属性元素集中的数据值一一进行比较，若出现具有重复主键属性数据值的目标文本数据，则执行步骤s403，若最终没有出现所述的目标文本数据，则执行步骤s406；s403、将所述文本数据的非主键属性元素集中的数据值，分别一一对应地与所述目标文本数据的非主键属性元素集中的数据
值进行比较，若所述文本数据和所述目标文本数据的某一对应的非主键属性数据值不一致，则执行步骤s404，若所述文本数据和所述目标文本数据的所有对应的非主键属性数据值均一致，则执行步骤s405；s404、将所述文本数据和所述目标文本数据均认定为异常的文本数据，将二者进行删除，结束；s405、将所述文本数据认定为重复的文本数据，删除该文本数据，并保留所述目标文本数据，结束；s406、分别对所述文本数据的所有属性元素集中的数据类型和字段长度限制进行逐一检查，判断所有属性元素集中的数据类型和字段长度限制是否均符合规范，若是，则将所述文本数据认定为合格的文本数据，然后执行步骤s50，反之，则将所述文本数据认定为不合格的文本数据，并进行删除，结束。
7.优选地，步骤s403中，将所述文本数据的某一非主键属性元素集中的数据值，对应地与所述目标文本数据的某一非主键属性元素集中的数据值进行比较，具体包括：s4031、将待比较的两个数据值分别转换成字符串string1和字符串string2；s4032、判断字符串string1和字符串string2的长度是否相同，若相同，则执行步骤s4033，若不相同，则判定待比较的两个数据值不一致；s4033、判断其中一个字符串的长度length是否大于预设值l，若是，则执行步骤s4034，否则，直接进行比较；s4034、根据字符串的长度length计算出对比因子batch_size的值：batch_size＝floor(log
20
(length)) bias，其中：log
20
(length)表示以20为基数的length的对数，floor(log
20
(length))表示不大于log
20
(length)的最大整数，bias表示偏移量，设为1；s4035、分别将字符串string1和字符串string2从左往右依次切分为三段：左侧段、中间段、右侧段，其中：中间段位于整个字符串的中间位置，且中间段的字符串长度为batch_size；s4036、分别从左往右依次提取出字符串string1的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符，并将它们依次拼接在一起，组成新的字符串string1
‑
1；同时，分别从左往右依次提取出字符串string2的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符，并将它们依次拼接在一起，组成新的字符串string2
‑
1；s4037、将新字符串string1
‑
1与新字符串string2
‑
1进行比较，判断二者是否一致，若是，则执行步骤s4038，否则，判定待比较的两个数据值不一致；s4038、判断字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数是否小于batch_size，若是，则执行s40311，否则，执行步骤s4039；s4039、跳过已被提取过的字符，分别从左往右依次提取出字符串string1的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符，并将它们依次拼接在一起，组成新的字符串string1
‑
2；同时，跳过已被提取过的字符，分别从左往右依次提取出字符串string2的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符，并将它们依次拼接在一起，组成新的字符串string2
‑
2；s40310、将新字符串string1
‑
2与新字符串string2
‑
2进行比较，判断二者是否一致，若是，则循环执行步骤s4038，否则，判定待比较的两个数据值不一致；s40311、跳过已被提取过的字符，分别从左往右依次提取出字符串string1的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符，并将它们依次拼接在一起，组成新的字符串string1
‑
n；同时，跳过已被提取过的字符，分别从左往右依次提取出字符串string2的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符，并将它们依次拼接在一起，组成新的字符串string2
‑
n；s40312、将新字符串string1
‑
n与新字符串string2
‑
n进行比较，判断二者是否一致，若是，则判定待比较的两个数据值一致，否则，判定待比较的两个数据值不一致。
8.相应地，本发明还提供了一种文本数据采集装置，包括：部署单元：根据预先制定的数据采集规范，部署web service接口程序；接收单元：用于通过web service接口模块接收文本数据；预处理单元：用于对接收到的文本数据进行预处理，以使所述文本数据符合预先制定的数据采集规范；自动筛选单元：用于采用多层检查机制，对经过预处理后的文本数据进行逐层筛选，最终得到合格的文本数据；存储单元：用于将所述合格的文本数据，存入标准数据库中。
9.优选地，所述预处理单元，具体包括：属性提取单元：用于提取出所述文本数据中包含的所有属性；元素集定义单元：用于将每一项所述属性一一定义成对应的一组元素集，所述元素集中的元素包括下列元素中的一个或多个：字段名称、数据值、数据类型、字段长度限制、该数据项是否为必填项以及其他未标注出的信息；主键属性设定单元：用于根据数据采集规范，将具有唯一性的至少一项属性设定为主键属性。
10.优选地，所述自动筛选单元，具体包括：完整性检测单元：用于对所述文本数据的所有属性进行逐一检查，判断所有要求必填的属性元素集中的数据值是否均有值，若是，则进行唯一性检测，否则，将所述文本数据认定为不合格的文本数据，并进行删除，结束；唯一性检测单元：用于将所述文本数据的主键属性元素集中的数据值，分别与标准数据库中存储的所有文本数据的主键属性元素集中的数据值一一进行比较，若出现具有重复主键属性数据值的目标文本数据，则进行权威性检测，若最终没有出现所述的目标文本数据，则进行合法性检测；权威性检测单元：用于将所述文本数据的非主键属性元素集中的数据值，分别一一对应地与所述目标文本数据的非主键属性元素集中的数据值进行比较，若所述文本数据和所述目标文本数据的某一对应的非主键属性数据值不一致，则将所述文本数据和所述目标文本数据均认定为异常的文本数据，将二者进行删除，结束；若所述文本数据和所述目标文本数据的所有对应的非主键属性数据值均一致，则将所述文本数据认定为重复的文本数据，删除该文本数据，并保留所述目标文本数据，结束；合法性检测单元：用于分别对所述文本数据的所有属性元素集中的数据类型和字段长度限制进行逐一检查，判断所有属性元素集中的数据类型和字段长度限制是否均符合规范，若是，则将所述文本数据认定为合格的文本数据，然后将所述合格的文本数据，存入标准数据库中，反之，则将所述文本数据认定为不合格的文本数据，并进行删除，结束。
11.优选地，所述权威性检测单元，具体包括：字符串转换单元：用于将待比较的两个数据值分别转换成字符串string1和字符串string2；第一判定单元：用于判断字符串string1和字符串string2的长度是否相同，若相同，则进行下一步判断，若不相同，则判定待比较的两个数据值不一致；第二判定单元：用于当字符串string1和字符串string2的长度相同时，判断其中一个字符串的长度length是否大于预设值l，若是，则进行下一步计算，否则，直接进行比较；对比因子计算单元：用于当其中一个字符串的长度length大于预设值l时，根据字符串的长度length计算出对比因子batch_size的值：batch_size＝floor(log
20
(length)) bias，其中：log
20
(length)表示以20为基数的length的对数，floor(log
20
(length))表示不大于log
20
(length)的最大整数，bias表示偏移量，设为1；片段切分单元：用于分别将字符串string1和字符串string2从左往右依次切分为三段：左侧段、中间段、右侧段，其中：中间段位于整个字符串的中间位置，且中间段的字符串长度为batch_size；第一字符串重组单元：用于分别从左往右依次提取出字符串string1的左侧段中前batch_
size个字符、中间段中所有字符、右侧段中前batch_size个字符，并将它们依次拼接在一起，组成新的字符串string1
‑
1；同时，分别从左往右依次提取出字符串string2的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符，并将它们依次拼接在一起，组成新的字符串string2
‑
1；第一比较单元：用于将新字符串string1
‑
1与新字符串string2
‑
1进行比较，判断二者是否一致，若是，则进行下一步判断，否则，判定待比较的两个数据值不一致；第一计算单元：用于当新字符串string1
‑
1与新字符串string2
‑
1一致时，判断字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数是否小于batch_size；第二字符串重组单元：用于当字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数大于或等于batch_size时，跳过已被提取过的字符，分别从左往右依次提取出字符串string1的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符，并将它们依次拼接在一起，组成新的字符串string1
‑
2；同时，跳过已被提取过的字符，分别从左往右依次提取出字符串string2的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符，并将它们依次拼接在一起，组成新的字符串string2
‑
2；第二比较单元：用于将新字符串string1
‑
2与新字符串string2
‑
2进行比较，判断二者是否一致，若是，则循环进行比较，否则，判定待比较的两个数据值不一致；第三字符串重组单元：用于当字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数小于batch_size时，跳过已被提取过的字符，分别从左往右依次提取出字符串string1的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符，并将它们依次拼接在一起，组成新的字符串string1
‑
n；同时，跳过已被提取过的字符，分别从左往右依次提取出字符串string2的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符，并将它们依次拼接在一起，组成新的字符串string2
‑
n；第三比较单元：用于将新字符串string1
‑
n与新字符串string2
‑
n进行比较，判断二者是否一致，若是，则判定待比较的两个数据值一致，否则，判定待比较的两个数据值不一致。
12.本发明还提供了一种存储设备，其中存储有多条指令，所述指令适于由处理器加载并执行如上述的文本数据采集方法。
13.本发明还提供了一种终端，包括：一个或多个处理器，适于实现各指令；以及，一个或多个存储设备，适于存储多条指令，所述指令适于由所述一个或多个处理器加载并执行如上述的文本数据采集方法。
14.本发明的有益技术效果在于：
15.本发明通过预先制定的数据采集规范来部署web service接口程序，不仅能够实现医疗文本数据的自动采集，还能将每一项交互的数据都预先转换为统一的数据格式再进行后续处理，解决了跨院之间数据难以共享的问题；此外，本发明还通过多层检查器，从完整性、唯一性、权威性、合法性等几个方面，自动对采集到的每一项文本数据进行逐一检查，最终才将通过检查的合格文本数据存入数据库中，这样不仅大大提高了交互数据的合格率，还降低了手动筛选数据的工作量，提高了数据采集的工作效率。
附图说明
16.通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。
17.图1是本发明实施例提供的文本数据采集方法的第一个流程示意图；
18.图2是本发明实施例提供的文本数据采集方法的第二个流程示意图；
19.图3是本发明实施例提供的文本数据采集方法的第三个流程示意图；
20.图4是本发明实施例提供的文本数据采集方法的第四个流程示意图；
21.图5是本发明实施例提供的文本数据采集装置的第一个流程示意图；
22.图6是本发明实施例提供的文本数据采集装置的第二个流程示意图；
23.图7是本发明实施例提供的文本数据采集装置的第三个流程示意图；
24.图8是本发明实施例提供的文本数据采集装置的第四个流程示意图；
25.图中：10为部署单元，20为接收单元，30为预处理单元，40为自动筛选单元，50为存储单元，301为属性提取单元，302为元素集定义单元，303为主键属性设定单元，401为完整性检测单元，402为唯一性检测单元，403为权威性检测单元，406为合法性检测单元，4031为字符串转换单元，4032为第一判定单元，4033为第二判定单元，4034为对比因子计算单元，4035为片段切分单元。4036为第一字符串重组单元，4037为第一比较单元，4038为第一计算单元，4039为第二字符串重组单元，40310为第二比较单元，40311为第三字符串重组单元，40312为第三比较单元。
具体实施方式
26.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
27.以下结合附图详细说明所述文本数据采集方法的实施例。
28.如图1所示，本实施例公开的文本数据采集方法，可包括：
29.s10、根据预先制定的数据采集规范，部署web service接口程序；
30.s20、通过web service接口模块接收文本数据；
31.s30、对接收到的文本数据进行预处理，以使所述文本数据符合预先制定的数据采集规范；
32.s40、采用多层检查机制，对经过预处理后的文本数据进行逐层筛选，最终得到合格的文本数据；
33.s50、将所述合格的文本数据，存入标准数据库中。
34.本发明中的技术方案可以应用在任何两种需要进行数据交互的主体之间，例如多个医院间的业务协作或区域医疗中心之间的跨院数据交互。在具体实施时，可在医院等场所部署数据采集前置机，通过前置机服务器与医院内的his(hospital information system)系统对接，根据预先制定的数据采集规范形成web service接口程序，并将其部署到所述前置机上。web service是一个独立的、低耦合的、自包含的、基于可编程的web的应用程序，是一种面向服务架构的技术，通过标准的web协议提供服务，目的是保证不同平台的应用服务可以互操作。web service接口程序开发完成后会部署到前置机上，通过web service接口程序与医院信息系统进行对接，完成数据的初步采集。
35.工作时，医院可通过前置机上的web service接口模块来实时获取发送方传输的
医疗文本数据，然后将接收到的文本数据进行预处理以使所述文本数据符合预先制定的数据采集规范，接着采用多层检查机制，对预处理后的文本数据进行逐一检查，最终将均通过每一层检查的数据认定为合格数据，并将它们存入标准数据库中。本发明实时获取数据后，以web service的方式进行接口对接，实现了数据的自动采集，将每一项交互的数据都预先转换为统一的数据格式再进行后续处理，解决了不同主体之间数据难以共享的问题，再通过多层检查器，自动实现了数据的筛选，不仅大大提高了交互数据的合格率，还降低了手动筛选数据的工作量，提高了数据采集的工作效率。
36.进一步地，如图2所示，步骤s30中，所述对接收到的文本数据进行预处理，以使所述文本数据符合预先制定的数据采集规范，具体可包括：
37.s301、提取出所述文本数据中包含的所有属性；
38.s302、将每一项所述属性一一定义成对应的一组元素集，所述元素集中的元素包括下列元素中的一个或多个：字段名称、数据值、数据类型、字段长度限制、该数据项是否为必填项以及其他未标注出的信息；
39.s303、根据数据采集规范，将具有唯一性的至少一项属性设定为主键属性。
40.本发明中的数据采集规范，规定了每一条交互数据的相关信息都需要用对应的多元组格式来进行体现。每一条数据的相关信息中，每一个具体的信息可用一个属性来表示，每一个属性需要定义为一个多元组格式，所述的多元组格式实际上为一组由多个元素组成的元素集，在本实施例中，一组元素集可由以下六个元素组成：字段名称、数据值、数据类型、字段长度限制、该数据项是否为必填项、其他未标注出的信息。例如，当本案中的文本数据具体为用于远程会诊期间供医生交流的文本类型的电子病历数据时，若接收到的一条医疗文本数据包括以下信息：患者id、患者姓名、出生日期、身份证号码、性别、民族、就医医院名称以及病情描绘，那么该条文本数据包含八项属性，经过预处理后，每一项属性都被一一定义为一组元素集：{字段名称，数据值，数据类型，字段长度限制，该数据项是否为必填项，其他未标注出的信息}。比方，该条文本数据中患者的身份证号码为1234xxxxxxxxxx5678，那么对于属性“身份证号码”来说，其对应的元素集可为：{身份证号码，1234xxxxxxxxxx5678，数字，18，是，患者唯一标识}。
41.此外，本发明中的数据采集规范，还规定将文本数据中具有唯一性的属性设定为主键属性，例如上述医疗文本数据中的患者id、身份证号码等属性中的一个或多个。设定主键属性的目的是为了区分每一个文本数据，不可重复。
42.更进一步地，如图3所示，步骤s40中，采用多层检查机制，对经过预处理后的文本数据进行逐层筛选，最终得到合格的文本数据，具体可包括：
43.s401、对所述文本数据的所有属性进行逐一检查，判断所有要求必填的属性元素集中的数据值是否均有值，若是，则执行步骤s402，否则，将所述文本数据认定为不合格的文本数据，并进行删除，结束；
44.s402、将所述文本数据的主键属性元素集中的数据值，分别与标准数据库中存储的所有文本数据的主键属性元素集中的数据值一一进行比较，若出现具有重复主键属性数据值的目标文本数据，则执行步骤s403，若最终没有出现所述的目标文本数据，则执行步骤s406；
45.s403、将所述文本数据的非主键属性元素集中的数据值，分别一一对应地与所述
目标文本数据的非主键属性元素集中的数据值进行比较，若所述文本数据和所述目标文本数据的某一对应的非主键属性数据值不一致，则执行步骤s404，若所述文本数据和所述目标文本数据的所有对应的非主键属性数据值均一致，则执行步骤s405；
46.s404、将所述文本数据和所述目标文本数据均认定为异常的文本数据，将二者进行删除，结束；
47.s405、将所述文本数据认定为重复的文本数据，删除该文本数据，并保留所述目标文本数据，结束；
48.s406、分别对所述文本数据的所有属性元素集中的数据类型和字段长度限制进行逐一检查，判断所有属性元素集中的数据类型和字段长度限制是否均符合规范，若是，则将所述文本数据认定为合格的文本数据，然后执行步骤s50，反之，则将所述文本数据认定为不合格的文本数据，并进行删除，结束。
49.本发明为了提高交互数据的合格率，采用了四层检查器来对交互数据进行逐层检查。其中，步骤s401主要通过属性元素集中的“该数据项是否为必填项”元素来检查数据的完整性；步骤s402主要通过主键属性来检查数据的唯一性；若当前接收的数据的主键属性与之前已经存入数据库中的某一条数据的主键属性重复时，再由步骤s403通过一一比较所涉两条数据其他的属性是否重复，来进一步权威性地判断上述两条主键属性重复的数据是否为两条重复的数据，若是，则保留数据库中的数据即可，若不是，则将上述两条数据认定为异常数据，均进行删除；若当前接收的数据通过了唯一性检查(即其主键属性与数据库中任一条数据的主键属性均不重复)，则可由步骤s406通过属性元素集中的“数据类型”和“字段长度限制”元素来检查数据的合法性。最终，通过层层检查后留下来的数据才可被认定为合格数据，继而被存入标准数据库中。本发明中对于合格数据的检测顺序依次是：完整性、唯一性、权威性、合法性，需要说明的是，上述检测顺序并不是随机或可调的，而是发明人经过大量的创造性劳动得出的一个最优检测顺序，通过该阶梯性的检测顺序，可最大几率地将不合格数据在前阶段检测出来，节省了大量的检测时间和程序运行空间，获得较高的检测效率。
50.再进一步地，如图4所示，步骤s403中，将所述文本数据的某一非主键属性元素集中的数据值，对应地与所述目标文本数据的某一非主键属性元素集中的数据值进行比较，具体可包括：
51.s4031、将待比较的两个数据值分别转换成字符串string1和字符串string2；
52.s4032、判断字符串string1和字符串string2的长度是否相同，若相同，则执行步骤s4033，若不相同，则判定待比较的两个数据值不一致；
53.s4033、判断其中一个字符串的长度length是否大于预设值l，若是，则执行步骤s4034，否则，直接进行比较；
54.s4034、根据字符串的长度length计算出对比因子batch_size的值：
55.batch_size＝floor(log
20
(length)) bias，
56.其中：log
20
(length)表示以20为基数的length的对数，floor(log
20
(length))表示不大于log
20
(length)的最大整数，bias表示偏移量，设为1；
57.s4035、分别将字符串string1和字符串string2从左往右依次切分为三段：左侧段、中间段、右侧段，其中：中间段位于整个字符串的中间位置，且中间段的字符串长度为
batch_size；
58.s4036、分别从左往右依次提取出字符串string1的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符，并将它们依次拼接在一起，组成新的字符串string1
‑
1；
59.同时，分别从左往右依次提取出字符串string2的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符，并将它们依次拼接在一起，组成新的字符串string2
‑
1；
60.s4037、将新字符串string1
‑
1与新字符串string2
‑
1进行比较，判断二者是否一致，若是，则执行步骤s4038，否则，判定待比较的两个数据值不一致；
61.s4038、判断字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数是否小于batch_size，若是，则执行s40311，否则，执行步骤s4039；
62.s4039、跳过已被提取过的字符，分别从左往右依次提取出字符串string1的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符，并将它们依次拼接在一起，组成新的字符串string1
‑
2；
63.同时，跳过已被提取过的字符，分别从左往右依次提取出字符串string2的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符，并将它们依次拼接在一起，组成新的字符串string2
‑
2；
64.s40310、将新字符串string1
‑
2与新字符串string2
‑
2进行比较，判断二者是否一致，若是，则循环执行步骤s4038，否则，判定待比较的两个数据值不一致；
65.s40311、跳过已被提取过的字符，分别从左往右依次提取出字符串string1的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符，并将它们依次拼接在一起，组成新的字符串string1
‑
n；
66.同时，跳过已被提取过的字符，分别从左往右依次提取出字符串string2的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符，并将它们依次拼接在一起，组成新的字符串string2
‑
n；
67.s40312、将新字符串string1
‑
n与新字符串string2
‑
n进行比较，判断二者是否一致，若是，则判定待比较的两个数据值一致，否则，判定待比较的两个数据值不一致。
68.本发明在进行数据的权威性检查时，先将待比较的两个数据值转换成字符串格式，然后判断两个字符串的长度是否一致，不一致的话说明待比较的两个数据值是不一样的，一致的话再去判断字符串的长度是否大于预设值l(本实施例中的l值可为100)。当字符串长度小于或等于l时，可以将两个字符串直接进行比较；而当字符串长度大于l时，本发明分别在两个字符串的相同位置处进行相同的切片操作，提取出相同数量的字符，重新组合成新的字符串后再进行比较，这样迭代比较，直到对比出两个字符串出现不一致或对比完所有的字符为止。通过上述方法，可以解决当待比较的两个数据值长度过长时采用一个一个依次比较的方式所带来的检查时间冗长、计算内存空间占用较大的问题，迎合了不一致之处在字符串中随机存在的特性，能够更快速地查找出两个待比较数据值的不一致之处，较大程度地节省检查时间和空间，保证了较高的检查效率。在上述过程中，每次切片的数量(即对比因子)的设定很关键，它会一定程度上影响整个权威性检查的效率：切片的数量偏小，进行切片重组的意义降低，和直接比较没有太大区别；切片的数量偏大，一次性依次比
较的字符数量过大，降低了对不一致之处在字符串中随机存在的特性的迎合率，进而降低了检查效率。为了避免出现上述问题，本发明采用了特殊的公式，根据字符串的长度来合理计算出每次切片的数量(即对比因子)的值，使得对于不同长度的字符串，都能够得到一个最优的切片值，最大程度地保证检查效率。
69.本发明还提供了一种文本数据采集装置，以下结合附图详细说明所述文本数据采集装置的实施例。
70.如图5所示，本实施例公开的文本数据采集装置，可包括：
71.部署单元10：根据预先制定的数据采集规范，部署web service接口程序；
72.接收单元20：用于通过web service接口模块接收文本数据；
73.预处理单元30：用于对接收到的文本数据进行预处理，以使所述文本数据符合预先制定的数据采集规范；
74.自动筛选单元40：用于采用多层检查机制，对经过预处理后的文本数据进行逐层筛选，最终得到合格的文本数据；
75.存储单元50：用于将所述合格的文本数据，存入标准数据库中。
76.进一步地，如图6所示，所述预处理单元30，具体可包括：
77.属性提取单元301：用于提取出所述文本数据中包含的所有属性；
78.元素集定义单元302：用于将每一项所述属性一一定义成对应的一组元素集，所述元素集中的元素包括下列元素中的一个或多个：字段名称、数据值、数据类型、字段长度限制、该数据项是否为必填项以及其他未标注出的信息；
79.主键属性设定单元303：用于根据数据采集规范，将具有唯一性的至少一项属性设定为主键属性。
80.更进一步地，如图7所示，所述自动筛选单元40，具体可包括：
81.完整性检测单元401：用于对所述文本数据的所有属性进行逐一检查，判断所有要求必填的属性元素集中的数据值是否均有值，若是，则进行唯一性检测，否则，将所述文本数据认定为不合格的文本数据，并进行删除，结束；
82.唯一性检测单元402：用于将所述文本数据的主键属性元素集中的数据值，分别与标准数据库中存储的所有文本数据的主键属性元素集中的数据值一一进行比较，若出现具有重复主键属性数据值的目标文本数据，则进行权威性检测，若最终没有出现所述的目标文本数据，则进行合法性检测；
83.权威性检测单元403：用于将所述文本数据的非主键属性元素集中的数据值，分别一一对应地与所述目标文本数据的非主键属性元素集中的数据值进行比较，若所述文本数据和所述目标文本数据的某一对应的非主键属性数据值不一致，则将所述文本数据和所述目标文本数据均认定为异常的文本数据，将二者进行删除，结束；若所述文本数据和所述目标文本数据的所有对应的非主键属性数据值均一致，则将所述文本数据认定为重复的文本数据，删除该文本数据，并保留所述目标文本数据，结束；
84.合法性检测单元406：用于分别对所述文本数据的所有属性元素集中的数据类型和字段长度限制进行逐一检查，判断所有属性元素集中的数据类型和字段长度限制是否均符合规范，若是，则将所述文本数据认定为合格的文本数据，然后将所述合格的文本数据，存入标准数据库中，反之，则将所述文本数据认定为不合格的文本数据，并进行删除，结束。
85.再进一步地，如图8所示，所述权威性检测单元403，具体可包括：
86.字符串转换单元4031：用于将待比较的两个数据值分别转换成字符串string1和字符串string2；
87.第一判定单元4032：用于判断字符串string1和字符串string2的长度是否相同，若相同，则进行下一步判断，若不相同，则判定待比较的两个数据值不一致；
88.第二判定单元4033：用于当字符串string1和字符串string2的长度相同时，判断其中一个字符串的长度length是否大于预设值l，若是，则进行下一步计算，否则，直接进行比较；
89.对比因子计算单元4034：用于当其中一个字符串的长度length大于预设值l时，根据字符串的长度length计算出对比因子batch_size的值：
90.batch_size＝floor(log
20
(length)) bias，
91.其中：log
20
(length)表示以20为基数的length的对数，floor(log
20
(length))表示不大于log
20
(length)的最大整数，bias表示偏移量，设为1；
92.片段切分单元4035：用于分别将字符串string1和字符串string2从左往右依次切分为三段：左侧段、中间段、右侧段，其中：中间段位于整个字符串的中间位置，且中间段的字符串长度为batch_size；
93.第一字符串重组单元4036：用于分别从左往右依次提取出字符串string1的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符，并将它们依次拼接在一起，组成新的字符串string1
‑
1；
94.同时，分别从左往右依次提取出字符串string2的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符，并将它们依次拼接在一起，组成新的字符串string2
‑
1；
95.第一比较单元4037：用于将新字符串string1
‑
1与新字符串string2
‑
1进行比较，判断二者是否一致，若是，则进行下一步判断，否则，判定待比较的两个数据值不一致；
96.第一计算单元4038：用于当新字符串string1
‑
1与新字符串string2
‑
1一致时，判断字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数是否小于batch_size；
97.第二字符串重组单元4039：用于当字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数大于或等于batch_size时，跳过已被提取过的字符，分别从左往右依次提取出字符串string1的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符，并将它们依次拼接在一起，组成新的字符串string1
‑
2；
98.同时，跳过已被提取过的字符，分别从左往右依次提取出字符串string2的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符，并将它们依次拼接在一起，组成新的字符串string2
‑
2；
99.第二比较单元40310：用于将新字符串string1
‑
2与新字符串string2
‑
2进行比较，判断二者是否一致，若是，则循环进行比较，否则，判定待比较的两个数据值不一致；
100.第三字符串重组单元40311：用于当字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数小于batch_size时，跳过已被提取过的字符，分别从左
往右依次提取出字符串string1的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符，并将它们依次拼接在一起，组成新的字符串string1
‑
n；
101.同时，跳过已被提取过的字符，分别从左往右依次提取出字符串string2的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符，并将它们依次拼接在一起，组成新的字符串string2
‑
n；
102.第三比较单元40312：用于将新字符串string1
‑
n与新字符串string2
‑
n进行比较，判断二者是否一致，若是，则判定待比较的两个数据值一致，否则，判定待比较的两个数据值不一致。
103.本发明提供的文本数据采集方法和装置，能够自动实现跨医院之间的医疗文本数据采集、清洗与存储，极大地提升跨院数据交互的效率与质量，减少人力工作，具有突出的实质性特点和显著的进步。
104.本发明还提供了一种存储设备，其中存储有多条指令，所述指令适于由处理器加载并执行如上述的文本数据采集方法。
105.所述存储设备可为一计算机可读存储介质，可以包括：rom、ram、磁盘或光盘等。
106.本发明还提供了一种终端，所述终端可包括：
107.一个或多个处理器，适于实现各指令；以及
108.一个或多个存储设备，适于存储多条指令，所述指令适于由所述一个或多个处理器加载并执行如上述的文本数据采集方法。
109.所述终端可为任意能够实现文本数据采集的装置(例如前述的部署在医院的前置机)，该装置可以是各种终端设备，例如：台式电脑、手提电脑等，具体可以通过软件和/或硬件来实现。
110.本发明还提供了一种计算机程序，当其被计算执行时，实现如上文本数据采集的方法。
111.在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。可以理解的是，上述方法、装置中的相关特征可以相互参考。所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
112.在此提供的算法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定的编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论
的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
113.最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于区块链的个人健康记录隐私保护和访问系统及方法与流程

文本数据采集方法、装置、存储设备及终端与流程

相关文献

最热文献