一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本数据采集方法、装置、存储设备及终端与流程

2021-10-24 05:01:00 来源:中国专利 TAG:数据采集 终端 存储设备 装置 文本

技术特征:
1.文本数据采集方法,其特征在于:包括:s10、根据预先制定的数据采集规范,部署web service接口程序;s20、通过web service接口模块接收文本数据;s30、对接收到的文本数据进行预处理,以使所述文本数据符合预先制定的数据采集规范;s40、采用多层检查机制,对经过预处理后的文本数据进行逐层筛选,最终得到合格的文本数据;s50、将所述合格的文本数据,存入标准数据库中。2.根据权利要求1所述的文本数据采集方法,其特征在于:步骤s30中,所述对接收到的文本数据进行预处理,以使所述文本数据符合预先制定的数据采集规范,具体包括:s301、提取出所述文本数据中包含的所有属性;s302、将每一项所述属性一一定义成对应的一组元素集,所述元素集中的元素包括下列元素中的一个或多个:字段名称、数据值、数据类型、字段长度限制、该数据项是否为必填项以及其他未标注出的信息;s303、根据数据采集规范,将具有唯一性的至少一项属性设定为主键属性。3.根据权利要求2所述的文本数据采集方法,其特征在于:步骤s40中,采用多层检查机制,对经过预处理后的文本数据进行逐层筛选,最终得到合格的文本数据,具体包括:s401、对所述文本数据的所有属性进行逐一检查,判断所有要求必填的属性元素集中的数据值是否均有值,若是,则执行步骤s402,否则,将所述文本数据认定为不合格的文本数据,并进行删除,结束;s402、将所述文本数据的主键属性元素集中的数据值,分别与标准数据库中存储的所有文本数据的主键属性元素集中的数据值一一进行比较,若出现具有重复主键属性数据值的目标文本数据,则执行步骤s403,若最终没有出现所述的目标文本数据,则执行步骤s406;s403、将所述文本数据的非主键属性元素集中的数据值,分别一一对应地与所述目标文本数据的非主键属性元素集中的数据值进行比较,若所述文本数据和所述目标文本数据的某一对应的非主键属性数据值不一致,则执行步骤s404,若所述文本数据和所述目标文本数据的所有对应的非主键属性数据值均一致,则执行步骤s405;s404、将所述文本数据和所述目标文本数据均认定为异常的文本数据,将二者进行删除,结束;s405、将所述文本数据认定为重复的文本数据,删除该文本数据,并保留所述目标文本数据,结束;s406、分别对所述文本数据的所有属性元素集中的数据类型和字段长度限制进行逐一检查,判断所有属性元素集中的数据类型和字段长度限制是否均符合规范,若是,则将所述文本数据认定为合格的文本数据,然后执行步骤s50,反之,则将所述文本数据认定为不合格的文本数据,并进行删除,结束。4.根据权利要求3所述的文本数据采集方法,其特征在于:步骤s403中,将所述文本数据的某一非主键属性元素集中的数据值,对应地与所述目标文本数据的某一非主键属性元素集中的数据值进行比较,具体包括:
s4031、将待比较的两个数据值分别转换成字符串string1和字符串string2;s4032、判断字符串string1和字符串string2的长度是否相同,若相同,则执行步骤s4033,若不相同,则判定待比较的两个数据值不一致;s4033、判断其中一个字符串的长度length是否大于预设值l,若是,则执行步骤s4034,否则,直接进行比较;s4034、根据字符串的长度length计算出对比因子batch_size的值:batch_size=floor(log
20
(length)) bias,其中:log
20
(length)表示以20为基数的length的对数,floor(log
20
(length))表示不大于log
20
(length)的最大整数,bias表示偏移量,设为1;s4035、分别将字符串string1和字符串string2从左往右依次切分为三段:左侧段、中间段、右侧段,其中:中间段位于整个字符串的中间位置,且中间段的字符串长度为batch_size;s4036、分别从左往右依次提取出字符串string1的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符,并将它们依次拼接在一起,组成新的字符串string1

1;同时,分别从左往右依次提取出字符串string2的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符,并将它们依次拼接在一起,组成新的字符串string2

1;s4037、将新字符串string1

1与新字符串string2

1进行比较,判断二者是否一致,若是,则执行步骤s4038,否则,判定待比较的两个数据值不一致;s4038、判断字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数是否小于batch_size,若是,则执行s40311,否则,执行步骤s4039;s4039、跳过已被提取过的字符,分别从左往右依次提取出字符串string1的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符,并将它们依次拼接在一起,组成新的字符串string1

2;同时,跳过已被提取过的字符,分别从左往右依次提取出字符串string2的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符,并将它们依次拼接在一起,组成新的字符串string2

2;s40310、将新字符串string1

2与新字符串string2

2进行比较,判断二者是否一致,若是,则循环执行步骤s4038,否则,判定待比较的两个数据值不一致;s40311、跳过已被提取过的字符,分别从左往右依次提取出字符串string1的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符,并将它们依次拼接在一起,组成新的字符串string1

n;同时,跳过已被提取过的字符,分别从左往右依次提取出字符串string2的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符,并将它们依次拼接在一起,组成新的字符串string2

n;s40312、将新字符串string1

n与新字符串string2

n进行比较,判断二者是否一致,若是,则判定待比较的两个数据值一致,否则,判定待比较的两个数据值不一致。5.文本数据采集装置,其特征在于:包括:
部署单元(10):根据预先制定的数据采集规范,部署web service接口程序;接收单元(20):用于通过web service接口模块接收文本数据;预处理单元(30):用于对接收到的文本数据进行预处理,以使所述文本数据符合预先制定的数据采集规范;自动筛选单元(40):用于采用多层检查机制,对经过预处理后的文本数据进行逐层筛选,最终得到合格的文本数据;存储单元(50):用于将所述合格的文本数据,存入标准数据库中。6.根据权利要求5所述的文本数据采集装置,其特征在于:所述预处理单元(30),具体包括:属性提取单元(301):用于提取出所述文本数据中包含的所有属性;元素集定义单元(302):用于将每一项所述属性一一定义成对应的一组元素集,所述元素集中的元素包括下列元素中的一个或多个:字段名称、数据值、数据类型、字段长度限制、该数据项是否为必填项以及其他未标注出的信息;主键属性设定单元(303):用于根据数据采集规范,将具有唯一性的至少一项属性设定为主键属性。7.根据权利要求6所述的文本数据采集装置,其特征在于:所述自动筛选单元(40),具体包括:完整性检测单元(401):用于对所述文本数据的所有属性进行逐一检查,判断所有要求必填的属性元素集中的数据值是否均有值,若是,则进行唯一性检测,否则,将所述文本数据认定为不合格的文本数据,并进行删除,结束;唯一性检测单元(402):用于将所述文本数据的主键属性元素集中的数据值,分别与标准数据库中存储的所有文本数据的主键属性元素集中的数据值一一进行比较,若出现具有重复主键属性数据值的目标文本数据,则进行权威性检测,若最终没有出现所述的目标文本数据,则进行合法性检测;权威性检测单元(403):用于将所述文本数据的非主键属性元素集中的数据值,分别一一对应地与所述目标文本数据的非主键属性元素集中的数据值进行比较,若所述文本数据和所述目标文本数据的某一对应的非主键属性数据值不一致,则将所述文本数据和所述目标文本数据均认定为异常的文本数据,将二者进行删除,结束;若所述文本数据和所述目标文本数据的所有对应的非主键属性数据值均一致,则将所述文本数据认定为重复的文本数据,删除该文本数据,并保留所述目标文本数据,结束;合法性检测单元(406):用于分别对所述文本数据的所有属性元素集中的数据类型和字段长度限制进行逐一检查,判断所有属性元素集中的数据类型和字段长度限制是否均符合规范,若是,则将所述文本数据认定为合格的文本数据,然后将所述合格的文本数据,存入标准数据库中,反之,则将所述文本数据认定为不合格的文本数据,并进行删除,结束。8.根据权利要求7所述的文本数据采集装置,其特征在于:所述权威性检测单元(403),具体包括:字符串转换单元(4031):用于将待比较的两个数据值分别转换成字符串string1和字符串string2;第一判定单元(4032):用于判断字符串string1和字符串string2的长度是否相同,若
相同,则进行下一步判断,若不相同,则判定待比较的两个数据值不一致;第二判定单元(4033):用于当字符串string1和字符串string2的长度相同时,判断其中一个字符串的长度length是否大于预设值l,若是,则进行下一步计算,否则,直接进行比较;对比因子计算单元(4034):用于当其中一个字符串的长度length大于预设值l时,根据字符串的长度length计算出对比因子batch_size的值:batch_size=floor(log
20
(length)) bias,其中:log
20
(length)表示以20为基数的length的对数,floor(log
20
(length))表示不大于log
20
(length)的最大整数,bias表示偏移量,设为1;片段切分单元(4035):用于分别将字符串string1和字符串string2从左往右依次切分为三段:左侧段、中间段、右侧段,其中:中间段位于整个字符串的中间位置,且中间段的字符串长度为batch_size;第一字符串重组单元(4036):用于分别从左往右依次提取出字符串string1的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符,并将它们依次拼接在一起,组成新的字符串string1

1;同时,分别从左往右依次提取出字符串string2的左侧段中前batch_size个字符、中间段中所有字符、右侧段中前batch_size个字符,并将它们依次拼接在一起,组成新的字符串string2

1;第一比较单元(4037):用于将新字符串string1

1与新字符串string2

1进行比较,判断二者是否一致,若是,则进行下一步判断,否则,判定待比较的两个数据值不一致;第一计算单元(4038):用于当新字符串string1

1与新字符串string2

1一致时,判断字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数是否小于batch_size;第二字符串重组单元(4039):用于当字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数大于或等于batch_size时,跳过已被提取过的字符,分别从左往右依次提取出字符串string1的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符,并将它们依次拼接在一起,组成新的字符串string1

2;同时,跳过已被提取过的字符,分别从左往右依次提取出字符串string2的左侧段中前batch_size个未被提取过的字符、右侧段中前batch_size个未被提取过的字符,并将它们依次拼接在一起,组成新的字符串string2

2;第二比较单元(40310):用于将新字符串string1

2与新字符串string2

2进行比较,判断二者是否一致,若是,则循环进行比较,否则,判定待比较的两个数据值不一致;第三字符串重组单元(40311):用于当字符串string1或字符串string2的左侧段或右侧段中未被提取过的字符总个数小于batch_size时,跳过已被提取过的字符,分别从左往右依次提取出字符串string1的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符,并将它们依次拼接在一起,组成新的字符串string1

n;同时,跳过已被提取过的字符,分别从左往右依次提取出字符串string2的左侧段中未被提取过的所有字符、右侧段中未被提取过的所有字符,并将它们依次拼接在一起,组成新
的字符串string2

n;第三比较单元(40312):用于将新字符串string1

n与新字符串string2

n进行比较,判断二者是否一致,若是,则判定待比较的两个数据值一致,否则,判定待比较的两个数据值不一致。9.存储设备,其特征在于:其中存储有多条指令,所述指令适于由处理器加载并执行如上述的文本数据采集方法。10.终端,其特征在于:包括:一个或多个处理器,适于实现各指令;以及一个或多个存储设备,适于存储多条指令,所述指令适于由所述一个或多个处理器加载并执行如上述的文本数据采集方法。

技术总结
本发明公开了一种文本数据采集方法及装置,所述方法包括:根据预先制定的数据采集规范,部署Web Service接口程序;通过Web Service接口模块接收文本数据;对接收到的文本数据进行预处理,以使所述文本数据符合预先制定的数据采集规范;采用多层检查机制,对经过预处理后的文本数据进行逐层筛选,最终得到合格的文本数据;将所述合格的文本数据,存入标准数据库中;本发明能够实现跨医院之间医疗文本数据的共享,并且使得交互后的数据具有较高的合格率,适用于数据采集领域。适用于数据采集领域。适用于数据采集领域。


技术研发人员:赵杰 石金铭 崔芳芳 王琳琳 何贤英 陈保站 王文超
受保护的技术使用者:郑州大学第一附属医院
技术研发日:2021.07.16
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜