一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于核心信息的Jaro-Winkler算法的多源数据匹配方法与流程

2022-12-20 21:04:47 来源:中国专利 TAG:

一种基于核心信息的jaro-winkler算法的多源数据匹配方法
技术领域
1.本发明涉及医疗数据匹配领域,具体来说,涉及一种基于核心信息的 jaro-winkler算法的多源数据匹配方法。


背景技术:

2.随着科学技术的发展,越来越多的最新科技成果如人工智能辅助诊断、模 式识别、达芬奇手术机器人技术被应用于临床工作中,但是相比临床一线,位 于二线的医院管理工作相对发展滞后,很多的医院的管理工作中仍然沿用了上 个世纪“人力 纸笔”的工作模式。尽管近几年来医院信息化水平突飞猛进, 但是不同地区,不同医院之间发展的不协调不充分问题仍然很突出。
3.近年来国内外研究与评价工作将监测数据与其他来源的慢性病数据进行 了匹配并综合分析,得到了不错的效果。但在匹配过程中发现,作为核心匹配 信息的身份证号(或住院号)在其他来源的数据(包括部分历史调查数据等) 中缺失或错误的比例偏高,或者部分数据因为安全或隐私保护考虑不提供身份 证号等敏感信息(医疗资料、社保数据等),导致匹配不足从而影响研究的准 确性。为此这些研究中只能采用人工的方式对基本信息进行组合匹配,耗时耗 力,而且人员的数据处理经验及敏感程度极大的制约了工作的效率与结果的准 确率。此外,在慢病监测日常工作中,重卡查询,死亡补发匹配等多个业务场 景也需要进行大量的人工匹配操作。
4.因此研究一种科学高效的数据匹配技术并开发适宜工具能够更深入开发 监测数据并整合利用多来源慢性病数据,推动慢性病监测与控制工作迈向新阶 段。
5.针对相关技术中的问题,目前尚未提出有效的解决方案。


技术实现要素:

6.针对相关技术中的问题,本发明提出一种基于核心信息的jaro-winkler 算法的多源数据匹配方法,以克服现有相关技术所存在的上述技术问题。
7.本发明的技术方案是这样实现的:
8.一种基于核心信息的jaro-winkler算法的多源数据匹配方法,包括以 下步骤:
9.预处理,将待匹配的emr(电子病历系统)数据和慢性病监测系统中 的数据进行预处理;
10.第一次匹配,预处理完成的数据中随机选取3000条慢性病监测数据, 与所有emr(电子病历系统)数据进行人工匹配,获得的匹配结果作为金 标准;
11.然后对两组数据进行遍历,通过4个核心字段分别计算获得4个jaro 距离值,文本相似性中向量之间的夹角余弦值来判断向量之间的相似性大 小;
12.根据单字段或者不同字段组合计算综合指数d值,将人工匹配的结果 作为金标准绘制d值的roc曲线,通过比较曲线下面积选择最佳字段组 合方式,并获得各种组合下的d值的最佳切点;
13.剩余慢性病监测数据作为回代检验数据,与所有emr(电子病历系统) 数据进行遍历比较,通过4个核心字段分别计算获得4个jaro距离值以及 综合指数d值,根据d值切点进行回代检验,判断检验效果;
14.第二次匹配,通过随机函数将原3000条慢性病监测数据中的核心字段 里的信息进行增、删、改操作,建立误差样本库;
15.将误差样本库再次与所有emr(电子病历系统)数据进行遍历比较, 分别计算获得4个jaro距离值以及综合指数d

值;
16.将人工匹配的结果作为金标准绘制d

值的roc曲线,通过比较曲线 下面积选择最佳字段组合方式,并获得各种组合下的d

值的最佳切点;
17.剩余慢病监测数据作为回代检验数据,与所有emr(电子病历系统) 数据进行遍历比较,通过4个核心字段分别计算获得4个jaro距离值以及 综合指数d值,根据d

值切点进行回代检验,判断检验效果;
18.最后综合两种情况下的d与d

切点判别效果,确定最佳的匹配字段 组合及对应d切点值;
19.根据结果开发适用于查漏报,去重报等防保科日常业务工作数据匹配。
20.优选的,上述预处理,中处理过程包括核心字段(姓名、身份证号、 联系电话、详细住址)筛选与保留,去除空格与换行符,数字与字母格式 统一改为半角。
21.优选的,上述对两组数据进行遍历中,所述的4个核心字段分别为姓 名、身份证号、联系电话和详细住址,其所对应的jaro距离值分别为d1、 d2、d3和d4。
22.优选的,jaro距离值采用jaro distance算法,进行计算两个字符串之 间相似度的方法。
23.优选的,所述jaro distance算法的定义为:
24.首先给两个定字符串s1和和s2;
25.采用如下公式计算dj的值:
[0026][0027]
其中,dj是两个字符串的jaro distance;
[0028]
m是匹配的字符数;
[0029]
t是换位的数目。
[0030]
优选的,上述s1和s2的字符如果相距小于等于s的时候即为两个字 符是相匹配的,其中
[0031]
s=[max(|s1|,|s2|)/2]-1。
[0032]
优选的,上述jaro距离值还可以在jaro distance算法的基础上采用 jaro-winkler distance算法,进行计算两个字符串之间相似度的方法。
[0033]
优选的,如果前缀部分有长度为image的部分相同,所述jaro-winkler distance算法的定义为:
[0034]
首先定义两个字符串一个前缀p;
[0035]
则采用如下公式计算dw;
[0036]dw
=dj (lp(1-dj))
[0037]
其中,所述dw为两个字符的jaro-winkler distanc;
[0038]
dj是两个字符串的jaro distance;
[0039]
l是前缀的相同的长度,但是规定最大为4;
[0040]
p则是调整分数的常数,规定不能超过0.25,不然可能出现dw大于1 的情况,winkler将这个常数定义为0.1。
[0041]
优选的,该匹配的过程是在内网及离线状态下进行的,并且,个人关 键信息经过后再加密传输。
[0042]
优选的,上述d值的计算公式为:
[0043]
d=dn/n;
[0044]
其中,所述dn是第n个jaro距离值(比如姓名、身份证号等元素计算 获得),n代表元素的个数。
[0045]
本发明的有益效果:
[0046]
(1)综合运用jaro distance和jaro-winkler distanc等前沿技术对慢性 病监测系统中报告卡与emr(电子病历系统)系统中个案进行匹配关联,能 有效提高查漏报与去除重卡等工作的效率,将防保科日常业务与科研进行了紧 密结合。
[0047]
(2)采用本方法对院内电子病历系统(emr)、实验室系统(lis)、 放射系统(ris)、影像系统(pacs)等电子化数据库记性自动匹配连接,连 接准确率达到人工匹配准确率的90%以上,研发成果以web插件及相应的数 据接口在区域平台或医疗机构里部署,应用于日常数据查漏与填报工作中,节 约了人力关系的成本,并且方便快捷,适宜推广。
附图说明
[0048]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的 前提下,还可以根据这些附图获得其他的附图。
[0049]
图1是根据本发明实施例的基于核心信息的jaro-winkler算法的多源数 据匹配方法的流程图之一;
[0050]
图2是根据本发明实施例的基于核心信息的jaro-winkler算法的多源数 据匹配方法的流程图之二。
具体实施方式
[0051]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其 他实施例,都属于本发明保护的范围。
[0052]
根据本发明的实施例,提供了一种基于核心信息的jaro-winkler算法的 多源数据匹配方法。
[0053]
如图1-2所示,根据本发明实施例的一种基于核心信息的jaro-winkler 算法的多
源数据匹配方法,包括以下步骤:
[0054]
步骤s101,预处理,将待匹配的emr(电子病历系统)数据和慢性病 监测系统中的数据进行预处理;
[0055]
步骤s103,第一次匹配,预处理完成的数据中随机选取3000条慢性 病监测数据,与所有emr(电子病历系统)数据进行人工匹配,获得的匹 配结果作为金标准;
[0056]
步骤s105,然后对两组数据进行遍历,通过4个核心字段分别计算获 得4个jaro距离值,文本相似性中向量之间的夹角余弦值来判断向量之间 的相似性大小;
[0057]
步骤s107,根据单字段或者不同字段组合计算综合指数d值,将人工 匹配的结果作为金标准绘制d值的roc曲线,通过比较曲线下面积选择 最佳字段组合方式,并获得各种组合下的d值的最佳切点;
[0058]
步骤s109,剩余慢性病监测数据作为回代检验数据,与所有emr(电 子病历系统)数据进行遍历比较,通过4个核心字段分别计算获得4个jaro 距离值以及综合指数d值,根据d值切点进行回代检验,判断检验效果;
[0059]
步骤s111,第二次匹配,通过随机函数将原3000条慢性病监测数据 中的核心字段里的信息进行增、删、改操作,建立误差样本库;
[0060]
步骤s113,将误差样本库再次与所有emr(电子病历系统)数据进行 遍历比较,分别计算获得4个jaro距离值以及综合指数d

值;
[0061]
步骤s115,将人工匹配的结果作为金标准绘制d

值的roc曲线, 通过比较曲线下面积选择最佳字段组合方式,并获得各种组合下的d

值 的最佳切点;
[0062]
步骤s117,剩余慢病监测数据作为回代检验数据,与所有emr(电子 病历系统)数据进行遍历比较,通过4个核心字段分别计算获得4个jaro 距离值以及综合指数d值,根据d

值切点进行回代检验,判断检验效果;
[0063]
步骤s119,最后综合两种情况下的d与d

切点判别效果,确定最佳 的匹配字段组合及对应d切点值;
[0064]
步骤s121,根据结果开发适用于查漏报,去重报等防保科日常业务工 作数据匹配。
[0065]
另外,在一个实施例中,上述预处理,中处理过程包括核心字段(姓名、 身份证号、联系电话、详细住址)筛选与保留,去除空格与换行符,数字 与字母格式统一改为半角。
[0066]
另外,在一个实施例中,上述对两组数据进行遍历中,所述的4个核心 字段分别为姓名、身份证号、联系电话和详细住址,其所对应的jaro距离 值分别为d1、d2、d3和d4。
[0067]
另外,在一个实施例中,jaro距离值采用jaro distance算法,进行计算 两个字符串之间相似度的方法。
[0068]
另外,在一个实施例中,所述jaro distance算法的定义为:
[0069]
首先给两个定字符串s1和和s2;
[0070]
采用如下公式计算dj的值:
[0071][0072]
其中,dj是两个字符串的jaro distance;
[0073]
m是匹配的字符数;
[0074]
t是换位的数目。
[0075]
另外,在一个实施例中,上述s1和s2的字符如果相距小于等于s的时 候即为两个字符是相匹配的,其中
[0076]
s=[max(|s1|,|s2|)/2]-1。
[0077]
另外,在一个实施例中,上述jaro距离值还可以在jaro distance算法的 基础上采用jaro-winkler distance算法,进行计算两个字符串之间相似度的 方法。
[0078]
另外,在一个实施例中,如果前缀部分有长度为image的部分相同,所 述jaro-winkler distance算法的定义为:
[0079]
首先定义两个字符串一个前缀p;
[0080]
则采用如下公式计算dw;
[0081]dw
=dj (lp(1-dj))
[0082]
其中,所述dw为两个字符的jaro-winkler distanc;
[0083]
dj是两个字符串的jaro distance;
[0084]
l是前缀的相同的长度,但是规定最大为4;
[0085]
p则是调整分数的常数,规定不能超过0.25,不然可能出现dw大于1 的情况,winkler将这个常数定义为0.1。
[0086]
另外,在一个实施例中,该匹配的过程是在内网及离线状态下进行的, 并且,个人关键信息经过后再加密传输。
[0087]
为了方便理解,针对jaro distance和jaro-winkler distanc进行举例, 具体如下:
[0088]
martha与marhta的字符都是匹配的,但是这些匹配的字符中,t 和h要换位才能把martha变为marhta,那么t和h就是不同的顺序的匹 配字符,这些相互匹配的字符则决定了换位的数目t,简单来说就是不同顺序 的匹配字符的数目的一半即为换位的数目t,那么t=2/2=1。
[0089]
那么这两个字符串的jaro distance即为:
[0090][0091]
同时,采用jaro-winkler distanc,那么上面提及的martha和marhta 的jaro-winkler distance为:
[0092]
dw=0.944 (3*0.1(1-0.944))=0.961。
[0093]
另外,在具体应用的时候,上述d值的计算公式为:
[0094]
d=dn/n;
[0095]
其中,所述dn是第n个jaro距离值(比如姓名、身份证号等元素计算 获得),n代表元素的个数。
[0096]
综上所述,借助于本发明的上述技术方案,综合运用jaro distance和 jaro-winkler distanc等前沿技术对慢性病监测系统中报告卡与emr(电子病 历系统)系统中个案进行匹配关联,能有效提高查漏报与去除重卡等工作的效 率,将防保科日常业务与科研进行了紧密结合。采用本方法对院内电子病历系 统(emr)、实验室系统(lis)、放射系统
(ris)、影像系统(pacs)等 电子化数据库记性自动匹配连接,连接准确率达到人工匹配准确率的90%以 上,研发成果以web插件及相应的数据接口在区域平台或医疗机构里部署, 应用于日常数据查漏与填报工作中,节约了人力关系的成本,并且方便快捷, 适宜推广。
[0097]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发 明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献