一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于医疗影像文件数据脱敏的方法及系统与流程

2021-10-24 05:08:00 来源:中国专利 TAG:影像 医疗 数据处理 用于 文件


1.本技术涉及医疗影像数据处理技术领域,尤其涉及一种用于医疗影像文件数据脱敏的技术。


背景技术:

2.dicom(digital imaging and communications in medicine,医学数字成像和通信)是医学图像和相关信息的国际标准,它定义了质量能满足临床需要的可用于数据交换的医学图像格式。dicom文件中包括固定格式的文件头及包括医学图像、病患信息等内容的数据集合,以数据元素形式顺序依次排列组成,其中,数据元素由标签、数据描述、数据长度、数据域(源数据)构成。
3.由于dciom文件中包含的信息更多更全面,可极大地避免因异常未发现、信息不完整导致误诊、漏诊情况的发生。因此,自从dicom标准发布以来,被广泛应用于放射医疗、心血管成像以及放射(如x射线、ct、核磁共振、超声等)诊疗诊断设备,并且在眼科和牙科等其它医学领域也得到越来越深入广泛的应用。随着dicom格式的医疗影像文件数量的爆炸增长,以及大数据技术的发展,dicom文件越来越多应用于大数据来做病情分析及病例病患的数据统计。
4.而随着人们对隐私信息的安全越来越重视,对dicom文件做数据脱敏也越来越多的被使用。现有的dicom文件数据脱敏通常是通过神经网络模型来识别dicom文件中特定区域中的数据确定为敏感数据,或是将指定标签类型的内容确定为敏感数据,然后对敏感数据进行数据脱敏处理。但由于有些标签类型如0020标签内也会存储一些患者敏感数据,像手机号或者住址,这种敏感数据是无法预先知道,可能会遗漏某些非标准标签中的敏感信息,容易造成信息泄露。


技术实现要素:

5.本技术的目的是提供一种用于医疗影像文件数据脱敏的方法、系统及设备,用以解决现有的医疗影像文件数据脱敏技术中存在的敏感数据有遗漏的技术问题。
6.根据本技术的一个方面,提供了一种用于医疗影像文件数据脱敏的方法,其中,所述方法包括:
7.加载并解析所述医疗影像文件,以获取所述医疗影像文件中所有标签的源数据;
8.分别将每个标签的源数据与预设的信息敏感类型库进行匹配,若与所述信息敏感类型库中任一信息敏感类型匹配成功,则将该标签的源数据确定为敏感数据;
9.遍历所有标签的源数据,以确定所述医疗影像文件中的所有敏感数据;
10.对所述医疗影像文件中的所有敏感数据进行数据脱敏处理,以得到数据脱敏后的医疗影像文件。
11.可选地,其中,若所述医疗影像文件远程存储于分布式存储系统,所述加载并解析所述医疗影像文件包括:
12.加载所述医疗影像文件对应的网络数据流,以获得所述医疗影像文件;
13.解析所述医疗影像文件。
14.可选地,其中,所述将该标签的源数据确定为敏感数据包括:
15.对该标签的源数据进行合法性验证,若通过验证,则将该标签的源数据确定为敏感数据。
16.可选地,其中,所述对所述医疗影像文件中的所有敏感数据进行数据脱敏处理包括:
17.分别确定所述医疗影像文件中与敏感数据对应的每个标签的源数据的脱敏因子;
18.基于每个脱敏因子,对该敏感数据进行数据脱敏处理;
19.遍历所有脱敏因子,对所述医疗影像文件中的所有敏感数据进行数据脱敏处理。
20.可选地,其中,所述基于每个脱敏因子,对该敏感数据进行数据脱敏处理包括:
21.基于每个脱敏因子,对该敏感数据做随机化处理,得到与该敏感数据对应的随机数据;
22.基于预设的脱敏模板库,对该随机数据进行脱敏处理,其中,所述脱敏模板库中的脱敏模板与所述信息敏感类型库中的信息敏感类型一一对应。
23.可选地,其中,所述每个脱敏因子是其对应的标签的源数据的hash值。
24.根据本技术的另一方面,还提供了一种用于医疗影像文件数据脱敏的系统,其中,所述系统包括:
25.第一模块,用于加载并解析所述医疗影像文件,以获取所述医疗影像文件中所有标签的源数据;
26.第二模块,用于分别将每个标签的源数据与预设的信息敏感类型库进行匹配,若与所述信息敏感类型库中任一信息敏感类型匹配成功,则将该标签的源数据确定为敏感数据;
27.第三模块,用于遍历所有标签的源数据,以确定所述医疗影像文件中的所有敏感数据;
28.第四模块,用于对所述医疗影像文件中的所有敏感数据进行数据脱敏处理,以得到数据脱敏后的医疗影像文件。
29.可选地,其中,所述第二模块还用于:
30.对该标签的源数据进行合法性验证。
31.与现有技术相比,本技术提供一种用于医疗影像文件数据脱敏的技术方案,该技术方案包括:加载并解析包含敏感数据的医疗影像文件,以获取该医疗影像文件中所有标签的源数据;分别将每个标签的源数据与预设的信息敏感类型库进行匹配,若与所述信息敏感类型库中任一信息敏感类型匹配成功,则将该标签的源数据确定为敏感数据;遍历所有标签的源数据,以确定所述医疗影像文件中的所有敏感数据;对所述医疗影像文件中的所有敏感数据进行数据脱敏处理,以得到数据脱敏后的医疗影像文件。通过该技术方案,根据标签内容而不是标签类型来筛选出医疗影像文件中的所有敏感数据,不会遗漏任何敏感信息。其中,还采取基于敏感数据对应的脱敏因子来对敏感数据进行随机化处理,以实现数据脱敏,可对数据脱敏后的医疗影像文件基于脱敏后的数据进行大数据分析。
附图说明
32.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显:
33.图1示出根据本技术一个方面的一种用于医疗影像文件数据脱敏的方法流程图;
34.图2示出根据本技术另一个方面一种用于医疗影像文件数据脱敏的系统示意图;
35.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
36.为使本技术的目的、请求保护的技术方案和效果更加明确,下面结合实施例及附图对本技术请求保护的技术方案进行清楚、完整地描述。显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应属于本技术保护的范围。
37.在本技术实施例的典型配置中,系统各模块、设备和/或可信方可包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
38.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
39.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以通过相关方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质可以包括但不限于:相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
40.为更进一步阐述本技术所采取的技术手段及取得的效果,下面结合附图及可选实施例,对本技术的技术方案,进行清楚和完整的描述。
41.图1示出本技术一个方面的一种用于医疗影像文件数据脱敏的方法流程图,其中,一个实施例的方法包括:
42.s11加载并解析所述医疗影像文件,以获取所述医疗影像文件中所有标签的源数据;
43.s12分别将每个标签的源数据与预设的信息敏感类型库进行匹配,若与所述信息敏感类型库中任一信息敏感类型匹配成功,则将该标签的源数据确定为敏感数据;
44.s13遍历所有标签的源数据,以确定所述医疗影像文件中的所有敏感数据;
45.s14对所述医疗影像文件中的所有敏感数据进行数据脱敏处理,以得到数据脱敏后的医疗影像文件。
46.在本技术中,所述方法通过设备1执行,所述设备1为安装有相应软件的计算机设备和/或云,所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集;所述云由基于云计算(cloud computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集
组成的一个虚拟超级计算机。
47.在此,所述计算机设备和/或云仅为举例,其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本技术也应包含在本技术的保护范围内,在此,以引用的方式包含于此。
48.在该实施例中,在所述步骤s11中,所述设备1的相应软件加载并解析包含敏感数据的医疗影像文件,来获取该医疗影像文件中所有标签的源数据。
49.其中,该医疗影像文件可以是存储在设备1中,或者存储在与设备1本地网络连接的本地服务器中,也可以是分布式存储,远程存储于分布式存储系统中,比如远程存储于与设备1可网络通信的hadoop系统中。
50.可选地,其中,若该医疗影像文件远程存储于分布式存储系统,则在步骤s11中,所述加载并解析所述医疗影像文件包括:
51.加载所述医疗影像文件对应的网络数据流,以获得所述医疗影像文件;
52.解析所述医疗影像文件。
53.其中,当医疗影像文件远程存储于分布式存储系统,设备1可远程访问该分布式存储系统,加载该医疗影像文件对应的网络数据流,将该医疗影像文件缓存到本地,以获得该医疗影像文件,解析该医疗影像文件,以获得医疗影像文件中所有标签的源数据。比如,设备1可发起与hadoop系统建立连接,完成安全性校验连接成功后,加载远程存储在hadoop系统中的dicom文件对应的网络数据流,将该dicom文件缓存到本地,使用dcm4che工具解析该dicom文件,得到该dicom文件所有标签的源数据。
54.继续在所述实施例中,在设备1中预先设置信息敏感类型库,其中包括若干信息敏感类型。在所述步骤s12中,设备1分别将每个标签的源数据(即标签的内容)与预先设置的信息敏感类型库进行匹配,可根据标签的源数据是否与预设的信息敏感类型库中的某个信息敏感类型匹配来判断标签的源数据是否是敏感数据,若与所述敏感信息类型库中任一敏感信息类型匹配成功,则将该标签的源数据确定为敏感数据。
55.比如:身份证敏感类型:若标签的源数据是18位数字,则匹配该敏感类型,设备1将该标签的源数据确定为敏感数据;手机号敏感类型:若标签的源数据是11位数字,则匹配该敏感类型,设备1将该标签的源数据确定为敏感数据;姓名敏感类型:若标签的源数据前几个字符能匹配设备1内置姓氏库中的任一姓氏对应的字符,且源数据全部字符长度符合预设阈值,则匹配该敏感类型,设备1将该标签的源数据确定为敏感数据;地址敏感类型:若标签的源数据符合行政区域等级划分,则匹配该敏感类型,设备1将该标签的源数据确定为敏感数据。在此,以上信息敏感类型仅是举例,可根据应用场景或实际需要预先设置若干个信息敏感类型来构成信息敏感类型库,包括但不限于与病患信息(如:身份证、手机号、姓名、性别、年龄、住址、就诊日期等)或医院信息(如:医院名称、医院地址等)相关的信息敏感类型。
56.可选地,其中,所述将该标签的源数据确定为敏感数据包括:
57.对该标签的源数据进行合法性验证,若通过验证,则将该标签的源数据确定为敏感数据。
58.其中,在将标签的源数据确定为敏感数据时,还可进一步对该标签的源数据进行合法性验证,若通过验证,则将改标签的源数据确定为敏感数据。比如:若标签的源数据是
18位数字,匹配身份证敏感类型,可进一步地比对这18位数字的前6位地区码是否在真实准确的,比如判断是否在内置地区码库中、校验第7~14位是否是合法日期、判断最后1位校验位是否正确,如果上述校验都通过,则确定该标签的源数据为身份证敏感类型的敏感数据;若标签的源数据是11位数字,匹配手机号敏感类型,可进一步地通过手机号码正则表达式来验证是否为合法手机号码,如果校验通过,则确定该标签的源数据为手机号敏感类型的敏感数据。在此,对各类标签的源数据的合法性验证不做限定,可根据实际需要自定义针对各类数据的正则合法性验证规则。
59.继续在所述实施例中,在所述步骤s13中,设备1遍历获得的该医疗影像文件的所有标签的源数据,进行敏感数据判断,以确定该医疗影像文件中的所有敏感数据。
60.继续在所述实施例中,在所述步骤s14中,设备1对该医疗影像文件中的所有敏感数据进行数据脱敏处理,以得到数据脱敏后的医疗影像文件。
61.其中,对该医疗影像文件中的所有敏感数据进行数据脱敏处理的方式可以是常规的数据脱敏方式,比如:采用消除或特殊字符替换等方式。
62.但常规的数据脱敏方式处理后的医疗影像文件无法针对敏感数据做进一步的处理,比如:若将某个既往病患的若干dicom文件中的病患信息作为敏感信息脱敏处理,则无法从数据脱敏处理后的dicom文件筛选出该病患的所有dicom文件进行针对性处理。
63.可选地,在所述步骤s14中,所述对所述医疗影像文件中的所有敏感数据进行数据脱敏处理包括:
64.分别确定所述医疗影像文件中与敏感数据对应的每个标签的源数据的脱敏因子;
65.基于每个脱敏因子,对该敏感数据进行数据脱敏处理;
66.遍历所有脱敏因子,对所述医疗影像文件中的所有敏感数据进行数据脱敏处理。
67.其中,先根据预先确定的算法确定每个敏感数据对应的脱敏因子,其中,所述脱敏因子唯一对应该敏感数据,然后基于每个脱敏因子,对该敏感数据进行数据脱敏处理,以得到与该敏感数据唯一对应的脱敏后数据,或者说是与该敏感数据唯一对应的仿真数据。使得不同医疗影像文件中相同标签的源数据进行数据脱敏处理后,得到的脱敏后数据是相同的。采用这种数据脱敏处理方式的多个医疗影像文件也可基于脱敏后数据进行进一步处理。
68.鉴于确定算法也有可能被破解,从而使得脱敏后数据有可能被还原成源数据的风险,还可考虑在进行数据脱敏处理前,对脱敏因子再进行随机化处理。
69.可选地,其中,基于每个脱敏因子,对该敏感数据进行数据脱敏处理包括:
70.基于每个脱敏因子,对该敏感数据做随机化处理,得到与该敏感数据对应的随机数据;
71.基于预设的脱敏模板库,对该随机数据进行脱敏处理,其中,所述脱敏模板库中的脱敏模板与所述信息敏感类型库中的信息敏感类型一一对应。
72.比如,dicom文件中,对应病患姓名标签的源数据为张三,根据预置的算法确定其唯一对应的脱敏因子a,将脱敏因子a作为设备1内置随机对象(或称内置随机数生成器)的初值,进行随机化处理,则每次随机化处理后得到的随机数据都是a’,然后基于预设的与姓名敏感类型对应的脱敏模板,对该随机数据进行脱敏处理,得到一个确定的脱敏数据,比如李四;对应病患手机号标签的源数据为12345678911(假设可通过合法性验证),根据预置的
算法确定其唯一对应的脱敏因子b,将脱敏因子b作为设备1内置随机对象(或称内置随机数生成器)的初值,进行随机化处理,则每次随机化处理后得到的随机数据都是b’,然后基于预设的与手机号敏感类型对应的脱敏模板,对该随机数据进行脱敏处理,得到一个确定的脱敏数据,比如19876543211。对任何一个dicom文件,若其中对应病患姓名标签的源数据是张三、手机号是12345678911,采用本实施例的方法进行数据脱敏处理后,得到对应姓名标签的脱敏后数据都是李四、对应手机号标签的脱敏后数据都是19876543211。
73.可选地,其中,所述所述每个脱敏因子是其对应的标签的源数据的hash值。
74.比如,假设dicom文件中姓名标签的源数据是张三,对张三进行hash运算,得到对应的hash值为123,将其作为设备1中jdk环境下的内置随机对象(或称内置随机数生成器)的初值,则得到的随机数据都是57923,根据设备1中预先设置的对应姓名敏感类型的脱敏模板,对该随机数据进行脱敏处理,得到脱敏后数据都是李四。
75.若本实施例是对远程存储的医疗影像文件进行数据脱敏,则完成数据脱敏后的医疗影像文件也是实时远程存储,无需存储在设备1或本地服务器中。
76.图2示出根据本技术另一个方面的一种用于医疗影像文件数据脱敏的系统示意图,其中,一个实施例的所述系统包括:
77.第一模块21,用于加载并解析所述医疗影像文件,以获取所述医疗影像文件中所有标签的源数据;
78.第二模块22,用于分别将每个标签的源数据与预设的信息敏感类型库进行匹配,若与所述信息敏感类型库中任一信息敏感类型匹配成功,则将该标签的源数据确定为敏感数据;
79.第三模块23,用于遍历所有标签的源数据,以确定所述医疗影像文件中的所有敏感数据;
80.第四模块24,用于对所述医疗影像文件中的所有敏感数据进行数据脱敏处理,以得到数据脱敏后的医疗影像文件。
81.在该实施例中,所述系统各模块可以是由软件或软硬组合体构成,用于实施前述实施例的方法,所述系统集成在与前述设备1软硬件配置环境相同的设备中。
82.其中,该系统的第一模块21加载并解析包含敏感数据的医疗影像文件,来获取该医疗影像文件中所有标签的源数据。其中,该医疗影像文件可以是存储在设备1中,或者存储在与设备1本地网络连接的本地服务器中,也可以是分布式存储,远程存储于分布式存储系统中,比如远程存储于与设备1可网络通信的hadoop系统中。
83.该系统的第二模块22分别将每个标签的源数据(即标签的内容)与预先设置的信息敏感类型库进行匹配,可根据标签的源数据是否与预设的信息敏感类型库中的某个信息敏感类型匹配来判断标签的源数据是否是敏感数据,若与所述敏感信息类型库中任一敏感信息类型匹配成功,则将该标签的源数据确定为敏感数据。
84.该系统的第三模块23遍历获得的该医疗影像文件的所有标签的源数据,进行敏感数据判断,以确定该医疗影像文件中的所有敏感数据。
85.该系统的第四模块24对该医疗影像文件中的所有敏感数据进行数据脱敏处理,以得到数据脱敏后的医疗影像文件。
86.可选地,其中,所述第二模块22还用于:
87.对该标签的源数据进行合法性验证。
88.其中,其中,该系统的第二模块22在将标签的源数据确定为敏感数据时,还可进一步对该标签的源数据进行合法性验证,若通过验证,则将改标签的源数据确定为敏感数据。
89.根据本技术的又一方面,还提供了一种计算机可读介质,所述计算机可读介质存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
90.需要注意的是,本技术可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本技术中涉及的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中。另外,本技术的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
91.另外,本技术的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本技术的一个实施例包括一个设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备运行基于前述根据本技术的多个实施例的方法和/或技术方案。
92.根据本技术的还一方面,还提供了一种用于远程存储的医疗影像文件数据脱敏的设备,其中,该设备包括:
93.一个或多个处理器;以及
94.存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。
95.例如,计算机可读指令在被执行时使所述一个或多个处理器:
96.加载并解析所述医疗影像文件,以获取所述医疗影像文件中所有标签的源数据;分别将每个标签的源数据与预设的敏感信息类型库进行匹配,若与所述敏感信息类型库中任一敏感信息类型匹配成功,则将该标签的源数据确定为敏感数据,其中,还对每个标签的源数据进行合法性验证;遍历所有标签的源数据,以确定所述医疗影像文件中的所有敏感数据;对所述医疗影像文件中的所有敏感数据进行数据脱敏处理,以得到数据脱敏后的医疗影像文件。
97.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其他的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件和/或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜