一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种放疗实体识别方法、装置、存储介质及设备与流程

2022-08-27 01:09:00 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及一种放疗实体识别方法、装置、计算机可读存储介质及设备。


背景技术:

2.在医学技术领域中,医院临床数据中心(cdr)记录有各个患者的临床数据,如医嘱、病历、检验、心电、超声、病理等数据。针对患者的患病情况,临床数据中会记录有通过药物治疗行为进行治疗、通过非药物治疗行为、或二者结合方式进行治疗等信息。其中,在临床上,非药物治疗行为包括手术、操作、放疗等多种类别。相关技术中,可通过对临床数据中是否存在诸如“放疗”、“放射治疗”等字眼的识别来判定对患者执行的是否是放疗行为。这种识别方案较为粗糙,且识别准确性不足。


技术实现要素:

3.本公开提供了一种放疗实体识别方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
4.根据本公开的第一方面,提供了一种放疗实体识别方法,所述方法包括:
5.获取目标医学数据;
6.将所述目标医学数据输入至目标模型中,得到所述目标模型输出的多种目标数据,所述多种目标数据为所述目标医学数据中表征为不同放疗实体的数据、且所述多种目标数据能够构成放疗行为;
7.其中,所述多种目标数据为所述目标模型基于预设的第一配置信息和第二配置信息对所述目标医学数据进行识别而得到;第一配置信息为表征所述不同放疗实体中的各放疗实体的字段;第二配置信息用于表征不同放疗实体字段间的排序。
8.上述方案中,所述多种目标数据包括能够构成放疗行为的放疗计划数据,所述放疗计划数据包括放疗强度数据和放疗频次数据,或者包括放疗强度数据、放疗频次数据和放疗靶区数据。
9.上述方案中,所述多种目标数据还包括与放疗计划数据共同构成所述放疗行为的放疗技术数据和放疗方案标识中的至少之一;
10.所述放疗技术数据用于指示所述放疗行为所采用的技术;
11.所述放疗方案标识用于指示所述放疗行为采用的方案名称;
12.其中,所述放疗计划数据包括所述放疗强度数据和所述放疗靶区数据,或者所述放疗计划数据包括所述放疗强度数据、放疗靶区数据以及所述放疗频次数据。
13.上述方案中,所述多种目标数据为所述目标模型基于预设的第一配置信息和第二配置信息对所述目标医学数据进行识别而得到;第一配置信息为表征所述不同放疗实体中的各放疗实体的字段;第二配置信息用于表征不同放疗实体字段间的排序,包括:
14.所述多种目标数据为所述目标模型基于预设的第三配置信息和第四配置信息对
所述目标医学数据进行识别而得到;
15.其中,第三配置信息包括表征各放疗实体的字段以及为辅助放疗实体识别的字段及其类型;第四配置信息为表征各放疗实体的字段间的排序、辅助放疗实体识别的字段间的排序、以及辅助放疗实体识别的字段与表征为放疗实体的字段之间的排序中的至少之一。
16.上述方案中,所述第一配置信息表征为放疗强度数据类型及其字段、放疗靶区数据类型及其字段、放疗频次数据类型以及字段、和目标辅助类型数据中的各类型及其字段;所述第二配置信息表征为第一配置信息中的各数据类型的字段间的排序。
17.上述方案中,所述获取目标医学数据,包括:
18.获取待识别医学数据;
19.对所述待识别医学数据进行预处理,得到目标医学数据。
20.根据本公开的第二方面,提供了一种放疗实体识别装置,所述装置包括:
21.第一获取单元,用于获取目标医学数据;
22.第二获取单元,用于将所述目标医学数据输入至目标模型中,得到所述目标模型输出的多种目标数据,所述多种目标数据为所述目标医学数据中表征为不同放疗实体的数据、且所述多种目标数据能够构成放疗行为;
23.其中,所述多种目标数据为所述目标模型基于预设的第一配置信息和第二配置信息对所述目标医学数据进行识别而得到;第一配置信息为表征所述不同放疗实体中的各放疗实体的字段;第二配置信息用于表征不同放疗实体字段间的排序。
24.上述方案中,所述多种目标数据包括能够构成放疗行为的放疗计划数据,所述放疗计划数据包括放疗强度数据和放疗频次数据,或者包括放疗强度数据、放疗频次数据和放疗靶区数据;
25.或者,所述多种目标数据还包括与放疗计划数据共同构成所述放疗行为的放疗技术数据和放疗方案标识中的至少之一;
26.所述放疗技术数据用于指示所述放疗行为所采用的技术;
27.所述放疗方案标识用于指示所述放疗行为采用的方案名称。
28.根据本公开的第三方面,提供了一种电子设备,包括:
29.至少一个处理器;以及
30.与所述至少一个处理器通信连接的存储器;其中,
31.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
32.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
33.本公开中的放疗实体识别方法、装置及计算机可读存储介质,与相关技术中仅识别出“放疗”或“放射治疗”等字眼数据即识别为放疗行为的方案相比,多种目标数据的识别以及利用目标模型进行识别均可实现对放疗行为的准确识别,为一种较为细腻或细致的识别方案。为放疗行为的准确识别提供了一种技术支持。
34.且目标模型基于预设的两个配置信息(第一配置信息和第二配置信息)实现对多种目标数据的识别,可大大保证放疗行为的识别准确性。
附图说明
35.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
36.在附图中,相同或对应的标号表示相同或对应的部分。
37.图1示出了本公开实施例放疗实体识别方法的实现流程示意图一;
38.图2示出了本公开实施例放疗实体识别方法的实现流程示意图二;
39.图3示出了本公开实施例放疗实体识别方法的实现框图一;
40.图4示出了本公开实施例放疗实体识别方法的实现框图二;
41.图5示出了本公开实施例放疗实体识别装置的组成示意图一;
42.图6示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
43.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
44.在对本公开的技术方案进行说明之前,先对可能涉及到的技术术语进行说明。
45.1)医学数据:针对病患的患病而产生的医嘱、病历、检验、心电、超声、病理等数据。考虑到医学数据具有一定的参考性,医学数据可被存储,以备参考。如存储到cdr中,待到使用时从cdr中调用或读取即可。
46.2)医疗行为:在实际应用中,医疗行为可被划分为药物治(医)疗行为和非药物治(医)疗行为。其中,非药物治疗行为包括手术、操作、放疗等类别。采用放疗(放射治疗或放射医疗)行为进行治疗的医疗行为即为放疗行为。
47.与相关技术中的较为粗糙的放疗行为识别的方案相比,本公开方案利用目标模型对目标医学数据中能够构成放疗行为的多种不同的目标数据进行识别。由于目标模型具有稳定性和健壮性,不易受外界环境的干扰,所以利用目标模型可保证对多种目标数据的识别准确性。识别的目标数据为多种,在多种目标数据的被识别准确的情况下,由多种目标数据构成的放疗行为的识别准确性随之被提高。
48.本方案中医学数据中表征为放疗实体的数据可以是医学数据中与放疗行为有关的数据,包括但不仅限于以下所述:医学数据中用于表示医疗行为为放疗行为的数据(如放疗、放射治疗、放射医疗)、表示放疗部位的数据(如肺、肾脏)、表示患病状态的病损数据(如肿瘤、癌症)、放疗技术数据(如imrt、3dcrt放疗技术)、放疗计划数据、用于指示放疗行为名称的放疗方案标识(如采用三维适形、质子和重离子中何种放疗方案进行放疗)。
49.其中,放疗计划数据包括所述放疗强度数据和所述放疗靶区数据,或者所述放疗计划数据包括所述放疗强度数据、放疗靶区数据以及所述放疗频次数据。
50.可以理解,如果将医学数据中与放疗行为有关的以上每种数据视为一种目标数据,那么从目标医学数据中识别出的目标数据的越多,如不仅识别出用于指示医疗行为为放疗行为的数据、放疗部位数据、病损数据,还识别出放疗技术数据、放疗计划数据,越能够
保证对放疗行为的识别准确性。
51.通俗来讲,识别的不同目标数据越多,放疗行为被识别的越准确。从用户层面上来看,识别的不同目标数据越多,越能够清楚地获知医疗过程中一次详细的放疗过程,进而为决策者如医生的进一步诊断和治疗提供了有力的保障。
52.可见,与相关技术中仅通过仅识别“放疗”或“放射治疗”等字眼数据识别是放疗行为的方案相比,本公开方案利用目标模型识别出的是可构成放疗行为的多种目标数据,基于识别出的可构成放疗行为的多种目标数据可实现对放疗行为的准确识别,为一种较为细腻或细致的识别方案。
53.本公开方案提供的放疗实体识别方法可应用在任何合理的设备中,如服务器或终端。其中,服务器为普通服务器、云端服务器等。终端包括手机、平板电脑、自助终端如医院自助终端等。
54.图1示出了本公开实施例放疗实体识别方法的实现流程示意图一。如图1所示,所述方法包括:
55.s101:获取目标医学数据;
56.s102:将所述目标医学数据输入至目标模型中,得到所述目标模型输出的多种目标数据,所述多种目标数据为所述目标医学数据中表征为不同放疗实体的数据、且所述多种目标数据能够构成放疗行为;
57.其中,所述多种目标数据为所述目标模型基于预设的第一配置信息和第二配置信息对所述目标医学数据进行识别而得到;第一配置信息为表征所述不同放疗实体中的各放疗实体的字段;第二配置信息用于表征不同放疗实体字段间的排序。
58.在前述的s101和s102中,利用目标模型对可构成放疗行为的多种目标数据进行识别。由于目标模型具有稳定性和健壮性,不易受外界环境的干扰,所以利用目标模型对构成放疗行为的多种目标数据进行识别,可保证对多种目标数据的识别准确性,进而可保证对放疗行为的识别准确性。为识别放疗行为的准确识别提供了一种技术支持。且目标模型基于预设的两个配置信息(第一配置信息和第二配置信息)实现对多种目标数据的识别,可大大保证放疗行为的识别准确性。此外,本公开方案利用目标模型识别出的是可构成放疗行为的多种目标数据,与相关技术中仅识别出“放疗”或“放射治疗”等字眼数据即识别为放疗行为的方案相比,多种目标数据的识别可实现对放疗行为的准确识别,能更加详细地体现一次放疗行为,为一种较为细腻或细致的识别方案。
59.本公开方案中的医学数据可以医学上任何有放疗行为识别需求的数据。如cdr中存储的医嘱、病历、检验、心电、超声、病理等数据。
60.在实际应用中,如果将有放疗行为识别需求的医学数据视为待识别医学数据,那么目标医学数据可以是待识别医学数据,通过调用或读取cdr中存储的数据而获取到目标医学数据。
61.目标医学数据还可以对待识别医学数据进行预处理而得到的数据。基于此,参见图2所示,s101可通过如下方案来实现:
62.s101a:获取待识别医学数据;
63.s101b:对待识别医学数据进行预处理,得到目标医学数据。
64.其中,通过调用或读取cdr中存储的数据而获取到待识别医学数据。
65.可以理解,在实际应用中,诸如病历、检验报告等医学数据中会存在有疾病的英文名称、同一疾病的多种不同名称等。本方案中的预处理包括但不限于进行格式和/或形式上的统一。其中,格式上的统一包括将疾病的英文名称转换成中文名称,将采用中文书写的标点符号和采用英文书写的标点符号进行中文书写或英文书写的统一。形式上的统一包括将同一疾病的多种不同名称统一成相同的名称,将书写错误的错别字纠正等,以方便后续的识别。
66.本公开方案中的预处理之后,还包括对经过预处理的数据进行划分的步骤。如进行字、词汇和短语中的至少之一的划分。示例性地,针对目标医疗数据中存在有“给予左肺肿瘤放疗治疗”的数据,将其进行划分得到的结果是:“给予”、“左”“肺”、“肿瘤”、“放疗”、“治疗”。对经过格式和/或形式统一的数据进行划分可大大方便后续的目标模型对目标数据的识别。
67.本公开方案中的目标医学数据可以为文本数据。如,记录到病历上的文本、检验图像中的文本、超声图像中的文本。
68.本公开方案中,目标模型可以是任何合理的能够识别出目标医学数据中的表征为不同放疗实体的目标数据的模型。如神经网络模型、统计学模型、ac自动机模型等。
69.本公开方案中的目标模型需识别出多种目标数据,每个目标数据表征为一种放疗实体。这些表征为不同放疗实体的目标数据能够构成放疗行为。
70.在一个可选的方案中,所述多种目标数据包括能够构成放疗行为的放疗行为指示数据、放疗部位、以及所述放疗行为所针对的病损数据。
71.示例性地,以识别出3种目标数据为例,识别出“肾脏(表示放疗部位的数据)肿瘤(病损数据)放疗(表示医疗行为为放疗行为的数据)”。
72.在一个可选的方案中,所述多种目标数据包括能够构成放疗行为的放疗计划数据,所述放疗计划数据包括放疗强度数据和放疗频次数据;或者,包括放疗强度数据、放疗靶区数据以及放疗频次数据。
73.示例性地,识别出“a部位(放疗靶区)放疗3次(放疗频次),放射强度为30gy(放疗强度)”。
74.在该可选方案中,放疗强度数据、放疗靶区数据、放疗频次数据中的每种数据均可作为一种目标数据。考虑到在实际应用中这三种数据通常同时出现在医学数据中,为方便描述,可称这三种数据为放疗计划数据。即,放疗计划数据包括放疗强度数据、放疗靶区数据以及放疗频次数据;或者,所述放疗计划数据包括放疗强度数据和放疗频次数据。
75.可以理解,本公开的该可选方案中如果在目标医学数据中仅识别出放疗计划数据,那么也可认为采用的治疗行为为放疗行为。即,对目标医学数据中放疗计划数据的识别,实现了对医学数据中关于放疗的详细识别,可保证对放疗行为的准确识别。
76.在一个可选的方案中,所述多种目标数据包括能够构成放疗行为的放疗行为指示数据、放疗部位、以及放疗行为所针对的病损数据以及放疗计划数据。
77.示例性地,识别出“肾脏肿瘤放疗”、“靶区1放疗3次,每次放射强度为30gy”。不仅识别出了放疗部位(如肾脏)、病损数据(如肿瘤),还识别出了放疗计划(靶区1放疗3次,每次放射强度为30gy),使得识别出的放疗数据更加详细完善,从而可保证对放疗行为的识别准确性。
78.在一个可选的方案中,在所述多种目标数据包括放疗计划数据的情况下,所述多种目标数据还包括与所述放疗计划数据共同构成所述放疗行为的放疗技术数据和放疗方案标识中的至少之一;其中,所述放疗技术数据用于指示所述放疗行为所采用的技术;其中,所述放疗方案标识用于指示所述放疗行为采用的方案名称。
79.其中,放疗技术数据可以是:imrt或3dcrt放疗技术。所述放疗方案标识可以是三维适形、质子或重离子。在识别出放疗计划数据的情况下还识别出了放疗技术数据和放疗方案标识中的至少之一,可使得放疗数据识别得更加详细完善,从而可保证对放疗行为的识别准确性。
80.可以理解,目标数据的数量识别出的越多,越能够体现医疗过程中一次详细的放疗过程,进而为决策者如医生的进一步诊断和治疗提供了有力的保障。
81.在目标模型为神经网络模型的情况下,目标模型对目标数据进行识别的原理可以是:神经网络模型中的输入层接收目标医学数据,卷积层对输入层接收的目标医学数据进行卷积计算,得到目标医学数据中的各字、词汇和/或短语属于各不同放疗实体的概率,基于该概率得到目标医学数据中表征为不同放疗实体的目标数据。示例性地,针对目标医学数据中的“肺部”一词,计算其属于放疗部位的概率、属于放疗计划的概率、属于患病状态的概率等。在计算出的概率中,属于放疗部位的概率大于其他概率,则认为“肺部”这个词汇为表征为放疗部位这个放疗实体的目标数据。
82.还可以,神经网络模型对接收到的目标医学数据进行语义的分析,得到目标医学数据中主要表达的语义含义。示例性地,如经神经网络模型得到的语义含义为“对头部皮肤放疗,共3次,每次强度为10gy”。
83.在目标模型为统计学模型的情况下,目标模型对目标数据进行识别的原理可以是:统计学模型采用统计学公式对目标医学数据中的各字、词汇或短语属于各不同放疗实体的概率进行计算,基于计算出的概率得到目标医学数据中表征为不同放疗实体的目标数据。具体地,对目标医学数据中的词汇属于一放疗实体的概率大于该词汇属于其他放疗实体的概率的情况下,确定该词汇属于该放疗实体。
84.在一个可选的方案中,在目标模型为ac自动机模型的情况下,可预先对第一配置信息和第二配置信息进行配置。
85.如图3所示,待到使用时,目标模型基于第一配置信息和第二配置信息对目标医学数据进行识别而得到可构成放疗行为的多种目标数据。基于第一配置信息和第二配置信息对多种目标数据进行识别,可保证对目标数据的识别准确性,进而保证对放疗行为的识别准确性。
86.也即,本公开方案中的所述多种目标数据为目标模型基于预设的第一配置信息和第二配置信息对所述目标医学数据进行识别而得到。
87.在一个可选的方案中,第一配置信息可以表征为放疗强度数据类型及其字段、放疗靶区数据类型及其字段、放疗频次数据类型以及字段、和目标辅助类型数据中的各类型及其字段;所述第二配置信息表征为第一配置信息中的各数据类型的字段间的排序。如此,目标模型基于第一配置信息和第二配置信息的识别,可识别出的多种目标数据包括能够构成放疗行为的放疗计划数据。
88.在一个可选的方案中,第一配置信息可以是表征为放疗计划数据的字段、为放疗
技术数据的字段、以及为放疗方案标识字段,所述第二配置信息表征为第一配置信息中的各数据类型的字段间的排序。如此,目标模型基于第一配置信息和第二配置信息的识别,可识别出的多种目标数据包括与放疗计划数据共同构成所述放疗行为的放疗技术数据和放疗方案标识中的至少之一。
89.在前述可选方案中,如果第一配置信息还包括表征为放疗部位的数据、病损数据的字段,所述第二配置信息还包括表征为放疗部位的数据的字段、表征为病损数据的字段分别与其他各字段间的排序、以及表征为放疗部位的数据的字段与表征为病损数据的字段之间的排序,则目标模型基于第一配置信息和第二配置信息的识别,可识别出的多种目标数据包括与放疗计划数据共同构成放疗行为的放疗技术数据、放疗方案标识、放疗部位和患病状态中的至少之一。
90.以上的第一配置信息和第二配置信息可根据实际情况而灵活设定,不局限于以上内容所述。
91.具体的,在实际应用中,预先对医学数据中可能表征为不同放疗实体的数据进行记录,形成第一配置信息。示例性地,记录“放疗”、“放射治疗”、“放射医疗”等数据是表示医疗行为为放疗行为这个放疗实体的数据。记录“肺部”、“肾脏”、“淋巴”等是表示放疗部位这个放疗实体的数据。记录“放疗m次,每次放射强度为n gy”、“放疗n gy/m fx”等是表示放疗计划这个放疗实体的数据。其中,m、n为大于或等于1的正整数。gy(格瑞)为放射治疗强度单位;fx表示次数。
92.ac自动机模型依据第一配置信息识别出的这些目标数据要想构成描述为放疗行为的文本,字段间的排序还需要符合一定的排序规则才能符合医学语言。本公开方案中,预先定义排序规则为:表示放疗部位的数据后面可以为病损数据或表示医疗行为为放疗行为的数据,表示医疗行为为放疗行为的数据的后面可以为放疗计划数据、放疗方案标识或放疗技术数据,放疗方案标识的后面可以是放疗技术数据,放疗技术数据的后面可以是放疗计划数据。该排序规则可视为第二配置信息,用于表征不同放疗实体的字段间的排序。
93.在实际应用中,前述的排序原则在ac自动机模型可体现为状态转移关系。状态转移关系包括但不限于以下所述:表示放疗部位的数据可转移到病损数据或表示医疗行为为放疗行为的数据,表示医疗行为为放疗行为的数据可转移到放疗计划数据、放疗方案标识或放疗技术数据,放疗方案标识的后面可转移到放疗技术数据,放疗技术数据可转移到放疗计划数据。
94.第二配置信息的设计或设置是为了约束基于第一配置信息识别出的各目标数据之间的位置排序关系。示例性地,假定目标模型基于第一配置信息识别出的目标数据包括“放疗”(表示医疗行为为放疗行为的数据)、“肺部”(放疗部位)、“肿瘤”(病损数据),在第二配置信息(放疗部位可转移到病损数据、病损数据可转移到表示医疗行为为放疗行为的数据)的约束下,得到诸如“肺部肿瘤放疗”这样能够体现较多放疗信息的数据。
95.在实际应用中,第一配置信息、第二配置信息均是为了ac自动机模型能够准确识别出可构成放疗行为的多种目标数据而设计或设置的。
96.与相关技术中仅通过识别“放疗”或“放射治疗”等字眼数据识别是放疗行为的方案相比,本公开方案中可利用ac自动机模型识别出的可构成放疗行为的多种目标数据,可保证目标数据的识别准确性,利用两种配置信息可保证对放疗行为的识别准确性。且识别
出的目标数据为多种,可识别出一次较为详细的放疗过程。
97.在一个可选的方案中,第一配置信息可视为第三配置信息,第二配置信息可视为第四配置信息。其中,第三配置信息包括表征各放疗实体的字段以及为辅助放疗实体识别的字段及其类型;第四配置信息为表征各放疗实体的字段间的排序、辅助放疗实体识别的字段间的排序、以及辅助放疗实体识别的字段与表征为放疗实体的字段之间的排序中的至少之一。在目标模型为ac自动机模型的情况下,可预先对第三配置信息和第四配置信息进行配置。
98.如图4所示,待到使用时,目标模型基于第三配置信息和第四配置信息对目标医学数据进行识别而得到可构成放疗行为的多种目标数据。可保证对目标数据的识别准确性,进而保证对放疗行为的识别准确性。
99.以医学数据为医学文本、目标医学数据为目标医学文本为例,在实际应用中,医学文本中可出现以下几种类型的数据:
100.核心词(表示医疗行为为放疗行为的数据),用于指示在医学文本中出现的医疗行为为放疗行为,字段包括但不限于:放疗、放射治疗、放疗治疗等。
101.解剖部位词(表示放疗部位的数据),放疗作用的身体解剖部位,例如:肺、肝脏等。
102.病损词(表示患病状态的病损数据),放疗治疗的疾病损害,例如:癌、肿瘤等。
103.放疗方案(放疗方案标识),放疗的具体方案名称,例如:三维适形、质子、重离子等。
104.放疗技术(放疗技术数据),放疗过程中涉及的具体技术,如:imrt、3dcrt等。
105.放疗计划(放疗计划数据),放疗治疗需要进行的照射次数(放疗频次)、照射的靶区(放疗靶区)和每次每个靶区照射的剂量(放疗强度数据)。
106.以上几种类型的数据可以为医学文本中构成放疗行为的主要数据,可作为几种表征为不同放疗实体的数据。其中,表示放疗部位的数据、表示解剖部位词的数据均可视为表示为放疗实体的数据。
107.此外,还包括能够辅助将以上类型数据识别出的以下类型数据:
108.引导词,如医学文本中可出现的“给予放射治疗”中的“给予”、“行放射治疗”中的“行”等。
109.连接词,如医学文本中可出现的“剂量达”、“剂量为”、“总共”等。
110.描述词,如医学文本中可出现的“于放射科放疗”中的“放射科”、“病房放疗”中的“病房”等。
111.补充词,如医学文本中可出现的“放疗中止”中的“中止”、“放疗结束”中的“结束”等。
112.在自然语言的表达方式中,引导词、连接词、描述词、补充词,这些词将构成放疗行为的各个主要数据进行连接。以上几种词类型可视为辅助类型词。第三配置信息可表征为各放疗实体的字段以及为辅助放疗实体识别的字段及其类型。
113.辅助类型词对某个目标医学文本中的构成放疗行为的主要数据的识别起到辅助作用。这种作用可体现为辅助类型词之间的位置排序关系、表征为各放疗实体的字段之间的排序位置关系、以及辅助类型词与表征为各放疗实体的字段之间的排序位置关系。如引导词后面的数据可以是解剖部位词,放疗计划数据的后面可以是连接词,描述词的后面可
以是核心词,核心词的后面可以是补充词。
114.前述的排序位置关系,在ac自动机中体现为一种状态转移关系。如,引导词转移到解剖部位词,放疗计划转移到连接词,描述词转移到核心词,核心词转移到补充词。本方案中的第四配置信息即为这种状态转移关系。
115.在实际应用中,ac自动机模型基于第三配置信息和第四配置信息实现对构成放疗行为的目标数据的识别。示例性地,目标模型基于第三配置信息识别出的目标数据包括“放疗”(表示医疗行为为放疗行为的数据)、“头部皮肤”(放疗部位)、“癌”(病损数据),在第四配置信息(解剖部位词转移到病损词、病损词转移到的核心词)的约束下,得到诸如“头部皮肤肿瘤放疗”这样的能够体现较多放疗信息的数据。
116.示例性地,ac自动机模型基于第三配置信息和第四配置信息识别出的目标数据包括“行”(引导词)、“左肾脏”(解剖部位词)、“肿瘤”(病损词)、“放疗”(核心词)、“靶区a”(放疗靶区)、“20gy”(放疗强度)、“10次”(放疗频次)。在第四配置信息(如引导词转移到解剖部位词、解剖部位词转移到病损词、病损词转移到核心词,核心词转移到放疗计划数据)的约束下,得到诸如“行左肾脏肿瘤放疗靶区a 20gy 10次”这样的能够体现较多放疗信息的数据。
117.具体的,以待识别医学文本为“临床胸痛明确,有姑息放疗指征,给予定位,行左胸壁肿块放疗30gy/10fx 20gy/10fx”为例说明识别过程:
118.首先,对待识别医学文本进行预处理,得到目标医学文本。
119.对目标医学文本进行分词,即进行字、词汇和短语中的至少之一的划分,得到划分结果:
120.['临床],['胸'],['痛'],['明确'],[','],['有'],['姑息'],['放疗'],['指征'],[','],['给予']['定位'],[',',],['行'],['左'],['胸壁'],['肿块'],['放疗'],['30gy/10fx 20gy/10fx']
[0121]
其中,在进行划分时,还可以对各字、短语或词汇在文本中的位置进行标注。如“临床”在目标医学文本中处于第1个字符和第2子字符的位置。“胸”在目标医学文本中处于第3个字符的位置,以此类推。
[0122]
在实际应用中,针对目标医学文本,经ac自动机模型的识别,可能会给出识别到能构成放疗行为的多种目标数据的结果,也可能会给出识别不到能构成放疗行为的多种目标数据的结果,视目标医学文本中的实际内容而定。
[0123]
ac自动机模型可基于第三配置信息和第四配置信息对目标医学文本进行至少一轮的识别而给出前述的识别结果。
[0124]
可以理解,针对目标医学文本中的各字或词汇,ac自动机是按照出现顺序进行字或词汇的逐一识别的。
[0125]
以ac自动机模型的第一轮识别为例,对目标医学文本中出现的第一字或词汇进行文本识别,该字或词汇作为第一轮识别的开始词。按照第三配置信息和第四配置信息,识别字段及其字段类型,按照状态转移关系,识别为该字段类型的该字或词汇是否可转移到目标医学文本中出现该字或词汇后面的字或词汇(目标医学文本中的第二个字或词汇)。如果识别为可转移,识别为该字段类型的该字或词汇(即目标医学文本中的第二个字或词汇)是否可转移到目标医学文本中出现该字或词汇后面的字或词汇(第三个字或词汇),以此类
推。
[0126]
需要说明的是,在识别出某个字段及其字段类型下,如果状态转移关系中记录有该词可转移到其后面出现的字或词汇的转移关系,则识别为该字或词汇是可转移到目标医学文本中出现该字或词汇后面的字或词汇。如果状态转移关系中未记录有该字或词汇与(目标医学文本中)其后面出现的字或词汇之间的转移关系、或记录有不允许该词与其后面出现的词汇之间的转移关系,则识别为该字或词汇是不可转移到目标医学文本中出现该字或词汇后面的字或词汇,停止识别。
[0127]
如果在停止识别之前对目标医学文本中已识别出的字或词中能够挑选出表征为不同放疗实体的多种目标数据,则可得到构成放疗行为的多种目标数据。
[0128]
如果在停止识别之前对目标医学文本中已识别出的字或词中无法挑选出表征为不同放疗实体的多种目标数据,则从停止识别的字或词开始、将该字或词作为开始词对目标医学文本中剩余字或词汇进行第二轮识别,第二轮识别的过程请参见前述对第一轮识别的过程,重复之处不赘述。直至给出能识别出多种目标数据的结果或者不能识别出多种目标数据的结果。
[0129]
其中,如果在已识别出的字或词中存在表示为核心词、解剖部位词和病损词,则认为能够挑选出表征为不同放疗实体的多种目标数据。否则认为无法挑选出表征为不同放疗实体的多种目标数据。
[0130]
在实际应用中,ac自动机模型可在第一轮识别中识别出多种目标数据,还可以在第二或第三轮识别中识别出多种目标数据。本公开的技术方案设计ac自动机模型进行至少一轮识别,可大大避免仅进行一轮识别而导致的漏识别多种目标数据的问题,进而达到对目标医学文本中出现的多种目标数据的准确识别。
[0131]
以待识别的医学文本为“临床胸痛明确,有姑息放疗指征,给予定位,行左胸壁肿块放疗30gy/10fx 20gy/10fx”为例,ac自动机采用第一配置信息识别出“行”(引导词)、“左胸壁”(解剖部位词)、“肿块”(病损数据)、“放疗”(核心词)“30gy/10fx”(放疗计划)、“20gy/10fx”(放疗计划)。按照第四配置信息的记录,引导词可转移到解剖部位词,解剖部位词可转移到病损数据,病损数据可转移到核心词,核心词可转移到放疗计划。
[0132]
即,ac自动机识别出“行左胸壁肿块放疗30gy/10fx 20gy/10fx”为一次详细的放疗过程。放疗的解剖部位是“左胸壁”,放疗靶区有两个,第一个靶区放疗剂量是30gy,放疗次数是10fx,放疗分次剂量是3gy。第二个靶区放疗剂量是20gy,放疗分次剂量是2gy,放疗次数是10fx等。
[0133]
前述方案中,利用ac自动机模型以及预先配置的几种信息可识别出更多的放疗信息,且利用具有强稳定性和健壮性的ac自动机模型进行识别可保证放疗信息的识别准确性。
[0134]
前述方案中,可将放疗强度数据、放疗靶区数据以及放疗频次数据作为一个整体进行识别,即作为放疗计划数据这个整体进行识别。此外,本公开方案还可以做到对放疗计划数据中的各数据(放疗强度数据、放疗靶区数据以及放疗频次数据)进行识别。
[0135]
也即,本公开方案可在仅识别出放疗强度、放疗靶区以及放疗频次等数据的情况下确定为识别出目标医学文本中的可构成放疗行为的多种目标数据。在这种情况下,所述第一配置信息表征为放疗强度数据类型及其字段、放疗靶区数据类型及其字段、放疗频次
数据类型以及字段、和目标辅助类型数据中的各类型及其字段;所述第二配置信息表征为第一配置信息中的各数据类型的字段间的排序。在这种方案中,将放疗强度、放疗靶区和放疗频次均视为一种放疗实体。
[0136]
下面来看识别出使用到的各数据类型及其数据:
[0137]
放疗强度数据类型,规定了剂量和对应的剂量单位,描述了一次放疗过程中射线照射的强度。其字段,例如:55gy。
[0138]
放疗靶区数据类型,放疗过程中物理师划定的靶区,其字段,例如:ptv。
[0139]
放疗频次数据类型,执行放射治疗的次数,其字段,例如:25f。
[0140]
在自然语言中,在放疗强度数据、放疗靶区数据以及放疗频次数据时,可存在以下几种辅助类型词:
[0141]
辅助词,如“放疗范围”、“剂量单位是”、“剂量达”等字段。
[0142]
描述词,如“dt”(肿瘤的吸收剂量),“dm”(空气量),“wbrt”(全脑放疗)等字段。
[0143]
完成状态词,表示放疗过程的完成或未完成状态,如:未行放疗、已行放疗等字段。
[0144]
这里,为区别于前述的辅助核心词、解剖部位词、病损词等数据识别的辅助类型词和辅助放疗强度数据、放疗靶区数据以及放疗频次数据等识别的辅助类型词,将前者视为第一辅助类型词,将后者视为第二辅助类型词(目标辅助类型数据)。
[0145]
第二辅助类型词在放疗计划中经常出现但是不构成放疗计划的核心部分(放疗剂量、放疗频次、靶区),通过识别出来,一方面防止没有状态转移使识别中断,另一方面提示了可能存在放疗计划的实体。通过这两方面辅助识别放疗计划数据。
[0146]
将放疗强度数据类型及其字段、放疗靶区数据类型及其字段、放疗频次数据类型以及字段、第二辅助类型词中的各类型及其字段进行记录,形成第一配置信息。针对放疗计划数据中的各数据(强度数据、靶区数据和频次数据)和第二辅助类型词,可存在这样的状态转移关系:放疗强度数据可转移到放疗频次数据,放疗频次数据可转移到辅助词或完成状态词,放疗靶区数据可转移到放疗频次。这种状态转移关系可视为第二配置信息。
[0147]
在具体实现上,ac自动机可基于第一配置信息和第二配置信息对目标医学数据如目标医学文本进行识别得到构成放疗行为的放疗强度数据、放疗靶区数据以及放疗频次数据。
[0148]
可以理解,ac自动机模型可基于第一配置信息和第二配置信息对目标医学文本进行至少一轮的识别而给出识别结果。该识别结果包括能够识别出表示放疗计划的数据和识别不出表示放疗计划的数据。
[0149]
这里的,每轮识别过程可参见ac自动机模型基于第一配置信息、和第二配置信息对目标医学文本进行识别的过程,重复之处不赘述。
[0150]
示例性地,ac自动机基于第一配置信息识别出的目标数据包括“剂量达”(辅助词)、“20gy”(放疗强度数据)、“ptv”(靶区数据)、“25f”(放疗频次数据)、“已行放疗”(完成状态词)。在第二配置信息(辅助词转移到放疗强度数据,放疗强度数据可转移到靶区,靶区数据可转移到放疗频次,放疗频次数据可转移到完成状态词)的约束下,得到诸如“剂量达20gy ptv 25f已行放疗”这样的能够体现较多放疗信息的数据。
[0151]
可以理解,以上第一配置信息至第四配置信息仅为一种具体举例而已,由于无法一一枚举,所有可能的可替代或可参考情形均可覆盖在本公开方案的范围内。
[0152]
综上而言,本公开方案可实现对医疗文本中的表征放疗行为、解剖部位、放疗计划等的放疗实体进行识别,与相关技术中仅通过仅识别“放疗”或“放射治疗”等字眼数据识别是放疗行为的方案相比,识别出的表征不同放疗实体的目标数据越多,越能够清楚地获知医疗过程中一次详细的放疗过程,保证了放疗过程的识别准确,进而为决策者如医生的进一步诊断和治疗提供了有力的保障。相对于相关技术而言,为一种细腻或细致的识别方案。
[0153]
可对放疗计划数据中的各数据进行识别。基于对放疗计划数据中的各数据的准确识别,实现了对放疗剂量、照射靶区、次数等详细信息的识别,实现对一次放疗过程的准确识别。为放疗过程的识别提供了一种新颖方案。
[0154]
对放疗行为的如上识别,可为决策者如医生对病患进行进一步诊断和治疗提供支持。如,针对患者a历史治疗中存在有针对肺部肿瘤放疗的经历,利用本公开方案,医生可清楚地获知放疗剂量、频次、靶区等详细信息,为进一步诊断提供了依据。
[0155]
本公开还提供了一种放疗实体识别装置,如图5所示,所述装置包括:
[0156]
第一获取单元501,用于获取目标医学数据;
[0157]
第二获取单元502,用于将所述目标医学数据输入至目标模型中,得到所述目标模型输出的多种目标数据,所述多种目标数据为所述目标医学数据中表征为不同放疗实体的数据、且所述多种目标数据能够构成放疗行为;
[0158]
其中,所述多种目标数据为所述目标模型基于预设的第一配置信息和第二配置信息对所述目标医学数据进行识别而得到;第一配置信息为表征各放疗实体的字段;第二配置信息用于表征不同放疗实体字段间的排序。
[0159]
上述方案中,所述多种目标数据包括能够构成放疗行为的放疗计划数据,所述放疗计划数据包括放疗强度数据和放疗频次数据,或者包括放疗强度数据、放疗频次数据和放疗靶区数据。
[0160]
上述方案中,所述多种目标数据还包括与放疗计划数据共同构成所述放疗行为的放疗技术数据和放疗方案标识中的至少之一;
[0161]
所述放疗技术数据用于指示所述放疗行为所采用的技术;
[0162]
所述放疗方案标识用于指示所述放疗行为采用的方案名称;
[0163]
其中,所述放疗计划数据包括所述放疗强度数据和所述放疗靶区数据,或者所述放疗计划数据包括所述放疗强度数据、放疗靶区数据以及所述放疗频次数据。
[0164]
上述方案中,所述多种目标数据为所述目标模型基于预设的第一配置信息和第二配置信息对所述目标医学数据进行识别而得到;第一配置信息为表征所述不同放疗实体中的各放疗实体的字段;第二配置信息用于表征不同放疗实体字段间的排序,包括:
[0165]
所述多种目标数据为所述目标模型基于预设的第三配置信息和第四配置信息对所述目标医学数据进行识别而得到;
[0166]
其中,第三配置信息包括表征各放疗实体的字段以及为辅助放疗实体识别的字段及其类型;第四配置信息为表征各放疗实体的字段间的排序、辅助放疗实体识别的字段间的排序、以及辅助放疗实体识别的字段与表征为放疗实体的字段之间的排序中的至少之一。
[0167]
上述方案中,所述多种目标数据为所述目标模型基于预设的第一配置信息和第二配置信息对所述目标医学数据进行识别而得到;第一配置信息为表征所述不同放疗实体中
的各放疗实体的字段;第二配置信息用于表征不同放疗实体字段间的排序,包括:
[0168]
所述第一配置信息表征为放疗强度数据类型及其字段、放疗靶区数据类型及其字段、放疗频次数据类型以及字段、和目标辅助类型数据中的各类型及其字段;所述第二配置信息表征为第一配置信息中的各数据类型的字段间的排序。
[0169]
上述方案中,所述第一获取单元501,用于:
[0170]
获取待识别医学数据;
[0171]
对所述待识别医学数据进行预处理,得到目标医学数据。
[0172]
需要说明的是,本技术实施例的放疗实体识别装置,由于该放疗实体识别装置解决问题的原理与前述的放疗实体识别方法相似,因此,放疗实体识别装置的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述,重复之处不再赘述。
[0173]
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
[0174]
图6出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0175]
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0176]
设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0177]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如xxx方法。例如,在一些实施例中,xxx方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时,可以执行上文描述的xxx方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行xxx方法。
[0178]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实
现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0179]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0180]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0181]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0182]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0183]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0184]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0185]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性
或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0186]
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献