一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Rocchio算法的甲状腺超声特征肿瘤分级系统的制作方法

2022-02-19 09:43:55 来源:中国专利 TAG:

一种基于rocchio算法的甲状腺超声特征肿瘤分级系统
技术领域
1.本发明属于自然语言处理下的文本分类领域,具体涉及一种基于rocchio算法的甲状腺超声特征肿瘤分级系统。


背景技术:

2.甲状腺肿瘤是指甲状腺内生长的肿瘤,包括良性和恶性两大类。根据肿瘤的病理类型,良性甲状腺肿瘤主要是指甲状腺腺瘤,可分为滤泡状腺瘤和乳头状囊腺瘤两类;恶性甲状腺瘤即甲状腺癌,可分为乳头状癌、滤泡癌、髓样癌和未分化癌4类。
3.据2018年发布的《中国肿瘤登记年报》中记录,我国甲状腺癌发病呈逐年增多趋势;尤其是40岁之后的发病率快速增高,80岁达到顶峰;在大城市女性中,甲状腺癌的发病率仅次于乳腺癌,为28.9万/10万。
4.临床多采用甲状腺超声检查和细针穿刺活检对甲状腺肿瘤进行确诊。在超声检查中,甲状腺良性肿瘤表现为形态规则、呈圆形,包膜完整,周边呈环状血流;甲状腺癌表现为形态不规则、肿瘤内部存在微小钙化、肿瘤内血流紊乱。且该检查简单、安全、经济,常用于正常人群的筛查。
5.甲状腺ti

rads分级是甲状腺结节判定良恶性结节的数据分析系统,其分级从0级到6级不等,该系统对良恶性甲状腺结节的诊断准确率约80%。ti

rads标准如下:0级:医学上疑似病例超声无异常所见,但是需要结合其它检查来判定无结节,正常甲状腺组织或者无弥漫性病变。1级:超声报告提示甲状腺腺体大小和回声可正常,无结节和亦无囊肿或钙化;2级:超声报告所见为甲状腺良性结节,可能为甲状腺结节良性病变,边缘清并且以实性为主,回声一般欠均匀,可能有钙化或粗钙化,甲状腺ti

rads2级恶性风险基本为0,需要面诊医生;3级:不能确诊甲状腺结节病变,可能为良性结节也有很小的几率为恶性结节,实质性肿块并且要回声均匀,也有些为低回声并且边缘光整。4级:可能恶性病变,如极低回声和微钙化以及边缘不光整等等,4级恶性的可能比例为5到80%左右,需要面诊医生并结合临床诊断;甲状腺ti

rads4a:恶性的比例在6%到11%左右;甲状腺ti

rads4b:恶性的比例大致在11~80%左右;5级:超声检查结果高度提示甲状腺结节恶性,恶性可能很大;6级:病理学检出癌症,也就是活检穿刺确诊甲状腺结节为癌。
6.然而,目前的甲状腺ti

rads级是由超声医生利用个人先验知识及超声报告信息判断,即使存在判断手册,但存在一定程度的主观性。除此之外,对于医生而言,单人单次仅可处理一位患者的彩超报告,工作效率较低。
7.文本分类的处理大致分为文本预处理、文本特征提取、分类模型构建三个步骤组成,医疗文本分类同时涉及到自然语言处理、机器学习、生物信息学等方面的技术,该技术在医疗领域的应用多集中在通过文本的预处理(即明确生物学规律特征)上。
8.rocchio算法是一种典型文本分类算法,核心思路在于将标准文档向量化(原型向量),之后用待分类文本向量与原型向量进行余弦相似度对比,根据相似度值判断类别。在特证词较明确的前提下,该方法类别区分能力良好且直观。
9.基于上述内容,若将rocchio算法作为甲状腺超声报告信息的文本分类技术,从而自主挖掘并匹配症状特征于ti

rads分级来辅助临床医生来有效提高分级准确率。同时,将该系统配置在不同科室桌面端,并以插件等形式与超声室超声仪器迈瑞dc

8彩色多普勒超声系统相连接,可实现彩超报告的平行处理,将医生从重复且低效的工作中解放出来,有助于提高甲状腺肿瘤患者的超声报告诊疗效率。因此,本发明旨在设计一种基于rocchio算法的甲状腺超声特征肿瘤分级系统以解决上述问题。


技术实现要素:

10.本发明的目的是提供一种基于rocchio算法的甲状腺超声特征肿瘤分级系统,利用rocchio算法识别生物医学命名实体,再通过映射关系对甲状腺ti

rads分级进行匹配,从而对甲状腺肿瘤进行分级,起到辅助诊断的作用。医生在诊断甲状腺患者的过程中,可利用该系统自动导入脑出血彩超报告,通过训练好的rocchio算法模型和已命名生物医学实体实现肿瘤分级功能,从而帮助医生快速深入了解患者甲状腺肿瘤细节,提高诊断水平。同时,桌面端系统所具备的稳定性对医疗临床每日大批数据的处理也具有一定的适用性。
11.本发明采用如下技术方案:
12.一种基于rocchio算法的甲状腺超声特征肿瘤分级系统,包括以下模块:
13.文本信息提取模块在;可自动识别如“纵横比>1”、“低回声区”等医学实体名词;
14.信息匹配模块:将文本信息提取模块梳理后信息在该模块进行分级特征对比;
15.诊断分析模块:根据比对结果输出本次彩超分级结果;
16.显示模块:将上述分级信息返回桌面端,并由显示模块将上述所有结论显示在桌面端。
17.一种基于rocchio算法的甲状腺超声特征肿瘤分级系统,包括:
18.桌面端启动该系统后自动提取当下病人的超声报告文本信息;将提取信息与甲状腺ti

rads分级参考特征进行匹配筛选。
19.桌面端启动后根据页面交互式的选择,可手段选择调整信息提取范围从而进一步确保准确性。
20.文本信息提取模块,其中选取的特征词集均为甲状腺ti

rads分级指南中主要参考医学实体名词。
21.所述诊断分析模块甲状腺分级时,参考甲状腺ti

rads分级这一甲状腺结节判定良恶性结节的数据分级指南,根绝超声图像中所提取的文本特征信息将甲状腺结节分级为0级(无异常)至6级(癌症)。
22.本发明所述的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统包括超声医生桌面端,设封装好的肿瘤信息分级程序;所述文本信息提取模块可自动识别如“纵横比>1”、“低回声区”等医学实体名词;所述信息匹配模块将文本信息提取模块梳理后信息在该模块进行分级特征对比;所述诊断分析模块根据比对结果输出本次彩超分级结果;将上述分级信息返回桌面端,并由显示模块将上述所有结论显示在桌面端;
23.一种基于rocchio算法的甲状腺超声特征肿瘤分级系统,其核心模块(即文本信息提取分类模块)包括以下步骤:
24.s1、医学实体特征提取:使用porter stemming算法对甲状腺ti

rads分级指南中
涉及医学实体名词进行分析,判定特征词c
ε
赋值表内容为:a.形态大小正常、b.形态失常、c.形态不规则、d.实质回声不均、e.内回声不均、f.低回声区、g.强回声光斑、h.异常回声、i.边界不清、j.肿大淋巴结血流信号,并使用停止列表删除最常见的功能词,如“甲状腺”;
25.s2、特征权重赋值:基于文本特征一维正态分布形式及term frequency

inverse document frequency公式共同计算特征权值:
[0026][0027]
其中s为文档总数,s
ε
为出现词c
ε
的文档数,为每万人内甲状腺疾病患者比例,f
max
与f
mmin
分别代表甲状腺疾病患者内不同等级患者占比的最大值和最小值,ε=a,b,c,d,e,f,g,h,i,j,;
[0028]
s3、文本术语向量化:利用
[0029][0030]
将待分类d
i
及标准文档c
i
向量化,cd
ij
=1/0则代表待分类文档d
i
属于/不属于c
i
,和μ为可调参数;
[0031]
s4、归一化处理:先使用该公式分别将文本信息范围进行限制;其中cf

为明确医学实体名词频数,min和max分别代表了该词的最小\大词频。之后使用以下公式计算待分类文本与标准文本归一化的相似度:
[0032][0033]
,w

和w’jε
分别是待分类di和标准文档d
j
的第n
i
和n’j
个医学实体词权值,q
ij
是矩阵q的第ij个对角线元素;
[0034]
s5、文本分类:上述步骤已将彩超报告的文本信息抽象成向量化的样本集,将其与训练好的模板文件进行相似度计算,重复计算直至分到相应的类别中。
[0035]
本发明的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的进一步设置为:
[0036]
步骤s1中所述医学实体名词为甲状腺ti

rads分级指南中主要参考医学名词,如“实质回声不均”等;
[0037]
步骤s2中彩超报告中对于特征词的明确来自于三方面:1)对现有彩超报告中关键词的大量统计;2)甲状腺ti

rads分级指南中的描述梳理;3)专家法咨询。经上述三方面综合统计,与甲状腺分级相关的特征词与分级结果之间符合一维正态分布特征;
[0038]
前期工作表明彩超报告中所述患者医学实体名词频数符合一维正态分布,且基于其分布特征对现有term frequency

inverse document frequency公式进行改进。
[0039]
步骤s3中文本术语向量化可同样采用公式转化,f

为文档d
i
中特征词c
ε
的频率,|d
i
|为文档i的长度,是逆文档频率权重;
[0040]
步骤s4中使用线性函数将原始数据转换至[0 1]范围,可实现对原始数据的等比例缩放;
[0041]
本发明的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的进一步设置为:
[0042]
文本信息提取模块可手动框选未识别的遗漏信息或错误信息;
[0043]
信息匹配中训练好的模板文件为甲状腺ti

rads分级指南向量化特征集;
[0044]
本发明的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的进一步设置为:
[0045]
所述电脑端系统形式为web页面,且开发语言为java;
[0046]
所述系统保留可与超声仪器迈瑞dc

8彩色多普勒超声系统连接的接口,从而可配置在超声科室不同桌面端;
[0047]
所述系统支持不同桌面端的同时使用,可对同一时间多位患者的彩超报告进行平行处理;
[0048]
医生使用超声仪器瑞dc

8进行患者甲状腺的彩色多普勒超声操作,从而获得患者彩超报告;医生桌面端作为超声报告信息自动化提取时人

机前端交互部分,负责与超声医生形成界面交互,手动输入患者彩超报告文档,提交给信息提取及分类服务,经过后端服务处理,转化为能够最终被上述信息提取分类模型所识别的文本,并随即启动模型的提取动作,生成模型输出结果,再返回此结果给web前端界面展示给医生。
[0049]
本发明的有益效果如下:
[0050]
本发明借助桌面web端这种普及率较高且操作简单的平台,通过获取患者超声报告文档内容作为模型输入,自主挖掘并匹配症状特征于ti

rads分级来辅助临床医生,可有效提高分级准确率,有助于提高甲状腺肿瘤患者的超声报告诊疗效率。同时,将彩超报告信息自动保存至电脑内存中,便于进行数据的保存和调用,而且数据不容易损坏、变质、丢失,可提高彩超报告文本的分析效率,有效提高甲状腺诊疗的效率,减少医生工作量。
附图说明
[0051]
图1为本发明所涉及的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的结构示意图;
[0052]
图2为本发明所涉及的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的工作流程图;
[0053]
图3是本发明所涉及的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的登录及使用界面示意图。
具体实施方式
[0054]
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0055]
参照附图1位本发明所涉及的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的结构示意图。
[0056]
如附图1所示,本发明所述的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统包括超声医生桌面web端,设封装好的肿瘤信息分级程序;所述文本信息提取模块可自动识别如“纵横比>1”、“低回声区”等医学实体名词;所述信息匹配模块将文本信息提取模块梳理后信息在该模块进行分级特征对比;所述诊断分析模块根据比对结果输出本次彩超分级结果;将上述分级信息返回桌面端,并由显示模块将上述所有结论显示在桌面端;
[0057]
参照附图2为本发明所涉及的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的工作流程图。
[0058]
本发明的一种基于rocchio算法的甲状腺超声特征肿瘤分级系统中医生使用超声仪器瑞dc

8进行患者甲状腺的彩色多普勒超声操作,从而获得患者彩超报告;医生桌面端作为超声报告信息自动化提取时人

机前端交互部分,负责与超声医生形成界面交互,手动输入患者彩超报告文档,提交给信息提取及分类服务,经过后端服务处理,转化为能够最终被上述信息提取分类模型所识别的文本,并随即启动模型的提取动作,生成模型输出结果,再返回此结果给web前端界面展示给医生。
[0059]
本发明所述一种基于rocchio算法的甲状腺超声特征肿瘤分级系统的使用过程包括患者彩超报告导入、核心模块训练及应用(医院实体名词提取及甲状腺ti

rads分级参考对比)、诊断结论输出过程。以疑似甲状腺患者患者诊疗为例,上述过程为:
[0060]
首先,使用porter stemming算法对甲状腺ti

rads分级指南中涉及医学实体名词进行分析,判定特征词c
ε
赋值表内容为:a.形态大小正常、b.形态失常、c.形态不规则、d.实质回声不均、e.内回声不均、f.低回声区、g.强回声光斑、h.异常回声、i.边界不清、j.肿大淋巴结血流信号,并使用停止列表删除最常见的功能词,如“甲状腺”;
[0061]
接下来,基于文本特征一维正态分布形式及term frequency

inverse document frequency公式共同计算特征权值:
[0062][0063]
,其中s为文档总数,s
ε
为出现词c
ε
的文档数,为每万人内甲状腺疾病患者比例,f
max
与f
mmin
分别代表甲状腺疾病患者内不同等级患者占比的最大值和最小值;
[0064]
下一步,利用
[0065][0066]
将待分类d
i
及标准文档c
i
向量化,cd
ij
=1/0则代表待分类文档d
i
属于/不属于c
i
,θ和μ为可调参数;
[0067]
随后,使用该公式分别将文本信息范围进行限制;其中cf

为明确医学实体名词频数,min和max分别代表了该词的最小\大词频。之后使用以下公式计算待分类文本与标准文本归一化的相似度:
[0068][0069]
,w

和w


分别是待分类di和标准文档d
j
的第n
i
和n’j
个医学实体词权值,q
ij
是矩阵q的第ij个对角线元素;
[0070]
最后,上述步骤已将彩超报告的文本信息抽象成向量化的样本集,将其与训练好的模板文件进行相似度计算,重复计算直至分到相应的类别中。
[0071]
在系统中文本信息及提取模型的构建过程中,特别是彩超报告文档标注时,可以实时进行人工干预,具体为邀请专家医生参与共同完成所属工作,提高模型的正确率和指导价值。
[0072]
在实际应用中,本发明可以对甲状腺这一疾病进行深层次的报告信息挖掘,形成更加完善的诊断结论,使得医生可在短时间内获得彩超报告的准确分级信息。
[0073]
以上描述是对本发明的解释,不是对发明的限定,在不违背本发明精神的情况下,本发明可以作任何形式的修改。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献