一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于真实世界数据的外感热病辅助决策系统的制作方法

2022-03-22 22:13:05 来源:中国专利 TAG:

寒、温病理论融会贯通来思考肺系外感热病的发病,导致辨证不够准确,遣 方用药缺乏理论指导,在一定程度上影响了中医临床疗效的发挥和经验的传 承,肺系外感热病领域有效的继承和发扬名老专家经验显得尤为迫切。
3.中医学是典型的临床实践性医学,中医临床能力的核心是中医临床思维 能力。中医临床思维能力是在长时期的临床实践中逐渐提升的,具有丰富中 医临床经验的专家是中医药特有的智能资源,代表着当代中医学术发展的水 平。中医外感热病拥有非常丰富的理论基础,伤寒学说、温病学说、疫病学 说都是随着历代医家对外感热病认识的不断深化和产生的珍贵的经典理论, 在人类频繁受到突发新发传染病威胁的今天,仍具有非常重要的指导意义。 可见,传统的名老中医经验传承模式确实存在人才培养周期长、效率低、数 量少、可重复性和推广性较差的问题。长期以来,中医药传承工作主要面临 两大个亟待解决的难题:一方面是名老中医学术经验的传承效率不高、主观 性强、可重复性和推广性较差,难以有效提升基层中医药服务能力满足广泛 的临床需求;另一方面,临床产生的大量中医诊疗数据质量较低,含有大量 噪声、不完整、不准确甚至是不一致的数据,导致中医缺乏足够的有效临床 科研数据,中西医诊疗信息资源整体利用度不高,存在数据资源的浪费。可 见,名老中医经验传承的模式和方法创新是当前中医行业面临的重要任务, 如何对名老中医,特别是外感热病名老中医的诊疗思维进行描述并有效的传 承推广尚需要方法学探索。


技术实现要素:

[0004][0005]
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于真 实世界数据的外感热病辅助决策系统,其能够为中医决策提供准确的辅助数 据,建立肺系外感热病中医病案案例推理模型,模拟专家诊病、辨证的思维 过程。
[0006]
本发明的技术方案是:这种基于真实世界数据的外感热病辅助决策系 统,其包括:
[0007]
系统模块,包括退出系统子模块、用户信息维护子模块,用户信息 维护子模块用于管理使用系统的用户信息,包括用户信息注册,用 户信息修改,用户信息删除,用户信息查询;退出系统子模块执行 直接退出整个系统;
[0008]
数据库,其利用分组信息维护原则对案例检索过程所涉及到的各个 特征信息进行维护,该模块中的每个分组信息实现信息的添加、修 改、删除、查询;
[0009]
编码库,其生成案例编码信息,该模块采用人工智能自然语言处理 ai模型,基于案例库中的案例语料进行学习,并将案例库中的案 例转换为案例编码用于案例检索算法中的特征输入;同时,基于已 生成的案例编码计算得到案例库中每个特征客观权重;
[0010]
决策推理模块,其基于输入目标案例从案例库中检索出k条于目标 案例最相似的原始案例,其中涉及主观权重修正与相似性算法;
[0011]
帮助模块,其提供关于本系统的简介信息。
[0012]
本发明以全国肺系外感热病临床科研数据为研究对象,采用人工智能案 例推理技术进行中医辅助决策技术研究,采取专家咨询权数法对肺系外感热 病的临床表现进行分类并确定症状相似性权重,构建肺系外感热病案例云数 据库,采用适合中医混合数据集
的混合算法,建立肺系外感热病中医病案案 例推理模型,因此能够为中医决策提供准确的辅助数据,建立肺系外感热病 中医病案案例推理模型,模拟专家诊病、辨证的思维过程。
附图说明
[0013]
图1是根据本发明的基于真实世界数据的外感热病辅助决策系统的结构 图。
[0014]
图2是根据本发明的基于真实世界数据的外感热病辅助决策系统的执行 流程图。
[0015]
图3示出了word2vec网络基本结构。
[0016]
图4示出了word2vec网络的cbow结构。
[0017]
图5示出了相似案例检索过程。
具体实施方式
[0018]
如图1所示,这种基于真实世界数据的外感热病辅助决策系统,其包 括:
[0019]
系统模块,包括退出系统子模块、用户信息维护子模块,用户信息 维护子模块用于管理使用系统的用户信息,包括用户信息注册,用 户信息修改,用户信息删除,用户信息查询;退出系统子模块执行 直接退出整个系统;
[0020]
数据库,其利用分组信息维护原则对案例检索过程所涉及到的各个 特征信息进行维护,该模块中的每个分组信息实现信息的添加、修 改、删除、查询;
[0021]
编码库,其生成案例编码信息,该模块采用人工智能自然语言处理 ai模型,基于案例库中的案例语料进行学习,并将案例库中的案 例转换为案例编码用于案例检索算法中的特征输入;同时,基于已 生成的案例编码计算得到案例库中每个特征客观权重;
[0022]
决策推理模块,其基于输入目标案例从案例库中检索出k条于目标 案例最相似的原始案例,其中涉及主观权重修正与相似性算法;
[0023]
帮助模块,其提供关于本系统的简介信息。
[0024]
本发明以全国肺系外感热病临床科研数据为研究对象,采用人工智能案 例推理技术进行中医辅助决策技术研究,采取专家咨询权数法对肺系外感热 病的临床表现进行分类并确定症状相似性权重,构建肺系外感热病案例云数 据库,采用适合中医混合数据集的混合算法,建立肺系外感热病中医病案案 例推理模型,因此能够为中医决策提供准确的辅助数据,建立肺系外感热病 中医病案案例推理模型,模拟专家诊病、辨证的思维过程。
[0025]
优选地,所述决策推理模块包括:
[0026]
源案例准备,首先从外部将原始excel文件中的数据内容进行转换 清洗并存入案例库形成源案例,然后利用案例库中的源案例学习词 向量模型对源案例进行编码构建编码库,同时采用熵权法对编码库 再次进行客观权重分析,得到源案例的特征权重用于目标案例检索 流程中的案例相似性计算;
[0027]
目标案例检索,首先由用户录入待检索的目标案例并对权重进行主 观修正,然后采用源案例准备流程中学习到的词向量模型对目标案 例进行编码,利用编码后的目标案例与编码库中的案例特征进行相 似性计算获得最相似的k条案例编号,再依据这k条案例编号从 案例库中获取最相似的源案例用于病例诊断;如果检索到的源案例 能够匹配目标案例,则完成例重用,直接用于病例诊治,否则进行 案例修正,然后再进行案例重用;最后,将重用后的案例以新案例 的形式存储到案例库中。
[0028]
优选地,所述编码库中,案例编码采用的是word2vec模型;
[0029]
word2vec模型分为两个部分,第一部分为建立模型,第二部分是 通过模型获取嵌入词向量;word2vec的整个建模过程先基于训练 数据构建一个神经网络,当这个模型训练好以后,这个模型通过训 练数据所学得的参数为隐层权重矩阵,然后在基于权重矩阵计算出 词向量;
[0030]
word2vec使用单个隐藏层,隐藏层中的神经元都是线性神经元, 输入层设置为具有与用于训练的词汇中的单词一样多的神经元,隐 藏图层大小设置为生成的单词向量的维度,输出图层的大小与输入 图层相同;
[0031]
假设用于学习单词向量的词汇表由v个单词组成并且n为单词向 量的维度,则对隐藏层连接的输入由大小为v
×
n的矩阵wi表 示,其中每行表示词汇单词;以相同的方式,通过矩阵wo来描述 从隐藏层到输出层的连接大小为n
×
v。
[0032]
优选地,所述word2vec模型的连续词袋模型建模方法,执行以下步 骤:
[0033]
(1)计算隐藏层h的输出:
[0034][0035]
其中,xi为每个词对应word2vec模型输入层的编码,wi
t
为 word2vec模型输入层与隐层之间的权重矩阵,c为word2vec模型 隐层节点数量,h为word2vec模型隐层输出向量;
[0036]
(2)计算在输出层每个结点的输入:
[0037]
u=wo
t
·h[0038]
其中,wo是word2vec模型隐层与输出层之间的权重矩阵,h为 word2vec模型隐层输出向量,u为word2vec模型输出层的输入向 量;
[0039]
(3)计算输出层的输出,将softmax用作激活函数,softmax为非 线性激活函数,用于计算背景词在word2vec模型的输出向量,然 后将输出向量与目标词向量进行对比差异而达到模型的学习。
[0040]
优选地,所述编码库采用熵权法对案例进行客观赋权,
[0041]
假设指标集x={x1,x2,

,xm},利用熵权法计算每个指标xi的过程 为:
[0042]
(i)指标xj下值x
ij
标准化:
[0043][0044]
其中,x
ij
为指标xj中的第i个值,min(xj)为指标xj中的最小值, max(xj)指标xj中的最大值。y
ij
为x
ij
标准化后的值;
[0045]
(ii)指标xj下值x
ij
标准化后y
ij
的比重p
ij

[0046][0047]
其中,n为指标xj中值的个数,或称作案例条数;
[0048]
(iii)指标xj的熵值e(xj):
[0049][0050]
其中,ln(
·
)为对数函数。
[0051]
(iv)指标xj的权重w(xj):
[0052][0053]
其中,e(xj)为指标xj的熵值,m为指标的个数。
[0054]
优选地,所述决策推理模块中,
[0055]
相似性匹配过程,为依据目标案例t从案例库的源案例集u中匹配出 与t最相似的k条源案例,匹配算法采用的是欧式距离dist(u,t)去 度量案例之间的相似性,距离越近越相似,相似度sim(u,t)越高”, 相似性计算如下:
[0056]
sim(u,t)=1-dist(u,t)
[0057]
其中,dist(u,t)计算形式如下:
[0058][0059]
源案例集u由多条案例组成,目标案例t与源案例具有相同的特征 指标,每次检索过程做一次源案例库的完整扫描,保证获得的topk 相似案例最全局topk。
[0060]
优选地,如果案例库比较庞大,每次扫描耗费时间比较长,通过增加相 似度参数的方式改进检索算法,设置一个检索相似度值,在检索过程中如果 大于该相似度值的案例条数达到k,则可扫描案例库。
[0061]
以下更详细地说明本发明。
[0062]
本系统是集自然语言编码算法、客观权重分析算法、案例检索算法为一 体的综合ai决策系统,案例特征编码与检索全部采用ai模型实现,源案例 准备与目标案例检索过程实现自动智能化,如图2所示。
[0063]
决策系统算法执行分为两个流程:源案例准备、目标案例检索,两个流 程相互独立执行。
[0064]
源案例准备,首先从外部将原始excel文件中的数据内容进行转换清洗 并存入案例库形成源案例,然后利用案例库中的源案例学习词向量模型对源 案例进行编码构建编码库,同时采用熵权法对编码库再次进行客观权重分析 得到源案例的特征权重用于目标案例检索流程中的案例相似性计算。
[0065]
目标案例检索,首先由用户录入待检索的目标案例并对权重进行主观修 正,然后采用源案例准备流程中学习到的词向量模型对目标案例进行编码, 利用编码后的目标案例与编码库中的案例特征进行相似性计算获得最相似的 k条案例编号,再依据这k条案例编号从案例库中获取最相似的源案例用于 病例诊断。如果检索到的源案例能够匹配目标案例,即可完成例重用(直接 用于病例诊治),否则需要进行案例修正,然后再进行案例重用。最后,将 重用后的案例以新案例的形式存储到案例库中(案例学习)。
[0066]
中医诊疗案例中,无论是案例症状还是诊疗方剂,都是采用自然语言(后 简称“文本”)进行的描述,但在案例检索中不能直接对文本进行距离计算, 而是需要将文本转换为数值才能参与计算。
[0067]
文本转换为数值的方法比较多,常见有onehot encoding、orderencoding等,但这些方法都有着其本质的缺陷。onehot encoding对每个词 的编码长度受限于语料字典条
目的大小,即语料字典条目越大,每个词编码 长度就越大。如果词向量维度过大(太稀疏),一个词要用大量其余的词来 表示,这将为运算带来很大开销,且无法考虑上下文关系。order encoding 隐藏了对词的先后排序与距离度量,而事实上大部分词与词之间不具有先后 顺序与距离,这将会引入不必要的歧义性。
[0068]
因此,需要找到一种更好的表示方法,这种方法需要满足如下两点要求: 一是携带上下文信息;二是词的表示是稠密的。事实证明,通过神经网络建 模来进行文本数字转换(词向量化),可以满足这两点要求。这就是在本系 统中引入词向量转换模型word2vec的理由,在图2中的案例编码模块与目 标案例编码模块均采用的是word2vec模型。
[0069]
word2vec模型实际上分为了两个部分,第一部分为建立模型,第二部分 是通过模型获取嵌入词向量。word2vec的整个建模过程实际上与自编码器 (autoencoder)的思想很相似,即先基于训练数据构建一个神经网络,当这 个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,真正需 要的是这个模型通过训练数据所学得的参数,即隐层权重矩阵,然后在基于 权重矩阵计算出词向量。
[0070]
word2vec使用单个隐藏层,完全连接的神经网络如图3所示,隐藏层 中的神经元都是线性神经元。输入层设置为具有与用于训练的词汇中的单词 一样多的神经元。隐藏图层大小设置为生成的单词向量的维度。输出图层的 大小与输入图层相同。
[0071]
假设用于学习单词向量的词汇表由v个单词组成并且n为单词向量的维 度(每个单词拥有n个特征),则对隐藏层连接的输入可以由大小为v
×
n的 矩阵wi表示,其中每行表示词汇单词。以相同的方式,可以通过矩阵wo来 描述从隐藏层到输出层的连接大小为n
×
v。
[0072]
word2vec模型的建模方法通常有两种,即cbow和skip-gram。这里只简 单介绍cbow建模方法。cbow的全称是continuous bag of words(连续词 袋模型)。其本质也是通过context word(背景词)来预测target word(目 标词),简单的讲cbow是依据背景词来预测目标词。
[0073]
如语料“神经系统及神经肌肉疾病”,target word“疾病”可由多个 context word表示,可以使用“神经系统”和“神经肌肉”作为“疾病
”ꢀ
的context word,此时则需要将图3所示神经网络结构修改为图4所示, 修改包括将输入层复制c次(c的大小就是window的大小,此时c=2),以 及在隐藏层神经元中添加除以c的操作。相当于一个target word要训练c 次神经网络。
[0074]
具体算法如下:
[0075]
第一步,计算隐藏层h的输出,如下:
[0076][0077]
第二步,计算在输出层每个结点的输入。如下:
[0078]
uj=wo
t
·h[0079]
其中,woj是矩阵wo的第j列。
[0080]
最后,计算输出层的输出,也就是将softmax用作激活函数。
[0081]
实例演示
[0082]
设图4隐藏层设置2个神经元,语料“神经系统及神经肌肉疾病”分词 后构建了字
典[神经系统,神经肌肉,疾病],则:
[0083]
(1)字典编码为:
[0084]
神经系统

x1=[0,0,1]
t
,神经肌肉

x2=[0,1,0]
t
,疾病

x3=[1,0,0]
t
[0085]
(2)wi和wo将分别3
×
2和2
×
3的矩阵。不妨随机初始化为:
[0086][0087][0088]
(3)“神经系统”和“神经肌肉”作为“疾病”的context word,则公 式中的c=2。
[0089]
计算过程如下:
[0090]
第一步,计算隐藏输出:
[0091][0092]
第二步,计算在输出层每个结点的输入:
[0093]
u=wo
t
·
h=[-0.95765253,-0.34506633,1.11377731]
[0094]
第三步,利用softmax对u计算概率值:
[0095][0096]
最后,得到字典向量:
[0097]
x

=argmax(p(u))=[0,0,1]
[0098]
由于该模型只是第一轮学习,所以x

≠x3,显然还需要通过梯度下降 更新权重wi和wo进行多轮学习,直至x

=x3。
[0099]
客观赋权算法是对数据指标进行权重分析的一种手段,根据原始数据之 间的关系通过一定的数学方法来确定权重,其判断结果不依赖于人的主观判 断,有较强的数学理论依据。本系统采用熵权法实现对案例进行客观赋权。 下面将对熵权法进行详细描述。
[0100]
熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说, 若某个指标的信息熵ej越小,表明指标值得变异程度越大,提供的信息量越 多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指 标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综 合评价中所起到的作用也越小,其权重也就越小。
[0101]
假设指标集x={x1,x2,

,xm},如表1所示,利用熵权法计算每个指标 xi的过程如下:
[0102]
表1
[0103]
idx1x2…
xmu1x
11
x
12

x
1m
u2x
21
x
22

x
2m
……………
unx
n1
x
n2

x
nm
[0104]
(1)指标xj下值x
ij
标准化:
[0105][0106]
(2)指标xj下值x
ij
标准化后y
ij
的比重:
[0107][0108]
(3)指标xj的熵值:
[0109][0110]
(4)指标xj的权重:
[0111][0112]
adsfd系统的案例库规模比较大,这里只选取10条案例,6个特征指标
ꢀ“
既往史、过敏史、吸烟史、是否育有子女、婚姻状况、家族遗传史”的数 据规模(见表2表所示),进行实例演示熵权法计算过程。
[0113]
表2
[0114]
患者id既往史过敏史吸烟史是否育有子女婚姻状况家族遗传史p10.2278310.2278310.227831-1.91791-0.00236164-0.0429749p20.2278310.227831-1.917910.227831-0.07449470.227831p31.11340.2278310.227831-1.91791-0.00236164-1.81933p41.11340.2278310.2278310.227831-0.002361640.227831p50.2278310.2278310.227831-1.91791-0.07449470.227831p60.2278310.2278310.227831-1.91791-0.0744947-1.81933p70.2278310.227831-1.917910.227831-0.002361640.227831p80.2278310.227831-1.91791-1.91791-0.002361640.227831p91.11340.2278310.227831-1.91791-0.07449470.227831p101.11340.2278310.227831-1.91791-0.00236164-1.81933
[0115]
(1)指标标准化:
[0116]
表3
[0117]
患者id既往史过敏史吸烟史是否育有子女婚姻状况家族遗传史p10.0020.0020.9980.0020.9980.866p20.0020.9980.0020.9980.0020.998p30.9980.0020.9980.0020.9980.002p40.9980.9980.9980.9980.9980.998p50.0020.0020.9980.0020.0020.998p60.0020.9980.9980.0020.0020.002p70.0020.0020.0020.9980.9980.998p80.0020.9980.0020.0020.9980.998
p90.9980.0020.9980.0020.0020.998p100.9980.9980.9980.0020.9980.002
[0118]
(2)指标比重:
[0119]
表4
[0120]
患者id既往史过敏史吸烟史是否育有子女婚姻状况家族遗传史p10.000500.000400.142730.000660.166440.12627p20.000500.199600.000290.331780.000330.14548p30.249250.000400.142730.000660.166440.00029p40.249250.199600.142730.331780.166440.14548p50.000500.000400.142730.000660.000330.14548p60.000500.199600.142730.000660.000330.00029p70.000500.000400.000290.331780.166440.14548p80.000500.199600.000290.000660.166440.14548p90.249250.000400.142730.000660.000330.14548p100.249250.199600.142730.000660.166440.00029
[0121]
(3)指标熵值
[0122]
表5
[0123] 既往史过敏史吸烟史是否育有子女婚姻状况家族遗传史信息熵0.611450.7052360.8477860.4917050.7823310.847333
[0124]
(4)指标权重
[0125]
表6
[0126] 既往史过敏史吸烟史是否育有子女婚姻状况家族遗传史权重0.2266710.1719590.0887980.2965270.1269830.089062
[0127]
案例检索,即为从案例库中选取与目标案例最相似的k条案例。由于案 例编码采用的自然语言词向量编码方法,该方法会自动屏蔽案例特征之间的 量纲差异性,因此在案例库检索中,无需考虑有量纲和无量纲特征指标的差 异化处理。
[0128]
相似性匹配过程,即为依据目标案例t从案例库的源案例集u中匹配出与 t最相似的k条源案例(topk相似案例)。匹配算法采用的是欧式距离 dist(u,t)去度量案例之间的相似性“距离越近越相似,即相似度sim(u,t)越 高”,相似性计算如下:
[0129]
sim(u,t)=1-dist(u,t)
[0130]
这里,dist(u,t)计算形式如下:
[0131][0132]
topk相似案例检索过程描述如图5所示。在图5中,源案例集u由多条 案例组成,目标案例t与源案例具有相同的特征指标,每次检索过程都需要 做一次源案例库的完整扫描,这样才能保证获得的topk相似案例最全局topk。
[0133]
如果案例库比较庞大,每次扫描耗费时间比较长,可以考虑通过增加相 似度参数的方式改进检索算法,即设置一个检索相似度值,在检索过程中如 果大于该相似度值的案
例条数达到k,则可扫描案例库。
[0134]
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限 制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变 化与修饰,均仍属本发明技术方案的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献