一种中医症状文本的分类方法及装置与流程

2022-06-05 05:22:37 来源：中国专利 TAG：

1.本技术涉及文本识别及分类技术领域，特别的，尤其涉及一种中医症状文本的分类方法及装置。

背景技术：

2.中医症状分为物理症状、感觉症状、功能症状、倾向症状、触发症状、精神症状六类，这些症状以及症状的分类情况包含着重要的病情诊断信息。由于中医症状纳入了不同历史时期的描述方式，有着大量不同于现代汉语的独特表达，因此数量十分庞大。
3.目前，中医症状的识别和分类主要依靠中医师的经验，容易有错漏，且标注中医症状分类的成本十分高昂，难以依靠人工处理大规模的数据。

技术实现要素：

4.鉴于上述内容中的问题，本技术提供了一种中医症状文本的分类方法及装置，用以实现中医症状的智能识别和分类。
5.为了实现上述目的，本技术提供了以下技术方案：
6.一种中医症状文本的分类方法，包括：
7.获取待处理中医症状文本并进行预处理，得到切片特征语义信息和一般语义信息；
8.利用所述切片特征语义信息反向对所述待处理中医症状文本进行重构，得到重构症状文本语义信息，所述重构症状文本语义信息用以表示所述待处理中医症状文本的特殊分类信息；
9.将所述重构症状文本语义信息和所述一般语义信息进行拼接，作为线性神经网络模型输入，由预设线性神经网络模型输出所述待处理中医症状文本的分类结果，所述线性神经网络模型是预先根据标注的中医症状文本构建的。
10.进一步的，所述获取待处理中医症状文本并进行预处理，得到切片特征语义信息，包括：
11.获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
12.根据所述中医症状文本集合构建数据表，所述数据表的行数为所述待处理中医症状文本的个数，列数为所述中医症状文本集合中切片片段的个数；
13.利用lftext算法分析所述中医症状文本集合构成的数据表，得到不同片段对应的特殊语义信息；
14.将所述不同片段对应的特殊语义信息按照第一预设规则进行拼接，得到所述切片特征语义信息。
15.进一步的，所述获取待处理中医症状文本并进行预处理，得到一般语义信息，包
括：
16.获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
17.分析所述中医症状文本集合中的所有切片片段，得到所有切片片段的字典集合；
18.基于bert模型，加载基于维基百科的bert中文预训练词向量，将所述字典集合中的每个字转化成768维的词向量，构成词向量集合，所述词向量集合为中医症状文本的向量表示；
19.利用textcnn从所述词向量集合中提取出不同词向量的一般语义信息；
20.将所述不同词对应的一般语义信息按照第二预设规则进行拼接，得到所述一般语义信息。
21.一种中医症状文本的分类装置，包括：
22.第一处理单元，用于获取待处理中医症状文本并进行预处理，得到切片特征语义信息和一般语义信息；
23.第二处理单元，用于利用所述切片特征语义信息反向对所述待处理中医症状文本进行重构，得到重构症状文本语义信息，所述重构症状文本语义信息用以表示所述待处理中医症状文本的特殊分类信息；
24.第三处理单元，用于将所述重构症状文本语义信息和所述一般语义信息进行拼接，作为线性神经网络模型输入，由预设线性神经网络模型输出所述待处理中医症状文本的分类结果，所述线性神经网络模型是预先根据标注的中医症状文本构建的。
25.进一步的，所述第一处理单元用于：
26.获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
27.根据所述中医症状文本集合构建数据表，所述数据表的行数为所述待处理中医症状文本的个数，列数为所述中医症状文本集合中切片片段的个数；
28.利用lftext算法分析所述中医症状文本集合构成的数据表，得到不同片段对应的特殊语义信息；
29.将所述不同片段对应的特殊语义信息按照第一预设规则进行拼接，得到所述切片特征语义信息。
30.进一步的，所述第一处理单元用于：
31.获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
32.分析所述中医症状文本集合中的所有切片片段，得到所有切片片段的字典集合；
33.基于bert模型，加载基于维基百科的bert中文预训练词向量，将所述字典集合中的每个字转化成768维的词向量，构成词向量集合，所述词向量集合为中医症状文本的向量表示；
34.利用textcnn从所述词向量集合中提取出不同词向量的一般语义信息；
35.将所述不同词对应的一般语义信息按照第二预设规则进行拼接，得到所述一般语义信息。
36.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行如上述所述的中医症状文本的分类方法。
37.一种电子设备，所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如上述所述的中医症状文本的分类方法。
38.本技术所述的中医症状文本的分类方法及装置，首先获取待处理中医症状文本并进行预处理，得到切片特征语义信息和一般语义信息；然后利用所述切片特征语义信息反向对所述待处理中医症状文本进行重构，得到重构症状文本语义信息，所述重构症状文本语义信息用以表示所述待处理中医症状文本的特殊分类信息；最后，将所述重构症状文本语义信息和所述一般语义信息进行拼接，作为线性神经网络模型输入，由预设线性神经网络模型输出所述待处理中医症状文本的分类结果，所述线性神经网络模型是预先根据标注的中医症状文本构建的。通过本技术可实现中医症状的智能识别和分类。
附图说明
39.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1为本技术实施例公开的一种中医症状文本的分类方法流程示意图；
41.图2为本技术实施例公开的一种中医症状文本的分类装置结构示意图；
42.图3为本技术实施例公开的一种电子设备的结构示意图。
具体实施方式
43.申请人在研究中发现，中医症状分类是一个短文本分类任务，虽然目前关于文本分类的研究取得了很多进展，但很少涉及短文本分类。主要有两个原因，一是短文本缺乏上下文信息，二是短文本相较于长文本更难识别有歧义单词的正确语义。
44.为了尝试解决这两个问题，一部分研究尝试通过一些统计方法增强短文本的文本特征。zelikovitz等人使用未标注的数据来增强语义，首先，通过计算训练数据与未标注长文档之间的tf-idf以及单词的联合概率，并用这两个数据来表示数据与长文档之间的相关性；然后，当预测一个短文本的分类时，通过同样的方法计算出与预测数据最相关的长文档，将这个长文档对应的训练数据的分类作为预测分类。bagheri等人提出了一种通过主题建模的丰富方法，首先，使用lda主题模型对短文本进行聚类，得到短文本-文档和主题-词的分布概率；然后利用这个概率分布来丰富短文本的信息；最后，使用支持向量机和神经网络算法进行文本分类。sun提出了一种短文本分类模型，首先，从短文本中选择一定数量的查询词，这些查询词必须满足(i)能够充分代表文本的主要内容，(ii)具有主题指示性，用term frequency-inverse document frequency来测量第一点，用kullback-leibler(kl)
测量第二点；然后，使用lucene2中实现的默认评分函数计算标注文本的查询分数，并记录得分最高的5个标签；最后以投票的形式，将所有记录标签中得分最高的标签作为文本的预测标签。
45.随着深度学习在文本分类领域的优异成绩，深度学习也被广泛应用于短文本分类的研究。wang提出了一种基于卷积神经网络和语义扩展的短文本分类方法，通过扫描probase知识库，提取短文本的概念序列和相关词序列；两个序列和短文本分别基于word2vec模型训练得到三个向量，融合到一个cnn网络来预测文本的类别。叶等人提出了一种基于图卷积网络的短文本分类模型，首先，用由短文本、单词和潜在主题组成的节点构建一个短文本图；节点之间的权重使用tf-idf计算，graph用标记数据训练后，图卷积网络的输出和bert中的输出连接到lstm以预测其分类。
46.申请人通过研究发现，由于短文本特征稀疏，直接将特征增强算法应用于短文本分类可能并不完全有效。此外，虽然一些使用大规模预训练的模型通常在短文本分类任务中表现更好，但预训练模型难以有效地表示专业领域单词的特殊语义。由于中医症状的专业性，相关的数据采集和标注成本高昂，训练数据不足的问题非常普遍。现有方法，无法很好解决上述问题，因此无法达到较好的效果。另外，现有方法缺乏中医理论的可解释性，中医症状分类既是一个短文本分类的自然语言处理技术问题，也是一个作为诊断基础工作的医学问题，为此，就需要要求中医症状分类方法在尽可能达到较高的准确率的前提下，还必须可以用医学原理解释相关技术路径，现有方法也无法做到这一点。
47.本技术提供一种中医症状文本的分类方法及装置，其目的在于：用以实现中医症状的智能识别和分类。
48.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
49.请参见附图1，为本技术实施例提供的一种中医症状文本的分类方法流程示意图。如图1所示，本技术实施例提供了一种中医症状文本的分类方法，该方法包括如下步骤：
50.s101：获取待处理中医症状文本并进行预处理，得到切片特征语义信息和一般语义信息；
51.在实际实施例中，首先，需要先统计所有已标注的中医症状文本的长度，计算加权平均长度ave_len，计算公式ave_len＝σ(症状字数*症状权值)/所有症状字数和，症状权值是设置0到1的一个浮点数；然后，对ave_len进行取整，得到一个数字n，需要说明的是，取整方法：若ave_len为整数，则n＝ave_len；若ave_len为小数，n＝ave_len的整数部分 1。
52.进一步的，所述获取待处理中医症状文本并进行预处理，得到切片特征语义信息，包括：
53.获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
54.本技术实施例中，对每一条中医症状文本，令i∈[1，n]，对每一个i的取值，执行切片操作，具体的切片方法是：将中医症状文本分为长度为i的不同片段，如中医症状文本“我
头有点痛”，当i＝1时，被分为片段：“我”，“头”，“有”，“点”，“痛”；当i＝2时，被分为“我头”，“头有”，“有点”，“点痛”；当i＝3时，被分为“我头有”，“头有点”，“有点痛”；当i＝4时，被分为“我头有点”，“头有点痛”。最后，将所有中医文本在所有i取值时得到的片段组成一个集合p。
[0055]
根据所述中医症状文本集合构建数据表，所述数据表的行数为所述待处理中医症状文本的个数，列数为所述中医症状文本集合中切片片段的个数；
[0056]
利用lftext算法分析所述中医症状文本集合构成的数据表，得到不同片段对应的特殊语义信息；
[0057]
将所述不同片段对应的特殊语义信息按照第一预设规则进行拼接，得到所述切片特征语义信息。
[0058]
需要说明的是，构建的数据表t，其中，行数等于中医症状文本数；列数等于p中片段的数量，初始赋值为0。然后对每一条中医症状文本数据，查询其包含的片段，并将t中，对应文本所在的行，对应的片段所在的列，赋值为1。
[0059]
本技术实施例中，lftext分析数据表t的具体步骤如下：
[0060]
首先，令x为切片集合，令i∈x为某一切片，x是切片集合，j∈l为某一症状分类，s代表全体症状文本数据，则w_t的原始计算公式如下：
[0061][0062][0063][0064][0065][0066]
其中，d值代表某一切片对某一症状分类的原始支持度，取值范围为[-0.5，0.5]。d值的绝对值越大，代表切片对症状分类支持度越大，贡献意义也就越大。若d值的取值为正，则代表切片对症状分类有正向贡献意义；若取值为负，则代表切片对症状分类有负向贡献意义；若取值为0，则代表在进行这一症状分类的时候无需考虑这一切片。如100条分类为物理症状的症状文本，其中50条有切片“我”，50条没有切片“我”；80条有切片“颜色”；85条有切片“头”；10条有切片“晕”。则切片“我”对物理症状的支持度为(50-100/2)/100，其值为0，也就是切片“我”对物理症状没有任何贡献意义。而切片“颜色”对物理症状的支持度为(80-100/2)/100，其值为0.3，说明切片“颜色”对物理症状有较强的贡献意义；切片“晕”对物理
症状的支持度为(10-100/2)/100，其值为-0.4，说明当出现切片“晕”时，大概率不能被分类到物理症状。特别值得注意的是“头”这一切片，其对物理症状的支持度为(85-100/2)/100，其值为0.85。说明切片“头”对物理症状有较强贡献意义。但对于感觉症状而言，也经常出现“头”这一切片，如“头晕”，“头痛”，“头疼”，“头胀”等。因此实际上“头”这一切片不应作为物理症状的重要贡献特切片。但从“头”这一切片对物理症状的d值来看，是有较强贡献意义的。这是因为d值的计算并没有考虑切片对不同症状分类的支持度差异，也没有引入其他切片对症状分类的冗余支持度。
[0067]
作为上述问题解决方法的一个组成部分，本技术实施例在计算中引入了f值，取值范围为[-0.5，0.5]。f值代表某一切片对所有症状分类的原始平均支持度，因此将切片对不同症状分类的支持度纳入了考虑。f值的计算与d值类似，但针对的是不同症状分类的所有症状文本。若有包含“我”的症状100条，其中物理症状30条、精神症状10条、感觉症状40条、功能症状10条、触发症状10条，计算f值会发现，“我”这一切片的f值为(100-100/2)/100，计算结果为0.5。也可以得出，切片“我”对每一症状分类的d值都为0.5。其本质是因为，切片“我”对所有症状分类的平均贡献度也就是f值也是0.5。因此，可以将d-f的值称为独立贡献度，有效解决了这一问题。
[0068]
此外，在实验过程中也观测到另一种可能导致lftext不足够有效的情况，即切片之间可能存在贡献信息的冗余。例如“头疼痛”，“头疼”，“疼痛”在感觉症状的分类中就存在一定的共线性现象，因此，作为一种解决方案，可以将独立贡献度除以一个名为“全局独立因子”的数值(c-r)，以降低信息冗余，全局独立因子的取值范围为(-1，1)。其中，c值反映了所有切片对某一症状分类的平均贡献度(与f值不同，f值代表某一切片对所有症状分类的平均贡献度)，取值范围为[-0.5，0.5]。如果c值过高，则在进行症状分类时，很容易将其他症状分类的文本误判为这一症状分类；如果c值过低，则这一中症状分类的文本不易被识别。因此，我们将独立贡献度(d-f)除以c以缓解这一问题带来的影响。同时，为了避免c值过大，我们引入了一个r值，并用权值2 权值3*(权值4，(c-r))的值替代c值，这个值就称为“全局独立因子”。其中r值代表的是所有切片对所有症状的平均贡献度，取值范围为[-0.5，0.5]。
[0069]
进一步地，经过上述计算后，独立贡献度包含的有效诊断信息可能受到损害。因此，独立贡献度被乘以(r-权值1)，目的是强调权值w中来源于独立贡献度的部分。则最终，权值w_t的计算式为
[0070][0071]
进一步的，所述获取待处理中医症状文本并进行预处理，得到一般语义信息，包括：
[0072]
获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
[0073]
分析所述中医症状文本集合中的所有切片片段，得到所有切片片段的字典集合；
[0074]
基于bert模型，加载基于维基百科的bert中文预训练词向量，将所述字典集合中
的每个字转化成768维的词向量，构成词向量集合，所述词向量集合为中医症状文本的向量表示；
[0075]
利用textcnn从所述词向量集合中提取出不同词向量的一般语义信息；
[0076]
将所述不同词对应的一般语义信息按照第二预设规则进行拼接，得到所述一般语义信息。
[0077]
本技术实施例中，分析所有中医切片文本数据，得到所有字的集合c。举例而言，若有症状切片
‘
头
’‘
晕
’‘
痛’，则c＝[
‘
头’，
‘
晕’，
‘
痛’]。基于公开bert模型，加载基于维基百科的bert中文预训练词向量，将每一个字转化成768维的向量，最后，利用textcnn提取，在上述转化为768维词向量后的中医切片文本的一般语义信息w_cnn。
[0078]
s102：利用所述切片特征语义信息反向对所述待处理中医症状文本进行重构，得到重构症状文本语义信息，所述重构症状文本语义信息用以表示所述待处理中医症状文本的特殊分类信息；
[0079]
需要说明的是，重构中医切片的中医语义，可以补全在切片中损失的整体信息，同时保留切片的特殊信息，从而增强了分类效果。利用w_t反向重构中医切片的语义信息得到重构后的语义w_lf，具体过程如下:
[0080]
步骤一：按照一定的信息比例，删除在w_lf中对所有症状分类都缺乏贡献意义的切片，p中的切片也对应删除。得到新的切片集合为p_n，新的特殊语义信息w_tn
[0081]
步骤二：对每一症状文本，检索其的所有切片是否存在于w_tn中，若存在，则提取出该切片在w_tn中对应的维度为症状分类数的一组数值。将每一症状文本提取到的多组数值进行拼接，得到新的症状文本特征f，所有症状文本的f拼接，得到重构的语义信息f。
[0082]
步骤三：对w_tn进行主成分分析降维，保留方差比例取值为设定的一个数值。
[0083]
步骤四：用与步骤三完全一致的参数对f进行主成分分析降维，得到降维后的文本特征f_n。
[0084]
s103：将所述重构症状文本语义信息和所述一般语义信息进行拼接，作为线性神经网络模型输入，由预设线性神经网络模型输出所述待处理中医症状文本的分类结果，所述线性神经网络模型是预先根据标注的中医症状文本构建的。
[0085]
本技术实施例中，将所述重构症状文本语义信息和所述一般语义信息进行拼接，输入到一个线性网络中进行中医切片的文本分类。具体的，上述线性神经网络的层数＝(权值*w_lf 权值*w_cnn)/权值。
[0086]
本技术实施例提供一种中医症状文本的分类方法，首先获取待处理中医症状文本并进行预处理，得到切片特征语义信息和一般语义信息；然后利用所述切片特征语义信息反向对所述待处理中医症状文本进行重构，得到重构症状文本语义信息，所述重构症状文本语义信息用以表示所述待处理中医症状文本的特殊分类信息；最后，将所述重构症状文本语义信息和所述一般语义信息进行拼接，作为线性神经网络模型输入，由预设线性神经网络模型输出所述待处理中医症状文本的分类结果，所述线性神经网络模型是预先根据标注的中医症状文本构建的。通过本技术实施例可以实现中医症状的智能识别和分类。
[0087]
请参阅图2，基于上述实施例公开的一种多中医症状文本的分类方法，本实施例对应公开了一种中医症状文本的分类装置，该装置包括：
[0088]
第一处理单元201，用于获取待处理中医症状文本并进行预处理，得到切片特征语
义信息和一般语义信息；
[0089]
第二处理单元202，用于利用所述切片特征语义信息反向对所述待处理中医症状文本进行重构，得到重构症状文本语义信息，所述重构症状文本语义信息用以表示所述待处理中医症状文本的特殊分类信息；
[0090]
第三处理单元203，用于将所述重构症状文本语义信息和所述一般语义信息进行拼接，作为线性神经网络模型输入，由预设线性神经网络模型输出所述待处理中医症状文本的分类结果，所述线性神经网络模型是预先根据标注的中医症状文本构建的。
[0091]
进一步的，所述第一处理单元201用于：
[0092]
获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
[0093]
根据所述中医症状文本集合构建数据表，所述数据表的行数为所述待处理中医症状文本的个数，列数为所述中医症状文本集合中切片片段的个数；
[0094]
利用lftext算法分析所述中医症状文本集合构成的数据表，得到不同片段对应的特殊语义信息；
[0095]
将所述不同片段对应的特殊语义信息按照第一预设规则进行拼接，得到所述切片特征语义信息。
[0096]
进一步的，所述第一处理单元201用于：
[0097]
获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
[0098]
分析所述中医症状文本集合中的所有切片片段，得到所有切片片段的字典集合；
[0099]
基于bert模型，加载基于维基百科的bert中文预训练词向量，将所述字典集合中的每个字转化成768维的词向量，构成词向量集合，所述词向量集合为中医症状文本的向量表示；
[0100]
利用textcnn从所述词向量集合中提取出不同词向量的一般语义信息；
[0101]
将所述不同词对应的一般语义信息按照第二预设规则进行拼接，得到所述一般语义信息。
[0102]
所述多中医症状文本的分类装置包括处理器和存储器，上述第一处理单元、第二处理单元和第三处理单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0103]
处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现中医症状的智能识别和分类。
[0104]
本技术实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述中医症状文本的分类方法。
[0105]
本技术实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述多中医症状文本的分类方法。
[0106]
本技术实施例提供了一种电子设备，如图3所示，该电子设备30包括至少一个处理器301、以及与所述处理器连接的至少一个存储器302、总线303；其中，所述处理器301、所述
存储器302通过所述总线303完成相互间的通信；处理器301用于调用所述存储器302中的程序指令，以执行上述的所述多中医症状文本的分类方法。
[0107]
本文中的电子设备可以是服务器、pc、pad、手机等。
[0108]
本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：
[0109]
获取待处理中医症状文本并进行预处理，得到切片特征语义信息和一般语义信息；
[0110]
利用所述切片特征语义信息反向对所述待处理中医症状文本进行重构，得到重构症状文本语义信息，所述重构症状文本语义信息用以表示所述待处理中医症状文本的特殊分类信息；
[0111]
将所述重构症状文本语义信息和所述一般语义信息进行拼接，作为线性神经网络模型输入，由预设线性神经网络模型输出所述待处理中医症状文本的分类结果，所述线性神经网络模型是预先根据标注的中医症状文本构建的。
[0112]
进一步的，所述获取待处理中医症状文本并进行预处理，得到切片特征语义信息，包括：
[0113]
获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
[0114]
根据所述中医症状文本集合构建数据表，所述数据表的行数为所述待处理中医症状文本的个数，列数为所述中医症状文本集合中切片片段的个数；
[0115]
利用lftext算法分析所述中医症状文本集合构成的数据表，得到不同片段对应的特殊语义信息；
[0116]
将所述不同片段对应的特殊语义信息按照第一预设规则进行拼接，得到所述切片特征语义信息。
[0117]
进一步的，所述获取待处理中医症状文本并进行预处理，得到一般语义信息，包括：
[0118]
获取所述待处理中医症状文本，对所述待处理中医症状文本进行切片操作，得到中医症状文本集合，所述中医症状文本集合中包含所述待处理中医症状文本不同长度的不同内容的切片片段；
[0119]
分析所述中医症状文本集合中的所有切片片段，得到所有切片片段的字典集合；
[0120]
基于bert模型，加载基于维基百科的bert中文预训练词向量，将所述字典集合中的每个字转化成768维的词向量，构成词向量集合，所述词向量集合为中医症状文本的向量表示；
[0121]
利用textcnn从所述词向量集合中提取出不同词向量的一般语义信息；
[0122]
将所述不同词对应的一般语义信息按照第二预设规则进行拼接，得到所述一般语义信息。
[0123]
本技术是根据本技术实施例的方法、设备(系统)、计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到
通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0124]
在一个典型的配置中，设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
[0125]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
[0126]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0127]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0128]
本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0129]
以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：烹饪指导方法、装置、电子设备及存储介质与流程

一种中医症状文本的分类方法及装置与流程

相关文献

最热文献