一种医学领域的中文分词方法及中文分词器与流程

2022-02-25 23:18:03 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其涉及一种医学领域的中文分词方法及中文分词器。

背景技术：

2.中文分词是基于既定标准将中文文本划分为能够表征精确语义的词构成的序列。在中文的自然语言处理任务中，中文分词的效果会影响后续处理任务中实体识别、语义分析、机器翻译、信息检索等的结果。
3.相关技术中，传统架构的中文分词方法主要基于机器学习算法和深度学习算法设计得到，两者均是将分词任务转化为字标注任务，若训练数据量不足，则会导致字标注任务的效果不如预期。
4.由于医学领域具有极强的专业性，获取大量的标注的医学领域的中文训练数据比较困难，因此，使用传统架构的中文分词方法会因标注的医学领域的中文训练数据量不足导致医学领域的中文文本被分词后不能准确表达原本语义，无法达到预期的分词效果。

技术实现要素：

5.为解决相关技术中存在的技术问题，本技术提供一种医学领域的中文分词方法，该方法对基于双向长短期记忆网络(bi-directional long-short term memory，bi-lstm)的分词模型进行改进后构建得到新的分词模型，使用该新的分词模型对医学领域的中文文本进行分词后可以准确表达原本语义，从而可以提升分词效果，以达到预期的分词效果。
6.本技术第一方面提供了一种用于医学领域的中文分词方法，包括：首先，利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练，得到医学领域中文分词模型；其次，将待分词文本输入医学领域中文分词模型中进行标签概率预测，得到第一概率预测结果，其中待分词文本为中文医学领域的文本句；再次，将待分词文本输入通用中文分词模型中进行标签概率预测，得到第二概率预测结果，其中通用中文分词模型也是基于双向长短期记忆网络的分词模型设计得到；最终，根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果。
7.在第一方面中一种可能的实现方式中，根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果，包括：
8.将待分词文本中每一个词分别对应的第一概率预测结果和第二概率预测结果进行加权后得到待分词文本的最终标签概率；
9.根据待分词文本的最终标签概率确定待分词文本的分词结果。
10.在第一方面中一种可能的实现方式中，加权所对应的权值大于0且小于1。
11.在第一方面中一种可能的实现方式中，方法还包括：
12.在中文医学语料作为训练集和待分词文本各自输入相应的分词模型之前，使用相同的字嵌入技术对中文医学语料对应的训练集和待分词文本执行字嵌入操作。
13.在第一方面中一种可能的实现方式中，通用中文分词模型和医学领域中文分词模型对应的模型结构是相同的。
14.在第一方面中一种可能的实现方式中，方法还包括：
15.将预先标注的中文通用语料进行字嵌入操作后输入基于双向长短期记忆网络的分词模型中进行训练，得到通用中文分词模型。
16.在第一方面中一种可能的实现方式中，预先标注所使用的方法包括：4词位标注法。
17.本技术第二方面提供了一种中文分词器，包括：训练模块、第一预测模块、第二预测模块和确定模块；
18.训练模块用于：利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练，得到医学领域中文分词模型；
19.第一预测模块用于：将待分词文本输入医学领域中文分词模型中进行标签概率预测，得到第一概率预测结果，其中待分词文本为中文医学领域的文本句；
20.第二预测模块用于：将待分词文本输入通用中文分词模型中进行标签概率预测，得到第二概率预测结果，其中通用中文分词模型也是基于双向长短期记忆网络的分词模型设计得到；
21.确定模块用于：根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果。
22.本技术第三方面提供了一种中文分词器，其特征在于，包括：
23.处理器和存储器；
24.存储器上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面、及第一方面中任一项的中文分词方法。
25.第二方面中可能的实现方式以及有益效果均与上述第一方面中可能的实现方式以及有益效果类似，可参阅上述第一方面中相关部分的描述；类似的，第三方面中可能的实现方式以及有益效果也均与上述第一方面中可能的实现方式以及有益效果类似，可参阅上述第一方面中相关部分的描述。
26.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
27.通过结合附图对本技术示例性实施方式进行更详细的描述，本技术的上述以及其它目的、特征和优势将变得更加明显，其中，在本技术示例性实施方式中，相同的参考标号通常代表相同部件。
28.图1为本技术实施例中提供的一个整体框架图；
29.图2为本技术实施例中的中文分词方法的一个实施例流程示意图；
30.图3为本技术实施例中一个实验结果统计图；
31.图4为本技术实施例中中文分词器的一个组成结构示意图；
32.图5为本技术实施例中中文分词器中确定模块的一个组成结构示意图；
33.图6为本技术实施例中中文分词器的又一个组成结构示意图；
34.图7为本技术实施例中中文分词器的又一种组成结构示意图。
具体实施方式
35.下面将参照附图更详细地描述本技术的实施方式。虽然附图中显示了本技术的实施方式，然而应该理解，可以以各种形式实现本技术而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本技术更加透彻和完整，并且能够将本技术的范围完整地传达给本领域的技术人员。
36.在本技术使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
37.应当理解，尽管在本技术可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
38.为了解决传统架构的中文分词方法会因标注的医学领域的中文训练数据量不足导致医学领域的中文文本被分词后不能准确表达原本语义，无法达到预期的分词效果的技术问题，本技术提供了一种用于医学领域的中文分词方法，该方法对基于双向长短期记忆网络bi-lstm的分词模型进行改进后构建得到新的分词模型，使用该新的分词模型对医学领域的中文文本进行分词后可以准确表达原本语义，从而可以提升分词效果，以达到预期的分词效果。
39.图1为本技术实施例中提供的一个整体框架图。
40.如图1所示，本技术的整体框架图中包括：文本输入端101、字嵌入层102、预先训练的医学领域中文分词模型103、预先训练的通用中文分词模型104、标签概率计算层105、标签推理层106和分词结果输出端107。
41.图1中整体框架图的大致工作流程如下：中文医学语料作为待分词文本从文本输入端101输入至字嵌入层102，字嵌入层102对待分词文本进行字嵌入处理后分别输出至医学领域中文分词模型103和通用中文分词模型104，医学领域中文分词模型103和通用中文分词模型104对字嵌入处理后的待分词文本进行标签概率计算并将相应的概率预测结果分别输入标签概率计算层105，标签概率计算层105对医学领域中文分词模型103和通用中文分词模型104各自对应的概率计算结果进行综合评估得到最终的标签概率并输出至标签推理层106中，标签推理层106根据最终标签概率进行推理得到分词结果并输出至分词结果输出端107。
42.为了更加详细的说明本技术实施例中的中文分词方法，下面结合具体的实施例对本技术中用于医学领域的中文分词方法进行详细说明。
43.图2为本技术实施例中的中文分词方法的一个实施例流程示意图。
44.如图2所示，本技术实施例中的中文分词方法的一个实施例，包括：
45.201、利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练，得到医学领域中文分词模型。
46.由于计算机不能识别中文文本的语义，所以必须将文本进行分词。中文分词指的是将一个汉字序列切分成一个一个单独的词，中文分词是文本挖掘的基础，文本挖掘是用于基于文本信息的知识发现，对于输入的一段中文，成功的进行中文分词，可以达到使计算机能够自动识别语句含义的效果。
47.双向长短期记忆网络(bi-directional long-short term memory，bi-lstm)是一种深度学习的神经网络算法，基于bi-lstm网络设计的分词模型在经过大规模数据训练之后可以准确的对文本进行分词，容易理解，其分词效果的准确性等依赖于大规模的数据训练，只有在数据训练规模足够大，其分词效果才能达到预期，否则，分词效果不理想。
48.目前，中文通用语料可以大规模获取并预先标注，中文医学语料是指中医领域的相关语言材料，包括：经典中医领域著作、中医药方、中医药物说明书和中医病历等，由于中文医学语料由于专业性很强，大量获取并进行标注较为困难，使用通用中文分词模型进行分词的效果不佳。
49.标注即打标签，常用的标注方法包括：2词位标注法、4词位标注法(b，m，e，s)和6词位标注法，下面仅对4词位标注法(b，m，e，s)进行详细描述如下：b表示词的首字，m表示词的中间字，e表示词的结尾字，s表示单字为词。标注示例如下：“温/b肾/m固/m精/e，/s养/b气/m养/m血/e。/s用/b于/e肾/b阳/m虚/m弱/e，/s气/b血/m亏/m损/e引/b起/e：/s头/b昏/m健/m忘/e，/s目/b暗/m耳/m鸣/e，/s腰/b膝/m酸/m软/e，/s阳/b痿/m滑/m精/e，/s宫/b寒/m带/m下/e，/s滑/b胎/m小/m产/e。/s”。
50.预先标注好的中文医学语料不能直接作为训练集进行训练。可选的，本技术实施例中，利用预先标注的中文医学语料作为训练集具体包括：使用python的jieba分词包对中文医学语料进行分词，将分词结果进行人工检查后得到中文医学领域分词数据集即训练集，使用4词位标注法对得到的中文医学领域分词数据集进行标注。
51.进一步可选的，在将训练集即中文医学领域分词数据集输入基于bi-lstm网络设计的分词模型中进行训练之前，还包括：使用字嵌入word embedding技术对中文医学领域分词数据集执行字嵌入操作。
52.基于bi-lstm网络设计的分词模型训练得到的医学领域中文分词模型可以预测文本中各个分词对应的标签概率。
53.例如，标签概率记为p
1i
，即医学领域中文分词模型预测该汉字标签为i的概率，i代表标签的具体名称或其标识码，i是对上述作为训练集的中文医学领域分词数据集进行预先标注后得到的标签。
54.202、将待分词文本输入医学领域中文分词模型中进行标签概率预测，得到第一概率预测结果。
55.如上述步骤201中所述，训练好的医学领域中文分词模型可以预测标签概率，具体来说：首先，使用字嵌入技术对待分词文本执行字嵌入操作；其次，将字嵌入操作后的待分词文本输入医学领域中文分词模型中，最后，医学领域中文分词模型预测输入的待分词文本的标签概率，得到第一概率预测结果，第一概率预测结果包括：待分词文本中每一个分词的标签概率p
1i
对应的概率序列。
56.容易理解，一方面，待分词文本不能被计算机直接识别，需要使用字嵌入技术处理成计算机可以识别的矢量后才能输入计算机并被其所识别。另一方面，待分词文本中每一个分词可能会被一个或多个标签共同识别，医学领域中文分词模型会预测每个标签的可能程度即标签概率p
1i
，所有可能的标签概率便构成了该分词对应的概率序列。
57.203、将待分词文本输入通用中文分词模型中进行标签概率预测，得到第二概率预测结果。
58.与上述医学领域中文分词模型类似，此步骤中的通用中文分词模型也是基于bi-lstm网络设计的分词模型进行数据训练得到的，区别在于：通用的中文分词训练集是公开可供下载的，因此其数据规模巨大并且容易获取，例如第二届国际中文分词bakeoff2005的msra语料等；中文医学领域分词数据集，由于专业性较强难以获取因此没有相应的数据库可供下载，大多采用爬虫工具爬取到少量的语料。所以容易知道，由于中文医学领域分词数据集的规模不足，仅使用医学领域中文分词模型对医学领域的待分词文本进行分词处理其效果不佳。
59.通用中文分词模型的训练方式与上述医学领域中文分词模型的训练方式类似，区别在于训练集不同。可选的，用于训练通用中文分词模型和医学领域中文分词模型的分词模型对应的模型结构是相同的，换言之，通用中文分词模型和医学领域中文分词模型对应的模型结构是相同的。容易理解，通用中文分词模型和医学领域中文分词模型的模型结构相同更易于两种模型相结合组成一种新的分词模型以提升分词效果，同时也可以避免模型结构不同所引起的不兼容等问题。
60.类似可选的，在将通用的中文分词训练集输入基于bi-lstm网络设计的分词模型中进行训练之前，还包括：使用字嵌入技术对该通用的中文分词训练集执行字嵌入操作。
61.进一步可选的，对该通用的中文分词训练集执行字嵌入操作的字嵌入技术与对中文医学领域分词数据集执行字嵌入操作的字嵌入技术可以是相同的。容易理解，采用相同的字嵌入技术进行处理可以降低字嵌入技术对分词效果的影响。
62.如上述步骤202中类似，训练好的通用中文分词模型可以预测标签概率，具体来说：首先，使用字嵌入技术对待分词文本执行字嵌入操作；其次，将字嵌入操作后的待分词文本输入通用中文分词模型中，最后，通用中文分词模型预测输入的待分词文本的标签概率，得到第二概率预测结果，第二概率预测结果包括：待分词文本中每一个分词的标签概率p
2i
对应的概率序列。
63.进一步的，标签概率p
2i
与上述标签概率p
1i
类似，即通用中文分词模型预测该汉字标签为i的概率，i代表标签的具体名称或其标识码，i是对上述通用的中文分词训练集进行预先标注后得到的标签。
64.204、根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果。
65.其中待分词文本是中文医学领域的文本句。医学领域中文分词模型预测得到的第一概率预测结果中包括待分词文本中每一个分词的标签概率p
1i
对应的概率序列。通用中文分词模型预测得到的第二概率预测结果包括：待分词文本中每一个分词的标签概率p
2i
对应的概率序列。
66.因此，可选的，根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果可以采用加权方式实现，具体包括：首先，将待分词文本中每一个词分别对应的第一
概率预测结果和第二概率预测结果进行加权后得到待分词文本的最终标签概率；最后，根据待分词文本的最终标签概率确定待分词文本的分词结果。由于待分词文本是预先标注的，因此，医学领域中文分词模型和通用中文分词模型均可以获取待分词文本中相同位置的分词并预测其相应的标签概率，并对相应的标签概率进行加权得到最终标签概率，容易理解，加权得到的最终标签概率可以吸收医学领域中文分词模型和通用中文分词模型各自的优势，以提高分词效果。
67.可选的，上述加权所对应的权值大于0且小于1。例如，加权权值记为λ，则λ的值属于开区间(0，1)。
68.进一步可选的，将待分词文本中任意一个汉字的最终标签概率记为pi，则可通过如下方式计算得到：pi＝λ
·
p
1i
(1-λ)
·
p
2i
。需要说明的是，加权权值λ的大小可以根据通用的中文分词训练集的规模确定。
69.举例，以医学领域中文分词模型预测同一个汉字为标签1的概率为0.8，为标签2的概率为0.2，为标签3的概率为0；通用中文分词模型预测某个汉字为标签1的概率为0.5，为标签2的概率为0.3，为标签3的概率为0.2；λ取值为0.7。则代入上述公式：pi＝λ
·
p
1i
(1-λ)
·
p
2i
，可计算该汉字分别为标签1、标签2和标签3的最终标签概率为：0.71、0.23、0.06。最后根据最终标签概率(0.71、0.23、0.06)中确定概率值最大的标签为分词结果，即确定该汉字为标签1，根据相应的标签便可以确定相应的分词结果。
70.在本实施例中，分别设置权值λ＝0.6-0.9进行了4次实验。使用f1值作为主要评价指标，同时使用精确率precision rate、召回率recall rate作为参考，其中f1值为深度学习领域常见的评价指标，用于评价实验结果的好坏。具体实验结果如下图3中所示。
71.实验结果表明，当λ取值0.8时，获得了最好的分词效果。
72.在本技术实施例中，基于双向长短期记忆网络的分词模型中进行训练，得到相应的通用中文分词模型和医学领域中文分词模型，应理解，通用中文分词模型在通用中文分词领域具有优势，同样的，医学领域中文分词模型在中文医学领域具有优势，最后，通用中文分词模型和医学领域中文分词模型两者结合对中文医学领域的待分词文本进行分词，得到分词结果，该分词结果融合了通用中文分词模型和医学领域分词模型在各自领域的优势，使得分词结果可以准确表达待分词文本的原本语义，从而可以提高该分词结果的准确性，以达到预期的分词效果。
73.进一步的，通过调整加权操作对应的权值可以改变基于通用中文分词模型预测得到的第一类标签概率以及基于医学领域中文分词模型预测得到的第二类标签概率的权重比例，从而弥补因标注的医学领域的中文训练数据量不足导致无法达到预期的分词效果。通过上述技术方案，在仅使用少量标注的医学领域的中文训练数据的前提下，通过调整加权操作对应的权值也能获得较好的分词效果，以达到预期的分词效果。
74.与前述应用功能实现方法实施例相对应，本技术还提供了一种中文分词器及相应的实施例。
75.图4为本技术实施例中中文分词器的一个组成结构示意图。
76.如图4所示，本技术实施例中中文分词器的一种组成结构，中文分词器400包括：训练模块401、第一预测模块402、第二预测模块403和确定模块404；训练模块401用于：利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练，
得到医学领域中文分词模型；
77.第一预测模块402用于：将待分词文本输入医学领域中文分词模型中进行标签概率预测，得到第一概率预测结果，其中待分词文本为中文医学领域的文本句；
78.第二预测模块403用于：将待分词文本输入通用中文分词模型中进行标签概率预测，得到第二概率预测结果，其中通用中文分词模型也是基于双向长短期记忆网络的分词模型设计得到；
79.确定模块404用于：根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果。
80.如图5所示，在本技术实施例中中文分词器的一种可能的设计中，确定模块404还包括：计算子模块4041和确定子模块4042；其中，计算子模块4041用于：将待分词文本中每一个词分别对应的第一概率预测结果和第二概率预测结果进行加权后得到待分词文本的最终标签概率；确定子模块4042用于：根据待分词文本的最终标签概率确定待分词文本的分词结果。
81.在本技术实施例中中文分词器的一种可能的设计中，上述计算子模块4041中加权所对应的权值大于0且小于1。
82.如图6所示，在本技术实施例中中文分词器的一种可能的设计中，中文分词器400还包括：字嵌入模块405，用于：在中文医学语料作为训练集和待分词文本各自输入相应的分词模型之前，使用相同的字嵌入技术对中文医学语料对应的训练集和待分词文本执行字嵌入操作。
83.在本技术实施例中中文分词器的一种可能的设计中，训练模块401还用于：将预先标注的中文通用语料进行字嵌入操作后输入基于双向长短期记忆网络的分词模型中进行训练，得到通用中文分词模型。
84.在本技术实施例中中文分词器的一种可能的设计中，训练模块401训练得到的通用中文分词模型和医学领域中文分词模型对应的模型结构是相同的。
85.在本技术实施例中中文分词器的一种可能的设计中，对训练模块401中训练所使用的中文通用语料和中文医学语料对应训练集进行预先标注所使用的方法包括：4词位标注法。此外，也可以是2词位标注法或6词位标注法。
86.关于上述实施例中的装置，其中各个模块执行操作的具体方式以及相应的有益效果已经在有关该方法的实施例中进行了详细描述，可参阅上述方法实施例中相关部分的描述，此处将不再做详细阐述说明。
87.图7为本技术实施例中中文分词器的又一种组成结构示意图。
88.如图7所示，中文分词器700包括存储器701和处理器702。
89.处理器702可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
90.存储器701可以包括各种类型的存储单元，例如系统内存、只读存储器(rom)，和永
久存储装置。其中，rom可以存储处理器702或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器701可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(dram，sram，sdram，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器701可以包括可读和/或写的可移除的存储设备，例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom，双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
91.存储器701上存储有可执行代码，当可执行代码被处理器702处理时，可以使处理器702执行上文述及的方法实施例中的部分或全部。
92.此外，根据本技术的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本技术的上述方法中部分或全部步骤的计算机程序代码指令。
93.或者，本技术还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时，使处理器执行根据本技术的上述方法的各个步骤的部分或全部。
94.以上已经描述了本技术的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：应用的权限使用合理性检测方法、装置、芯片和终端与流程

一种医学领域的中文分词方法及中文分词器与流程

相关文献

最热文献