一种疾病编码方法、装置、系统及相关设备与流程

2022-06-05 07:51:17 来源：中国专利 TAG：

1.本发明涉及医疗信息化领域，尤其涉及一种疾病编码方法、装置、系统及相关设备。

背景技术：

2.图谱是一个结构化的信息网络，其应用非常广泛，在信息检索等领域发挥重要作用。在大数据医疗的背景下，根据疾病相关的不同方面的信息及其关联关系，构建相关知识图谱，用于辅助医疗诊断、医疗保险审核等领域。
3.国家临床疾病诊断是国际疾病分类，是众多医疗领域的标准，采用字母数字编码。不同的国际疾病分类编码对应不同的标准病案名称，一个编码就可以包括某个疾病或健康状况的全部信息，因此，将临床病案进行疾病编码是病案管理中的重要环节，与医院统计，医疗质量管理以及医疗科研等诸多方面密切相关，并且可以为医疗人员提供便利。但是目前，由于临床病案的描述复杂、多样，存在输入病案的疾病编码不准确的问题。

技术实现要素：

4.本发明实施例提供一种疾病编码方法、装置、系统及相关设备，利用该方法能够解决由于临床病案的描述复杂、多样，存在输入病案的疾病编码不准确的问题。
5.第一方面，本发明实施例提供了一种疾病编码系统，该疾病编码系统包括，用户端，存储服务器，疾病编码装置以及存储节点。其中，用户端与疾病编码装置，存储服务器与疾病编码装置，疾病编码装置与存储节点之间可以通过有线网络或者无线网络进行通信连接。
6.用户端用于接收医务人员输入的临床病案，以及接收处理器返回的临床病案的疾病编码等。用户端可以部署于用户持有的终端上，上述终端可以是个人电脑、平板电脑、移动笔记本、智能手机、掌上处理设备、虚拟现实设备、可穿戴设备、一体化掌机等等。
7.存储服务器用于存储通过对发票等文件进行图像识别得到的多个临床病案，将输入病案发送至处理器中。
8.疾病编码装置用于获取输入病案和疾病编码图谱，将输入病案分词的得到的多个词语与疾病编码图谱进行匹配，确定多个词语各自对应的疾病编码，从而获得输入病案的疾病编码，并将其输出至存储节点。
9.存储节点用于存储疾病编码，也可以将疾病编码发送至疾病编码装置中。上述存储服务器、疾病编码装置以及存储节点可以是裸金属服务器(bare metal server,bms)、虚拟机或容器。其中，bms指的是通用的物理服务器，例如，arm服务器或者x86服务器；虚拟机指的是网络功能虚拟化(network functions virtualization,nfv)技术实现的、通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统，容器指的是一组受到资源限制，彼此间相互隔离的进程。
10.第二方面，本发明实施例提供了一种疾病编码方法，该方法可以应用于第一方面
所述的疾病编码系统中。该方法包括以下步骤：获取输入病案和疾病编码图谱，其中，输入病案包括第一词语和第二词语，疾病编码图谱包括多个诊断词语和多个疾病编码，多个诊断词语和多个疾病编码之间存在一一对应关系，随后，将第一词语和第二词语分别与疾病编码图谱行匹配，获得第一词语和第二词语分别对应的疾病编码，从而根据第一词语对应的疾病编码和第二词语对应的疾病编码，确定并输出输入病案的疾病编码。
11.在第二方面一种可能的实施方式中，输入病案也就是临床病案，可以理解为病历，是医务人员对疾病的发生发展、转归，以及检查、诊断、治疗等过程的记录。输入病案可以通过对发票或者其他文件进行图像识别得到。在获取输入病案后，可以对输入病案进行数据预处理工作，数据预处理工作可以包括删除输入病案中的特殊字符，进行大小写转换，全角半角转换等，还可以对输入病案进行分词处理，从而得到上述第一词语、第二词语等多个词语，输入病案中词语数量不定。
12.在获取输入病案和疾病编码图谱之前，需要构建疾病编码图谱。构建疾病编码图谱首先需要获取疾病诊断标准，疾病诊断标准可以包括多个标准疾病名称和多个标准疾病名称各自对应的疾病编码，然后对标准疾病名称进行分词处理，获得多个诊断词语和多个诊断词语中每个诊断词语对应的疾病编码，最后根据多个诊断词语和每个诊断词语对应的疾病编码，构建该疾病编码图谱。其中，疾病编码包括数字编码、字母编码和字符编码中的一种或者多种，在不同的疾病诊断标准中，标准疾病名称对应的疾病编码有所差异，本技术对疾病编码的形式不作具体限定，只保证获取同一疾病诊断标准下的疾病编码，每一个疾病编码对应一个标准疾病名称。例如，字母数字编码c50.2对应的标准疾病名称为乳房上内象限肿瘤，其中数字50.2表示乳房上内象限，字母c表示肿瘤。以上述标准疾病名称乳房上内象限肿瘤为例，分词可以得到乳房、上内象限和肿瘤三个词语，这三个词语即为诊断词语。
13.在第二方面一种可能的实施方式中，除多个诊断词语外，疾病编码图谱还可以包括多个近义词语。具体地，为了进一步丰富疾病编码图谱的内容，可以根据多个诊断词语以及预先获取的近义词字典等，查找多个诊断词语中每个诊断词语的近义词，得到多个近义词语。存在近义词关系的近义词语和诊断词语可以进行近义词关联，构成疾病编码图谱。举例来说，根据诊断词语“腰椎间盘”，可以获得近义词语“腰椎盘”，根据诊断词语“损伤”，可以获得近义词语“损坏”、“受损”等等，这里不一一举例。疾病编码图谱中的部分诊断词语可以没有近义词语，部分诊断词语也可以获得一个或者多个近义词语。
14.在第二方面一种可能的实施方式中，可以将存在近义词关系的近义词语和诊断词语进行近义词关联，获得疾病编码图谱。举例来说，上述近义词语“腰椎盘”是根据诊断词语“腰椎间盘”获得的，那么“腰椎盘”和“腰椎间盘”之间可进行近义词关联，再例如，上述近义词语“损坏”、“受损”是根据诊断词语“损伤”获得的，那么“损坏”与“损伤”，“受损”与“损伤”之间可以进行近义词关联，
15.在第二方面一种可能的实施方式中，上述多个诊断词语之间还可以进行上下位关联，获得疾病编码图谱。其中，存在上下位关系的诊断词语中包括上位诊断词语和下位诊断词语。上位诊断词语可以看作概括性较强的词语，下位诊断词语是特定性较强的词语，概括性较强的词语是特定性较强的词语的上位诊断词语，特定性较强的词语是概括性较强的词语的下位诊断词语。举例来说：肿瘤和恶性肿瘤之间，肿瘤的概括性较强，恶性肿瘤的特定
性较强，肿瘤就是恶性肿瘤的上位诊断词语，这两个诊断词语之间可以进行上下位关联。
16.在第二方面一种可能的实施方式中，构建疾病编码图谱的过程中，可以将上述多个诊断词语和多个近义词语通过不同的节点进行标识，并且可以将上述多个词语之间的近义词关联和上下位关联通过节点之间的关联进行标识，从而得到完整的疾病编码图谱。
17.构建包含多个节点以及节点之间的关联关系的疾病编码图谱，首先，在对多个标准疾病名称分词，获得多个诊断词语后，可以创建多个诊断词语各自对应的多个标准节点，每个标准节点记录有诊断词语以及诊断词语对应的疾病编码；在获得多个近义词语后，可以创建多个近义词语各自对应的多个扩展节点。在标准节点和扩展节点构建完成后，可以将部分扩展节点与部分标准节点通过近义词关系进行关联，每个扩展节点记录有近义词语和该近义词语进行近义词关联的标准节点信息；还可以将多个标准节点之间通过上下位关系进行关联，上述多个标准节点记录有与其存在上下位关系的其他标准节点的信息。
18.在第二方面一种具体的实施方式中，先获取疾病诊断标准，这里的疾病诊断标准为国家临床版疾病诊断，包括所有的标准疾病名称以及多个标准疾病名称对应的每一个疾病编码。由于存在多个标准疾病名称，因此只选取一部分标准疾病名称进行说明，将获取的国家临床版疾病诊断中的标准疾病名称“结肠损伤”和“乙状结肠恶性肿瘤”等进行分词处理，可以得到多个诊断词语，肠、大肠、结肠、损伤、乙状结肠和恶性肿瘤以及上述多个诊断词语中每个诊断词语对应的疾病编码等。
19.疾病编码图谱中除多个诊断词语以及多个诊断词语中每个诊断词语对应的疾病编码之外，还存在不同类型的词语。首先，可以根据多个诊断词语以及预先获取的近义词字典等，查找多个诊断词语中每个诊断词语的近义词，从而可以得到多个近义词语。例如：根据诊断词语“损伤”可以发现近义词字典中存在两个“损伤”对应的近义词“受伤”和“损坏”，因此将这两个词语作为图谱中的近义词语。在构建完图谱中包括的节点后，进一步构建节点之间的多个关系。在最大程度的获取到疾病编码图谱中的多个诊断词语以及多个近义词词语后，还可以将词语进行关联。上述获取到的存在近义词关系的近义词语和诊断词语之间可以通过近义词关联。例如，近义词语“受伤”和“损坏”与诊断词语“损伤”存在近义词关系，因此，在近义词语“受伤”和诊断词语“损伤”之间可以通过近义词关联，同样，近义词语“损坏”和诊断词语“损伤”之间也可以通过近义词关联。
20.除上述近义词关联外，在多个诊断词语之间还可以进行上下位关联，例如，在诊断词语中，“肠”和“大肠”，“肠”和“结肠”，“结肠”和“乙状结肠”之间都存在上下位关系，诊断词语“肠”的概括性较强，可以作为其他诊断词语的上位诊断词语，“乙状结肠”与“结肠”相比特定性更强，因此，诊断词语“结肠”可以作为诊断词语“乙状结肠”的上位诊断词语，上述三组诊断词语之间可以进行上下位关联。在获取近义词语，诊断词语以及词语之间的上下位关联，近义词关联后，可以构成疾病编码图谱，同样，上述图谱中的多个词语以及词语之间的关系也可以以节点和节点之间的关系进行表示，构成对应的图数据结构。
21.上述构建的疾病编码图谱中的内容可以存储到图数据库neo4j中，用于对输入病案进行疾病编码操作。在构建疾病编码图谱后，可以将输入病案中的第一词语、第二词语等多个词语分别与疾病编码图谱行匹配，获得多个词语各自对应的疾病编码，获得输入病案的疾病编码，具体过程如下。
22.首先，将输入病案多个词语中的第一个词语与疾病编码图谱进行匹配，从疾病编
码图谱中的多个诊断词语中找到与第一词语相同的目标诊断词语，根据该目标诊断词语可以确定第一词语对应的疾病编码。随后，对第二词语进行同样的操作，将第二词语与疾病编码图谱进行匹配，确定对应的诊断词语以及对应的疾病编码。在确定每个词语对应的疾病编码后，可以确定输入病案的疾病编码。
23.在第二方面一种可能的实现方式中，在输入病案中的多个词语与疾病编码图谱进行匹配，得到与输入病案中的多个词语相同的多个目标诊断词语的情况下，可以根据多个目标诊断词语对应的疾病编码确定输入病案中的所有词语对应的疾病编码，根据输入病案中的所有词语对应的疾病编码即可确定输入病案的疾病编码。例如，获取的输入病案为“结肠损伤”，进行分词处理后得到两个词语，“结肠”和“损伤”。将上述两个词语在上述实施例构建的疾病编码图谱中进行匹配，可以在疾病编码图谱中找到匹配的两个目标诊断词语，目标诊断词语“结肠”和“损伤”都存在对应的疾病编码，因此可以确定输入病案“结肠损伤”的疾病编码。
24.在第二方面一种可能的实现方式中，在输入病案中的多个词语与疾病编码图谱进行匹配，得到与输入病案中的多个词语相同的多个目标诊断词语和多个目标近义词语的情况下，可以先根据疾病编码图谱获取与多个目标近义词语进行近义词关联的多个近义诊断词语，并且根据多个目标诊断词语的疾病编码和多个近义诊断词语的疾病编码，确定输入病案中的多个词语对应的疾病编码，从而确定输入病案的疾病编码。例如，获取的输入病案为“结肠损坏”，进行分词处理后得到两个词语，“结肠”和“损坏”。将上述两个词语在上述实施例构建的疾病编码图谱中进行匹配，可以在疾病编码图谱中找到匹配的目标诊断词语“结肠”和目标近义词语“损坏”。随后，在疾病编码图谱中查找与目标近义词语“损坏”进行近义词关联的近义诊断词语，得到近义诊断词语“损伤”，目标诊断词语“结肠”和近义诊断词语“损伤”存在对应的疾病编码，因此可以确定输入病案对应的疾病编码。
25.在第二方面一种可能的实现方式中，在输入病案中的多个词语与疾病编码图谱进行匹配，得到与输入病案中的多个词语相同的多个目标诊断词语，但是多个目标诊断词语无法组成标准疾病名称的情况下，可以先根据疾病编码图谱获取与多个目标诊断词语进行上下位关联的多个上下位诊断词语，并且根据多个目标诊断词语的疾病编码和多个上下位诊断词语的疾病编码，确定输入病案中的多个词语对应的疾病编码，从而确定输入病案的疾病编码。在一个目标诊断词语的上下位诊断词语为一个的情况下，直接获取对应的疾病编码即可，在一个目标诊断词语的上下位诊断词语为多个的情况下，计算多个上下位诊断词语与一个目标诊断词语的相似度得分。
26.该相似度得分计算公式为：
27.其中，n表示目标诊断词语和上下位诊断词语在路径中间隔的诊断词语的个数，l表示诊断词语之间的路径长度，也就是目标诊断词语与上下位诊断词语之间关联关系的个数，we表示每种类型的诊断词语上下位关系的权重，不同类型诊断词语的权重固定。上述词语类型根据疾病诊断标准的标准疾病名称进行分词处理得到的多个诊断词语进行分类，可以包括疾病部位类，疾病类型类，疾病症状类，微生物类及动物类等。在得到目标诊断词语与多个上下位诊断词语之间的多个相似度得分后，获取相似度得分最高的上下位诊断词语对应的疾病编码并且结合多个目标诊断词语对应的疾病编码，可以确定输入病案疾病编
码。
28.在得到一个输入病案的疾病编码后，可以将该输入病案的疾病编码立刻输出，也可以先将疾病编码进行存储，在得到所有输入病案的疾病编码后一起输出。
29.第三方面，本发明实施例提供了一种疾病编码装置，该疾病编码装置与第一方面提及的疾病编码系统中的疾病编码装置结构相同，可以应用于该疾病编码系统。该装置包括图谱构建单元，用于构建疾病编码图谱；获取单元，用于获取输入病案和疾病编码图谱，其中，输入病案包括多个词语，疾病编码图谱包括多个诊断词语和多个疾病编码，多个诊断词语和多个疾病编码之间存在一一对应关系；匹配单元，用于将多个词语中的每个词语与疾病编码图谱进行匹配，获得每个词语对应的疾病编码；输出单元，用于根据每个词语对应的疾病编码，输出输入病案的疾病编码。
30.在获取单元用于获取输入病案和疾病编码图谱之前，需要构建疾病编码图谱。在构建疾病编码图谱的过程中，图谱构建单元先用于获取疾病诊断标准，疾病诊断标准可以包括多个标准疾病名称和多个标准疾病名称各自对应的疾病编码。随后，图谱构建单元可以用于对标准疾病名称进行分词处理，获得多个诊断词语和多个诊断词语中每个诊断词语对应的疾病编码，最后根据多个诊断词语和每个诊断词语对应的疾病编码，构建该疾病编码图谱。其中，疾病编码包括数字编码、字母编码和字符编码中的一种或者多种。
31.图谱构建单元在获得多个诊断词语以及多个诊断词语中每个诊断词语对应的疾病编码后，为了进一步丰富疾病编码图谱的内容，可以用于根据多个诊断词语以及预先获取的近义词字典等，查找多个诊断词语中每个诊断词语的近义词，得到多个近义词语，并且可以用于将存在近义词关系的近义词语和诊断词语可以进行近义词关联，获取疾病编码图谱。
32.除此之外，图谱构建单元可以用于将上述存在上下位关系的多个诊断词语之间进行上下位关联，获得疾病图谱。其中，存在上下位关系的诊断词语中包括上位诊断词语和下位诊断词语。上位诊断词语可以看作概括性较强的词语，下位诊断词语是特定性较强的词语，概括性较强的词语是特定性较强的词语的上位诊断词语，特定性较强的词语是概括性较强的词语的下位诊断词语，例如：肿瘤和恶性肿瘤之间，肿瘤的概括性较强，恶性肿瘤的特定性较强，肿瘤就是恶性肿瘤的上位诊断词语，这两个诊断词语之间可以进行上下位关联。
33.在第三方面一种可能的实现方式中，图谱构建单元可以用于将上述疾病编码图谱中的多个诊断词语和多个近义词语用节点的形式进行标识，并且可以用于通过节点之间的关联关系来标识上述词语之间的近义词关联和上下位关联，从而获得完整的疾病编码图谱这一图数据结构，并且将通过图谱构建单元获取的疾病编码图谱存储到图数据库neo4j中。
34.在构建完成疾病编码图谱后，获取单元可以用于获取输入病案，其中，输入病案可以通过对发票或者其他文件进行图像识别得到。获取单元在获取输入病案后，可以用于对输入病案进行数据预处理工作，例如，删除特殊字符，大小写转换，全角半角转换等。将处理后的输入病案进行分词处理，得到第一词语、第二词语等多个词语，可选地，对输入病案进行分词可以利用结巴分词器等，可以较为准确地处理中文分词。
35.随后，匹配单元在获取输入病案分词得到的多个词语以及疾病编码图谱后，可以用于将上述多个词语与疾病编码图谱进行匹配。首先，匹配单元用于将多个词语中的第一
词语与疾病编码图谱进行匹配，从疾病编码图谱中的多个诊断词语中找到与第一词语相同的目标诊断词语，根据该目标诊断词语可以确定第一词语对应的疾病编码。随后，对第二词语进行同样的操作，匹配单元用于将多个词语中的第二词语与疾病编码图谱进行匹配，确定第二词语对应的诊断词语以及对应的疾病编码。匹配单元在多个词语对应的疾病编码都确定后，可以用于确定输入病案的疾病编码。
36.在第三方面一种可能的实现方式中，匹配单元可以用于在输入病案中的多个词语与疾病编码图谱进行匹配，得到与输入病案中的多个词语相同的多个目标诊断词语的情况下，根据多个目标诊断词语对应的疾病编码确定输入病案中的所有词语对应的疾病编码，根据输入病案中的所有词语对应的疾病编码即可确定输入病案的疾病编码。
37.在第三方面一种可能的实现方式中，匹配单元可以用于在输入病案中的多个词语与疾病编码图谱进行匹配，得到与输入病案中的多个词语相同的多个目标诊断词语和多个目标近义词语的情况下，先根据疾病编码图谱获取与多个目标近义词语进行近义词关联的多个近义诊断词语，并且根据多个目标诊断词语的疾病编码和多个近义诊断词语的疾病编码，确定输入病案中的多个词语对应的疾病编码，并且根据多个词语各自对应的疾病编码，可以确定输入病案的疾病编码。
38.在第三方面一种可能的实现方式中，匹配单元可以用于在输入病案中的多个词语与疾病编码图谱进行匹配，得到与输入病案中的多个词语相同的多个目标诊断词语，但是多个目标诊断词语无法组成标准疾病名称的情况下，先根据疾病编码图谱获取与多个目标诊断词语进行上下位关联的多个上下位诊断词语，并且根据多个目标诊断词语的疾病编码和多个上下位诊断词语的疾病编码，确定输入病案中的多个词语对应的疾病编码，从而确定输入病案的疾病编码。在一个目标诊断词语的上下位诊断词语为一个的情况下，直接获取对应的疾病编码即可，在一个目标诊断词语的上下位诊断词语为多个的情况下，计算多个上下位诊断词语与一个目标诊断词语的相似度得分。匹配单元用于在得到目标诊断词语与多个上下位诊断词语之间的多个相似度得分后，获取相似度得分最高的上下位诊断词语对应的疾病编码并且结合多个目标诊断词语对应的疾病编码，确定输入病案的疾病编码。
39.最后，输出单元用于输出通过上述方式得到的输入病案的疾病编码。
40.第四方面，本发明实施例，提供了一种计算设备，该计算设备包括处理器、存储器、通信接口以及总线。其中，处理器、存储器、通信接口可以通过内部总线相互连接也可以通过无线传输等其他手段实现通信。存储器可以存储计算机指令，处理器用于执行第二方面或第三方面任一种可能的实现方式，实现各个模块的功能。
41.第五方面，本发明实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，所述指令在所述计算设备上运行，使所述计算设备执行上述各方面所述的方法。
42.本技术在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。
43.综上可知，本技术提供的疾病编码方法通过获取输入病案和预先构建的疾病编码图谱，将输入病案中的每个词语与疾病编码图谱行匹配，获得每个词语对应的疾病编码，从而根据每个词语对应的疾病编码，获得输入病案的疾病编码。其中，疾病编码图谱结构复杂，内容全面，囊括了输入病案不标准的表述，其中的诊断词语可以组成所有的疾病名称，
获取输入病案后利用图谱这种图数据结构，可以提高查找编码的效率，解决由于输入病案的复杂描述造成的疾病编码不准确的问题。
附图说明
44.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。
45.图1是本发明实施例提供的一种疾病诊断标准的部分示意图；
46.图2是本发明实施例提供的一种疾病编码系统的结构示意图；
47.图3是本发明实施例提供的一种疾病编码方法的流程图；
48.图4是本发明实施例提供的一种部分疾病编码图谱的示意图；
49.图5是本发明实施例提供的另一种部分疾病编码图谱的示意图；
50.图6是本发明实施例提供的一种确定输入病案的疾病编码的示意图；
51.图7是本发明实施例提供的另一种确定输入病案的疾病编码的示意图；
52.图8是本发明实施例提供的一种疾病编码装置的结构示意图；
53.图9是本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
54.图谱本质上是基于图的数据结构，是一个结构化的信息网络，其应用非常广泛，在信息检索等领域发挥着重要作用。在大数据医疗的背景下，根据疾病相关的不同方向的信息及信息之间的关联关系，构建相关知识图谱，用于辅助医疗诊断、医疗保险审核等领域。
55.通常情况下，医护人员在将临床病案录入电脑内时，会将临床病案的疾病编码也录入至电脑内进行存储，这里的疾病编码是众多医疗领域的通用标准，通常采用字母数字编码。不同的国际疾病分类编码对应不同的标准病案名称，一个编码就可以包括某个疾病或健康状况的全部信息，因此，将临床病案进行疾病编码有助于信息共享，可以为医疗人员提供便利。
56.如图1所示，图1是本技术提供的一种疾病诊断标准的部分示意图。其中，左侧表格中包括多个标准疾病名称，右侧表格中就是多个标准疾病名称各自对应的疾病编码。在以人工的方式进行临床病案的疾病编码操作时，工作人员依靠自身的医学相关知识，判断临床病案对应的标准疾病名称，在得到标准疾病名称后，在疾病诊断标准中，查找标准疾病名称对应的疾病编码，确定临床病案的疾病编码。
57.但是目前，关于临床病案的描述复杂、多样，医疗人员在记录病案时，不同的医护人员之间的书写习惯不同，不同的医护人员记录同一个疾病的临床病案时，记录的内容可能会存在偏差，因此，人工对临床病案进行疾病编码的结果也可能出现偏差，同一临床病案可能对应不同的疾病编码，或者不同疾病的临床病案对应同一疾病编码。
58.因此，本技术提供了一种疾病编码系统200，该系统可以根据疾病编码图谱这一图数据结构确定输入病案准确对应，将输入病案分词后获得的词语与疾病编码图谱进行匹配，从而快速、准确地获得输入病案对应的疾病编码，提高疾病编码的获取效率，减少人工成本。
59.如图2所示，图2是本技术提供的一种疾病编码系统的结构示意图，该疾病编码系
统200可包括用户端210、存储服务器220、疾病编码装置230以及存储节点240，其中，用户端与疾病编码装置，存储服务器与疾病编码装置，疾病编码装置与存储节点之间可以通过有线网络或者无线网络进行通信连接，本技术不对此进行限定。
60.用户端210可部署于用户持有的终端上，上述终端可以是个人电脑、平板电脑、移动笔记本、智能手机、掌上处理设备、虚拟现实设备、可穿戴设备、一体化掌机等等，本技术不对此进行具体限定。具体实现中，用户端可以是浏览器形式的用户端，也可以是应用程序形式的用户端，本技术对此不进行限定。
61.存储服务器220、疾病编码装置230以及存储节点240可以是裸金属服务器(bare metal server,bms)、虚拟机或容器。其中，bms指的是通用的物理服务器，例如，arm服务器或者x86服务器；虚拟机指的是网络功能虚拟化(network functions virtualization,nfv)技术实现的、通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统，容器指的是一组受到资源限制，彼此间相互隔离的进程。
62.具体实现中，存储服务器220用于存储输入病案，并且将输入病案发送到疾病编码装置中。在医院或者保险公司等场景中的存储服务器220，可以通过获取与其相连的扫描仪等图像识别设备，对发票等文件进行图像识别等多种方式得到的多个输入病案进行存储。
63.疾病编码装置230用于获取输入病案和疾病编码图谱，将输入病案分词的得到的多个词语与疾病编码图谱进行匹配，确定多个词语各自对应的疾病编码，从而获得输入病案的疾病编码，并将输入病案的疾病编码发送至存储节点240。其中，输入病案可以是用户端210发送的，比如医护人员通过用户端210将输入病案发送给疾病编码装置230，输入病案还可以是从存储服务器220获取的，比如存储服务器220是医院的病案存储服务器，通过图像识别等方式获取了多个输入病案，在接收到疾病编码装置发出的数据访问请求的情况下，可以将输入病案发送至疾病编码装置230，该数据访问请求可以用于请求用户端或者存储服务器中的输入病案。在获取到输入病案和疾病编码装置后，疾病编码装置进行匹配处理，最后疾病编码装置可以将确定的输入病案对应的疾病编码发送至存储节点240。
64.存储节点240用于存储疾病编码，可以将接收的疾病编码进行汇总，作为医院的病例档案，与全国或者一定范围内的多个医院的病例档案进行大数据联网，可以在流行病学的数据调查及研究中发挥重要作用。
65.应理解，图2只是本技术实施例提供的一种可能的疾病编码系统划分方式，实际应用中，疾病编码系统200还可以包括更多或更少的部件，这里不作具体限定。
66.为了解决上述由于临床病案表述不准确，以及医务人员之间的习惯差异导致的无法准确对临床病案进行疾病编码的问题，本技术提供了一种疾病编码方法，图3所示的疾病编码方法可以应用于图2所示的疾病编码系统中，该方法可以通过疾病编码图谱这一图数据结构，确定输入病案准确对应的疾病编码。
67.如图3所示，图3是本技术提供的一种疾病编码方法的流程图，该方法可应用于图2所示的疾病编码装置中，该方法可以包括以下步骤。
68.步骤s310：获取输入病案和疾病编码图谱。
69.其中，输入病案包括第一词语、第二词语等多个词语，疾病编码图谱包括多个诊断词语和多个疾病编码，多个诊断词语和多个疾病编码之间存在一一对应关系。
70.在本技术实施例中，输入病案也就是临床病案，可以理解为病历，是医务人员对疾
病的发生发展、转归，以及检查、诊断、治疗等过程的记录。输入病案可以通过对发票或者其他文件进行图像识别得到，本技术对输入病案的获取不作具体限定。
71.具体实现中，在获取输入病案后，可以对输入病案进行数据预处理工作，数据预处理工作可以包括删除输入病案中的特殊字符，进行大小写转换，全角半角转换等。输入病案还可以进行分词处理。可选地，对输入病案进行分词可以利用jieba分词器等，可以较为准确地对中文文本进行分词，从而得到上述第一词语、第二词语等多个词语。
72.在本技术实施例中，步骤s310之前，该方法还可包括以下步骤：构建疾病编码图谱。具体实现中，构建疾病编码图谱的步骤可以如下：获取疾病诊断标准，该疾病诊断标准包括多个标准疾病名称和多个标准疾病名称各自对应的疾病编码，然后对标准疾病名称进行分词处理，获得多个诊断词语和多个诊断词语中每个诊断词语对应的疾病编码，最后根据多个诊断词语和每个诊断词语对应的疾病编码，构建该疾病编码图谱。其中，疾病编码可以包括数字编码、字母编码和字符编码中的一种或者多种，在不同的疾病诊断标准中，标准疾病名称对应的疾病编码有所差异，本技术对疾病编码的形式不作具体限定，只保证获取同一疾病诊断标准下的疾病编码，每一个疾病编码对应一个标准疾病名称。疾病编码用于将疾病相关的文字描述转换为数字、字母、字符编码，在进行储存，检索时更加方便。获取的疾病诊断标准可以参考图1所示实施例，这里不重复赘述。
73.举例来说，字母数字编码c50.2对应的标准疾病名称为乳房上内象限肿瘤，其中数字50.2表示乳房上内象限，字母c表示肿瘤。若对“乳房上内象限肿瘤”进行分词处理，那么可以得到乳房、上内象限和肿瘤三个词语，这三个词语即为诊断词语，根据这三个诊断词语构建上述疾病编码图谱后，疾病编码图谱中的诊断词语“乳房”的疾病编码为小数点之前的50，“上内象限”的疾病编码为小树点之后的2，“肿瘤”的疾病编码为c。应理解，上述过程及结果仅用于举例说明，本技术对其他标准疾病名称及疾病编码不作具体限定。
74.在一可能的实施例中，除多个诊断词语外，疾病编码图谱还可以包括多个近义词语。具体地，在构建疾病编码图谱时，可以先根据多个诊断词语中每个诊断词语的近义词，获得多个近义词语，然后将存在近义词关系的近义词语和诊断词语进行近义词关联，获得疾病编码图谱。
75.具体实现中，可以根据多个诊断词语以及预先获取的近义词字典等，查找多个诊断词语中每个诊断词语的近义词，或者利用机器学习算法，得到多个近义词语。举例来说，根据诊断词语“腰椎间盘”，可以获得近义词语“腰椎盘”，根据诊断词语“损伤”，可以获得近义词语“损坏”、“受损”等等，本技术对近义词的获取不作具体限定。疾病编码图谱中的部分诊断词语可以没有近义词语，部分诊断词语也可以获得一个或者多个近义词语，本技术不对近义词语的数量进行限定。
76.在一可能的实施例中，可以将存在近义词关系的近义词语和诊断词语进行近义词关联，获得疾病编码图谱。具体实现中，除多个诊断词语，近义词语外，疾病编码图谱还可以包括词语之间的关系，从而改变图谱的结构，丰富图谱的内容。
77.举例来说，上述近义词语“腰椎盘”是根据诊断词语“腰椎间盘”获得的，那么“腰椎盘”和“腰椎间盘”之间可进行近义词关联，再例如，上述近义词语“损坏”、“受损”是根据诊断词语“损伤”获得的，那么“损坏”与“损伤”，“受损”与“损伤”之间可以进行近义词关联，应理解，上述内容仅用于说明词语之间的近义词关联，本技术对图谱中的词语之间的近义词
关联不一一举例。
78.在一可能的实施例中，还可以将存在上下位关系的诊断词语进行上下位关联，获得疾病图谱，其中，存在上下位关系的诊断词语包括上位诊断词语和下位诊断词语，上位诊断词语是下位诊断词语的词类。简单来说，上位诊断词语可以看作概括性较强的词语，下位诊断词语是特定性较强的词语，概括性较强的词语是特定性较强的词语的上位诊断词语，特定性较强的词语是概括性较强的词语的下位诊断词语。
79.举例来说：诊断词语“肿瘤”和诊断词语“恶性肿瘤”之间，“肿瘤”的概括性较强，“恶性肿瘤”的特定性较强，那么诊断词语“肿瘤”就是恶性肿瘤的上位诊断词语，这两个诊断词语之间可以进行上下位关联。应理解，上述内容仅用于说明诊断词语之间的上下位关联，本技术对诊断词语之间的上下位关联不一一举例。
80.在本技术实施例中，上述疾病编码图谱中可以通过不同的节点来标识多个诊断词语和多个近义词语，并且可以通过节点之间的关联关系来标识上述词语之间的近义词关联和上下位关联，从而获得完整的疾病编码图谱这一图数据结构。应理解，在输入病案与具有图数据结构的疾病编码图谱进行匹配的情况下，可以提高匹配效率，从而提高输入病案的编码效率。
81.具体实现中，构建包含多个节点以及节点之间的关联关系的疾病编码图谱包括如下步骤。首先，在对多个标准疾病名称分词并获得多个诊断词语后，可以创建多个诊断词语各自对应的多个标准节点，每个标准节点记录有诊断词语以及诊断词语对应的疾病编码；在获得多个近义词语后，可以创建多个近义词语各自对应的多个扩展节点。在标准节点和扩展节点构建完成后，可以将部分扩展节点与部分标准节点通过近义词关系进行关联，每个扩展节点记录有近义词语和该近义词语进行近义词关联的标准节点信息；还可以将多个标准节点之间通过上下位关系进行关联，上述多个标准节点记录有与其存在上下位关系的其他标准节点的信息。
82.如图4所示，图4是本技术提供的一种疾病编码图谱的示意图，应理解，图4中还包括多个节点以及多个节点之间的关联关系，无法在图中一一显示。下面结合图4，在上述疾病诊断标准是国家临床版疾病诊断标准的情况下，对疾病编码图谱的构建过程进行说明。
83.由于国家临床版疾病诊断中包括“结肠损伤”和“乙状结肠恶性肿瘤”等多个标准疾病名称，因此在本实施例中选取部分标准疾病名称进行说明，在一具体实施例中，根据“结肠损伤”和“乙状结肠恶性肿瘤”创建疾病编码图谱可以包括以下步骤。
84.首先，对获取的标准疾病名称“结肠损伤”和“乙状结肠恶性肿瘤”等进行分词处理，可以得到多个诊断词语，“肠”、“大肠”、“结肠”、“乙状结肠”、“损伤”和“恶性肿瘤”等，以及上述每个诊断词语对应的疾病编码。随后，创建每个诊断词语对应的标准节点，比如标准节点1用于表示诊断词语“肠”，并记录对应的疾病编码，标准节点2用于表示诊断词语“大肠”，标准节点3用于表示诊断词语“结肠”，标准节点4用于表示诊断词语“乙状结肠”等等，上述多个标准节点都记录有诊断词语对应的疾病编码。在构建好标准节点后，进一步获取部分诊断词语对应的近义词，可以通过机器学习方法或者与预先设立的近义词字典匹配的方法获得多个近义词语。例如，“损伤”的近义词语为“损坏”、“受伤”等，可以将上述得到的多个近义词语构建为各自对应的扩展节点，并将诊断词语“损伤”对应的标准节点与近义词语“受伤”对应的扩展节点之间进行近义词关联。同样，诊断词语“损伤”对应的标准节点与
近义词语“损害”对应的扩展节点之间也存在近义词关联。除上述近义词关联外，在多个诊断词语对应的标准节点之间还可以进行上下位关联，例如，在诊断词语中，“肠”和“大肠”，“肠”和“结肠”，“结肠”和“乙状结肠”之间都存在上下位关系，其中，诊断词语“肠”的概括性较强，可以作为诊断词语“大肠”和“结肠”的上位诊断词语，“乙状结肠”与“结肠”相比特定性更强，因此，诊断词语“结肠”可以作为诊断词语“乙状结肠”的上位诊断词语，因此上述三组诊断词语对应的标准节点之间都存在上下位关联关系。在得到标准节点、扩展节点以及节点之间的关联关系后，即得到如图4所示的疾病编码图谱。
85.综上所述，上述构建疾病编码图谱的方法，通过获取多个诊断词语，近义词词语以及构建词语之间的关联关系，或者根据上述获取的多个诊断词语，近义词词语以及构建词语之间的关联关系，构建标准节点、扩展节点以及节点之间的关联关系等方式，可以丰富图谱的内容，改善图谱的结构，囊括了输入病案多样的表述，可以更好地将图谱应用于信息查询领域。除此之外，构建的疾病编码图谱中的内容可以存储到图数据库neo4j中。
86.s320：将输入病案分词得到的多个词语与疾病编码图谱进行匹配，确定多个词语各自对应的疾病编码。
87.在本技术实施例中，输入病案通过上述步骤s310的操作，经过数据预处理以及分词操作后，得到多个词语，包括第一词语、第二词语等等。同样，疾病编码图谱通过进行上述步骤s310之前的操作得到。将输入病案分词得到的多个词语与疾病编码图谱进行匹配，确定多个词语各自对应的疾病编码，包括以下步骤。
88.首先，将多个词语中的第一词语与疾病编码图谱进行匹配，从疾病编码图谱中的多个诊断词语中找到与第一词语相同的目标诊断词语，根据该目标诊断词语可以确定第一词语对应的疾病编码。随后，对第二词语进行同样的操作，将第二词语与疾病编码图谱进行匹配，确定对应的诊断词语以及对应的疾病编码。其中，多个目标诊断词语可以组成标准疾病名称。
89.具体实现中，将输入病案分词得到的多个词语与疾病编码图谱进行匹配后，疾病编码图谱中可能存在与上述多个词语相同的多个目标诊断词语和多个目标近义词语。在存在多个目标近义词语的情况下，可以在疾病编码图谱中查找与多个目标近义词语存在近义词关联的多个近义诊断词语，根据多个目标诊断词语和多个近义诊断词语可以确定各个词语对应的疾病编码，其中，多个目标诊断词语和多个近义诊断词语可以组成标准疾病名称。
90.具体实现中，将输入病案分词得到的多个词语与疾病编码图谱进行匹配后，可能存在与上述多个词语相同的多个目标诊断词语，但是上述多个目标诊断词语无法构成标准疾病名称。因此，可以在疾病编码图谱中获取与多个目标诊断词语存在上下位关联的多个上下位诊断词语，在上述上下位诊断词语可以与多个目标诊断词语构成标准疾病名称的情况下，确定上述上下位诊断词语和多个目标诊断词语对应的疾病编码。在一个目标诊断词语的上下位诊断词语为一个的情况下，直接获取对应的疾病编码即可，在一个目标诊断词语的上下位诊断词语为多个的情况下，则需要计算多个上下位诊断词语与一个目标诊断词语的相似度得分。
91.该相似度得分计算公式为：
92.其中，n表示目标诊断词语和上下位诊断词语在路径中间隔的诊断词语的个数，l
表示诊断词语之间的路径长度，也就是目标诊断词语与上下位诊断词语之间关联关系的个数，we表示每种类型的诊断词语上下位关系的权重，不同类型诊断词语的权重固定，由人工进行标注。上述诊断词语的类型可以包括疾病部位类，疾病类型类，疾病症状类，微生物类及动物类等。在得到目标诊断词语与多个上下位诊断词语之间的多个相似度得分后，获取相似度得分最高的上下位诊断词语对应的疾病编码，完成多个词语与疾病编码图谱的匹配。
93.如图5所示，图5是另一种部分疾病编码图谱的示意图，以图中的诊断词语为例，目标诊断词语“肠”和“恶性肿瘤”无法组成标准疾病名称，从而在疾病编码图谱中获取目标诊断词语对应的上下位诊断词语。以“肠”为目标诊断词语，“乙状结肠”为一个上下位诊断词语为例，计算上述两个节点的相似度得分具体过程如下。相似度计算公式中的n为目标诊断词语和上下位诊断词语在路径中间隔的诊断词语的个数，为1。根据目标诊断词语和上下位诊断词语的类型，确定疾病部位词语的上下位关系的权重we。l表示目标诊断词语与上下位诊断词语之间关联关系的个数，为2。将上述三个变量的数值代入公式中，即可得到相似度得分1/(2we)。
94.在一具体的实施方式中，如图6所示，图6是本技术提供的一种确定输入病案的疾病编码的示意图。在构建完成疾病编码图谱后，获取输入病案以及疾病编码图谱，图6中只包括疾病编码图谱中的很小的一部分。在获取的输入病案为“结肠损伤”的情况下，对输入病案进行分词处理后得到两个词语，“结肠”和“损伤”。将上述两个词语在图6中的疾病编码图谱中进行匹配，可以找到与第一词语“结肠”和第二词语“损伤”相同的两个目标诊断词语，其中，目标诊断词语“损伤”对应的疾病编码为s，目标诊断词语“结肠”在损伤范围内对应的疾病编码为36.5。
95.在另一具体的实施方式中，如图7所示，图7是本技术提供的另一种确定输入病案的疾病编码的示意图。在构建完成疾病编码图谱后，获取输入病案以及疾病编码图谱，图7中只包括疾病编码图谱中的很小的一部分。在获取的输入病案为“结肠损坏”的情况下，对输入病案进行分词处理后得到两个词语，“结肠”和“损坏”。将上述两个词语在疾病编码图谱中进行匹配，可以找到与第一词语“结肠”和第二词语“损坏”相同的目标诊断词语“结肠”和目标近义词语“损坏”。因此，可以在疾病编码图谱中查找与目标近义词语“损坏”进行近义词关联的近义诊断词语，得到近义诊断词语“损伤”，目标诊断词语“结肠”和近义诊断词语“损伤”可以组成标准疾病名称，存在各自对应的疾病编码。
96.在另一具体的实施方式中，在获取的输入病案为“肠损伤”的情况下，对输入病案进行分词处理后得到两个词语，“肠”和“损伤”。将上述两个词语在疾病编码图谱中进行匹配，可以找到与第一词语“肠”和第二词语“损伤”相同的目标诊断词语“肠”和“损伤”。经判断，上述两个目标诊断词语无法组成标准疾病名称，因此，可以在疾病编码图谱中获取与目标诊断词语“肠”存在上下位关联的多个上下位诊断词语，判断上下位诊断词语是否可以与目标诊断词语“损伤”构成标准疾病名称，确定其中一个上下位诊断词语“结肠”可以与原目标诊断词语“损伤”构成标准疾病名称，随后即可获取上下位诊断词语“结肠”和目标诊断词语“损伤”各自对应的疾病编码。
97.应理解，上述存在目标近义词语的情况与多个目标诊断词语无法构成标准疾病名称的情况可以同时存在，本技术不一一举例。
98.应理解，上述三种具体的实施方式利用的疾病编码图谱中的诊断词语、近义词语以及词语之间的近义词关联、上下位关联，可以以标准节点、扩展节点以及节点之间的关系来表示，将输入病案分词得到的多个词语与节点和节点之间的关系构成的疾病编码图谱进行匹配的过程与上述三种具体的匹配过程相同，这里不再赘述。
99.综上所述，利用结构完整、内容丰富的疾病编码图谱这一图数据结构，将诊断词语、近义词语等利用近义词关系、上下位关系进行关联，再进行多个词语与疾病编码图谱的匹配，可以提高词语与图谱中的诊断词语、近义词语匹配的效率。
100.s330：根据多个词语各自对应的疾病编码，获得输入病案的疾病编码。
101.其中，在获得多个词语各自对应的疾病编码，且多个词语可以组成标准疾病名称的情况下，按照不同疾病诊断标准对应的疾病编码的排列规则，将多个词语对应的疾病编码进行组合，即可得到输入病案的疾病编码。例如：在分词中的第一词语“损伤”对应的疾病编码为s，分词中的第二词语“结肠”在损伤范围内对应的疾病编码为36.5，将疾病编码按照规则进行排列，即可得到输入病案“结肠损伤”对应的疾病编码为s36.5。输入病案的疾病编码可以包括数字编码、字母编码和字符编码中的一种或多种，同一输入病案的疾病编码会随着选取的疾病诊断标准的不同而存在差异，本技术对选取的疾病诊断标准不作具体限定。
102.在获取一个输入病案的疾病编码后，可以将该输入病案的疾病编码立刻输出，也可以先将疾病编码进行存储，在得到所有输入病案的疾病编码后一起输出，本技术不作具体限定。
103.综上所述，本技术提供的一种疾病编码方法，通过获取输入病案和疾病编码图谱，将输入病案分词得到的每个词语与疾病编码图谱行匹配，获得每个词语对应的疾病编码，从而根据每个词语对应的疾病编码，获得输入病案的疾病编码。其中，预先构建的疾病编码图谱结构复杂，内容全面，囊括了输入病案不标准的表述，图谱中的诊断词语可以组成所有的疾病名称，获取输入病案后，利用图谱这种图数据结构，以及图谱中词语之间的关联关系，可以更加准确地匹配词语和图谱中的目标词语，提高查找编码的效率，解决由于输入病案的复杂描述造成的疾病编码不准确的问题。
104.图8是本技术提供的一种疾病编码装置的结构示意图。该疾病编码装置800与图2中的疾病编码装置230的结构相同，可以进行替换。该疾病编码装置800包括：图谱构建单元810，用于构建疾病编码图谱；获取单元820，用于获取输入病案和疾病编码图谱，其中，输入病案包括多个词语，疾病编码图谱包括多个诊断词语和多个诊断词语中每个诊断词语对应的疾病编码；匹配单元830，用于将多个词语中的每个词语与疾病编码图谱进行匹配，获得每个词语对应的疾病编码；输出单元840，用于根据多个词语各自对应的疾病编码，获得并输出输入病案的疾病编码。
105.在获取单元用于获取输入病案和疾病编码图谱之前，需要构建疾病编码图谱。在构建疾病编码图谱的过程中，图谱构建单元先用于获取疾病诊断标准，该疾病诊断标准包括多个标准疾病名称和多个标准疾病名称各自对应的疾病编码，可以参考图1中的疾病诊断标准。随后，图谱构建单元可以用于对标准疾病名称进行分词处理，获得多个诊断词语和多个诊断词语中每个诊断词语对应的疾病编码，最后根据多个诊断词语和每个诊断词语对应的疾病编码，构建该疾病编码图谱。其中，疾病编码可以包括数字编码、字母编码和字符
编码中的一种或者多种，在不同的疾病诊断标准中，标准疾病名称对应的疾病编码有所差异，本技术对疾病编码的形式不作具体限定，只保证获取同一疾病诊断标准下的疾病编码，每一个疾病编码对应一个标准疾病名称。疾病编码用于将疾病相关的文字描述转换为数字、字母、字符编码，在进行储存，检索时更加方便。
106.可选地，除多个诊断词语外，疾病编码图谱还可以包括多个近义词语。具体地，图谱构建单元在构建疾病编码图谱时，可以用于根据多个诊断词语以及预先获取的近义词字典等，查找多个诊断词语中每个诊断词语的近义词，或者利用机器学习算法，得到多个近义词语，本技术对近义词的获取不作具体限定。举例来说，根据诊断词语“腰椎间盘”，可以获得近义词语“腰椎盘”，根据诊断词语“损伤”，可以获得近义词语“损坏”、“受损”等等，然后将存在近义词关系的近义词语和诊断词语进行近义词关联，获得疾病编码图谱。
107.可选地，图谱构建单元还可以用于将存在上下位关系的诊断词语进行上下位关联，获得疾病图谱，其中，存在上下位关系的诊断词语包括上位诊断词语和下位诊断词语，上位诊断词语是下位诊断词语的词类。简单来说，上位诊断词语可以看作概括性较强的词语，下位诊断词语是特定性较强的词语，概括性较强的词语是特定性较强的词语的上位诊断词语，特定性较强的词语是概括性较强的词语的下位诊断词语。
108.可选地，图谱构建单元可以用于将上述疾病编码图谱中的多个诊断词语和多个近义词语用节点的形式进行标识，并且可以用于通过节点之间的关联关系来标识上述词语之间的近义词关联和上下位关联，从而获得完整的疾病编码图谱这一图数据结构，并且通过图谱构建单元获取的疾病编码图谱可以存储到图数据库neo4j中。
109.随后，获取单元用于获取输入病案和疾病编码图谱，其中，输入病案包括第一词语、第二词语等多个词语，疾病编码图谱包括多个诊断词语和多个疾病编码，多个诊断词语和多个疾病编码之间存在一一对应关系，获取单元具体可执行图3中所示的步骤s310。
110.可选地，获取单元在获取输入病案后，可以用于对输入病案进行数据预处理工作，数据预处理工作可以包括删除输入病案中的特殊字符，进行大小写转换，全角半角转换等，还可以用于对输入病案进行分词处理操作，得到多个词语。
111.匹配单元在获取输入病案分词得到的多个词语以及疾病编码图谱后，可以用于将上述多个词语与疾病编码图谱进行匹配。首先，匹配单元用于将多个词语中的第一词语与疾病编码图谱进行匹配，从疾病编码图谱中的多个诊断词语中找到与第一词语相同的目标诊断词语，根据该目标诊断词语可以确定第一词语对应的疾病编码。随后，对第二词语进行同样的操作，匹配单元用于将多个词语中的第二词语与疾病编码图谱进行匹配，确定第二词语对应的诊断词语以及对应的疾病编码。匹配单元在多个词语对应的疾病编码都确定后，可以用于确定输入病案的疾病编码，具体可执行图3中所示的步骤s320和s330。
112.在一种可能的实现方式中，匹配单元用于将输入病案分词得到的多个词语与疾病编码图谱进行匹配后，疾病编码图谱中可能存在与上述多个词语相同的多个目标诊断词语和多个目标近义词语。匹配单元在存在多个目标近义词语的情况下，可以用于在疾病编码图谱中查找与多个目标近义词语存在近义词关联的多个近义诊断词语，根据多个目标诊断词语和多个近义诊断词语可以确定各个词语对应的疾病编码，确定输入病案的疾病编码。
113.在另一种可能的实现方式中，匹配单元用于将输入病案分词得到的多个词语与疾病编码图谱进行匹配后，疾病编码图谱中可能存在与上述多个词语相同的多个目标诊断词
语，但是上述多个目标诊断词语无法构成标准疾病名称。因此，匹配单元可以用于在疾病编码图谱中获取与多个目标诊断词语存在上下位关联的多个上下位诊断词语，在上述上下位诊断词语可以与多个目标诊断词语构成标准疾病名称的情况下，用于确定上述上下位诊断词语和多个目标诊断词语对应的疾病编码，确定输入病案的疾病编码。匹配单元在一个目标诊断词语的上下位诊断词语为一个的情况下，用于获取对应的疾病编码；在一个目标诊断词语的上下位诊断词语为多个的情况下，用于计算多个上下位诊断词语与一个目标诊断词语的相似度得分。
114.该相似度得分计算公式为：
115.其中，n表示目标诊断词语和上下位诊断词语在路径中间隔的诊断词语的个数，l表示诊断词语之间的路径长度，也就是目标诊断词语与上下位诊断词语之间关联关系的个数，we表示每种类型的诊断词语上下位关系的权重，不同类型诊断词语的权重固定，由人工进行标注。匹配单元在得到目标诊断词语与多个上下位诊断词语之间的多个相似度得分后，用于获取相似度得分最高的上下位诊断词语对应的疾病编码并且结合多个目标诊断词语对应的疾病编码，从而确定输入病案的疾病编码。
116.最后，输出单元用于输出通过上述方式得到的输入病案的疾病编码。
117.综上所述，通过装置中的图谱构建单元、获取单元、匹配单元以及输出单元相互配合，上述疾病编码装置可以替换图2所示的疾病编码系统中的疾病编码装置230，可以实现图3所示的疾病编码方法，实现对获取的输入病案进行准确的疾病编码。需要说明的，图8仅仅是本技术实施例的一种可能的实现方式，实际应用中，疾病编码装置800还可以包括更多或更少的单元，本技术不作具体限定。
118.图9是本技术提供一种计算设备的结构示意图，该计算设备可以完成图2至图8实施例中的所有步骤。如图9所示，计算设备900包括：处理器910、存储器920、通信接口930和总线940。其中，处理器，存储器，通信接口可以通过总线940相互连接也可以通过无线传输等其他手段实现通信。
119.处理器910可以由至少一个通用处理器构成，例如中央处理器(central processing unit,cpu)，或者cpu和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,asic)、可编程逻辑器件(programmable logic device,pld)或其组合。上述pld可以是复杂可编程逻辑器件(complex programmable logic device,cpld)、现场可编程逻辑门阵列(field-programmable gate array,fpga)、通用阵列逻辑(generic array logic,gal)或其任意组合。处理器910用于执行各种类型的数字存储指令。
120.存储器920用于存储程序代码，并由处理器910来控制执行，以执行上述方法、装置等任一实施例中包括的所有的步骤。程序代码中可以包括一个或者多个软件模块，该软件模块可以是图8实施例中的图谱构建单元810、获取单元820、匹配单元830以及输出单元840，上述具体的实现方式可以参考图8的方法实施例，实现对输入病案进行疾病编码的工作，此处不再赘述。
121.存储器920可以包括只读存储器和随机存取存储器，并向处理器910提供指令和数据。存储器920还可以包括非易失性随机存取存储器。例如，存储器920还可以存储设备类型
的信息。
122.存储器920可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data date sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，dr ram)。还可以是硬盘(hard disk)、u盘(universal serial bus，usb)、闪存(flash)、sd卡(secure digital memory card,sd card)、记忆棒等等，硬盘可以是硬盘驱动器(hard disk drive,hdd)、固态硬盘(solid state disk,ssd)、机械硬盘(mechanical hard disk,hdd)等，本技术不作具体限定。
123.通信接口930可以为有线接口(例如以太网接口)，可以为内部接口(例如pci总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与与其他设备或模块进行通信。具体实现中，通信接口930可以用于传输输入病案、疾病编码图谱等，以供处理器910对上述内容进行处理。
124.总线940可以是快捷外围部件互联标准(peripheral component interconnect express，pcie)总线，或扩展工业标准结构(extended industry standard architecture，eisa)总线、统一总线(unified bus，ubus或ub)、计算机快速链接(compute express link，cxl)、缓存一致互联协议(cache coherent interconnect for accelerators，ccix)等。总线940可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示总线，但并不表示仅有一根总线或仅有一种类型的总线。
125.需要说明的，图9仅仅是本技术实施例的一种可能的实现方式，实际应用中，计算设备900还可以包括更多或更少的部件，这里不作具体限制。
126.本技术实施例，还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在处理器上运行时，图3所示的方法流程得以实现。
127.本技术实施例，还提供一种计算机程序产品，当计算机程序产品在处理器上运行时，图3所示的方法流程得以实现。
128.在计算机上加载或执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。
129.计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含至少一个可用介质集合的服务器、数据中心等数据存储节点。可用介质可以是磁性介质(例如，软
盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc,dvd)、或者半导体介质)。
130.以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：分析型数据库和全文检索引擎的融合方法以及相关装置与流程

一种疾病编码方法、装置、系统及相关设备与流程

相关文献

最热文献