类案推荐方法及相关装置与流程

2022-04-27 08:41:30 来源：中国专利 TAG：

1.本技术属于文本处理技术领域，具体涉及一种类案推荐方法及相关装置。

背景技术：

2.类案推荐指的是用户输入一句、一段甚至几段案情事实，类案推荐系统通过将其与案例数据库中的海量历史案例进行匹配，返回相似度较高的若干历史案例，并按照相似度从大到小的顺序展示给用户。
3.从技术角度讲，类案推荐实质是一个文本匹配的任务，其核心的难点在于用户输入的案情事实有时高达几百字，而案例数据库中的历史案例的平均字数更是高达上千。传统的文本匹配技术方案在类案推荐场景中并不合适。

技术实现要素：

4.本技术提供一种类案推荐方法及相关装置，能够将用户输入的案件文本解析形成统一的结构化表示形式，以获得更好的推荐结果。
5.为解决上述技术问题，本技术采用的一个技术方案是：提供一种类案推荐方法，包括：获得用户输入的案件文本，并对所述案件文本进行模块抽取以获得所述案件文本所包含的所有模块以及每个所述模块的模块内容；基于所述案件文本的所有所述模块的模块内容确定所述模块之间的关联关系，以构建结构化后的所述案件文本；获得结构化后的所述案件文本中各个模块的向量化表示，并基于所述向量化表示从案例数据库中获得与所述案件文本相似的历史案例。
6.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种类案推荐装置，包括：抽取模块，用于获得用户输入的案件文本，并对所述案件文本进行模块抽取以获得所述案件文本所包含的所有模块以及每个所述模块的模块内容；关联模块，与所述抽取模块连接，用于基于所述案件文本的所有所述模块的模块内容确定所述模块之间的关联关系，以构建结构化后的所述案件文本；第一获得模块，与所述关联模块连接，用于获得结构化后的所述案件文本中各个模块的向量化表示；第二获得模块，与所述第一获得模块连接，用于基于所述向量化表示从案例数据库中获得与所述案件文本相似的历史案例。
7.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述任一实施例中所述的类案推荐方法。
8.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种存储装置，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述任一实施例中所述的类案推荐方法。
9.区别于现有技术情况，本技术的有益效果是：本技术所提供的类案推荐方法中会先将用户输入的案件文本进行模块化解析，以构建结构化后的案件文本；而在获得结构化后的案件文本之后解析得到各个模块的向量化表示，并基于各个模块的向量化表示从案例
数据库中获得与案件文本相似的历史案例，供用户参考。该方式无需用户针对各个案由的要素标签进行分别定义，其工作量和计算量较小；且在相似度计算过程中，是针对每个模块获得对应的向量化表示，其准确率相比整个文本匹配方式而言准确率更高。
附图说明
10.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：
11.图1为本技术类案推荐方法一实施方式的流程示意图；
12.图2为图1中步骤s101之前一实施方式的流程示意图；
13.图3为某案件文书结构化示意图；
14.图4为图2中步骤s202对应的一实施方式的流程示意图；
15.图5为模块抽取模型抽取方案一实施方式的结构示意图；
16.图6为图2中步骤s203对应的一实施方式的流程示意图；
17.图7为模块关联模型关联方案一实施方式的结构示意图；
18.图8为图1中步骤s105对应的一实施方式的流程示意图；
19.图9为本技术类案推荐装置一实施方式的结构示意图；
20.图10为本技术电子设备一实施方式的结构示意图；
21.图11为本技术存储装置一实施方式的结构示意图。
具体实施方式
22.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
23.请参阅图1，图1为本技术类案推荐方法一实施方式的流程示意图，该类案推荐方法具体包括：
24.s101：获得用户输入的案件文本。
25.具体地，用户输入的案件文本可以为一句话或一段话，本技术对用户输入的案件文本的长度并无限定。用户输入的案件文本的领域不同后续对应的案例数据库不同、且后续所利用的模型参数不同。只要用户输入的案件文本以及对应的案例数据库中的历史案例能够被解析为相应领域的通用结构，则属于本技术中类案推荐方法的覆盖范围。
26.在一个实施方式中，在上述步骤s101之前，还可以包括构建案例数据库的过程，具体请参阅图2，图2为图1中步骤s101之前一实施方式的流程示意图，上述构建案例数据库的具体过程包括：
27.s201：获得待入库案件文书。
28.具体地，该待入库案件文书与步骤s101中用户输入的案件文本所属领域可以相同。
29.s202：对待入库案件文书进行模块抽取以获得待入库案件文书所包含的所有模块以及每个模块的模块内容。
30.具体地，待入库案件文书一般是所属领域的撰写人员遵照一定的逻辑规范形文而成，本技术步骤s202-后续步骤s203的主要目的就是将待入库案件文书进行结构化，挖掘撰写人员的行文思路，将书写待入库案件文书的内在逻辑转化为计算机可以理解的形式。
31.例如，如图3所示，图3为某案件文书结构化示意图，在设计图3 所示的某案件文书结构化方案的过程中，特别考虑了其通用性。从图3 中可以看出，书写该案件文书的逻辑链条是：通过掌握的证据判定某人存在某奖惩事实，而判定的奖惩事实符合某些条款规定的情节，则依据条款的规定，认定某人实施了某行为名称，并给予相应的奖惩措施。一份案件文书可能涉及多个奖惩人，一个奖惩人可能涉及多个行为名称及奖惩事实，图3仅仅展示了两个不同奖惩人及多个奖惩事实和行为名称，根据实际情况还可以继续扩展。除此逻辑链条外，在案件文书中还会额外针对有争议的证据事实或条款适用问题做出回应与裁决。因此总结而言，在通常情况下，某案件文书中的模块可以包括姓名、行为名称、依据条款、奖惩事实、证据、奖惩措施、情节、争议焦点和裁决结果。
32.在一个应用场景中，请参阅图4，图4为图2中步骤s202对应的一实施方式的流程示意图，上述步骤s202的具体实现过程可以包括：
33.s301：获得与待入库案件文书的领域相关的所有模块。
34.例如，如图3所示，与该待入库案件文书的领域相关的所有模块可以包括姓名、行为名称、依据条款、奖惩事实、证据、奖惩措施、情节、争议焦点和裁决结果。
35.s302：针对每个模块，将模块的名称和待入库案件文书输入至训练后的模块抽取模型中以获得待入库案件文书中各个模块的模块内容。
36.具体地，如图5所示，图5为模块抽取模型抽取方案一实施方式的结构示意图。模块抽取模型10包括第一预训练模型100和两个第一全连接层102；其中，第一预训练模型100可以为常见的bert模型等；且第一预训练模型100的输出分别与两个第一全连接层102的输入连接。例如，首先将待抽取的模块的名称(如依据条款、奖惩事实和证据等) 和待入库案件文书的内容进行拼接，送入第一预训练模型100得到隐层表示后，该隐层表示分别经过两个第一全连接层102，以预测当前待抽取的模块的模块内容的起始位置和结束位置；其中，位于相邻的起始位置和结束位置之间的文本内容为模块抽取模型10预测出的模块内容。
37.可选地，当第一预训练模型100为bert模型时，由于bert模型的输入字符必须小于或等于512个字符，因此当待入库案件文书的字符超过该限制时，可以引入滑窗技术；即将待入库案件文书进行拆分以形成多个子文档，且相邻子文档之间可以完全不重叠或具有相互重叠的部分，本技术对此不作限定。可以将待抽取的模块名称和多个子文档分别进行拼接，且拼接后分别进入模块抽取模型10以获得对应的起始位置和结束位置。
38.在一个应用场景中，训练上述模块抽取模型10的过程包括：
39.a、构建第一训练集；其中，第一训练集中包含多个第一训练文本，且第一训练文本与案件文本所处领域相同，第一训练文本中标注有各个模块的位置标签。
40.可选地，上述第一训练集可以包含大量人工标注的某领域案件文书，人工可以预先标注出各个案件文书中各个模块的起始位置和结束位置。
41.b、将任一模块的名称和第一训练文本输入至第一预训练模型100 中以获得隐层
表示。
42.c、将隐层表示分别输入至两个第一全连接层102后分别获得模块在第一训练文本中的预测起始位置和预测终止位置；
43.d、基于与同一模块相关的预测起始位置、预测终止位置和位置标签调整模块抽取模型10的参数。
44.可选地，在本实施例中，可以根据与同一模块相关的预测起始位置和预测终止位置获得预测模块内容、以及根据位置标签获得实际模块内容；基于预测模块内容和实际模块内容获得交叉熵损失；基于交叉熵损失调整模块抽取模型10(包括第一预训练模型100和第一全连接层102) 中的参数。
45.s203：基于待入库案件文书的所有模块的模块内容确定模块之间的关联关系，以构建结构化后的待入库案件文书。
46.具体地，抽取得到待入库案件文书中各个预定义好的模块后，下一步需要将不同的模块进行关联。而执行模块关联的第一步是确定需要关联的模块对，例如对于某案件文书中出现的多个奖惩事实和多个行为名称，需要具体判断每一个奖惩事实属于哪个行为名称下。
47.在一个实施例中，请参阅图6，图6为图2中步骤s203对应的一实施方式的流程示意图，上述步骤s203具体包括：
48.s401：获得待入库案件文书中所有模块所形成的模块对；其中，每个模块对包含两个模块。
49.可选地，在本实施例中，可以人为预先确定好需要关联的模块对。仍以图3为例进行详细说明。在本实施例中，可以不用严格按照图3中所示意的结构树中各个模块之间的关系去构建模块对，可以从降低任务难度的角度出发，将其进行等价的修改。例如，若按照图3所示，需要将奖惩事实和依据条款进行关联，但本技术实际是将奖惩事实和行为名称与姓名进行关联，依据条款也和行为名称与姓名进行关联，这样我们就知道当奖惩事实和依据条款关联到了相同的行为名称和姓名，则它们也是有关联的。因此为了构建如图3所示的结构化的判决书，本技术人为预先确定了以下需要关联的模块对：证据-奖惩事实；奖惩事实-行为名称；奖惩事实-姓名；依据条款-行为名称；依据条款-姓名；奖惩措施
ꢀ‑
行为名称；奖惩措施-姓名；行为名称-姓名；个人信息-姓名；情节-姓名；情节-依据条款；争议焦点-姓名；争议焦点-裁决结果。而对于其它模块对，例如证据-姓名，其关联关系并不重要，故无需判断其关联概率的大小。
50.s402：针对每个模块对，将模块对中的两个模块的模块内容输入至训练后的模块关联模型中以获得当前模块对中两个模块之间的关联概率。
51.具体地，请参阅图7，图7为模块关联模型关联方案一实施方式的结构示意图。模块关联模型20包括第二预训练模型200、两个第二全连接层202和两个自注意力层204；且第二预训练模型200的输出分别与两个第二全连接层202的输入连接，一个第二全连接层202的输出与一个自注意力层204的输入连接。可选地，第二预训练模型200可以为 bert模型等。上述模块关联模型20的结构较为简单。
52.在一个应用场景中，训练上述模块关联模型20的过程包括：
53.a、构建第二训练集；其中，第二训练集中包含多个第二训练文本，且第二训练文本
与用户输入的案件文本所处领域相同，第二训练文本中标注有其所包含的各个模块对的模块内容的实际关联概率；其中，实际关联概率为1或0。
54.具体地，可以按照人为预先规定的模块对将第一训练文本中的模块进行组合以构建第二训练文本。例如，以证据-奖惩事实模块对为例，某案件文书中包括张三、李四两个人，张三有证据1对应奖惩事实1，证据2对应奖惩事实2，李四有证据3对应奖惩事实3，则证据-奖惩事实模块对有9种组合，但只有3种组合是正确的组合，其关联概率为1；另外6种是错误组合，关联概率为0。请注意，这里的9种关联组合，是证据对应的判决书原文句子与奖惩事实对应的判决书原文句子的关联组合。即第二训练样本是两个句子的关联与其关联概率。
55.b、将第二训练文本中同一模块对中的两个模块的模块内容输入至第二预训练模型200中以分别获得第一隐层表示和第二隐层表示。
56.c、将第一隐层表示经过其中一个第二全连接层202和其中一个自注意力层204以获得第一模块表示、以及将第二隐层表示经过另一个第二全连接层202和另一个自注意力层204以获得第二模块表示。
57.可选地，自注意力层204的公式为：h1＝∑iαi*hi；h2＝∑jαj*hj；其中，自注意力系数αi＝softmax(ffn(hi))，αj＝softmax(ffn(hj))；h1为第一模块表示，hi为其中一个模块中各个字符表示；h2为第二模块表示， hj为另一个模块中各个字符表示。
58.d、基于第一模块表示和第二模块表示获得预测关联概率。
59.可选地，可以将第一模块表示和第二模块表示进行点乘即可获得预测关联概率。
60.e、基于预测关联概率和实际关联概率调整模块关联模型20中的参数。
61.可选地，可以获得预测关联概率和实际关联概率之间的交叉熵损失，基于该交叉熵损失调整模块关联模型20(包括第二预训练模型200、第二全连接层202以及自注意力层204)中的参数。
62.上述训练模块关联模型20的方式较为成熟，且易于实现。
63.此外，为了融入更多的信息，使得模块关联模型20知晓用户所关心的内容，提高模型训练效果，在第二预训练模型200中引入segment_id 的设置方式。具体而言，在将第二训练文本中同一模块对中的两个模块的模块内容输入至第二预训练模型200中时，将其中一个模块的模块内容中的第一模块要素标记为1，将其中一个模块的模块内容中第一模块要素以外的其余字符标记为0；以及将另一个模块的模块内容中的第二模块要素标记为0，将另一个模块的模块内容中第二模块要素以外的其余字符标记为1。例如，如图7所示，当其中一个模块的名称为姓名，其对应的模块内容为“姓名xx，男
…”
时，该模块内容中第一模块要素可以视为姓名实体内容(如图7中xx)，则此时可以将“xx”标记为1，将“姓名”、“男
…”
标记为0；当另一个模块的名称为奖惩事实，其对应的模块内容为“...xx拿出xx
…”
时，该模块内容中第二模块要素可以视为奖惩事实实体内容(如图7中xx拿出xx)，则此时可以将“xx拿出xx”标记为0，将剩余的“...”标记为1。
64.s403：将关联概率超过阈值的模块对中的两个模块确定为具有关联关系。
65.可选地，该阈值可以为1或0.8等，其可根据实际情况进行设定。
66.至此，可以对待入库案件文书完成结构化。
67.s204：获得结构化后的待入库案件文书的中各个模块的向量化表示，并将其存储
至案例数据库。
68.可选地，为了加快后续从海量案例中搜索的速度，上述将其存储至数据库的步骤之前还包括：为每个待入库案件文书中各个模块的每个向量化表示构建最近邻搜索索引。
69.另一可选地，上述获得结构化后的待入库案件文书的中各个模块的向量化表示的过程可以为：获得结构化后的待入库案件文书中每个模块的模块内容中各个词向量；并将所有词向量进行加权平均以获得向量化表示。或者，将结构化后的待入库案件文书中每个模块的模块内容分别输入至训练后的第三预训练模型中以获得对应的向量化表示。在本实施例中，该第三预训练模型可以为bert模型。
70.至此，通过上述步骤可以构建完成案例数据库，后续应用过程中可以直接从案例数据库中获得历史案例的各个模块的向量化表示，以降低应用过程中系统计算量，提高类案推荐效率。
71.s102：对用户输入的案件文本进行模块抽取以获得案件文本所包含的所有模块以及每个模块的模块内容。
72.具体地，上述步骤s102的实现过程可以为：a、获得与案件文本的领域相关的所有模块。例如，与该案件文本的领域相关的所有模块可以包括图3中所示的姓名、行为名称、依据条款、奖惩事实、证据、奖惩措施、情节、争议焦点和裁决结果。b、针对每个模块，将模块的名称和案件文本输入至训练后的模块抽取模型中以获得模块的模块内容。该步骤b的实现过程与上述步骤s202中类似，在此不再详述。
73.s103：基于案件文本的所有模块的模块内容确定模块之间的关联关系，以构建结构化后的案件文本。
74.具体地，上述步骤s103的具体实现过程包括：a、获得案件文本中所有模块所形成的模块对；其中，每个模块对包含两个模块。可选地，通过上方图3相关的内容可知，当前案件文本所属领域所能形成的模块对包括：证据和奖惩事实、奖惩事实和行为名称、奖惩事实和姓名、依据条款和行为名称、依据条款和姓名、奖惩措施和行为名称、奖惩措施和姓名、行为名称和姓名、个人信息和姓名、情节和姓名、情节和依据条款、争议焦点和姓名、以及争议焦点和裁决结果。当经过步骤s102 获得当前案件文本中的各个模块后，可以根据预设的模块对构成方式对当前案件文本中的各个模块进行组合，并将组合后的各个模块对送入后续步骤b，以获得每个模块对的关联概率。b、针对每个模块对，将模块对中的两个模块的模块内容输入至训练后的模块关联模型中以获得当前模块对中两个模块之间的关联概率。可选地，该步骤与上述步骤 s402中类似，在此不再赘述。c、将关联概率超过阈值的模块对中的两个模块确定为具有关联关系。
75.s104：获得结构化后的案件文本中各个模块的向量化表示。
76.可选地，上述步骤s104的具体实现过程可以为：获得结构化后的案件文本中每个模块的模块内容中各个词向量；并将所有词向量进行加权平均以获得向量化表示；或者，将结构化后的案件文本中每个模块的模块内容分别输入至训练后的第三预训练模型中以获得对应的向量化表示。上述获得向量化表示的过程较为成熟，且易于实现。
77.s105：基于各个模块的向量化表示从案例数据库中获得与案件文本相似的历史案例。
78.请参阅图8，图8为图1中步骤s105对应的一实施方式的流程示意图。上述步骤s105
的具体实现过程可以为：
79.s501：针对案例数据库中每一历史案例，获得案件文本中每个模块的向量化表示与历史案例中具有相同模块的向量化表示之间的第一相似度。
80.可选地，在本实施例中，两个模块的第一相似度定义为他们的向量化表示之间的余弦相似度。例如，案件文本中的模块包括奖惩事实，则可以获得案件文本中奖惩事实与每个历史案件中的奖惩事实的向量化表示之间的第一相似度。
81.s502：根据案件文本中各个模块的第一相似度的第一和值获得历史案例与案件文本的整体相似度。
82.可选地，在本实施例中，整体相似度与该第一和值相等。
83.另一可选地，如下实施例所示：用户输入的案件文本包括：姓名xxx 在公交车上捡了一个钱包。案例数据库中历史案例a：姓名xx在公交车上捡了钱包。案例数据库中历史案例b：姓名xxx在5路公交车上捡了钱包；姓名xxx在31路公交车上捡了一个手机。通过比较发现，历史案例a是更值得被推荐的，因为它只有一个奖惩事实，并且和用户输入的奖惩事实相似，因此更可能有相似的判决结果；而历史案例b的相似度应该排在历史案例a之后，因为尽管历史案例b也有非常相似的“公交车上捡钱包”的行为，但是它还有另外一个奖惩事实是“公交车上捡手机”，与用户输入的奖惩事实不符。为了考虑这个因素，我们可将历史案例和用户输入的案件文本结构化后，对与输入的奖惩事实模块个数不同的历史案例的相似度做惩罚，从而得到更好的排序结果。
84.具体实现过程可以为：在上述步骤s502之前，包括：获得案件文本中每个模块的第一个数、以及历史案例中每个模块的第二个数；根据同一模块的第一个数和第二个数获得第二相似度值；其中，同一模块的第一个数与第二个数之间的差值越大，第二相似度值越小。上述步骤 s502具体包括：将案件文本中各个模块的第一相似度的第一和值与第二相似度值之和作为整体相似度。
85.s503：根据整体相似度对案例数据库中的所有历史案例从高到低进行排序，并输出整体相似度较高的部分历史案例。
86.可选地，在本实施例中，可以根据实际需要输出整体相似度较高的 10个或50个等历史案例供用户参考。
87.请参阅图9，图9为本技术类案推荐装置一实施方式的结构示意图，该类案推荐装置包括抽取模块30、关联模块32、第一获得模块34和第二获得模块36。其中，抽取模块30用于获得用户输入的案件文本，并对案件文本进行模块抽取以获得案件文本所包含的所有模块以及每个模块的模块内容。关联模块32与抽取模块30连接，用于基于案件文本的所有模块的模块内容确定模块之间的关联关系，以构建结构化后的案件文本。第一获得模块34与关联模块32连接，用于获得结构化后的案件文本中各个模块的向量化表示。第二获得模块36与第一获得模块34 连接，用于基于向量化表示从案例数据库中获得与案件文本相似的历史案例。
88.可选地，上述抽取模块30具体用于获得与案件文本的领域相关的所有模块；针对每个模块，将模块的名称和案件文本输入至训练后的模块抽取模型中以获得模块的模块内容。
89.其中，模块抽取模型包括第一预训练模型和两个第一全连接层；且第一预训练模
型的输出分别与两个第一全连接层的输入连接。上述类案推荐装置还包括第一训练模块，与抽取模块30连接，用于训练模块抽取模型；其中，训练模块抽取模块的过程包括：构建第一训练集；其中，第一训练集中包含多个第一训练文本，且第一训练文本与案件文本所处领域相同，第一训练文本中标注有各个模块的位置标签；将任一模块的名称和第一训练文本输入至第一预训练模型中以获得隐层表示；将隐层表示分别输入至两个第一全连接层后分别获得模块在第一训练文本中的预测起始位置和预测终止位置；基于与同一模块相关的预测起始位置、预测终止位置和位置标签调整模块抽取模型的参数。
90.可选地，上述关联模块32具体用于：获得案件文本中所有模块所形成的模块对；其中，每个模块对包含两个模块；针对每个模块对，将模块对中的两个模块的模块内容输入至训练后的模块关联模型中以获得当前模块对中两个模块之间的关联概率；将关联概率超过阈值的模块对中的两个模块确定为具有关联关系。
91.其中，模块关联模型包括第二预训练模型、两个第二全连接层和两个自注意力层；且第二预训练模型的输出分别与两个第二全连接层的输入连接，一个第二全连接层的输出与一个自注意力层的输入连接。上述类案推荐装置还包括第二训练模块，与关联模块32连接，用于训练模块关联模型。具体训练模块关联模型的过程包括：构建第二训练集；其中，第二训练集中包含多个第二训练文本，且第二训练文本与案件文本所处领域相同，第二训练文本中标注有其所包含的各个模块对的实际关联概率；其中，实际关联概率为1或0；将第二训练文本中同一模块对中的两个模块的模块内容输入至第二预训练模型中以分别获得第一隐层表示和第二隐层表示；将第一隐层表示经过其中一个第二全连接层和其中一个自注意力层以获得第一模块表示、以及将第二隐层表示经过另一个第二全连接层和另一个自注意力层以获得第二模块表示；基于第一模块表示和第二模块表示获得预测关联概率；基于预测关联概率和实际关联概率调整模块关联模型中的参数。
92.可选地，将第二训练文本中同一模块对中的两个模块的模块内容输入至第二预训练模型中时，将其中一个模块的模块内容中的第一模块要素标记为1，将其中一个模块的模块内容中第一模块要素以外的其余字符标记为0；以及将另一个模块的模块内容中的第二模块要素标记为0，将另一个模块的模块内容中第二模块要素以外的其余字符标记为1。
93.可选地，上述第一获得模块34具体用于获得结构化后的案件文本中每个模块的模块内容中各个词向量；并将所有词向量进行加权平均以获得向量化表示；或者，将结构化后的案件文本中每个模块的模块内容分别输入至训练后的第三预训练模型中以获得对应的向量化表示。
94.可选地，上述第二获得模块36具体用于针对案例数据库中每一历史案例，获得案件文本中每个模块的向量化表示与历史案例中具有相同模块的向量化表示之间的第一相似度；根据案件文本中各个模块的第一相似度的第一和值获得历史案例与案件文本的整体相似度；根据整体相似度对案例数据库中的所有历史案例从高到低进行排序，并输出整体相似度较高的部分历史案例。
95.其中，根据案件文本中各个模块的第一相似度的和值获得历史案例与案件文本的整体相似度的步骤之前，包括：获得案件文本中每个模块的第一个数、以及历史案例中每个模块的第二个数；根据同一模块的第一个数和第二个数获得第二相似度值；其中，同一模块的第一个数与第二个数之间的差值越大，第二相似度值越小；根据案件文本中各个模块的
第一相似度的第一和值获得历史案例与案件文本的整体相似度包括：将第一和值与第二相似度值之和作为整体相似度。
96.此外，本技术所提供的类案推荐装置还可以包括构建模块，与第二获得模块36连接，用于获得待入库案件文书，并对待入库案件文书进行模块抽取以获得待入库文书所包含的所有模块以及每个模块的模块内容；基于待入库案件文书的所有模块的模块内容确定模块之间的关联关系，以构建结构化后的待入库案件文书；获得结构化后的待入库案件文书的中各个模块的向量化表示，并将其存储至案例数据库。可选地，将其存储至数据库的步骤之前，还包括：为每个向量化表示构建最近邻搜索索引。
97.请参阅图10，图10为本技术电子设备一实施方式的结构示意图，该电子设备具体包括：相互耦接的存储器40和处理器42，存储器40中存储有程序指令，处理器42用于执行程序指令以实现上述任一类案推荐方法中的步骤。具体地，电子设备包括但不限于：台式计算机、笔记本电脑、平板电脑、服务器等，在此不做限定。此外，处理器42还可以称为cpu(central processing unit，中央处理单元)。处理器42可能是一种集成电路芯片，具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列 (field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器42可以由集成电路芯片共同实现。
98.请参阅图11，图11为本技术存储装置一实施方式的结构示意图，该存储装置50存储有能够被处理器运行的程序指令52，程序指令52用于实现上述任一类案推荐方法中的步骤。
99.在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
100.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
101.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
102.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)或处理器(processor) 执行本技术各个实
施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
103.以上所述仅为本技术的实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于碳排放物联网监控的碳交易系统的制作方法

类案推荐方法及相关装置与流程

相关文献

最热文献