一种文本相似度检测方法、计算设备及存储介质与流程

2022-05-26 23:55:31 来源：中国专利 TAG：

1.本发明涉及数据核对技术领域，具体而言，涉及一种文本相似度检测方法、计算设备及存储介质。

背景技术：

2.文本相似度判断能够较好地规避文本重复风险，例如对于财务凭证等文本，其相似度过高则表明可能存在财务造假风险，从而可能使企业财务状况出现不确定性，使企业蒙受损失。
3.当前，随着经济的发展，企业间的业务往来日益频繁，以此导致企业财务凭证、票据等文本日益增多。面对大量的文本数据，难以识别其相似程度，从而导致企业财务风险提高。

技术实现要素：

4.本发明旨在至少在一定程度上解决相关技术中的技术问题，为达上述目的，本发明提供了一种文本相似度检测方法，包括步骤：
5.将新增文本拆分成多个最小单元，其中，所述新增文本包括新增财务文本，所述最小单元包括多个所述财务文本的文本信息；
6.为所述最小单元配置摘要算法并确定所述最小单元的摘要特征值；
7.根据所述摘要特征值确定所述新增文本与历史文本的相似度。
8.本发明提出的文本相似度检测方法，通过将新增文本拆分成多个最小单元，可以有效的将所述新增文本中有价值的信息提取出来，为判断文本的相似程度提供底层信息支撑，剔除了无效信息，避免了信息的冗余；通过为所述最小单元配置摘要算法并确定所述最小单元的摘要特征值，对最小单元的关键信息进行了量化的概括得到一个数量化的特征，即摘要特征值，为此后判断新增文本与历史文本的相似程度提供了方便；最后根据所述摘要特征值确定所述新增文本与历史文本的相似度，从而可以有效的判断文本相似度，及时分辨出不同文本，新增文本包括新增财务文本，以此能够发现财务文本中的造假，进而可有效降低风险。
9.进一步地，所述为每个所述最小单元配置摘要算法并确定所述最小单元的摘要特征值包括步骤：
10.根据k临近算法和所述最小单元的所述文本信息配置所述摘要算法；
11.根据所述摘要算法和所述文本信息对应的预设基准值确定所述摘要特征值。
12.进一步地，所述摘要算法包括：
[0013][0014]
其中，k表示所述摘要特征值，n1至nn分别表示多个所述文本信息，z1至zn分别表示多个所述文本信息分别对应的所述预设基准值。
[0015]
进一步地，所述根据所述摘要特征值确定所述新增文本与历史文本的相似度包括
步骤：
[0016]
获取与所述最小单元对应的预设权重系数；
[0017]
根据所述预设权重系数和所述摘要特征值确定新增文本指标值；
[0018]
根据所述新增文本指标值确定所述相似度。
[0019]
进一步地，所述新增文本指标值包括多个单元组合指标值，所述根据所述预设权重系数和所述摘要特征值确定新增文本指标值包括步骤：
[0020]
将多个所述最小单元组合成多个单元组合，其中，所述单元组合包括相同或不同的所述最小单元；
[0021]
分别确定所述单元组合内各个所述最小单元的所述预设权重系数和所述摘要特征值的乘积；
[0022]
根据所述乘积确定所述单元组合的所述单元组合指标值。
[0023]
进一步地，所述根据所述新增文本指标值确定所述相似度包括步骤：
[0024]
将所述新增文本指标值与历史文本的历史文本指标值对比，其中，所述对比的方式包括确定所述新增文本指标值与所述历史文本指标值的差值，和/或确定所述新增文本指标值与所述历史文本指标值的比值；
[0025]
根据所述对比的结果确定所述新增文本与所述历史文本的相似度。
[0026]
进一步地，所述根据所述对比的结果确定所述新增文本与所述历史文本的相似度包括：
[0027]
当所述新增文本指标值与所述历史文本指标值的差值的绝对值小于第一预设对比值，以及所述新增文本指标值与所述历史文本指标值的比值小于第二预设对比值时，判定所述相似度为高相似度。
[0028]
进一步地，本发明提出的文本相似度检测方法还包括，当判定所述相似度符合预设预警标准时，生成用于指示相似文本位置的指示信息。
[0029]
进一步地，所述新增财务文本包括新增财务凭证，所述文本信息包括凭证主体信息和/或凭证分录信息。
[0030]
本发明还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当所述处理器执行所述程序时，实现如上述的文本相似度检测方法。
[0031]
本发明所述的计算设备与上述文本相似度检测方法相对于现有技术的优势相同，在此不再赘述。
[0032]
本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的文本相似度检测方法。
[0033]
本发明所述的计算机可读存储介质与上述文本相似度检测方法相对于现有技术的优势相同，在此不再赘述。
附图说明
[0034]
图1为本发明实施例提供的文本相似度检测方法流程图；
[0035]
图2为本发明实施例提供的文本相似度检测方法中获取最小单元流程示意图；
[0036]
图3为本发明实施例提供的文本相似度检测方法中指标配置流程示意图。
具体实施方式
[0037]
为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。
[0038]
要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0039]
在本说明书的描述中，参考术语“实施例”、“一个实施例”和“一个实施方式”等的描述意指结合该实施例或实施方式描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示实施方式中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实施方式。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或实施方式以合适的方式结合。
[0040]
结合图1所示，本发明实施例提供了一种文本相似度检测方法，包括步骤：
[0041]
s1、将新增文本拆分成多个最小单元，其中，所述新增文本包括新增财务文本，所述最小单元包括多个所述财务文本的文本信息；
[0042]
s2、为所述最小单元配置摘要算法并确定所述最小单元的摘要特征值；
[0043]
s3、根据所述摘要特征值确定所述新增文本与历史文本的相似度。
[0044]
具体地，将新增文本拆分成最小单元，在本实施例中，以文本为财务凭证为例，新增财务文本即包括新增财务凭证，由新增财务凭证拆分得到的最小单元所包括的文本信息即包括凭证主体信息和/或凭证分录信息，如图2中，凭证主体信息包括凭证的日期、制单人、字号、附单数据等文本信息，凭证分录信息包括摘要、科目、方向、数量、金额等文本信息。本实施例中的最小单元是指根据不同需求将文本拆分成不同大小和数量的最小单元。其中，该最小单元可以并非是最小不可拆分的信息，而包括定义的最小可度量的信息集合。所述最小单元可以为一个或多个。如图2中，对于拆分新增财务凭证，其可具体分别对凭证主体信息类和凭证分录信息类的文本信息分别进行拆分，如对于凭证主体信息的上述四个文本数据，可以拆分其中的一项或者多项并组合从而形成最小单元。例如在本例中，最小单元可以为“日期”、“制单人”、“字号”、“日期和字号”、“日期和制单人”、“日期和附单数据”和“日期、制单人和字号”，抑或是所述凭证主体信息的全部中的任一种，而对于凭证分录信息，可以是一个分录中的一个、部分或全部，也可以是多个分录中的同一个等，如图2中，多个分录的摘要可以提取为一个最小单元，最终n个分录和凭证主体信息提取m个最小单元。
[0045]
本发明实施例所提出的文本相似度检测方法，通过将新增文本拆分成多个最小单元，可以有效的将所述新增文本中有价值的信息提取出来，为判断文本的相似程度提供底层信息支撑，剔除了无效信息，避免了信息的冗余。通过为所述最小单元配置摘要算法并确定所述最小单元的摘要特征值，对最小单元的关键信息进行了量化的概括得到一个数量化的特征，即摘要特征值，为此后判断新增文本与历史文本的相似程度提供了方便。最后根据所述摘要特征值确定所述新增文本与历史文本的相似度。从而可以有效的判断文本相似度，及时分辨出不同文本，例如发现新增财务文本中的造假，进而可有效降低风险。
[0046]
在本实施例中，结合图2所示，对于新增财务文本包括新增财务凭证时，拆分最小单元的方法包括但不限于：
[0047]
获取与所述新增财务凭证中的文本信息对应的多个预设提取规则；
[0048]
根据预设提取规则提取所述新增财务凭证中的所述最小单元。
[0049]
本实施例中，当处理的文本为财务凭证时，对于新增财务凭证的最小单元的拆分，可以是基于预设提取规则进行的拆分，所述提取信息内容可以为财务凭证中具体的要素信息，例如“凭证日期”、“制单人”等。提取规则可以为将单独的要素信息形成最小单元，也可以为将所述要素信息组合形成最小单元，例如“凭证日期和制单人”。其中，预设提取规则可以根据使用者进行自行设定，如对于某一特定的新增财务凭证，判断其中比较重要的文本信息后，设定预设提取规则将这些比较重要的文本信息进行提取作为一个最小单元，以及设定不同的权重以排列不同文本信息的重要程度，进而提取成不同的最小单元。
[0050]
在本实施例中，通过设置提取规则将所述新增财务凭证拆分成最小单元，可以有效的将所述新增财务凭证中有价值的信息提取出来，为判断财务凭证的相似程度提供底层信息支撑，剔除了无效信息，避免了信息的冗余，从而可以有效提高判断财务凭证相似程度的效率。
[0051]
在本实施例中，所述为每个最小单元配置摘要算法包括但不限于相等、计算相关系数、计算最小单元与基准之间的距离等。
[0052]
本发明的一个可选的实施例中，所述为每个所述最小单元配置摘要算法并确定所述最小单元的摘要特征值包括步骤：
[0053]
根据k临近算法和所述最小单元的所述文本信息配置所述摘要算法；
[0054]
根据所述摘要算法和所述文本信息对应的预设基准值确定所述摘要特征值。
[0055]
本实施例中，根据k临近算法和所述最小单元的所述文本信息配置摘要算法，并对应每个文本信息均设定有预设基准值，以此通过例如最小单元与基准之间的距离来作为摘要特征值以能够较好地用于文本相似度的判断。
[0056]
在本发明的一个可选的实施例中，所述摘要算法包括：
[0057][0058]
其中，k表示所述摘要特征值，n1至nn分别表示多个所述文本信息，z1至zn分别表示多个所述文本信息分别对应的所述预设基准值。
[0059]
本实施例中，以新增文本为新增财务凭证为例，其与历史财务凭证对比以判断两者间的相似度，现有一张历史财务凭证a如下表1所示：
[0060]
表1：历史财务凭证a的表格
[0061]
[0062][0063]
提取“凭证总行次”记为2、“凭证字号”记为3作为最小单元1。根据k临近算法和所述最小单元的所述文本信息配置所述摘要算法，在摘要算法中，最小单元的文本信息有两种，由此即摘要算法具有n1和n2两项文本信息以及z1和z2两项预设基准值，通过设置的摘要算法，计算这两个与预设基准值(例如基准总行次记为2，凭证字号记为1)之间的距离，得到摘要特征值。
[0064][0065]
其中adist(2,1)表示历史财务凭证a的摘要特征值则本次得出这个凭证此最小单元1的摘要特征值为2。
[0066]
若出现两张新增的财务凭证，例如：财务凭证b总行次为5，字号为6；财务凭证c总行次为3，字号为4。分别算出这两张财务凭证对应最小单元1的摘要特征值为：
[0067][0068][0069]
其中bdist(5,6)表示财务凭证b对应最小单元1的摘要特征值，cdist(3,4)表示财务凭证c对应最小单元1的摘要特征值。
[0070]
需要说明的是，上述基准是根据实际需求设定的参考值，在实际使用过程中可以根据实际需求设定。
[0071]
在本发明的一个可选的实施例中，根据所述摘要特征值确定所述新增文本与历史文本的相似度。具体包括：将所述新增文本某一最小单元的摘要特征值与所述历史文本的对应最小单元的摘要特征值进行比较，根据比较结果判断文本相似度。接上述示例，所述财务凭证a对应最小单元1的摘要特征值为2，所述财务凭证b对应最小单元1的摘要特征值为5，所述财务凭证c对应最小单元1的摘要特征值为3.16，由此，2与3.16数值上相较于2与5更为接近，即可判断财务凭证a与财务凭证c的相似程度相较于财务凭证a与财务凭证b的相似程度更高。
[0072]
在本发明的另一可选的实施例中，所述根据所述摘要特征值确定所述新增文本与历史文本的相似度包括步骤：
[0073]
获取与所述最小单元对应的预设权重系数；
[0074]
根据所述预设权重系数和所述摘要特征值确定新增文本指标值；
[0075]
根据所述新增文本指标值确定所述相似度。
[0076]
对于拆分形成的不同的最小单元，其用于判断文本相似度的重要性可能不同，因此，本实施例中，对于各个最小单元，可以设定特定的预设权重系数，在进行相似度判断时，可获取该预设权重系数以与摘要特征值组合形成新的判断指标值，即新增文本指标值，以此，根据该多个新增文本指标值，能够更准确地判定出新增文本与历史文本的相似度。对于
财务凭证这一文本，在实际使用中，根据经验，不同的凭证信息的意义不同，通过采取权重系数的设定，以能够实现更好的区分判断，已达到判断更准确的效果。
[0077]
本发明的一个可选的实施例中，所述新增文本指标值包括多个单元组合指标值，所述根据所述预设权重系数和所述摘要特征值确定新增文本指标值包括步骤：
[0078]
将多个所述最小单元组合成多个单元组合，其中，所述单元组合包括相同或不同的所述最小单元；
[0079]
分别确定所述单元组合内各个所述最小单元的所述预设权重系数和所述摘要特征值的乘积；
[0080]
根据所述乘积确定所述单元组合的所述单元组合指标值。
[0081]
本实施例中，最小单元之间可以组成不同的组合，而将每个组合对应一个指标，即所述单元组合指标值，每一个指标由一个或多个最小单元的摘要特征值生成。其中，根据实际需求设置其中的最小单元的权重系数。例如某个最小单元的信息重要程度相对较高，可以为该最小单元配置较高的权重系数，从而更加精准的评价财务凭证的相似程度。如上所述，每个最小单元通过摘要算法得到了摘要特征值，将所述若干摘要特征值乘以相应的权重系数即得到乘积，最终由这些乘积得到单元组合指标值，由此，多个单元组合指标值共同构成新增文本指标值，以用于判断新增文本的相似度。在文本中，例如财务凭证，通常不同的文本信息是存在相互关联的，以此通过将这些信息形成更好的关联，以使得相似度判定更加精确。其中，根据所述乘积确定所述单元组合的所述单元组合指标值具体可以包括，采取乘积之间的和的形式，或乘积之间的乘积的形式生成单元组合指标值等。
[0082]
需要说明的是，结合图3所示，生成每一个指标的乘积的数量的多少取决于该指标中最小单元之间形成组合的数量的多少。例如，对于三个最小单元1、2、3，其可有下列组合形式：1、2、3、11、22、33、12、13、23、111、112、113、221、222、223、331、332、333、123等，以此分别对应有不同的单元组合指标值。
[0083]
如上例中，“凭证总行次”和“凭证字号”组成最小单元1，如仅由最小单元1组成指标x，最小单元1的权重系数设置为0.6，则历史财务凭证a的指标x的指标值为摘要特征值与权重系数的乘积，在本例中即为2
×
0.6＝1.2。新增的财务凭证b和新增的财务凭证c的指标x的指标值分别为5
×
0.6＝3和3.16
×
0.6＝1.896。可以看出，财务凭证c的指标x的指标值更接近历史财务凭证a的指标x的指标值，由此，在指标x下，新增的财务凭证c相较于新增的财务凭证b与历史财务凭证a的相似度更高。当由多个最小单元组成指标时，为每一个最小单元设置对应的权重系数，从而一个指标对应得到多个指标值。
[0084]
其中，所述根据所述新增文本指标值确定所述相似度包括步骤：
[0085]
将所述新增文本指标值与历史文本的历史文本指标值对比，其中，所述对比的方式包括确定所述新增文本指标值与所述历史文本指标值的差值，和/或确定所述新增文本指标值与所述历史文本指标值的比值；
[0086]
根据所述对比的结果确定所述新增文本与所述历史文本的相似度。
[0087]
在本实施例中，对于新增文本，例如新增财务凭证，将新增财务凭证与最相似的历史财务凭证的指标值做差值和/或比值，例如，差值越小和/或比值越接近于1说明相似程度越高，也即财务造假风险越高。从而可根据新增财务凭证与最相似的历史财务凭证指标值的差值，提示用户新增财务凭凭证是否存在财务造假风险。在其它实施例中，也可设定其它
的对比判断方式进行判断。
[0088]
可以理解，新增文本与历史文本、新增财务凭证与历史财务凭证、新增文本指标值与历史文本指标值相对应，其在数据形式上并不会有质的区别，例如对于新增文本，其经过相似度判断后，可存储于数据库中，即成为用于后续其它新增文本判断的历史文本。
[0089]
在本发明的一个可选的实施例中，当所述新增文本指标值与所述历史文本指标值的差值的绝对值小于第一预设对比值，以及所述新增文本指标值与所述历史文本指标值的比值小于第二预设对比值时，判定所述相似度为高相似度。
[0090]
本实施例中，采用差值的绝对值与比值结合判断相似度，当差值的绝对值小于第一预设对比值，以及比值小于第二预设对比值时，判定相似度为高，以此使得相似度判断更加精准。
[0091]
在本发明的另一可选的实施例中，所述文本相似度检测方法，还包括，当判定所述相似度符合预设预警标准时，生成用于指示相似文本位置的指示信息。
[0092]
具体地，在本实施例中，可为文本相似度预设预警标准，当出现新增文本与历史文本的相似度达到预警标准时，可生成用于指示文本位置的指示信息。由于每新增一个文本需要拆分最小单元并计算每个最小单元的摘要特征值，计算量较为庞大，当文本较多时，可能发生计算缓慢或者卡顿的情况，通过设置定时计算和/或同步计算的模式，可以为新增文本相似程度判断设置优先级，优先级较高的新增文本可采用同步计算，优先级较低且数量较大的新增文本处理可以采用定时计算。从而提高系统运行效率。以此可以及时文本相似风险，如发现新增财务凭证中的财务风险，减少财务损失。
[0093]
本发明实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当所述处理器执行所述程序时，实现如上述的文本相似度检测方法。
[0094]
本发明实施例所述的计算设备与上述文本相似度检测方法相对于现有技术的优势相同，在此不再赘述。
[0095]
本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的文本相似度检测方法。
[0096]
本发明实施例所述的计算机可读存储介质与上述文本相似度检测方法相对于现有技术的优势相同，在此不再赘述。
[0097]
虽然本公开披露如上，但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于长期加电设备健康检测的处理器负载检测方法与流程

一种文本相似度检测方法、计算设备及存储介质与流程

相关文献

最热文献