归因解释方法的稳定性的确定方法、装置和设备

2022-12-02 19:45:07 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及一种归因解释方法的稳定性的确定方法、装置和设备。

背景技术：

2.归因解释方法可以给出输入当中每个特征对模型的对应的贡献大小，可以在一定程度上解释模型的推理过程，因此在近年来得到了很多的关注。
3.相关技术中，存在多种不同的归因解释方法，但不同的归因解释方法对于同一个模型同一个样例会产生完全不同的解释结果。因此，如何有效的确定各种归因解释方法的优劣，是本领域技术人员亟需关注的问题。

技术实现要素：

4.针对现有技术中的问题，本发明实施例提供一种归因解释方法的稳定性的确定方法、装置和设备。
5.具体地，本发明实施例提供了以下技术方案：
6.第一方面，本发明实施例提供了一种归因解释方法的稳定性的确定方法，包括：
7.获取样本文本；
8.对所述样本文本进行文本对抗攻击，得到攻击后的样本文本；
9.分别对样本文本和所述攻击后的样本文本采用多个归因解释方法进行解释，得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值；
10.基于所述样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值，确定各个归因解释方法对应的归因值排序发生变化的单词数量；
11.根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性。
12.进一步地，所述对所述样本文本进行文本对抗攻击，得到攻击后的样本文本，包括：
13.确定样本文本中的各个单词的攻击顺序及各个单词对应的同义词集合；
14.根据所述攻击顺序和各个单词对应的同义词集合，对样本文本进行攻击，得到攻击后的样本文本。
15.进一步地，所述根据所述攻击顺序和各个单词对应的同义词集合，对样本文本进行攻击，得到攻击后的样本文本各个单词，包括：
16.对各个单词对应的同义词集合中的各个同义词进行打分，得到各个同义词的打分结果；
17.根据所述攻击顺序和各个单词对应的所述同义词的打分结果，对样本文本进行攻击。
18.进一步地，所述对各个单词对应的同义词集合中的各个同义词进行打分，得到各个同义词的打分结果，包括：
19.根据样本文本中的各个单词的同义词，对样本文本中的单词进行替换，得到各个目标文本；所述目标文本包括所述所述同义词；
20.分别对样本文本和所述目标文本采用归因解释方法进行解释，得到样本文本中各个单词的归因值以及目标文本中各个单词的归因值；
21.根据所述样本文本中各个单词的归因值及各个目标文本中各个单词的归因值，确定各个同义词对应的各个目标文本中归因值排序发生变化的单词数量；
22.根据各个目标文本中归因值排序发生变化的单词数量，对各个同义词进行打分，得到各个同义词的打分结果。
23.进一步地，所述根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性，包括：
24.根据归因值排序发生变化的单词数量和预设的攻击成功条件，确定各个归因解释方法的攻击成功率；
25.根据各个归因解释方法的攻击成功率，确定各个归因解释方法的稳定性。
26.进一步地，所述根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性，包括：
27.所述根据归因值排序发生变化的单词数量，确定各个归因解释方法的解释相似度；
28.根据各个归因解释方法的解释相似度，确定各个归因解释方法的稳定性。
29.第二方面，本发明实施例还提供了一种归因解释方法的稳定性的确定装置，包括：
30.获取模块，用于获取样本文本；
31.处理模块，用于对所述样本文本进行文本对抗攻击，得到攻击后的样本文本；
32.分别对样本文本和所述攻击后的样本文本采用多个归因解释方法进行解释，得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值；
33.基于所述样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值，确定各个归因解释方法对应的归因值排序发生变化的单词数量；
34.确定模块，用于根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性。
35.第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述归因解释方法的稳定性的确定方法。
36.第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述归因解释方法的稳定性的确定方法。
37.第五方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述归因解释方法的稳定性的确定方法。
38.本发明实施例提供的归因解释方法的稳定性的确定方法、装置和设备，基于攻击后的样本文本中归因值排序发生变化的单词数量确定各个归因解释方法的稳定性，即基于攻击前后的样本文本中归因值排序的相似度来确定各个归因解释方法的稳定性，从各个归因解释方法的稳定性维度出发，为归因解释方法的衡量和选择提供了合理准确的评价标准
和评价结果，实现了对各个归因解释方法优劣的准确衡量。
附图说明
39.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1是本发明实施例提供的归因解释方法的稳定性的确定方法的流程示意图；
41.图2是本发明实施例提供的归因解释方法的稳定性的确定方法中的同义词集合示意图；
42.图3是本发明实施例提供的各个归因解释方法的稳定性示意图之一；
43.图4是本发明实施例提供的各个归因解释方法的稳定性示意图之二；
44.图5是本发明实施例提供的各个归因解释方法的稳定性示意图之三；
45.图6是本发明实施例提供的各个归因解释方法的稳定性示意图之四；
46.图7是本发明实施例提供的各个归因解释方法的稳定性示意图之五；
47.图8是本发明实施例提供的另一归因解释方法的稳定性的确定方法的流程示意图；
48.图9是本发明实施例提供的归因解释方法的稳定性的确定装置的结构示意图；
49.图10是本发明实施例提供的电子设备的结构示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
51.本发明实施例的方法可以应用于归因解释场景中，实现归因解释方法的稳定性的确定。
52.相关技术中，存在多种不同的归因解释方法，但不同的归因解释方法对于同一个模型同一个样例会产生完全不同的解释结果。因此，如何有效的确定各种归因解释方法的优劣，是本领域技术人员亟需关注的问题。
53.本发明实施例的归因解释方法的稳定性的确定方法，基于攻击后的样本文本中归因值排序发生变化的单词数量确定各个归因解释方法的稳定性，即基于攻击前后的样本文本中归因值排序的相似度来确定各个归因解释方法的稳定性，从各个归因解释方法的稳定性维度出发，为归因解释方法的衡量和选择提供了合理准确的评价标准和评价结果，实现了对各个归因解释方法优劣的准确衡量。
54.下面结合图1-图10以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。
55.图1是本发明实施例提供的归因解释方法的稳定性的确定方法一实施例的流程示
意图。如图1所示，本实施例提供的方法，包括：
56.步骤101、获取样本文本。
57.具体地，近年来随着深度学习的发展，各类复杂的神经网络在各类领域上取得了良好的性能，得到了广泛的应用。然而，在司法领域，医疗领域，金融领域等敏感领域当中，基于神经网络的系统很少进行落地使用，其根本原因在于这些复杂的神经网络缺乏可解释性；其中，给出输入中各部分对于输出的贡献，这样的解释形式就是归因解释。归因解释方法可以给出输入当中每个特征对模型的输出的贡献大小，可以在一定程度上解释模型的推理过程，因此在近年来得到了很多的关注。
58.不同的归因解释方法对于同一个模型同一个样例会产生完全不同的解释结果，选用哪种归因解释方法就成为了新的研究问题，因此需要建立良好的评价方式来衡量各个归因解释方法的优劣。
59.示例性的，对于原始输入进行同义词替换保证输入的语义不变，同时将替换之后的新句子放入模型中，模型的输出也保持一致，在这样的输入语义一致且模型输出相同的前提下，模型的推理依据也应该保持相似，然而，进行同义词替换后，不同解释方法对应的解释变化程度也各不相同。本发明实施例中提出解释方法的优劣，即解释方法的稳定性在于对原始输入加以少量修改保持语义不变，如果修改后的语句与原始语句放入同一模型的输出相同，其解释也应该尽可能相同。
60.为了准确地对各个归因解释方法的优劣进行衡量，本发明实施例从各个归因解释方法的稳定性维度出发，对各个归因解释方法的稳定性进行衡量，以达到衡量归因解释方法优劣的目的。其中，本发明实施例中设定同义词替换后变化程度越小的解释方法其稳定性越好，更值得人们去信任该解释方法。
61.本发明实施例为了实现对各个归因解释方法的稳定性的准确衡量，也就是实现对各个归因解释方法的稳定性进行准确衡量，首先需要获取样本文本。
62.步骤102、对样本文本进行文本对抗攻击，得到攻击后的样本文本。
63.具体地，通过对获取到的样本文本进行文本对抗攻击，也就是对样本文本中的单词进行同义词替换，就可以得到攻击后的样本文本。
64.步骤103、分别对样本文本和攻击后的样本文本采用多个归因解释方法进行解释，得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值。
65.具体地，在获取到样本文本和攻击后的样本文本后，本发明实施例中采用不同的归因解释方法，分别对样本文本和攻击后的样本文本进行解释，得到样本文本中各个单词的归因值及攻击后的样本文本中各个单词的归因值。也就是采用各种归因解释方法对攻击前的样本文本进行解释，再采用各种解释方法对攻击后的样本文本进行解释，从而根据攻击前的解释结果和攻击后的解释结果就可以对各个攻击解释方法的稳定性进行衡量。
66.步骤104、基于样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值，确定各个归因解释方法对应的归因值排序发生变化的单词数量。
67.具体地，采用各种归因解释方法对样本文本进行解释，就可以得到样本文本中各个单词的归因值；相应地，在对样本文本攻击后，采用各种归因解释方法对攻击后的样本文本进行解释，就可以得到攻击后的样本文本中各个单词的归因值；其中，归因值表示了样本文本中各个特征(单词)对输出的贡献大小。本发明中为了准确衡量各个归因解释方法的稳
定性，基于样本文本中各个单词之间的相对重要性排名变化情况，而不是简单的关注各个单词的归因值的变化情况，进行各个归因解释方法的稳定性的衡量；也就是基于攻击前后的样本文本中归因值排序发生变化的单词数量来衡量各个归因解释方法的稳定性，即基于攻击前后的样本文本中各个单词之间的归因值排序的相似度来衡量各个归因解释方法的稳定性。
68.例如，对于文本分类任务，可以在其数据集上训练得到一个模型p(y|x)，其中，x表示待分类的文本，y表示分类结果，p(y|x)表示分类模型；对于长度为n的文本，利用归因解释方法可以得到相应的解释ek，对其中的归因值进行降序排序即可得到对应的排名序列其中表示原始输入中的第i个单词对模型输出的贡献的降序排名，对该序列再次进行排序即可得到位置序列其中表示原始输入中的第i个单词在重要性降序排序当中的排位。
69.可选地，单词替换后，文本的所有单词中归因值排序发生变化的单词数量可以通过如下公式来确定，即可以通过如下公式来衡量文本的解释变化程度：
70.上述公式统计文本的所有单词中归因值排序发生变化的单词数量。其中，表示样本文本ei中第k个单词对模型输出的贡献的降序排名；表示攻击后的样本文本ej中第k个单词对模型输出的贡献的降序排名。
71.可选地，文本的部分单词中归因值排序发生变化的单词数量可以通过如下公式来确定：
72.上述公式只统计文本的k个单词中归因值排序发生变化的单词数量。其中，表示样本文本ei中第k个单词对模型输出的贡献的降序排名；表示攻击后的样本文本ej中第k个单词对模型输出的贡献的降序排名。
73.例如，样本文本e1中的各个单词对模型输出的贡献，也就是样本文本中各个单词的归因值为e1＝{0.1，0.5，0.3，0.2}，归因值进行降序排序后为r1＝{3，0，1，2}，对该序列再次进行排序即可得到位置序列p1＝{1，2，3，0}；攻击后的样本文本中各个单词的归因值为e2＝{0.6，0.3，0.4，0.2}，归因值进行降序排序后为r1＝{0，2，1，3}；对该序列再次进行排序即可得到位置序列p2＝{0，2，1，3}；根据上述计算方法，就可以确定出样本文本和攻击后的样本文中所有单词中归因值发生变化的单词数量d
count
(ei,ej)＝3；在k＝3时，文本的前3个单词中归因值排序发生变化的单词数量为d
topk
(ei,ej)＝2。
74.步骤105、根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性。
75.具体地，在确定出归因值排序发生变化的单词数量后，就可以基于确定出的归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性。
76.例如，第一个归因解释方法对应的归因值排序发生变化的单词数量为5，第二个归因解释方法对应的归因值排序发生变化的单词数量为2，第二个归因解释方法对应的解释
变化程度较小，则可以确定第二个归因解释方法的稳定性较高，第二个归因解释方法的稳定性更优。
77.上述实施例的方法，基于攻击后的样本文本中归因值排序发生变化的单词数量确定各个归因解释方法的稳定性，即基于攻击前后的样本文本中归因值排序的相似度来确定各个归因解释方法的稳定性，从各个归因解释方法的稳定性维度出发，为归因解释方法的衡量和选择提供了合理准确的评价标准和评价结果，实现了对各个归因解释方法优劣的准确衡量。
78.在一实施例中，对样本文本进行文本对抗攻击，得到攻击后的样本文本，包括：
79.确定样本文本中的各个单词的攻击顺序及各个单词对应的同义词集合；
80.根据攻击顺序和各个单词对应的同义词集合，对样本文本进行攻击，得到攻击后的样本文本。
81.具体地，为了准确地衡量各个归因解释方法的稳定性的优劣，本发明实施例基于攻击后的样本文本中归因值排序发生变化的单词数量来确定各个归因解释方法的稳定性。可选地，在对样本文本进行文本对抗攻击时，需要确定样本文本中的各个单词的攻击顺序及各个单词对应的同义词集合，进而根据确定出的各个单词的攻击顺序及各个单词对应的同义词集合，对样本文本进行攻击。例如，文本x＝ω1ω2…
ωi…
ωn，首先计算每个单词的显著性大小，以计算第i个单词ωi的显著性wsi为例，将该单词变为0向量，则原始输入变为第i个单词ωi的显著性wsi通过如下公式计算：
[0082][0083]
其中，单词显著性是指当一个单词被设置为未知(即在词汇表外)时，分类器输出概率的变化程度，y
ori
表示模型为原始输入输出的标签类别。通过上式计算出每个单词的显著性后，对原始输入中的所有单词按显著性大小进行排序，该单词顺序即为所需要的单词替换顺序，也就是根据各个单词的显著性确定样本文本中的各个单词的攻击顺序，如对显著性最大的单词进行替换，替换后文本中5个单词的归因值排序发生变化；对显著性最小的单词进行替换，替换后0个单词的归因值排序发生变化。
[0084]
进一步地，在确定样本文本中各个单词的攻击顺序后，对于每一个要替换的单词，可以从待替换单词的同义词集合中选取合适的同义词进行替换。可选地，可以根据待替换单词的同义词集合中多个义原中各个同义词的重复次数确定各个同义词的打分结果，即重复次数多的打分结果多，重复次数少的打分结果低。可选地，待替换单词的同义词集合可以选用基于义原的资源库hownet进行构造，构造方式如图2所示，如待替换的单词“作家writer”的同义词可以为义原人类(human)的{警察(police)作者(author),老师(teacher)，诗人(poet)},义原编写(compile)的{编辑(edit)，redact(编辑)，诗人(poet),作者(author)}和义原文学的(literature){小说(novel)，诗人(poet)，作者(author)，诗歌(poetry)}三个义原的组合，找出其他的同时由这三个义原组合而成的单词(诗人(poet)或作者(author))即为“作家writer”的同义词。
[0085]
在确定了样本文本中的各个单词的攻击顺序及各个单词对应的同义词集合后，就可以基于确定出的攻击顺序及各个单词对应的同义词集合，对样本文本进行攻击，使得对样本文本的攻击更加具有针对性和方向性，可以有效地获取攻击后归因值排序发生变化的
单词数量，准确地确定各个归因解释方法的稳定性。
[0086]
上述实施例的方法，通过确定样本文本中的各个单词的攻击顺序及各个单词对应的同义词集合，使得对样本文本的攻击更加具有针对性和方向性，从而也就可以有效地获取攻击后的归因值排序发生变化的单词数量，进而基于获取到的归因值排序发生变化的单词数量，也就可以准确地确定各个归因解释方法的稳定性。
[0087]
在一实施例中，根据攻击顺序和各个单词对应的同义词集合，对样本文本进行攻击，得到攻击后的样本文本各个单词，包括：
[0088]
对各个单词对应的同义词集合中的各个同义词进行打分，得到各个同义词的打分结果；
[0089]
根据攻击顺序和各个单词对应的同义词的打分结果，对样本文本进行攻击。
[0090]
具体地，根据攻击顺序和各个单词对应的同义词集合，对样本文本进行攻击时，样本文本中的待替换单词可能存在多个同义词。本发明实施例通过对同义词集合中的各个同义词进行打分，得到各个同义词的打分结果，进而基于各个同义词的打分结果就可以确定使用哪个同义词进行单词的替换。可选地，使用同义词集合中打分结果最高的同义词进行单词替换，生成解释差异尽可能差别大的样例，可以更加有效的获取攻击后的样本文本中归因值排序发生变化的单词数量，准确地确定各个归因解释方法的稳定性。
[0091]
可选地，对各个单词对应的同义词集合中的各个同义词进行打分，得到各个同义词的打分结果，包括：
[0092]
根据样本文本中的各个单词的同义词，对样本文本中的单词进行替换，得到各个目标文本；目标文本包括同义词；
[0093]
分别对样本文本和目标文本采用归因解释方法进行解释，得到样本文本中各个单词的归因值以及目标文本中各个单词的归因值；
[0094]
根据样本文本中各个单词的归因值及各个目标文本中各个单词的归因值，确定各个同义词对应的各个目标文本中归因值排序发生变化的单词数量；
[0095]
根据各个目标文本中归因值排序发生变化的单词数量，对各个同义词进行打分，得到各个同义词的打分结果。
[0096]
具体地，为了有效的获取攻击后的样本文本中归因值排序发生变化的单词数量，并基于归因值排序发生变化的单词数量确定各个归因解释方法的稳定性，本发明实施例通过对替换单词的同义词集合中的各个同义词打分，进而基于各个同义词的打分结果就可以确定使用哪个同义词进行单词的替换，生成解释差异尽可能差别大的样例，从而也就可以有效的获取攻击后的样本文本中归因值排序发生变化的单词数量，并基于归因值排序发生变化的单词数量准确地确定各个归因解释方法的稳定性。
[0097]
例如，为了在同义词集合中选择出合适的同义词进行替换，定义以下打分函数：
[0098]
score(x1,x2)＝d(e1,e2)
×
(1-||y
1-y2||0)
[0099]
其中，该打分函数表示将句子x1替换成句子x2的分数，其中d(e1,e2)为衡量解释相似度的指标，即使用同义词e2替换样本文本中的单词e1后归因值排序发生变化的单词数量，y1，y2分别表示将x1，x2放入模型之后得到的输出标签。根据以上得分函数，可以从候选的同义词表中选择得分最高的单词进行替换。以替换单词ωi为例：
[0100][0101]
其中，为单词ωi的同义词表集合，xi‘
表示将原始句子中的ωi替换成单词之后得到的句子。
[0102]
上述实施例的方法，通过对替换单词的同义词集合中的各个同义词打分，进而基于各个同义词的打分结果就可以确定使用哪个同义词进行单词的替换，从而也就可以有效的获取攻击后的样本文本中归因值排序发生变化的单词数量，并基于归因值排序发生变化的单词数量准确地确定各个归因解释方法的稳定性。
[0103]
在一实施例中，根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性，包括：
[0104]
根据归因值排序发生变化的单词数量和预设的攻击成功条件，确定各个归因解释方法的攻击成功率；
[0105]
根据各个归因解释方法的攻击成功率，确定各个归因解释方法的稳定性。
[0106]
具体地，对样本文本进行攻击后，就可以基于各个归因解释方法对应的归因值排序发生变化的单词数量，确定各个归因解释方法的攻击成功率。可选地，根据归因值排序发生变化的单词数量和预设的攻击成功条件，确定各个归因解释方法的攻击成功率，从而根据各个归因解释方法的攻击成功率，确定各个归因解释方法的稳定性。
[0107]
例如，通过设立一系列不同的攻击成功的条件，来查看不同归因解释方法的攻击成功率，在相同条件下，攻击成功率越低的表示该解释方法的稳定性更好。如基于归因值排序发生变化的单词数量设立以下攻击成功条件：d
count
》α
×
length和d
topk
《β，其中α∈{0.5,0.6,0.7,0.8,0.9,0.95}，β∈{1,2,3,4,5}。其中，α越大表示越困难的攻击成功条件，β越小表示越困难的攻击成功条件，如果在20％的修改率之内达成条件，则视为攻击成功，否则视为攻击失败。在这一系列不同的攻击成功条件上进行实验，测试出不同解释方法的攻击成功率，从而也就确定出了各个归因解释方法的稳定性。
[0108]
例如，设置攻击成功条件为：d
count
》α
×
length，其中文本的长度length为10，α设置为0.5，则表示文本攻击后归因值排序发生变化的单词数量大于5个时，则攻击成功。若进行文本攻击后，第一种解释方法对应的归因值排序发生变化的单词数量为10，第二种解释方法对应的归因值排序发生变化的单词数量为0，则表示第一种解释方法攻击成功，第一种归因解释方法的成功率高，第二种归因解释方法的成功率低，攻击成功率越低的表示该解释方法的稳定性更好，则表明第二种归因解释方法对应的归因值排序发生变化的单词数量少，第二种归因解释方法的稳定性较第一种归因解释方法的稳定性更好。
[0109]
上述实施例的方法，基于归因值排序发生变化的单词数量设置攻击成功条件，攻击成功率越高，则表明在使用同义词进行替换后，替换后的样本文本中归因值排序发生变化的单词数量越多，则该解释方法越不稳定；若攻击成功率越低，则表明在使用同义词进行替换后，替换后的样本文本中归因值排序发生变化的单词数量越少，则该解释方法越稳定，准确地衡量了各个归因解释方法的稳定性。
[0110]
在一实施例中，根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性，包括：
[0111]
根据归因值排序发生变化的单词数量，确定各个归因解释方法的解释相似度；
[0112]
根据各个归因解释方法的解释相似度，确定各个归因解释方法的稳定性。
[0113]
具体地，在确定样本文本中的各个单词的攻击顺序后，可以替换替换固定个数m个单词，可选地，m取1，2，3三个值；替换相同数目的单词后，根据归因值排序发生变化的单词数量，确定各个归因解释方法的解释相似度，进而基于各个归因解释方法的解释相似度，就可以确定各个归因解释方法的稳定性。
[0114]
示例性的，为了验证本技术提出的归因解释方法的稳定性的确定方法的有效性，本发明在两个广泛使用的文本分类数据集sst-2和imdb上进行实验。其中，用来检验的归因解释方法包括以下五种：lime：基于ribeiro(2016)的方法；leave-one-out(loo)：基于li(2016)的方法；vanilla gradient(vg)：基于simonyan(2013)的方法；smooth gradient(sg)：基于smilkov(2017)的方法；integrated gradient(ig)：基于sundarajan(2017)的方法。
[0115]
可选地，考虑到归因解释方法生成解释需要耗费大量时间,本发明的实验验证部分在两个广泛使用的数据集中采样500个样例进行实验，根据数据独立同分布的原则，在这些采样的样例上得到的结果同样具有说服力。在这些采样出来的样例上，对五种广泛使用的归因解释方法进行实验，测试其稳定性相关的指标，得出其稳定性优劣。
[0116]
可选地，如图3和图4所示，通过设立不同的攻击成功条件参数，测试不同解释方法的攻击成功率，根据攻击成功率大小比较即可清晰的观察出这五种归因解释方法稳定性上的优劣。如图3和图4所示，在不同的攻击成功条件下，第一种解释方法的攻击成功率最低，表明第一种解释方法的稳定性最高。
[0117]
可选地，如图5所示，替换固定个数m个单词，通过替换打分高的同义词，尽可能生成解释差异更大的样例，为不同解释方法生成的样例的解释。其中，在不同数据集不同模型中，本发明仍然可以清楚地检测出五种归因解释方法在稳定性上的优劣，其中，变化(change)指标被定义为相应等级发生变化的职位的百分比；斯皮尔曼(spearman)指标是两种解释之间的斯皮尔曼秩序相关性；交叉(inte)指标定义为扰动前后5个最重要标记的交集大小，其中，第一种归因解释方法表示lime归因解释方法，第二种归因解释方法表示leave-one-out归因解释方法，第三种归因解释方法表示vanilla gradient归因解释方法，第四种归因解释方法表示smooth gradient归因解释方法，第五种归因解释方法表示integrated gradient归因解释方法，可以发现这五种归因解释方法在稳定性上从好到差的顺序为：lime，integrated gradient，leave-one-out，smooth gradient，vanilla gradient，即解释方法lime的稳定性最高。
[0118]
为进一步说明本发明所提出的解释方法的稳定性评价框架的通用性，不局限于某一固定的攻击顺序和构造同义词表的方式，进行以下实验验证。
[0119]
可选地，将攻击顺序设定为一个随机顺序，各个解释方法的解释相似度指标如图6所示；其中，第一种归因解释方法表示lime归因解释方法，第二种归因解释方法表示leave-one-out归因解释方法，第三种归因解释方法表示vanilla gradient归因解释方法，第四种归因解释方法表示smooth gradient归因解释方法，第五种归因解释方法表示integrated gradient归因解释方法，可以发现这五种归因解释方法在稳定性上从好到差的顺序为：lime，integrated gradient，leave-one-out，smooth gradient，vanilla gradient，即解
释方法lime的稳定性最高。
[0120]
可选地，构建同义词表的方式选用另一种资源wordnet，各个解释方法的解释相似度指标如图7所示；其中，第一种归因解释方法表示lime归因解释方法，第二种归因解释方法表示leave-one-out归因解释方法，第三种归因解释方法表示vanilla gradient归因解释方法，第四种归因解释方法表示smooth gradient归因解释方法，第五种归因解释方法表示integrated gradient归因解释方法，可以发现这五种归因解释方法在稳定性上从好到差的顺序为：lime，integrated gradient，leave-one-out，smooth gradient，vanilla gradient，即解释方法lime的稳定性最高。
[0121]
通过这两个实验说明，对攻击顺序和构建同义词表的方式进行修改，得出的这五种归因解释方法的稳定性优劣和之前保持一致。从而进一步说明本发明所提出的评价框架十分通用，可以有效的评价归因解释方法的稳定性。
[0122]
施例性的，本发明实施例提供的归因解释方法的稳定性的确定方法如图8所示，具体如下：
[0123]
首先，定义归因解释方法稳定性相关的一系列指标，同时定义攻击成功或失败对应的条件。
[0124]
然后，利用现有基于词替换的文本对抗攻击方法得到输入文本中词替换的一个顺序。
[0125]
随后，选定原始文本中要替换掉的单词，同时根据定义的稳定性相关的指标将要替换掉的单词从其同义词表中选择使得句子的解释的稳定性下降最多的单词进行替换；
[0126]
根据单词替换顺序重复进行文本中单词的替换，直至满足定义的攻击成功或失败对应的条件；
[0127]
最后，对数据集中的例子都进行上述操作，计算出在该数据集上的攻击成功率以及得到攻击成功的例子对应的对抗样本。对不同的解释方法应用上述过程得到不同解释方法的稳定性相关的指标，根据这些指标可以得到解释方法在稳定性上的性能优劣。
[0128]
本发明实施例仅在数据集中的部分样例进行实验验证，这是由于归因解释方法生成解释十分耗时，根据独立同分布的原则，随机采样数据集中的部分样例进行实验所得到的实验结果同样具有说服力。在这些采样的样例中对五个现有的广泛使用的特征归因解释方法进行实验，给出这五种解释方法之间的稳定性优劣排名。
[0129]
需要说明的时，本发明实施例提出的衡量归因解释方法稳定性的指标主要衡量的是各特征之间的相对重要性排名的稳定性，其中包括全局的特征以及最重要的特征两个衡量的角度。相应的的攻击成功或失败的条件也都基于这些指标。
[0130]
另外，本发明实施例所用的基于单词替换的文本对抗攻击方法并不局限于某一特定的方法，仅需得到一个原始文本当中单词替换的顺序即可，即使是随机的顺序也是有效的，该顺序仅影响攻击的性能，并不会影响对归因解释方法稳定性评价的有效性。
[0131]
本发明实施例所用的同义词表同样也不局限于某一固定资源，只要能提供一些同义词的候选即可满足需求，具体的同义词表所选用的资源也仅影响攻击的性能，不会影响现有归因解释方法稳定性评价的有效性。
[0132]
本发明实施例包含两种不同形式的评价方式，一是设定较高难度的攻击成功条件计算攻击成功率；二是设立一定能达成的条件，计算替换相同数目单词之后的样本在解释
稳定性相关指标上的性能。
[0133]
下面对本发明提供的归因解释方法的稳定性的确定装置进行描述，下文描述的归因解释方法的稳定性的确定装置与上文描述的归因解释方法的稳定性的确定方法可相互对应参照。
[0134]
图9是本发明提供的归因解释方法的稳定性的确定装置的结构示意图。本实施例提供的归因解释方法的稳定性的确定装置，包括：
[0135]
获取模块710，用于获取样本文本；
[0136]
处理模块720，用于对样本文本进行文本对抗攻击，得到攻击后的样本文本；
[0137]
分别对样本文本和攻击后的样本文本采用多个归因解释方法进行解释，得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值；
[0138]
基于样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值，确定各个归因解释方法对应的归因值排序发生变化的单词数量；
[0139]
确定模块730，用于根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性。
[0140]
可选地，所述获取模块720，具体用于：确定样本文本中的各个单词的攻击顺序及各个单词对应的同义词集合；
[0141]
根据攻击顺序和各个单词对应的同义词集合，对样本文本进行攻击，得到攻击后的样本文本。
[0142]
可选地，所述获取模块720，具体用于：对各个单词对应的同义词集合中的各个同义词进行打分，得到各个同义词的打分结果；
[0143]
根据攻击顺序和各个单词对应的同义词的打分结果，对样本文本进行攻击。
[0144]
可选地，所述获取模块720，具体用于：根据样本文本中的各个单词的同义词，对样本文本中的单词进行替换，得到各个目标文本；目标文本包括同义词；
[0145]
分别对样本文本和目标文本采用归因解释方法进行解释，得到样本文本中各个单词的归因值以及目标文本中各个单词的归因值；
[0146]
根据样本文本中各个单词的归因值及各个目标文本中各个单词的归因值，确定各个同义词对应的各个目标文本中归因值排序发生变化的单词数量；
[0147]
根据各个目标文本中归因值排序发生变化的单词数量，对各个同义词进行打分，得到各个同义词的打分结果。
[0148]
可选地，所述确定模块730，具体用于：根据归因值排序发生变化的单词数量和预设的攻击成功条件，确定各个归因解释方法的攻击成功率；
[0149]
根据各个归因解释方法的攻击成功率，确定各个归因解释方法的稳定性。
[0150]
可选地，所述确定模块730，具体用于：根据归因值排序发生变化的单词数量，确定各个归因解释方法的解释相似度；
[0151]
根据各个归因解释方法的解释相似度，确定各个归因解释方法的稳定性。
[0152]
本发明实施例的装置，其用于执行前述任一方法实施例中的方法，其实现原理和技术效果类似，此次不再赘述。
[0153]
图10示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信
总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行归因解释方法的稳定性的确定方法，该方法包括：获取样本文本；对样本文本进行文本对抗攻击，得到攻击后的样本文本；分别对样本文本和攻击后的样本文本采用多个归因解释方法进行解释，得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值；基于样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值，确定各个归因解释方法对应的归因值排序发生变化的单词数量；根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性。
[0154]
此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0155]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的归因解释方法的稳定性的确定方法，该方法包括：获取样本文本；对样本文本进行文本对抗攻击，得到攻击后的样本文本；分别对样本文本和攻击后的样本文本采用多个归因解释方法进行解释，得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值；基于样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值，确定各个归因解释方法对应的归因值排序发生变化的单词数量；根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性。
[0156]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的归因解释方法的稳定性的确定方法，该方法包括：获取样本文本；对样本文本进行文本对抗攻击，得到攻击后的样本文本；分别对样本文本和攻击后的样本文本采用多个归因解释方法进行解释，得到样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值；基于样本文本中各个单词的归因值以及攻击后的样本文本中各个单词的归因值，确定各个归因解释方法对应的归因值排序发生变化的单词数量；根据归因值排序发生变化的单词数量，确定各个归因解释方法的稳定性。
[0157]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0158]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可
借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0159]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同攻击；而这些修改或者攻击，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：图像刷新优化方法、装置及电子设备与流程

归因解释方法的稳定性的确定方法、装置和设备

相关文献

最热文献