一种处理方法、装置及电子设备与流程

2022-06-01 02:04:43 来源：中国专利 TAG：

1.本技术涉及人工智能
技术领域：
：，更具体的说，是涉及一种处理方法、装置及电子设备。
背景技术：
：：2.人工智能技术目前已成熟应用于各个领域，但在提升人工智能处理结果准确度方面仍然还有很大的努力空间。3.例如，通过机器学习模型自动获得的预测或标注结果，往往不能完全正确，因此在实际应用中需要进行人工检验。基于当前的检验方案，如想要大批量修正，一种方法是对模型进行重新训练，进而采用重新训练的模型再次进行预测和标注，然而这种方式无法做到即时修正错误；另一种方法是基于规则硬性指定类似错误，比如样本具有某些相同上下文等规则，但这种方式的修正准确率很难保证。技术实现要素：4.有鉴于此，本技术提供如下技术方案：5.一种处理方法，包括：6.获得第一数据集，所述第一数据集中的数据带有标注类型，所述标注类型基于机器学习模型处理获得；7.确定所述第一数据集中的第一数据的修正信息，所述修正信息指示将所述第一数据的标注类型从第一类型修正为第二类型；8.确定所述第一数据中与所述第二类型具有关联关系的第一特征；9.将所述第一数据集中包含所述第一特征的其他数据的标注类型由所述第一类型调整为所述第二类型。10.可选地，在所述确定所述第一数据中与所述第二类型具有关联关系的第一特征后，还包括：11.基于所述第二类型与所述第一特征的所述关联关系修正所述机器学习模型。12.可选地，所述确定所述第一数据中与所述第二类型具有关联关系的第一特征，包括：13.基于可解释性人工智能技术确定所述机器学习模型处理输出所述第二类型所依赖的第一特征。14.可选地，所述基于可解释性人工智能技术确定所述机器学习模型处理输出所述第二类型所依赖的第一特征，包括：15.基于所述第一数据获得所述第一数据的近似样本集；16.通过所述机器学习模型得到所述近似样本集中每个样本数据的标签和置信度；17.确定每个所述样本数据与所述第一数据之间的相似性权重；18.基于样本数据对应的标签、置信度和相似性权重确定所述第一数据中各个特征与标注类型的关联数据；19.从所述第一数据的各个特征中确定所述机器学习模型处理输出所述第二类型所依赖的第一特征。20.可选地，所述确定每个所述样本数据与所述第一数据之间的相似性权重，包括：21.对所述近似样本集中的各个样本数据进行第一处理，所述第一处理用于将文本数据转变为机器可识别的标识数据；22.基于所述标识数据将对应的样本数据与所述第一数据之间的余弦距离确定为相似性权重。23.可选地，所述对所述近似样本集中的各个样本数据进行第一处理，包括：24.通过词袋特征、预训练模型或词向量模型对所述近似样本集中的各个样本数据进行第一处理。25.可选地，所述基于样本数据对应的标签、置信度和相似性权重确定所述第一数据中各个特征与标注类型的关联数据，包括：26.基于各个样本数据对应的标签、置信度和相似性权重构建所述近似样本集的加权回归模型，输出得到所述第一数据中各个特征与标注类型的关联数据。27.可选地，在所述确定所述第一数据集中的第一数据的修正信息后，还包括：28.确定所述第一数据中与所述第一类型具有关联关系的第二特征；29.则所述将所述第一数据集中包含所述第一特征的其他数据的标注类型由所述第一类型调整为所述第二类型，包括：30.将所述第一数据集中同时包含所述第一特征和所述第二特征的其他数据的标注类型由所述第一类型调整为第二类型。31.本技术还公开了一种处理装置，包括：32.数据集获得模块，用于获得第一数据集，所述第一数据集中的数据带有标注类型，所述标注类型基于机器学习模型处理获得；33.修正确定模块，用于确定所述第一数据集中的第一数据的修正信息，所述修正信息指示将所述第一数据的标注类型从第一类型修正为第二类型；34.特征确定模块，用于确定所述第一数据中与所述第二类型具有关联关系的第一特征；35.修正调整模块，用于将所述第一数据集中包含所述第一特征的其他数据的标注类型由所述第一类型调整为所述第二类型。36.进一步地，本技术还公开了一种电子设备，包括：37.处理器；38.存储器，用于存储所述处理器的可执行程序指令；39.其中，所述可执行程序指令包括：获得第一数据集，所述第一数据集中的数据带有标注类型，所述标注类型基于机器学习模型处理获得；确定所述第一数据集中的第一数据的修正信息，所述修正信息指示将所述第一数据的标注类型从第一类型修正为第二类型；确定所述第一数据中与所述第二类型具有关联关系的第一特征；将所述第一数据集中包含所述第一特征的其他数据的标注类型由所述第一类型调整为所述第二类型。40.经由上述的技术方案可知，本技术实施例公开了一种处理方法、装置及电子设备，方法包括：获得第一数据集，第一数据集中的数据带有基于机器学习模型处理获得标注类型；确定第一数据集中的第一数据的修正信息，修正信息指示将第一数据的标注类型从第一类型修正为第二类型；确定第一数据中与所述第二类型具有关联关系的第一特征；将第一数据集中包含第一特征的其他数据的标注类型由第一类型调整为第二类型。该方案在人工修订出一个错误标注的情况下，能够自动处理分析出样本数据中与正确标注结果具有关联关系的特征，进而基于该特征与正确标注结果之间的关联关系对其他包含该特征且标注错误的样本数据进行统一批量修正；由于修正原则基于特征与标注结果自身的逻辑关系实现，因此能够实现同类型错误标注的批量即时修正，且能够保证修正操作的准确性。附图说明41.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。42.图1为本技术实施例公开的一种处理方法的流程图；43.图2为本技术实施例公开的确定第一数据中第一特征的流程图；44.图3为本技术实施例公开的确定样本数据与第一数据的相似性权重的流程图；45.图4为本技术实施例公开的使用可解释性人工智能技术修正标注结果的流程示意图；46.图5为本技术实施例公开的lime算法工作流程实现示意图；47.图6为本技术实施例公开的一种处理装置的结构示意图；48.图7为本技术实施例公开的一种电子设备的结构示意图。具体实施方式49.为了引用和清楚起见，下文中使用的技术名词的说明、简写或缩写总结如下：50.lime：localinterpretablemodel-agnosticexplanations，机器学习模型解释工具。51.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。52.本技术实施例可以应用于电子设备，本技术对该电子设备的产品形式不做限定，可以包括但并不局限于智能手机、平板电脑、可穿戴设备、个人计算机(personalcomputer，pc)、上网本等，可以依据应用需求选择。53.图1为本技术实施例公开的一种处理方法的流程图。参见图1所示，处理方法可以包括：54.步骤101：获得第一数据集，所述第一数据集中的数据带有标注类型，所述标注类型基于机器学习模型处理获得。55.所述第一数据集中包括多个样本数据，这些样本数据已经经过机器学习模型的标注处理，带有标注类型。由于机器学习模型的人工智能处理能力与真实的人工相比仍有差距，因此第一数据集中的样本数据的标注类型会存在一定的错误率；本技术实施例公开的处理方法，既是提供一种能够实时高效的对机器学习模型的错误标注数据进行修正的方案。56.步骤102：确定所述第一数据集中的第一数据的修正信息，所述修正信息指示将所述第一数据的标注类型从第一类型修正为第二类型。57.其中，所述第一类型为机器学习模型对所述第一数据的原始标注类型，所述第二类型为用户修正的正确的标注类型。58.由于机器学习模型的处理结果存在一定的错误率，因此在机器学习模型对第一数据集中的样本数据标注完成后，用户会人工对标注结果进行核查。在核查发现错误的标注类型后，会手动修改标注结果，例如将标注“负面评价”修正为“正面评价”。59.步骤103：确定所述第一数据中与所述第二类型具有关联关系的第一特征。60.具体的，可以基于可解释性人工智能技术确定所述机器学习模型处理输出所述第二类型所依赖的第一特征。可解释性人工智能技术可以但不限制为lime算法。61.在用户手动修正了一个错误的标注类型后，本实施例所述处理方法将会分析原本标注错误的第一数据中与正确标注结果，也即所述第二类型具有关联关系的第一特征。需要说明的是，这里的第一特征可以包括一个或多个特征。例如，在基于姓名标注性别的机器学习模型中，对于“张婷”的名字，标注结果为“女”，其中特征“婷”与标注结果“女”具有关联关系，此示例中的第一特征有一个，即名字“婷”。再如，在基于姓名和身高标注性别的机器学习模型中，一个样本数据为“陈明明，189cm”，还有一个样本数据为“陈明明，163cm”，由于“明明”的名字可能是女性，也可能是男性，如果仅依靠名字，很难给出明确的标注结果，这种情况下结合样本数据中的身高信息，可以得到准确的标注结果；则对于样本数据“陈明明，189cm”，标注结果为“男”，对于样本数据“陈明明，163cm”，标注结果为“女”；此示例中的第一特征有两个，一个是名字“明明”，另一个是身高“189cm”或“163cm”。62.本技术方案中，不基于特定规则来确定第一数据与正确标注结果之间的关系，例如第一数据具有某些相同上下文的规则，这样的规则往往具有很大的限制性，难以覆盖存在些许差异的其他情况。而本技术实施例中，以第一数据自身的特征为基础，分析处理其中各个特征对正确标注结果的影响，从而得到特征→标注结果的逻辑关联关系；也即从本质上判断出，在何种情况下，机器学习模型会给出何种标注结果。这里得到的逻辑关联关系不受样本数据，也即第一数据之外的其他数据干扰，有助于后续确定其他同种类型的标注错误。63.步骤104：将所述第一数据集中包含所述第一特征的其他数据的标注类型由所述第一类型调整为所述第二类型。64.确定了第一数据中与第二类型具有关联关系的第一特征后，就确定了特征→标注结果的逻辑关联关系，这样就能够基于此逻辑关联关系，确定其他包括第一特征的样本数据。如果其他的包括第一特征的样本数据的标注类型也为第一类型，则需要将其修正为第二类型。65.需要说明的是，步骤104的执行是自动批量完成的，其过程不需要用户参与，只需要基于之前确定的第一特征与第二类型的标注结果之间的关联关系即可，从而动态地实时地完善机器学习模型的输出结果。66.本实施例所述处理方法针对机器学习模型初始标注的数据集，在人工修订出一个错误标注的情况下，能够自动处理分析出样本数据中与正确标注结果具有关联关系的特征，进而基于该特征与正确标注结果之间的关联关系对其他包含该特征且标注错误的样本数据进行统一批量修正；由于修正原则基于特征与标注结果自身的逻辑关系实现，因此能够实现同类型错误标注的批量即时修正，且能够保证修正操作的准确性。67.其他的一些实现中，在所述确定所述第一数据中与所述第二类型具有关联关系的第一特征后，还可以包括基于所述第二类型与所述第一特征的所述关联关系修正所述机器学习模型的步骤。68.基于第二类型与第一特征的关联关系修正机器学习模型，保证修正后的机器学习模型后续再遇到包含第一特征的样本数据后，不会再输出错误的标注结果，从而能够有效提升机器学习模型预测的准确率同时降低人工的工作量。69.图2为本技术实施例公开的确定第一数据中第一特征的流程图。参见图2所示，上述实施例中，所述基于可解释性人工智能技术确定所述机器学习模型处理输出所述第二类型所依赖的第一特征，可以包括：70.步骤201：基于所述第一数据获得所述第一数据的近似样本集。71.生成近似样本集的原则可以是随机替换掉样本数据中的某些词汇。例如，针对样本数据“款式新颖，但做工较差”，生成的近似样本可以是“款式挺好看”、“质量比较差”、“款式不错但质量不行”等，这些近似样本构成近似样本集。72.步骤202：通过所述机器学习模型得到所述近似样本集中每个样本数据的标签和置信度。73.其中的机器学习模型是为第一数据集标注结果的机器学习模型。使用相同的机器学习模型对近似样本集中的样本数据标注结果，保证处理算法的一致性。其中的标注结果包括所述标签和置信度。74.步骤203：确定每个所述样本数据与所述第一数据之间的相似性权重。75.样本数据均为所述第一数据的近似样本，不同的近似样本与第一数据的近似程度不同，也即相似性权重不同；而这些近似样本用于分析确定第一数据中各个特征与标注类型的关联关系，相似性权重一定程度上也会影响分析结果，因此需要确定每个所述样本数据与所述第一数据之间的相似性权重。具体如何确定相似性权重，将在后面的内容中详细介绍，在此不在过多说明。76.步骤204：基于样本数据对应的标签、置信度和相似性权重确定所述第一数据中各个特征与标注类型的关联数据。77.具体的，可以基于各个样本数据对应的标签、置信度和相似性权重构建所述近似样本集的加权回归模型，输出得到所述第一数据中各个特征与标注类型的关联数据。78.步骤205：从所述第一数据的各个特征中确定所述机器学习模型处理输出所述第二类型所依赖的第一特征。79.确定了所述第一数据中各个特征与标注类型的关联数据后，就可以从中找出机器学习模型处理输出所述第二类型所依赖的第一特征。80.上述内容完整的介绍了从第一数据中国确定第一特征的过程，以便于领域内技术人员更好的理解并实施本技术技术方案。81.图3为本技术实施例公开的确定样本数据与第一数据的相似性权重的流程图。结合图3所示，所述确定每个所述样本数据与所述第一数据之间的相似性权重，可以包括：82.步骤301：对所述近似样本集中的各个样本数据进行第一处理，所述第一处理用于将文本数据转变为机器可识别的标识数据。83.具体的，可以通过词袋特征、预训练模型、词向量模型等对所述近似样本集中的各个样本数据进行第一处理，实现从文本到数字的转换，已得到机器可识别的标识数据。84.步骤302：基于所述标识数据将对应的样本数据与所述第一数据之间的余弦距离确定为相似性权重。85.将文本数据转变为机器可识别的标识数据后，就可以方便的计算出样本数据与第一数据之间的余弦距离，也即相似性权重。86.为了更好的理解本技术内容，下面将给出一个以类别标注任务为实例的的流程介绍。87.1、在进行人工标注前，先通过机器学习模型给数据集c中的数据打上预标记。88.2、人工标注时，检查预标记数据并修订错误样本x的标签positive至正确标签negative。89.3、通过可解释性人工智能算法lime得到错误样本x的哪些特征导致模型进行了错误分类至标签positive，图4为本技术实施例公开的使用可解释性人工智能技术修正标注结果的流程示意图，图5为本技术实施例公开的lime算法工作流程实现示意图，可结合图4和图5理解本实例实现流程。90.a、针对错误样本“屏幕大，但携带不方便”，生成近似样本集，如“屏幕大很不错”、“屏幕大了好看视频”、“携带不方便”等；91.b、使用原始机器学习模型给这些近似样本打上标签和概率置信度；92.c、对近似样本集进行分词，得到词袋特征；93.d、基于词袋特征，计算近似样本与原始错误样本之间的余弦距离，视为相似性权重。94.e、基于近似样本集、相似性权重以及概率置信度，对这些近似样本做加权回归模型，回归模型的输出是特征及特征权重，得到了不同的特征对分类器(机器学习模型)的影响。如“屏幕大”支持“positive”类别，而特征“不方便”是反对“positive”类别。95.4、对数据集c中后续样本识别，如果也同时含有这些特征，而且预标注标签也为positive，那么自动批量化将其修订为标签negative，如后续待修订样本“携带不方便，因为屏幕太大了”、“携带不方便，大屏幕”等因为含有“不方便”反对“positive”类别，所以自动将其修订为“negative”类别。96.基于以上，其他实现中，在所述确定所述第一数据集中的第一数据的修正信息后，还可以包括：确定所述第一数据中与所述第一类型具有关联关系的第二特征。97.则所述将所述第一数据集中包含所述第一特征的其他数据的标注类型由所述第一类型调整为所述第二类型，可以包括：将所述第一数据集中同时包含所述第一特征(如图4中示出的“手”)和所述第二特征(如图4中示出的“屏幕大”)的其他数据的标注类型由所述第一类型调整为第二类型。98.本技术实施例所述处理方法，在人工修订出一个错误标注的情况下，能够自动处理分析出样本数据中与正确标注结果具有关联关系的特征，进而基于该特征与正确标注结果之间的关联关系对其他包含该特征且标注错误的样本数据进行统一批量修正。实现过程不需对机器学习模型进行重新训练，也不需要了解机器学习模型的内部结构和原理，对任意机器学习模型的结果都可实施，具有很好的适用性。99.对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。100.上述本技术公开的实施例中详细描述了方法，对于本技术的方法可采用多种形式的装置实现，因此本技术还公开了一种装置，下面给出具体的实施例进行详细说明。101.图6为本技术实施例公开的一种处理装置的结构示意图。参见图6所示，处理装置60可以包括：102.数据集获得模块601，用于获得第一数据集，所述第一数据集中的数据带有标注类型，所述标注类型基于机器学习模型处理获得。103.修正确定模块602，用于确定所述第一数据集中的第一数据的修正信息，所述修正信息指示将所述第一数据的标注类型从第一类型修正为第二类型。104.特征确定模块603，用于确定所述第一数据中与所述第二类型具有关联关系的第一特征。105.修正调整模块604，用于将所述第一数据集中包含所述第一特征的其他数据的标注类型由所述第一类型调整为所述第二类型。106.本实施例所述处理装置针对机器学习模型初始标注的数据集，在人工修订出一个错误标注的情况下，能够自动处理分析出样本数据中与正确标注结果具有关联关系的特征，进而基于该特征与正确标注结果之间的关联关系对其他包含该特征且标注错误的样本数据进行统一批量修正；由于修正原则基于特征与标注结果自身的逻辑关系实现，因此能够实现同类型错误标注的批量即时修正，且能够保证修正操作的准确性。107.一个实现中，处理装置还可以包括：模型修正模块，用于在特征确定模块所述确定所述第一数据中与所述第二类型具有关联关系的第一特征后，基于所述第二类型与所述第一特征的所述关联关系修正所述机器学习模型。108.一个实现中，所述特征确定模块具体可用于：基于可解释性人工智能技术确定所述机器学习模型处理输出所述第二类型所依赖的第一特征。109.一个实现中，所述特征确定模块可以包括：近似样本获得模块，用于基于所述第一数据获得所述第一数据的近似样本集；近似样本标注模块，用于通过所述机器学习模型得到所述近似样本集中每个样本数据的标签和置信度；权重确定模块，用于确定每个所述样本数据与所述第一数据之间的相似性权重；关联关系确定模块，用于基于样本数据对应的标签、置信度和相似性权重确定所述第一数据中各个特征与标注类型的关联数据；特征确定子模块，用于从所述第一数据的各个特征中确定所述机器学习模型处理输出所述第二类型所依赖的第一特征。110.一个实现中，所述权重确定模块可以包括：第一处理模块，用于对所述近似样本集中的各个样本数据进行第一处理，所述第一处理用于将文本数据转变为机器可识别的标识数据；权重确定子模块，用于基于所述标识数据将对应的样本数据与所述第一数据之间的余弦距离确定为相似性权重。111.一个实现中，所述第一处理模块具体可用于：通过词袋特征、预训练模型或词向量模型对所述近似样本集中的各个样本数据进行第一处理。112.一个实现中，所述关联关系确定模块具体可用于：基于各个样本数据对应的标签、置信度和相似性权重构建所述近似样本集的加权回归模型，输出得到所述第一数据中各个特征与标注类型的关联数据。113.一个实现中，所述修正确定模块还用于：确定所述第一数据中与所述第一类型具有关联关系的第二特征。则所述修正调整模块具体用于：将所述第一数据集中同时包含所述第一特征和所述第二特征的其他数据的标注类型由所述第一类型调整为第二类型。114.上述实施例中的所述的任意一种处理装置包括处理器和存储器，上述实施例中的数据集获得模块、修正确定模块、特征确定模块、修正调整模块、模型修正模块、近似样本获得模块、权重确定模块等均作为程序模块存储在存储器中，由处理器执行存储在所述存储器中的上述程序模块来实现相应的功能。115.处理器中包含内核，由内核去存储器中调取相应的程序模块。内核可以设置一个或多个，通过调整内核参数来实现回访数据的处理。116.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)，存储器包括至少一个存储芯片。117.在示例性实施例中，还提供了一种计算机可读存储介质，可直接加载到计算机的内部存储器，其中含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述处理方法任一实施例所示步骤。118.在示例性实施例中，还提供一种计算机程序产品，可直接加载到计算机的内部存储器，其中含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述所述的处理方法任一实施例所示步骤。119.进一步，本技术实施例提供了一种电子设备。图7为本技术实施例公开的一种电子设备的结构示意图。参见图7所示，电子设备包括至少一个处理器701、以及与处理器连接的至少一个存储器702、总线703；其中，存储器，用于存储所述处理器的可执行指令；处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的可执行程序指令，以执行上述的处理方法。120.其中，存储器中存储的可执行程序指令包括：获得第一数据集，所述第一数据集中的数据带有标注类型，所述标注类型基于机器学习模型处理获得；确定所述第一数据集中的第一数据的修正信息，所述修正信息指示将所述第一数据的标注类型从第一类型修正为第二类型；确定所述第一数据中与所述第二类型具有关联关系的第一特征；将所述第一数据集中包含所述第一特征的其他数据的标注类型由所述第一类型调整为所述第二类型。121.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。122.还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。123.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或
技术领域：
：内所公知的任意其它形式的存储介质中。124.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：检测内存泄露方法、装置、可读介质及电子设备与流程

一种处理方法、装置及电子设备与流程

相关文献

最热文献