一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法及装置与流程

2022-04-02 07:40:36 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种数据处理方法及装置。


背景技术:

2.随着人工智能技术的发展,计算机对于文本的处理能力越来越强,目前已能实现从非标准的文本信息中自动提取对应的标准数据项,以减少人工成本。
3.一种现有的提取方法中,预先获取多个标准数据项对应的标准数据元,并将待处理数据与多个标准数据元进行完全匹配,以将匹配成功的标准数据元对应的标准数据项作为待处理数据对应的标准数据项。而对无法完全匹配的待处理数据来说,则还需要对待处理数据和多个标准数据元进行语义分析,并选择语义分析相似度最高的标准数据元对应的标准数据项作为与待处理数据对应的标准数据项。然而,此种提取方法仅考虑标准数据项中的标准数据元信息,由于参照因素较少,很可能会使得提取结果出现问题。例如,该提取方法可能会将不同的待处理数据匹配为同一标准数据元,进而也就会将不同的待处理数据对应为同一标准数据项,这显然不利于提高匹配标准数据项的准确性。
4.有鉴于此,目前暨需一种数据处理方法,用于提高匹配标准数据项的准确性。


技术实现要素:

5.第一方面,本技术提供一种数据处理方法,包括:获取待处理信息;匹配待处理信息与各个预设数据项,各个预设数据项是通过组合标准限定词和标准数据元得到的,标准限定词和标准数据元用于指示标准数据项;若各个预设数据项中存在与待处理信息匹配的目标预设数据项,则将目标预设数据项作为待处理信息对应的标准数据项。
6.在上述方式中,通过组合能表征标准数据项的标准限定词和标准数据元得到预设数据项,使得预设数据项中能同时包含标准数据项中的标准限定词和标准数据元信息,如此,在参照待处理信息与预设数据项匹配标准数据项时,也能既不丢失待处理信息中的限定词,又能够精准定位待处理信息中的数据元,进而有助于提高匹配标准数据项的准确性。
7.一种可能的实现方式,获取待处理信息,包括:获取输入信息,判断输入信息中是否包括中文字段,若输入信息中包含中文字段,则将输入信息作为待处理信息,若输入信息中不包括中文字段,则将输入信息输入翻译器,并将翻译器输出的中文字段作为待处理信息。
8.通过上述方式,通过将包含中文字段的输入信息直接作为待处理信息,将不包含中文字段的待处理信息处理成中文字段后再作为待处理信息,既能不对满足匹配要求的待处理信息做其他额外的操作,有效提高信息处理的效率,又能确保在进行标准数据项匹配时,待处理信息都包含中文字段,以便基于高质量的待处理信息完成数据匹配,进一步保证标准数据项匹配的准确性。
9.一种可能的实现方式,翻译器中包含n个英文字段、n个英文字段中的每个英文字段对应的至少一个中文字段及至少一个中文字段在历次翻译中的输出次数,n为正整数。在
翻译待处理信息时,翻译器可以从n个英文字段中查找出输入信息中包含的目标英文字段,并输出目标英文字段对应的输出次数最多的中文字段。
10.在上述方式中,英文字段对应的中文字段可以认为是英文字段的中文注释,通过在翻译器中为一个英文字段设置对应的至少一个中文字段,使得翻译器中可以包含英文字段对应的全部中文注释,如此,在使用翻译器翻译英文字段时,能尽可能地避免丢失英文字段对应的任一中文注释,提高翻译结果的准确性。且,通过输出英文字段对应的各个中文字段中出现次数最多的中文字段,还能将当前场景下概率最大的中文字段作为输出结果,进一步提高翻译结果的准确性。
11.一种可能的实现方式,若预设数据项中不存在与待处理信息匹配的目标预设数据项,则可以根据待处理信息,从标准限定词中选择出至少一个潜在的标准限定词,以及从标准数据元中选择出至少一个潜在的标准数据元,并组合至少一个潜在的标准限定词和至少一个潜在的标准数据元,得到至少一个潜在预设数据项,之后确定待处理信息和至少一个潜在预设数据项中的每个潜在预设数据项的相似度,并将相似度不小于预设相似度阈值的目标潜在预设数据项作为待处理信息对应的标准数据项。
12.通过上述方式,在无法匹配待处理信息的情况下,并不是直接放弃数据处理,而是对待处理信息对应的标准限定词和标准数据元进行预筛选,以提取得到潜在的标准限定词和潜在的标准数据元以构成潜在的标准数据项,之后将相似度最高的潜在的标准数据项做为标准数据项。可见,该方式不仅能在待处理信息无法匹配预设数据项的情况下,也能得到待处理信息匹配的标准数据项,且还能通过预筛选及相似度计算等方式,在节省数据处理的数据量的同时,提高处理结果的准确性。
13.一种可能的实现方式,各个预设数据项呈现为字典树,和/或,n个英文字段呈现为字典树。
14.如此,通过使用字典树的形式存储信息,不仅能存储更多的信息,还能在查询时提高查询效率。
15.一种可能的实现方式,若确定不存在相似度不小于预设相似度阈值的目标潜在预设数据项,则将待处理信息输入标准数据项推荐模型,获得标准数据项推荐模型输出的推荐数据项;在推荐数据项审核通过后,将推荐数据项作为所述待处理信息对应的标准数据项。
16.在上述方式中,通过使用模型来计算相似度,还能提高确定判断目标潜在数据项的准确性。
17.一种可能的实现方式,在推荐数据项审核通过后,使用推荐数据项更新所述各个预设数据项。
18.在上述方式中,审核之后更新预设数据项,提高字典树的匹配能力。
19.一种可能的实现方式,方法还包括:在推荐数据项审核通过后,使用推荐数据项更新各个预设数据项。如此,通过不断充实预设数据项,能便于在后续重新匹配时,直接匹配到预设数据项,而不再需要执行后续操作,有效提高匹配效率。
20.第二方面,本技术提供一种数据处理装置,包括获取模块,用于获取待处理信息;匹配模块,用于匹配待处理信息与各个预设数据项,各个预设数据项是通过组合标准限定词和标准数据元得到的,标准限定词和标准数据元用于指示标准数据项;确定模块,用于若
确定各个预设数据项中存在与待处理信息匹配的目标预设数据项,则将目标预设数据项作为待处理信息对应的标准数据项。
21.一种可能的实现方式,获取模块具体用于:获取输入信息,判断输入信息中是否包括中文字段;若输入信息中包含中文字段,则将输入信息作为待处理信息;或者,若输入信息中不包括中文字段,则将输入信息输入翻译器,并将翻译器输出的中文字段作为待处理信息。
22.一种可能的实现方式,翻译器中包含n个英文字段、n个英文字段中的每个英文字段对应的至少一个中文字段及至少一个中文字段在历次翻译中的输出次数,n为正整数;翻译器用于从n个英文字段中查找出输入信息中包含的目标英文字段,输出目标英文字段对应的输出次数最多的中文字段。
23.一种可能的实现方式,确定模块还用于:若预设数据项中不存在与待处理信息匹配的目标预设数据项,则根据待处理信息,从标准限定词中选择出至少一个潜在的标准限定词,以及从标准数据元中选择出至少一个潜在的标准数据元,组合至少一个潜在的标准限定词和至少一个潜在的标准数据元,得到至少一个潜在预设数据项;确定待处理信息和至少一个潜在预设数据项中的每个潜在预设数据项的相似度,将相似度不小于预设相似度阈值的目标潜在预设数据项作为待处理信息对应的标准数据项。
24.一种可能的实现方式,各个预设数据项呈现为字典树,和/或,n个英文字段呈现为字典树。
25.一种可能的实现方式,所述确定模块还用于,若确定不存在相似度不小于预设相似度阈值的目标潜在预设数据项,则将所述待处理信息输入标准数据项推荐模型,获得所述标准数据项推荐模型输出的推荐数据项;在所述推荐数据项审核通过后,将所述推荐数据项作为所述待处理信息对应的标准数据项。
26.一种可能的实现方式,所述确定模块还用于在所述推荐数据项审核通过后,使用所述推荐数据项更新所述各个预设数据项。
27.第三方面,本技术提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序被运行时,执行上述第一方面中任一项设计的方法。
28.第四方面,本技术提供一种计算设备,包括:存储器,用于存储程序指令;处理器,用于调用存储器中存储的程序指令,按照获得的程序执行上述第一方面中任一项设计的方法。
29.第五方面,本技术提供一种计算机程序产品,当计算机程序产品在处理器上运行时,实现如上述第一方面中任一项设计的方法。
30.上述第二方面至第五方面的有益效果,具体可参照上述第一方面任一项设计可达到的有益效果,此处不再一一赘述。
附图说明
31.图1示例性示出本技术实施例提供的一种数据处理方法示意图;
32.图2示例性示出本技术实施例提供的一种翻译器的结构示意图;
33.图3示例性示出本技术实施例提供的一种字典树的结构示意图;
34.图4示例性示出本技术实施例提供的一种预设模型示意图;
35.图5示例性示出本技术实施例提供的一种标准数据项生成模型示意图;
36.图6示例性示出本技术实施例提供的一种数据处理装置示意图。
具体实施方式
37.需要说明的是,本技术中的数据处理方法用于匹配得到待处理信息对应的标准数据项,而标准数据项中至少包含中文信息,例如标准数据项可以是纯中文信息,也可以是中文信息和数字的组合形式等。例如,一种可能的应用场景中,相关部门会采集用户的大数据样本信息,比如人员流动信息、交通事故统计信息。其中,相关部门在采集人员流动信息时,通常是由流动人口所在单位或者所属居委会派遣人工以电子表格的形式进行统计填写,而统计人员在进行填写时,即便有填写说明,也仍然会出现表格填写不规范的情况,进而导致无相关部门无法按照设定好的标准数据项提取到其中的有用信息,不利于下一步的数据分析及存储的执行。而本技术的目的即在于将采集到的不标准的信息处理成标准的中文字段,例如,将“公民的身份证号码”处理成“公民身份证号码”,将“妈妈的sfz”处理成“母亲身份证号码”等,以便于下一步的数据分析及存储。
38.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
39.图1示例性示出本技术实施例提供的一种数据处理方法示意图,如图1所示,该方法包括:
40.步骤101,获取待处理信息。
41.一种可选地实施方式中,可以先获取输入信息,并判断输入信息中是否含有中文字段,若含有中文字段则直接将输入信息作为待处理信息,若不含有中文字段,则将输入信息输入翻译器,由翻译器将输入信息中的英文字段翻译成中文字段后,将翻译得到的中文字段作为待处理信息。
42.示例性地,上述输入信息可以来源于相关部门采集的大数据样本信息,比如人员流动信息、交通事故统计信息等。且,上述输入信息可以是中文字段、英文字段和字符中的至少一种,例如输入信息可以是纯中文信息,也可以是中文信息和英文信息的组合形式,还可以是纯英文信息,亦或是英文信息和字符的组合形式,等等,具体不作限定。
43.示例性地,在获取输入信息后,判断输入信息中是否含有中文字段之前,还可以对输入信息进行预处理,预处理诸如可以包括数据清洗,还可以包括数据校正或数据集成等。其中,数据清洗可以包括过滤输入信息中的无关字符(例如符号或语气词等),以便使清洗后的输入信息中能只包括中英文字符,降低后续数据处理的复杂性。或者,数据清洗还可以包括如下一项或多项操作:缺失值处理、异常值处理、剔除矛盾数据、样本去重、特征去重或口径一致化等,本技术对此不作限定。
44.示例性地,翻译器中可以包含n个英文字段、n个英文字段中的每个英文字段对应的至少一个中文字段、以及至少一个中文字段在历次翻译中的输出次数,n为正整数。例如,图2示例性示出本技术实施例提供的一种翻译器的结构示意图,该示例中,n个英文字段及其对应的各个信息可以以字典树的形式呈现。如图2所示,该字典树包括第一层至第三层,
第一层至第三层中的每层中包含至少一个节点,且每层中的节点可以与上一层中的一个节点和/或下一层中的一个或多个节点连接,所连接的上一层中的节点称为该节点的前驱节点,所连接的下一层中的节点称为该节点的后驱节点,且每个节点中包含一个三元组集合,三元组集合中的三个单元依次代表英文字符、中文字段和输出次数,三元组集合中的英文字符所在的单元不为空,而中文字段和输出次数这两个单元可以为空也可以不为空。应理解,其它示例中,一个节点中也可以包含多个英文字符,具体不作限定。下面介绍图2所示意的字典树的每一层结构:
45.字典树的第一层中包括节点201,节点201也称为根节点。
46.字典树的第二层包含节点202和节点203,且这两个节点都与第一层中的前驱节点201相连。在节点202的三元组集合中,英文字符单元中填写由英文字符s,由于没有与该英文字符s对应的中文字段,因此节点202的三元组集合中的中文字段单元以及对应的输出次数单元都为空。同理,在节点203的三元组集合中,英文字符单元中填写英文字符f,由于没有与该英文字符[f]对应的中文字段,因此节点203的三元组集合中的中文字段单元以及对应的输出次数单元都为空。
[0047]
第三层包含节点204、节点205与节点206,节点204和节点205与第二层中的前驱节点202连接,节点206与第二层中的前驱节点203连接。在节点 204的三元组集合中,英文字符单元中填写英文字符f,与前驱节点202组合形成的英文字符组[sf],由于没有与该英文字符组[sf]对应的中文字段,因此节点204的三元组集合中的中文字段单元以及对应的输出次数单元都为空。在节点204的三元组集合中,英文字符单元中填写英文字符m,与前驱节点202组合形成的英文字符组[sm],与该英文字符组[sm]对应的中文字段是“声明”,该中文字段出现的次数是1次。因此,三元组集合中的中文字段单元显示[声明],输出次数单元显示[1]。在节点206的三元组集合中,英文字符单元中填写英文字符z,与前驱节点202组合形成的英文字符组[fz],与该英文字符组[fz]对应的中文字段是“分值”和“分支”,“分值”出现的次数是8次,分支”出现的次数是1次。因此,三元组集合中的中文字段单元显示[分值,分支],输出次数单元显示[8,3]。
[0048]
第四层包含节点207,节点207与第三层中的前驱节点204连接。在节点 207的三元组集合中,英文字符单元中填写英文字符z,与前驱节点204组合和前驱节点202形成的英文字符组是[sfz],与该英文字符组[sfz]对应的中文字段是“身份证”和“收费站”,“身份证”出现的次数是3次,“收费站”出现的次数是1次。因此,三元组集合中的中文字段单元显示[身份证,收费站],输出次数单元显示[3,1]。
[0049]
综上所述,在上述图2的字典树中,英文字段的个数为3,分别为:sfz、 sm和fz。其中,sfz对应两个中文字段,即身份证和收费站,身份证在历次翻译中输出了3次,而收费站在历次翻译中输出了1次。sm对应唯一一个中文字段,即声明,声明在历次翻译中输出了1次。fz对应两个中文字段,即分值和分支,分值在历次翻译中输出了8次,而分支在历次翻译中输出了3次。
[0050]
进一步地,继续以图2所示意的字典树为例,在将输入信息输入翻译器后,翻译器可以从n个英文字段中查找出输入信息中包含的目标英文字段,并输出目标英文字段对应的输出次数最多的中文字段。下面举一个具体的例子进行说明:
[0051]
假设输入信息是[sfz]这样一组英文字符,将其输入图2所示的翻译器后,翻译器
会首先从第一层开始查询,由于在节点201处没有获得查询结果,因此翻译器继续向第二层查询。翻译器在第二层中的节点202处查询到英文字符s,是输入的字符组[sfz]中的第一个字符,但没有与其对应的中文字段,因此翻译器也无法获得查询结果,翻译器会接着从节点202继续往第三层查询。翻译器在第三层中的节点204处查询到英文字符f,是字符组[sfz]中的第二个字符f,但也没有与其对应的中文字段,因此翻译器也无法获得查询结果,翻译器会接着从节点204继续往第四层查询。翻译器在第四层中的节点207处查询到英文字符z,是字符组[sfz]中的第三个字符,且找到了与其对应的中文字段“身份证”和“收费站”,其中“身份证”出现3次,“收费站”出现1次,身份证出现的次数最多,因此翻译器输出“身份证”。至此,翻译器就将输入信息中的英文字符翻译成了包含中文字段的待处理信息。当然,经过上述步骤查询到最后一层后,如果翻译器还是没有查询到与英文字符对应的中文字段,则翻译器返回查询失败的消息,进而可确定输入信息不具有对应的标准数据项。
[0052]
需要说明的是,图2只是示例性地介绍一种字典树的可能结构。在其它示例中,字典树还可以具有其它结构,例如字典树的各层中还可以包含其他节点,其他节点可以是与前驱节点中的英文字符相关联的英文字符,也可以是从a到 z所有的英文字符,在此不做限定。此外,n个英文字段以及所对应的各个信息可以如图2中所示意的以字典树的形式呈现,也可以以其它形式呈现,诸如表格、数据库、栈或队列等,具体不作限定。
[0053]
步骤102,匹配待处理信息与各个预设数据项。其中,各个预设数据项是通过组合标准限定词和标准数据元得到的,标准限定词和标准数据元用于指示标准数据项。
[0054]
在上述步骤102中,标准限定词和标准数据元可以是从相关系统侧获取的。示例性地,相关系统侧可以预先设置有标准限定词和标准数据元的数据库,且该数据库中存储的数据还可以人为进行更新,例如由工作人员在历次业务操作中将有可能成为标准数据项的中文字段拆分成标准数据项和标准限定词后实时添加到数据库中。此外,相关系统侧可以按照预设周期或者实时方式将该数据库中的标准限定词和标准数据元发送给数据处理装置,以便数据处理装置能使用最全面且最新的信息执行本技术中的数据处理方法,有效提高数据处理的准确性。
[0055]
示例性地,标准数据元和标准限定词也可以以字典树的形式呈现。其中,字典树可以是根据标准数据元和标准限定词之间的关联关系,使用拆分标准数据元和标准限定词所得到的单个的中文字符构建得到的,字典树的每个节点中存储一个中文字符。例如,图3示例性示出本技术实施例提供的一种字典树的结构示意图,如图3所示,“申请人”、“申报单位”和“公民”是标准限定词,“身份证号码”、“姓名”、“住址”和“通信地址”是标准数据元,基于这三个标准限定词和四个标准数据元的关联关系,可以构建出“申请人身份证号码”、“申请人姓名”、“申请人单位通信地址”、“申报单位通信地址”、“公民住址”和“公民姓名”等预设数据项。
[0056]
需要说明的是,上述是将标准数据元和标准限定词拆分成单个字符来构建字典树的,此外还可以将标准数据元和标准限定词拆分成有关联的词组构建字典树,比如将“申请人”放在一个节点中,将“身份证号码”放在另一个节点中。
[0057]
步骤103,判断各个预设数据项中是否存在与待处理数据匹配的目标预设数据项,若是,则执行步骤104,若否,则执行步骤105。
[0058]
示例性地,假设待处理信息是“申请人姓名”,则将其输入如图3所示的字典树进行
查询,在第一层中没有获得查询结果,进而进入第二层继续查询。第二层的节点包含“申”和“公”两个中文字符,与待处理信息相对应的是“申”,因此可接着从包含“申”这一字符的节点继续向第三层查询。第三层的节点包含“报”和“请”两个中文字符,与待处理信息相对应的是“请”,因此可接着从包含“请”这一字符的节点继续向第四层查询。第四层的节点与待处理信息相对应的字符是“人”,因此可接着从包含“人”这一字符的节点向第五层查询。第五层的节点包含“身”、“姓”和“单”三个中文字符,与待处理信息相对应的是“姓”,因此可接着从包含“姓”这一字符的节点向第六层查询。第六层的节点与待处理信息相对应的字符是“名”。至此,待处理信息中“申请人姓名”与字典树中的预设数据项匹配成功,因此可将“申请人姓名”作为标准数据项,之后执行步骤104。
[0059]
反之,假设待处理信息是“妈妈身份证”,在第一层中没有中文字符,没有获得查询结果,进而进入第二层继续查询。第二层的节点包含“申”和“公”两个中文字符,没有与待处理信息中相对应的中文字段,则匹配不成功,即预设数据项中不存在与待处理信息匹配的目标预设数据项。之后执行步骤105。
[0060]
步骤104,将目标预设数据项作为待处理信息对应的标准数据项。
[0061]
步骤105,根据待处理信息,从标准限定词中选择出至少一个潜在的标准限定词,以及从标准数据元中选择出至少一个潜在的标准数据元,组合至少一个潜在的标准限定词和至少一个潜在的标准数据元,得到至少一个潜在预设数据项。
[0062]
示例性地,在选择潜在的标准限定词与潜在的标准数据元时,可以根据文本之间的编辑距离来确定,即将文本之间的编辑距离较近的至少两个文本字段作为同一类型。例如,假设待处理信息是“申请人本人的姓名”,则在这个中文字段中,“申请人”、“本人的”和“姓名”这三个词组中的字符之间的距离较近,因此可将“申请人”和“本人的”作为潜在的标准限定词,将“姓名”作为潜在的标准数据元。之后,组合“申请人”和“姓名”得到“申请人姓名”这个潜在的预设数据项,组合“本人的”和“姓名”得到“本人的姓名”这个潜在的预设数据项。
[0063]
步骤106,确定待处理信息和至少一个潜在预设数据项中的每个潜在预设数据项的相似度。
[0064]
步骤107,判断至少一个潜在预设数据项中是否存在与待处理信息的相似度不小于预设相似度阈值的目标潜在预设数据项,若是,则执行步骤108,若否,则执行步骤109。
[0065]
步骤108,将相似度不小于预设相似度阈值的目标潜在预设数据项作为待处理信息对应的标准数据项。
[0066]
示例性地,可以将待处理信息和组合得到的各个潜在预设数据项输入预设模型,并获得预设模型输出的目标潜在预设数据项。其中,预设模型可以根据待处理信息中提取得到的特征字符构建第一特征向量,根据潜在预设数据项中的每个潜在预设数据项提取得到的特征字符构建第二特征向量,计算第一特征向量和第二特征向量的相似度,并输出相似度最高的第二特征向量所属的目标潜在预设数据项。如此,通过先将待处理信息和至少一个潜在预设数据项进行向量化处理后再计算相似度,能以向量方式节省相似度计算所需处理的数据量,提高数据处理的效率。且,通过使用模型来计算相似度,还能提高确定判断目标潜在数据项的准确性。
[0067]
本技术实施例中,预设模型可以是深度神经网络模型、分类模型或机器学习模型
等,具体不作限定。示例性地,图4示出本技术实施例提供的一种预设模型的结构示意图,如图4所示,该预设模型包括输入层401、输入层402、表示层403、表示层404和匹配层406,输入层401连接表示层403,输入层 402连接表示层404,表示层403和表示层404分别连接匹配层406。在使用时,输入层401接收待处理信息后发送给表示层403,表示层403将待处理信息表示为预设模型能识别的机器语言后发送给匹配层406。输入层402接收各个潜在预设数据项后发送给表示层404,表示层404将各个潜在预设数据项表示为预设模型能识别的机器语言后发送给匹配层406。之后由匹配层406利用余弦相似度算法,计算待处理信息和每个潜在预设数据项的相似度,计算公式如下:
[0068][0069]
在上述公式(1.1)中,yq为待处理信息,y
di
为第i个潜在预设数据项,i 为大于0且小于全部潜在预设数据项的数量的整数。
[0070]
之后,匹配层506可以选择出与第一特征向量相似度最高的第二特征向量,并比较其相似度是否大于预设阈值,若大于预设阈值,就将该第二特征向量对应的潜在预设数据项输出,若不大于预设阈值,则返回匹配失败的消息。
[0071]
步骤109,使用标准数据项生成模型,为待处理信息推荐标准数据项。
[0072]
其中,标准数据项生成模型可以是seq2seq模型。图5示例性示出一种标准数据项生成模型的结构示意图,如图5所示,标准数据项生成模型分为两部分,左下半部分为编码器501,右半部分是解码器502。在使用时,若接收到预设模型输出的匹配失败的消息,则说明预设模型并未在各个潜在预设数据项中找到与待处理数据匹配程度较高的潜在预设数据项,此时,可再将待处理信息输入编码器501,编码器可以从待处理信息中提取特征字符,并对特征字符进行向量化处理后压缩为特定维度的第一特征向量,之后发送给解码器502,解码器502可以对第一特征向量中的每个元素进行语义分析,并根据语义分析结果生成指定的序列后输出,该输出的序列即认为是标准数据项生成模型输出的待处理信息对应的推荐数据项。例如,图5所示意的x1、x2、x3

xn即是待处理信息,y1、y2、y3

yn即是标准数据项生成模型输出的x1、x2、 x3

xn对应的推荐数据项。且,在获取到标准数据项生成模型输出的推荐数据项之后,还需要采用人工方式对其进行审核,如果人为确定推荐数据项是合理的,则可以将推荐数据项作为待处理信息对应的标准数据项,如果认为确定推荐数据是不合理的,则确定不存在待处理信息对应的标准数据项。
[0073]
一种可选地实施方式中,还可以在上述人工审核通过后,使用推荐数据项完善预先存储的各个预设数据项,即可以对图3所示的字典树进行更新。如此,通过不断充实预设数据项,能便于在后续重新匹配时,直接匹配到预设数据项,而不再需要执行后续操作,有效提高匹配效率。
[0074]
通过上述方式,通过组合能表征标准数据项的标准限定词和标准数据元得到预设数据项,使得预设数据项中能同时包含标准数据项中的标准限定词和标准数据元信息,如此,在参照待处理信息与预设数据项匹配标准数据项时,也能既不丢失待处理信息中的限定词,又能够精准定位待处理信息中的数据元,进而有助于提高匹配标准数据项的准确性。
[0075]
基于相同的技术构思,本技术实施例还提供了一种数据处理装置,该数据处理装置可执行前述实施例提供的数据处理方法的流程。
[0076]
图6为本技术实施例提供的一种数据处理装置的结构示意图,该数据处理装置包括:
[0077]
获取模块601,用于获取待处理信息;匹配模块602,用于匹配待处理信息与各个预设数据项,各个预设数据项是通过组合标准限定词和标准数据元得到的,标准限定词和标准数据元用于指示标准数据项;若各个预设数据项中存在与待处理信息匹配的目标预设数据项,则将目标预设数据项作为待处理信息对应的标准数据项。
[0078]
一种可能的实现方式,获取模块601,用于获取待处理信息,包括:获取输入信息;判断输入信息中是否包括中文字段;若输入信息中包含中文字段,则将输入信息作为待处理信息;或者,若输入信息中不包括中文字段,则将输入信息输入翻译器,并将翻译器输出的中文字段作为待处理信息。
[0079]
一种可能的实现方式,翻译器中包含n个英文字段、n个英文字段中的每个英文字段对应的至少一个中文字段及至少一个中文字段在历次翻译中的输出次数,n为正整数;翻译器用于从n个英文字段中查找出输入信息中包含的目标英文字段,输出目标英文字段对应的输出次数最多的中文字段。
[0080]
一种可能的实现方式,确定模块还用于:若预设数据项中不存在与待处理信息匹配的目标预设数据项,则根据待处理信息,从标准限定词中选择出至少一个潜在的标准限定词,以及从标准数据元中选择出至少一个潜在的标准数据元,组合至少一个潜在的标准限定词和至少一个潜在的标准数据元,得到至少一个潜在预设数据项;确定待处理信息和至少一个潜在预设数据项中的每个潜在预设数据项的相似度,将相似度不小于预设相似度阈值的目标潜在预设数据项作为待处理信息对应的标准数据项。
[0081]
一种可能的实现方式,各个预设数据项呈现为字典树,和/或,n个英文字段呈现为字典树。
[0082]
一种可能的实现方式,若确定不存在相似度不小于预设相似度阈值的目标潜在预设数据项,则将待处理信息输入标准数据项推荐模型,获得标准数据项推荐模型输出的推荐数据项;在推荐数据项审核通过后,将推荐数据项作为所述待处理信息对应的标准数据项。
[0083]
一种可能的实现方式,在推荐数据项审核通过后,使用推荐数据项更新所述各个预设数据项。
[0084]
基于相同的技术构思,本发明实施例还提供了一种计算设备,包括:存储器,用于存储程序指令;
[0085]
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如图2所示意的方法。
[0086]
基于相同的技术构思,本发明实施例还提供了一种计算机可读存储介质,当所述计算机程序产品在处理器上运行时,实现如图2所示意的方法。
[0087]
基于相同的技术构思,本发明实施例还提供了一种计算机程序产品,当所述计算机程序产品在处理器上运行时,实现如图2所示意的方法。
[0088]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0089]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0090]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0091]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0092]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献