一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

媒体数据修正方法、装置、计算机、存储介质及程序产品与流程

2022-06-11 08:37:15 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种媒体数据修正方法、装置、计算机、存储介质及程序产品。


背景技术:

2.不规范文本是指一段或一句表达方式不符合常规语法的文本,如带有省略、冗余的非正式文本、带有错别字的文本或其他包含特殊字符的网络文本等。而这种不规范文本往往会影响用户或机器的阅读,因此,需要对不规范文本进行文本修正,以提高不规范文本的可阅读性。目前,一般情况下,会枚举常见的语法错误类型,基于语法错误类型所对应的修正规则对文本中的错误部分进行修正,得到正常文本,然而由于文本的复杂性及语法错误类型的多样性,可能导致部分错误无法被检测或修正,从而降低文本修正的准确性,且文本修正适用性较差。


技术实现要素:

3.本技术实施例提供了一种媒体数据修正方法、装置、计算机、存储介质及程序产品,可以提高对数据修正的准确性及通用性。
4.本技术实施例一方面提供了一种数据修正方法,该方法包括:
5.获取待修正媒体数据;
6.获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;
7.获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符,在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字符;i为正整数;
8.在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
9.本技术实施例一方面提供了一种数据修正方法,该方法包括:
10.获取参考数据样本,对参考数据样本进行加噪处理,得到参考数据样本所对应的待修正数据样本;
11.将待修正数据样本输入初始数据修正模型中,获取组成待修正数据样本的初始字符串样本及初始字符串样本之间的样本字符关联度,基于初始字符串样本及样本字符关联度,确定待修正数据样本的修正样本数据特征;
12.在初始数据修正模型中,获取第i轮预测中的样本输入字符与修正样本数据特征之间的样本特征注意力,基于样本特征注意力对修正样本数据特征进行数据预测,得到位于第i轮预测中的样本输入字符之后且相邻的样本预测字符,在样本预测字符不为结束字符时,将样本预测字符确定为第(i 1)轮预测中的样本输入字符;i为正整数;
13.在样本预测字符为结束字符时,将已预测出的每个样本预测字符组成用于对待修正数据样本进行修正的预测样本修正数据;
14.基于参考数据样本及预测样本修正数据,对初始数据修正模型进行参数调整,得到用于进行媒体数据修正的数据修正模型。
15.本技术实施例一方面提供了一种数据修正装置,该装置包括:
16.数据获取模块,用于获取待修正媒体数据;
17.特征获取模块,用于获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;
18.字符预测模块,用于获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符;i为正整数;
19.输入确定模块,用于在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字符;
20.数据生成模块,用于在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
21.其中,该数据获取模块,包括:
22.初始获取单元,用于获取初始检测媒体数据;
23.格式检测单元,用于对初始检测媒体数据进行数据格式检测;
24.预修正单元,用于若初始检测媒体数据中存在预修正格式,则基于预修正格式对初始检测媒体数据进行格式预修正处理,得到待修正媒体数据。
25.其中,该格式检测单元,包括:
26.数据分词子单元,用于对初始检测媒体数据进行分词处理,得到n个分词词组;n为正整数;
27.分词检测子单元,用于对n个分词词组分别进行数据格式检测,得到n个分词词组分别对应的词组数据格式;
28.预修正确定子单元,用于若n个分词词组分别对应的词组数据格式中存在预修正格式,则确定初始检测媒体数据中存在预修正格式。
29.其中,该预修正单元,包括:
30.词组获取子单元,用于若初始检测媒体数据中存在预修正格式,则获取预修正格式所对应的待修正词组;
31.字体转换子单元,用于若待修正词组的预修正格式为第一书写字体,则获取待修正词组在第二书写字体下的第一关联词组,将初始检测媒体数据中的待修正词组替换为第一关联词组,得到待修正媒体数据;
32.字符转换子单元,用于若待修正词组的预修正格式为第一字符格式,则获取待修正词组在第一字符格式下所对应的第一标准编码,基于第一标准编码,确定待修正词组在第二字符格式下所对应的第二标准编码,基于第二标准编码确定待修正词组的第二关联词组,将初始检测媒体数据中的待修正词组替换为第二关联词组,得到待修正媒体数据。
33.其中,预修正格式包括字符数量大于阈值的格式;该预修正单元,包括:
34.数据拆分子单元,用于若初始检测媒体数据中存在预修正格式,则基于预修正格
式,获取初始检测媒体数据中的语句间隔符,基于语句间隔符对初始检测媒体数据进行拆分处理,得到待修正媒体数据。
35.其中,初始字符串的数量为m,m为正整数;
36.该特征获取模块,包括:
37.字符串获取单元,用于获取组成待修正媒体数据的m个初始字符串;
38.关联获取单元,用于通过自注意力机制,获取m个初始字符串之间的字符关联度;
39.特征增强单元,用于基于m个初始字符串之间的字符关联度,对m个初始字符串的初始数据特征进行特征增强,得到m个初始字符串的增强数据特征;
40.特征融合单元,用于将m个初始字符串的增强数据特征进行特征融合,得到待修正媒体数据的待修正数据特征。
41.其中,该关联获取单元,包括:
42.相似确定子单元,用于通过自注意力机制,对第j个初始字符串的初始数据特征与其他初始字符串的初始数据特征进行点积处理,得到第j个初始字符串与其他初始字符串之间的字符相似度;j为小于或等于m的正整数;其他初始字符串是指m个初始字符串中除第j个初始字符串之外的初始字符串;
43.归一处理子单元,用于对第j个初始字符串与其他初始字符串之间的字符相似度进行归一化处理,得到第j个初始字符串与其他初始字符串之间的字符关联度;
44.该特征增强单元,包括:
45.增强获取子单元,用于基于第j个初始字符串与其他初始字符串之间的字符关联度,对其他初始字符串的初始数据特征进行加权处理,得到第j个初始字符串的待增强特征;
46.增强处理子单元,用于基于第j个初始字符串的待增强特征对第j个初始字符串的初始数据特征进行特征增强,得到第j个初始字符串的增强数据特征。
47.其中,初始字符串的数量为m,m为正整数;
48.该特征获取模块,包括:
49.该字符串获取单元,用于获取组成待修正媒体数据的m个初始字符串;
50.隐藏获取单元,用于获取第j个初始字符串的初始数据特征,获取第j个初始字符串与第(j 1)个初始字符串之间的字符关联度,基于第j个初始字符串与第(j 1)个初始字符串之间的字符关联度以及第j个初始字符串的初始数据特征,对第(j 1)个初始字符串的初始数据特征进行特征增强,得到第(j 1)个初始字符串的隐藏特征,直至得到第m个初始字符串的隐藏特征;j为小于m的正整数;
51.特征确定单元,用于将第m个初始字符串的隐藏特征,确定为待修正媒体数据的待修正数据特征。
52.其中,初始字符串的数量为m,m为正整数;
53.该特征获取模块,包括:
54.特征解析单元,用于获取组成待修正媒体数据的m个初始字符串,获取m个初始字符串分别对应的初始数据特征;
55.语义提取单元,用于对m个初始字符串分别对应的初始数据特征进行语义信息提取,得到m个初始字符串分别对应的语义特征;
56.特征池化单元,用于对m个初始字符串分别对应的语义特征进行池化处理,得到待修正媒体数据的待修正数据特征。
57.其中,该装置还包括:
58.数据合并模块,用于若待修正媒体数据的数量为至少两个,则将至少两个待修正媒体数据分别对应的参考媒体数据进行数据合并处理,得到待修正媒体数据对应的目标媒体数据;或者,
59.重复删除模块,用于若参考媒体数据中存在至少两个连续字符串,则对参考媒体数据中的至少两个连续字符串进行重复删除处理,得到待修正媒体数据对应的目标媒体数据;或者,
60.异常输出模块,用于若参考媒体数据与待修正媒体数据之间的数据尺度差异大于或等于异常差异阈值,则输出数据修正异常消息。
61.其中,该数据获取模块,包括:
62.请求响应单元,用于响应数据翻译请求,获取数据翻译请求所关联的待修正媒体数据;
63.该装置还包括:
64.数据翻译模块,用于获取数据翻译请求所请求的翻译语言类型,对参考媒体数据进行翻译处理,得到参考媒体数据在翻译语言类型下的译文数据;
65.译文输出模块,用于输出译文数据。
66.本技术实施例一方面提供了一种数据修正装置,该装置包括:
67.样本获取模块,用于获取参考数据样本;
68.样本加噪模块,用于对参考数据样本进行加噪处理,得到参考数据样本所对应的待修正数据样本;
69.样本特征获取模块,用于将待修正数据样本输入初始数据修正模型中,获取组成待修正数据样本的初始字符串样本及初始字符串样本之间的样本字符关联度,基于初始字符串样本及样本字符关联度,确定待修正数据样本的修正样本数据特征;
70.样本预测模块,用于在初始数据修正模型中,获取第i轮预测中的样本输入字符与修正样本数据特征之间的样本特征注意力,基于样本特征注意力对修正样本数据特征进行数据预测,得到位于第i轮预测中的样本输入字符之后且相邻的样本预测字符;i为正整数;
71.样本输入确定模块,用于在样本预测字符不为结束字符时,将样本预测字符确定为第(i 1)轮预测中的样本输入字符;
72.样本生成模块,用于在样本预测字符为结束字符时,将已预测出的每个样本预测字符组成用于对待修正数据样本进行修正的预测样本修正数据;
73.模型调整模块,用于基于参考数据样本及预测样本修正数据,对初始数据修正模型进行参数调整,得到用于进行媒体数据修正的数据修正模型。
74.其中,该样本加噪模块,包括:
75.字符删除单元,用于删除参考数据样本中的一个或至少两个字符,得到参考数据样本所对应的待修正数据样本;或者,
76.字符交换单元,用于对参考数据样本中的至少两个字符进行位置交换,得到参考数据样本所对应的待修正数据样本;或者,
77.占位添加单元,用于在参考数据样本中添加占位符,得到参考数据样本所对应的待修正数据样本;或者,
78.字符替换单元,用于将参考数据样本中的一个或至少两个字符替换为占位符,得到参考数据样本所对应的待修正数据样本。
79.本技术实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
80.处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用该计算机程序,以使包含该处理器的计算机设备执行本技术实施例一方面中的数据修正方法。
81.本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本技术实施例一方面中的数据修正方法。
82.本技术实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例一方面中的各种可选方式中提供的方法。换句话说,该计算机指令被处理器执行时实现本技术实施例一方面中的各种可选方式中提供的方法。
83.实施本技术实施例,将具有如下有益效果:
84.在本技术实施例中,获取待修正媒体数据;获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符,在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字符;i为正整数;在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。通过以上过程,可以对需要进行修正的待修正媒体数据进行字符串检测,确定组成待修正媒体数据的初始字符串,及初始字符串之间的字符关联度,以使得得到的待修正数据特征中可以表示该待修正媒体数据的基本语义信息,以及不同的初始字符串之间的关联性,可以基于待修正数据特征进行逐字符预测,由于待修正数据特征可以表示初始字符串之间的字符关联度,可以在进行逐字符预测时,可以基于字符关联度影响各个字符之间的顺序,并且逐字符预测可以进行缺失字符的补全及修正等,进而提高数据修正的准确性及通用性。
附图说明
85.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
86.图1是本技术实施例提供的一种媒体数据修正的网络交互架构图;
87.图2是本技术实施例提供的一种媒体数据修正场景示意图;
88.图3是本技术实施例提供的一种媒体数据修正的方法流程图;
89.图4是本技术实施例提供的一种媒体数据修正的具体的方法流程图;
90.图5是本技术实施例提供了一种模型结构示意图;
91.图6是本技术实施例提供的一种应用场景示意图;
92.图7是本技术实施例提供的一种媒体数据修正架构示意图;
93.图8是本技术实施例提供的一种全半角格式编码的部分示意图;
94.图9是本技术实施例提供的一种特殊字符映射的部分示意图;
95.图10是本技术实施例提供的一种模型训练场景示意图;
96.图11是本技术实施例提供的一种数据加噪场景示意图;
97.图12是本技术实施例提供的一种媒体数据修正装置示意图;
98.图13是本技术实施例提供的一种模型训练装置示意图;
99.图14是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
100.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
101.其中,本技术涉及人工智能领域的机器学习技术。其中,该机器学习技术,可以认为是使用神经网络进行一些映射任务,例如,从待修正媒体数据(如不规范文本)到参考媒体数据(如参考文本)的映射过程中,会有大量的已知的成对的样本对《不规范文本,参考文本》数据,上述神经网络的映射任务,相当于是一个数学映射过程,就是模拟人脑的一个神经突触的计算过程,从这些大量的已知数据中,可以学习一套有规律的映射过程,通过一个参数修正拟合(即参数调整)的过程,将模型适配到这些已知的数据,使得可以较好地完成从不规范文本到参考文本中的数据异常信息的修正映射等,以总结出一些从不规范文本到参考文本的变化关系,使得调整后得到的修正参数,可以对大量的数据异常信息进行修正处理。
102.在本技术实施例中,请参见图1,图1是本技术实施例提供的一种媒体数据修正的网络交互架构图。其中,计算机设备101可以与一个或至少两个业务设备之间进行数据交互,以三个业务设备为例,如图1中的业务设备102a、业务设备102b及业务设备102c等。可选的,计算机设备101可以直接获取待修正媒体数据,或者,可以从业务设备中获取待修正媒体数据,对该待修正媒体数据进行数据修正处理,得到对该待修正媒体数据进行修正后得到的参考媒体数据。举例来说,计算机设备101可以响应针对业务设备102b的数据修正请求,获取该数据修正请求所针对的待修正媒体数据,对该待修正媒体数据进行数据修正处理,得到该待修正媒体数据对应的参考媒体数据。可选的,计算机设备101可以将该参考媒体数据发送至该业务设备102b。
103.具体的,请参见图2,图2是本技术实施例提供的一种媒体数据修正场景示意图。如图2所示,计算机设备可以获取待修正媒体数据201,获取组成该待修正媒体数据201的初始字符串202,以及初始字符串202之间的字符关联度,基于初始字符串202及初始字符串202
之间的字符关联度,确定待修正媒体数据201的待修正数据特征203。举例来说,假定该初始字符串202的数量为m个,m为正整数,计算机设备可以获取初始字符串与其他初始字符串中的任意一个或多个初始字符串之间的字符关联度,基于该字符关联度对该初始字符串进行特征增强处理,得到该初始字符串所对应的初始字符特征,同理,可以得到m个初始字符串分别对应的初始字符特征,基于m个初始字符串分别对应的初始字符特征,确定待修正媒体数据201的待修正数据特征203。其中,初始字符串的其他初始字符串是指m个初始字符串中除该初始字符串之外的初始字符串。
104.进一步地,计算机设备可以获取输入字符,基于该输入字符与待修正数据特征203进行数据预测,具体的,计算机设备可以基于输入字符及待修正数据特征203对位于该输入字符之后的下一个字符进行预测,得到预测字符。若该预测字符不是结束字符,则将预测字符确定为下一个输入字符,继续进行字符预测;若该预测字符是结束字符,则表示已经基于待修正媒体数据预测出完整的媒体数据,可以将预测得到的各个预测字符组成该待修正媒体数据所对应的参考媒体数据。其中,可以认为该待修正数据特征203可以用于表征初始字符串之间的字符关联度,使得在逐字符预测时,可以基于该字符关联度对各个初始字符串的顺序等进行调整修正,而在待修正媒体数据对应的待修正数据特征的基础上进行字符预测,以保留该待修正媒体数据的语义信息等,并在字符预测的过程中可以对字符调整,进而提高数据修正的准确性,以及通用性。
105.可以理解的是,本技术实施例中所提及的业务设备可以是一种计算机设备,本技术实施例中的计算机设备包括但不限于终端设备或服务器。换句话说,计算机设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(augmented reality/virtual reality,ar/vr)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,mid),或者火车、轮船、飞行等场景下的终端设备等。如图1中所示,终端设备可以是一种笔记本电脑(如业务设备102b所示)、手机(如业务设备102c所示)或车载设备(如业务设备102a所示)等,图1仅例举出部分的设备,可选的,该业务设备102a是指位于交通工具103中的设备,业务设备102a可以用于与其他业务设备之间进行数据交互,与计算机设备101之间进行数据交互。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
106.可选的,本技术实施例中所涉及的数据可以存储在计算机设备中,或者可以基于云存储技术对该数据进行存储,在此不做限制。
107.进一步地,请参见图3,图3是本技术实施例提供的一种媒体数据修正的方法流程图。如图3所示,该数据修正过程包括如下步骤:
108.步骤s301,获取待修正媒体数据。
109.在本技术实施例中,计算机设备可以响应数据修正请求,获取该数据修正请求所指示的待修正媒体数据。可选的,计算机设备可以直接响应数据修正请求,或者,可以接收
业务设备所发送的数据修正请求,响应接收到的数据修正请求等,在此不做限制,即,数据修正请求的生成主体不做限制。可选的,计算机设备可以获取初始检测媒体数据,对初始检测媒体数据进行数据格式检测,若初始检测媒体数据中存在预修正格式,则基于预修正格式对初始检测媒体数据进行格式预修正处理,得到待修正媒体数据;若初始检测媒体数据中不存在预修正格式,则将该初始检测媒体数据确定为待修正媒体数据。可选的,该待修正媒体数据可以是文本数据或图像数据等,在此不做限制,即,对待修正媒体数据的媒体数据类型(如文本数据类型或图像数据类型等)不做限制。通过对初始检测媒体数据进行格式预修正处理,可以提高修正后得到的待修正媒体数据的适用性,进而提高对待修正媒体数据的修正效率。
110.其中,预修正格式是指媒体数据中需要进行预修正处理的数据格式,即,可以直接被检测到的需要修正的数据格式,该预修正格式的数量可以为一个或至少两个,可以包括但不限于第一书写字体、第一字符格式、字符数量大于阈值的格式或数据尺寸大于阈值的格式等。举例来说,计算机设备可以对初始检测媒体数据进行数据格式检测,若初始检测媒体数据中存在预修正格式,则获取预修正格式所对应的待修正词组;对待修正词组进行格式修正处理,得到待修正媒体数据。可选的,不同的媒体数据类型可以对应不同的预修正格式,此时,计算机设备可以获取初始检测媒体数据的媒体数据类型,获取该初始检测媒体数据的媒体数据类型所对应的预修正格式,基于获取到的预修正格式对初始检测媒体数据进行数据格式检测。例如,对于文本数据类型来说,该文本数据类型的媒体数据中所包括的媒体字符是文本类型的,具有书写字体、字符格式及字符数量等属性,因此,文本数据类型所对应的预修正格式可以包括但不限于第一书写字体、第一字符格式、字符数量大于阈值的格式等中的一个或多个格式;对于图像数据类型来说,该图像数据类型的媒体数据中所包括的媒体字符是图像像素,具有色值信息或数据尺寸的格式等属性,因此,该图像数据类型所对应的预修正格式可以包括但不限于第一色值格式及数据尺寸大于阈值等中的任意一个或多个等;也就是说,可以认为不同的媒体数据类型可能关联不同的属性,计算机设备可以获取媒体数据类型所关联的属性,基于媒体数据类型所关联的属性,确定该媒体数据类型所对应的预修正格式等,即,可以得到任意一种媒体数据类型所对应的预修正格式。可选的,当获取到初始检测媒体数据时,可以获取该初始检测媒体数据的媒体数据类型,获取该初始检测媒体数据的媒体数据类型所对应的预修正格式,对初始检测媒体数据进行数据格式检测,若初始检测媒体数据中存在初始检测媒体数据的媒体数据类型所对应的预修正格式,则基于获取到的预修正格式对初始检测媒体数据进行格式预修正处理,得到待修正媒体数据。
111.具体的,计算机设备可以获取初始检测媒体数据的媒体数据类型,获取初始检测媒体数据的媒体数据类型所对应的预修正格式等。其中,以上提及的属性、媒体数据类型及预修正格式等均是例举的部分取值,并不仅限于上述例举的可能性,即,属性不限制于上述提及的书写字体、字符格式、字符数量、色值信息及数据尺寸的格式等,还可以包括语言格式(包括但不限于中文格式、英文格式及法文格式等)等,在此不做限制。其中,一个初始检测媒体数据中可能包括一种或至少两种预修正格式。
112.具体的,计算机设备可以对初始检测媒体数据进行数据格式检测,若初始检测媒体数据中存在预修正格式,则获取预修正格式所对应的待修正词组。若待修正词组的预修
正格式为第一书写字体,则获取待修正词组在第二书写字体下的第一关联词组,将初始检测媒体数据中的待修正词组替换为第一关联词组,得到待修正媒体数据。其中,该第一书写字体可以是指通用字体,或者,第一书写字体可以基于组成初始检测媒体数据的媒体字符的格式所确定的等;其中,第二书写字体可以是指通用字体,或者,第二书写字体可以是基于组成初始检测媒体数据的媒体字符的格式所确定的。
113.可选的,计算机设备可以获取第一通用字体,将该第一通用字体确定为第一书写字体,获取第二通用字体,将该第二通用字体确定为第二书写字体;或者,计算机设备可以获取第三通用字体,将第三通用字体确定为第二书写字体,将除第二书写字体之外的书写字体确定为第一书写字体等。其中,该第一通用字体、第二通用字体及第三通用字体等的含义均可以参见上述通用字体的含义,此处的第一、第二及第三等仅是为了区分不同场景下的通用字体。其中,通用字体可以是一种字体结构,如宋体、仿宋、楷体或罗马字体等等,该通用字体还可以是一种书写字形,如繁体或简体等,在此不做限制。例如,假定第一字体为简体,则计算机设备将通用字体“繁体”确定为第一书写字体,对初始检测媒体数据进行数据格式检测,若该初始检测媒体数据中存在第一书写字体“繁体”的待修正词组,则将该待修正词组转换为在第二书写字体下的第一关联词组,得到待修正媒体数据,假定第二书写字体为“简体”,如得到待修正词组为“簡體”,将初始检测媒体数据中的该待修正词组“簡體”,替换为在第二书写字体下的第一关联词组“简体”,得到待修正媒体数据,如初始检测媒体数据为“...簡體xx”,得到待修正媒体数据为“...简体xx”。
114.可选的,计算机设备可以获取组成该初始检测媒体数据的媒体字符的字符字体,将数量最多的字符字体确定为第二书写字体,将该组成该初始检测媒体数据的媒体字符的字符字体中除第二书写字体之外的字符字体,确定为第一书写字体。或者,计算机设备可以获取组成该初始检测媒体数据的媒体字符的字符字体,获取组成该初始检测媒体数据的媒体字符的字符类型,基于字符类型对初始检测媒体数据的媒体字符进行聚类处理,得到h个字符集合,h为正整数,基于h个字符集合所包括的媒体字符的字符字体,确定h个字符集合分别对应的目标字符字体,将h个字符集合分别对应的目标字符字体,确定为h个字符集合分别对应的第二书写字体,根据h个字符集合分别对应的第二书写字体,确定h个字符集合分别对应的第一书写字体;例如,第k个字符集合所对应的第二书写字体为宋体,则将除第二书写字体“宋体”之外的字符字体,确定为第k个字符集合对应的第一书写字体,k为小于或等于h的正整数;例如,该字符类型可以是指媒体字符的类型,如中文类型或英文类型等,由于在进行媒体数据的显示时,不同的字符类型的媒体字符可能会使用不同的字符字体进行显示,因此,可以基于字符类型进行书写字体的更新修正,以提高预修正的准确性及灵活性。
115.其中,繁体还可能应用于一些场景中,如常规的繁体内容,还有诸如火星文等网络文本中所掺杂的繁体内容等,由于繁体有完整的繁简体映射字典可以使用,在需要简体进行表达的场景下,可以调用繁简体映射字典对初始检测媒体数据进行格式预修正处理,将媒体数据中的繁体字符(即繁体书写字体所对应的媒体字符)转换为简体字符,再执行步骤s302,提高待修正媒体数据的识别解析效率。
116.可选的,若待修正词组的预修正格式为第一字符格式,则可以获取待修正词组在第二字符格式下的第二关联词组,将初始检测媒体数据中的待修正词组替换为第二关联词
组,得到待修正媒体数据。可选的,若待修正词组的预修正格式为第一字符格式,则可以从字符映射表中,获取待修正词组在第二字符格式下的第二关联词组;或者,若待修正词组的预修正格式为第一字符格式,则可以获取待修正词组在第一字符格式下所对应的第一标准编码,基于第一标准编码,确定待修正词组在第二字符格式下所对应的第二标准编码,基于第二标准编码确定待修正词组的第二关联词组。进一步地,将初始检测媒体数据中的待修正词组替换为第二关联词组,得到待修正媒体数据。
117.可选的,预修正格式包括字符数量大于阈值的格式,若初始检测媒体数据中存在预修正格式,则基于预修正格式,获取初始检测媒体数据中的语句间隔符,基于语句间隔符对初始检测媒体数据进行拆分处理,得到待修正媒体数据。
118.可选的,预修正格式包括数据尺寸大于阈值的格式,此处的阈值可以认为是尺寸阈值,若初始检测媒体数据中存在数据尺寸大于阈值的格式的预修正格式,则获取初始检测媒体数据的媒体尺寸,基于初始检测媒体数据的媒体尺寸,对初始检测媒体数据进行切分,得到待修正媒体数据,该待修正媒体数据的尺寸小于或等于尺寸阈值。例如,该初始检测媒体数据为500*500的图像数据,尺寸阈值为200*200,基于初始检测媒体数据的媒体尺寸,对初始检测媒体数据进行切分,得到待修正媒体数据,如得到4个200*200的待修正媒体数据、2个100*200的待修正媒体数据、2个200*100的待修正媒体数据及一个100*100的待修正媒体数据,或者对初始检测媒体数据的宽和高均进行三等分等,具体对初始检测媒体数据的切分方式不做限制。
119.可选的,预修正格式包括第一色值格式,若初始检测媒体数据中存在第一色值格式,则从初始检测媒体数据中获取第一色值格式所对应的待修正媒体字符,将初始检测媒体数据中的待修正媒体字符的色值格式转换为第二色值格式,得到待修正媒体数据。可选的,计算机设备可以获取初始检测媒体数据中的媒体字符的色值格式,将对应的媒体字符的数量最多的色值格式确定为第二色值格式,将除第二色值格式之外的色值格式确定为第一色值格式。其中,色值格式可以包括但不限于红绿蓝(redgreenblue,rgb)格式、cmyk格式及lab格式等,其中,cmyk格式是指青(cyan)、洋红(magenta)、黄(yellow)、黑(black)等组成的一种色值格式,lab格式是以一个亮度分量l以及两个颜色分量a与b来表示颜色的色值格式等。通过对色值格式进行预修正,以对初始检测媒体数据中的异常的媒体字符进行更改,进而保障后续的使用。
120.可选的,预修正格式可以包括无效区域,若初始检测媒体数据中包括无效区域,则删除该初始检测媒体数据中的无效区域,得到待修正媒体数据。其中,无效区域可以是指无实际信息的区域,如媒体数据的白边或黑边,以及媒体数据的连续空白区域等。通过以上过程,删除初始检测媒体数据中的无效区域,以减少后续需要进行检测的数据量。
121.其中,以上仅为例举的几种预修正格式,还可以根据需要增加其他的预修正格式,可选的,在对初始检测媒体数据进行数据格式检测时,可以获取需要检测的d种预修正格式,检测该初始检测媒体数据中是否存在d种预修正格式,该初始检测媒体数据中存在d种预修正格式中的任意一个或多个预修正格式,即可以确定初始检测媒体数据中存在预修正格式,d为正整数。也就是说,预修正格式可以有很多,在对初始检测媒体数据进行检测时可以基于需要,获取需要进行检测的预修正格式,而无需一直对全部的预修正格式进行检测,从而提高数据格式检测的效率。
122.可选的,计算机设备可以对初始检测媒体数据进行分词处理,得到n个分词词组;n为正整数。对n个分词词组分别进行数据格式检测,得到n个分词词组分别对应的词组数据格式。若n个分词词组分别对应的词组数据格式中存在预修正格式,则确定初始检测媒体数据中存在预修正格式。可选的,对n个分词词组进行数据格式检测,可以是基于预修正格式,获取n个分词词组分别对应的词组数据格式。例如,预修正格式为第一书写字体,则获取的n个分词词组分别对应的词组数据格式,可以是n个分词词组分别对应的书写字体(即上述的字符字体);如预修正格式为第一字符格式,则获取的n个分词词组分别对应的词组数据格式,可以是n个分词词组分别对应的字符格式等。
123.步骤s302,获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征。
124.在本技术实施例中,计算机设备可以获取组成待修正媒体数据的初始字符串,其中,该初始字符串可以包括一个或至少两个字符。可选的,若待修正媒体数据为文本数据,则该初始字符串可以包括一个或至少两个文本字符;若待修正媒体数据为图像数据,则该初始字符串可以包括一个或至少两个像素字符等。进一步地,计算机设备可以获取初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征,使得该待修正数据特征可以表征该待修正媒体数据中的字符关联度的相关信息,该字符关联度可以表示初始字符串与初始字符串之间的关联性,关联性越强,相邻的可能性越强,因此,可以基于上述得到的待修正数据特征进行修正,以对初始字符串之间的排列顺序等进行调整,再加上,该待修正数据特征可以表示待修正媒体数据的相关信息(如语义信息等)等,使得基于待修正数据特征进行修正,还可以对待修正媒体数据进行语义或异常字符等进行修正,提高数据修正的准确性及通用性。
125.可选的,初始字符串的数量为m,m为正整数。
126.一种特征获取方式

下,计算机设备可以获取组成待修正媒体数据的m个初始字符串,通过自注意力机制,获取m个初始字符串之间的字符关联度。基于m个初始字符串之间的字符关联度,对m个初始字符串的初始数据特征进行特征增强,得到m个初始字符串的增强数据特征,此时,该m个初始字符串的增强数据特征,可以认为是上述图2中的初始字符串的初始字符特征。将m个初始字符串的增强数据特征进行特征融合,得到待修正媒体数据的待修正数据特征。
127.其中,在通过自注意力机制,获取m个初始字符串之间的字符关联度时,计算机设备可以通过自注意力机制,对第j个初始字符串的初始数据特征与其他初始字符串的初始数据特征进行点积处理,得到第j个初始字符串与其他初始字符串之间的字符相似度;j为小于或等于m的正整数;其他初始字符串是指m个初始字符串中除第j个初始字符串之外的初始字符串。通过该过程,可以区分待修正媒体数据中的各个初始字符串的重要性,点积处理得到的点积值越大,表示对应的两个向量的相似度越大,这两个向量分别对应的初始字符串也就越相似,也就是说,可以基于点积处理的结果确定初始字符串与初始字符串之间的字符相似度。进一步地,可以对第j个初始字符串与其他初始字符串之间的字符相似度进行归一化处理,得到第j个初始字符串与其他初始字符串之间的字符关联度,此时,得到的第j个初始字符串与其他初始字符串之间的字符关联度的和可以认为1,组成了第j个初始字符串对其他初始字符串的注意力值(也可以认为是注意力程度)。在基于m个初始字符串
之间的字符关联度,对m个初始字符串的初始数据特征进行特征增强,得到m个初始字符串的增强数据特征时,计算机设备可以基于第j个初始字符串与其他初始字符串之间的字符关联度,对其他初始字符串的初始数据特征进行加权处理,得到第j个初始字符串的待增强特征。基于第j个初始字符串的待增强特征对第j个初始字符串的初始数据特征进行特征增强,得到第j个初始字符串的增强数据特征。可选的,可以将第j个初始字符串的待增强特征,确定为第j个初始字符串的增强数据特征;或者,可以将第j个初始字符串的待增强特征与第j个初始字符串的初始数据特征进行特征融合,得到第j个初始字符串的增强数据特征。例如,待修正媒体数据为“我爱旅游”,假定“旅”和“游”之间的字符关联度较高,因为“旅”和“游”经常会同时出现,组成一个常规的词组,所以语义关联度很大,使得“旅”的初始数据特征和“游”的初始数据特征的相似度较高。
128.一种特征获取方式

下,计算机设备可以获取组成待修正媒体数据的m个初始字符串。获取第j个初始字符串的初始数据特征,获取第j个初始字符串与第(j 1)个初始字符串之间的字符关联度,基于第j个初始字符串与第(j 1)个初始字符串之间的字符关联度以及第j个初始字符串的初始数据特征,对第(j 1)个初始字符串的初始数据特征进行特征增强,得到第(j 1)个初始字符串的隐藏特征,直至得到第m个初始字符串的隐藏特征;j为小于m的正整数。此时,该m个初始字符串的隐藏特征,可以认为是上述图2中的初始字符串的初始字符特征。将第m个初始字符串的隐藏特征,确定为待修正媒体数据的待修正数据特征。其中,隐层特征可以认为是在神经网络模型计算过程中,每一次计算叫一层网络,可能是线性的y=kx b,也可能是非线性的y=1/(e^(-x) 1)等。每一次计算的输出可以叫做该层网络得到的隐藏特征,或者可以称为隐藏状态(hidden state)。简单来说,相当于将待修正媒体数据中的每一个初始字符串依次作为输入,第一个初始字符串输入到特征获取网络中,得到一个输出,即第一个初始字符串的隐藏特征;再将第二个初始字符串输入到特征获取网络中,此时,会将前一个初始字符串(此时是指第一个初始字符串)的输出的隐藏特征与第二个初始字符串的初始数据特征,一起输入到特征获取网络中,使得在计算第二个初始字符串的时候,会得到前一个初始字符串的含义,使得第二个初始字符串得到的隐层特征,可以包含第一个初始字符串的相关信息;

;直至输入最后一个初始字符串(即第m个初始字符串),得到第m个初始字符串的隐藏特征,此时,第m个初始字符串的隐藏特征中包含了待修正媒体数据中的每个初始字符串的含义,也就得到了待修正媒体数据整体的一个含义,因此,可以将第m个初始字符串的隐藏特征,确定为待修正媒体数据的待修正数据特征。
129.一种特征获取方式

下,计算机设备可以获取组成待修正媒体数据的m个初始字符串,获取m个初始字符串分别对应的初始数据特征。对m个初始字符串分别对应的初始数据特征进行语义信息提取,得到m个初始字符串分别对应的语义特征,此时,该m个初始字符串分别对应的语义特征,可以认为是图2中的m个初始字符串分别对应的初始字符特征。对m个初始字符串分别对应的语义特征进行池化处理,得到待修正媒体数据的待修正数据特征。可选的,以第j个初始字符串为例,可以获取第j个初始字符串所包括的字符的字符向量,将第j个初始字符串所包括的字符的字符向量进行向量融合,得到第j个初始字符串的初始数据特征。其中,该向量融合方式包括但不限于向量相加、拼接及组合灯;池化处理包括但不限于特征位相加、取最大、取最小或取平均等。举例来说,待修正媒体数据为我爱麻辣狮子头”,会分成“《s》我爱”“我爱麻”“爱麻辣”“麻辣狮”“辣狮子”“狮子头”“子头《e》”这
七个初始字符串,其中《s》《e》分别代表开始和结束符号。将每一个初始字符串内的字符对应的字符向量经过相加、拼接、组合成二维矩阵等方式,分别输入到特征获取网络中计算,得到这个初始字符串的几个字符所代表的语义信息,为每个初始字符串输出一个语义特征。再将这些初始字符串的所有语义特征进行池化(pooling)处理,得到一个表示待修正媒体数据的语义信息的特征,即待修正数据特征,其中,池化处理的过程可以是:七个语义特征对应的每一位相加、取最大、取最小、取平均等,合并为一个向量。
130.一种特征获取方式

下,计算机设备可以获取组成待修正媒体数据的初始字符串,以及初始字符串之间的字符关联度,其中,在待修正媒体数据为图像数据时,该待修正媒体数据中的连续像素点可以组成一个有意义的碎片或文字图片中的一个笔画等,假定初始字符串的数量为m,可以基于m个初始字符串之间的字符关联度,得到m个初始字符串分别对应的像素特征,此时,该m个初始字符串分别对应的像素特征即为图2中m个初始字符串分别对应的初始字符特征。进一步地,可以基于m个初始字符串分别对应的像素特征,确定待修正媒体数据的待修正数据特征,使得该待修正数据特征可以表示该待修正媒体数据中的像素点之间的连续特性等。
131.进一步地,可以基于待修正数据特征进行多轮预测,以实现对待修正媒体数据的修正,其中,以第i轮预测为例,i为正整数,具体过程如下:
132.步骤s303,获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符。
133.在本技术实施例中,计算机设备可以获取第i轮预测中的输入字符,获取该第i轮预测中的输入字符与待修正数据特征之间的特征注意力,进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符。可选的,若i为1,则该第i轮预测中的输入字符可以认为是开始字符,由于在开始进行预测时,没有信息,则可以以开始字符作为第一轮预测的输入字符等。
134.步骤s304,在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字符。
135.在本技术实施例中,在第i轮预测中的预测字符不为结束字符时,表示未完成对待修正媒体数据的预测,因此,可以继续进行后续字符的预测,即,将第i轮预测中的预测字符,确定为第(i 1)轮预测中的输入字符。
136.步骤s305,在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
137.在本技术实施例中,在预测字符为结束字符时,表示完成了对待修正媒体数据的预测,因此,可以将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
138.在本技术实施例中,获取待修正媒体数据;获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符,在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字
符;i为正整数;在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。通过以上过程,可以对需要进行修正的待修正媒体数据进行字符串检测,确定组成待修正媒体数据的初始字符串,及初始字符串之间的字符关联度,以使得得到的待修正数据特征中可以表示该待修正媒体数据的基本语义信息,以及不同的初始字符串之间的关联性,可以基于待修正数据特征进行逐字符预测,由于待修正数据特征可以表示初始字符串之间的字符关联度,可以在进行逐字符预测时,可以基于字符关联度影响各个字符之间的顺序,并且逐字符预测可以进行缺失字符的补全及修正等,进而提高数据修正的准确性及通用性。
139.具体的,可以参见图4,图4是本技术实施例提供的一种媒体数据修正的具体的方法流程图。如图4所示,该数据修正过程包括如下步骤:
140.步骤s401,获取待修正媒体数据。
141.在本技术实施例中,可以参见图3中的步骤s301所示的具体描述,在此不再进行赘述。可选的,在该待修正媒体数据为文本数据时,计算机设备可以获取源图像数据或源视频数据,可以对该源图像数据或源视频数据进行光学字符识别(opticalcharacter recognition,ocr)处理,得到识别出的文本数据。将识别出的文本数据确定为待修正媒体数据;或者将识别出的文本数据确定为初始检测媒体数据,对初始检测媒体数据进行数据预修正处理,得到待修正媒体数据。
142.可选的,计算机设备可以获取音频数据,对该音频数据进行音频转换处理,得到音频转换后的文本数据,该音频转换处理用于将音频数据转换为文本数据,如自动语音识别技术(automatic speech recognition,asr)等。将音频转换后的文本数据确定为待修正媒体数据;或者将音频转换后的文本数据确定为初始检测媒体数据,对初始检测媒体数据进行数据预修正处理,得到待修正媒体数据。
143.可选的,计算机设备可以获取应用程序的应用推送数据,从该应用推送数据中获取文本数据,将应用推送数据中所包括的文本数据确定为待修正媒体数据;或者将应用推送数据中所包括的文本数据确定为初始检测媒体数据,对初始检测媒体数据进行数据预修正处理,得到待修正媒体数据。
144.其中,以上仅为例举的几种待修正媒体数据的获取方式,也可以通过其他可以获取到文本数据或图像数据的方式,进行待修正媒体数据的获取,在此不做限制。
145.步骤s402,获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征。
146.在本技术实施例中,具体可以参见图3中的步骤s302所示的具体描述。可选的,参见图5所示,图5是本技术实施例提供的一种模型结构示意图,如图5所示,计算机设备可以对m个初始字符串分别进行编码,得到m个初始字符串分别对应的编码向量,对m个初始字符串分别对应的位置信息进行位置编码,得到m个初始字符串分别对应的位置向量,其中,该位置向量可以用于表示m个初始字符串分别在待修正媒体数据中的位置信息等。对m个初始字符串分别对应的编码向量,以及m个初始字符串分别对应的位置向量进行向量融合,得到m个初始字符串分别对应的初始数据特征。其中,该编码向量可以认为是将一个字、词或句子等信息,表示成一个向量,同义词的向量具有很高的相似度,本技术中针对关联度越高的初始字符串所得到的初始数据特征之间的相似性越高。进一步地,可以将m个初始字符串分
别对应的初始数据特征输入特征获取网络501中,通过自注意层及归一化层,获取m个初始字符串之间的字符关联度,基于字符关联度得到m个初始字符串的初始字符特征。例如对于待修正媒体数据“我爱malashizitou”,输入的是四个汉字或拼音,通过自注意力机制,可以互相计算字符关联度,得到基于字符关联度的表示每一个字符的向量,即在特征获取网络501中的中间输出部分,有分别表示“我”“爱”“mala”“shizitou”的增强数据特征。进一步,通过特征获取网络501中的前馈网络及归一化层,将m个初始字符串的初始字符特征进行特征融合,得到待修正媒体数据的待修正数据特征。其中,前馈网络及归一化层,是模型中的一种结构,用来表示一些数学计算的方式,中间可能包括但不限于线性层、非线性层、对不同层的输出向量进行按位相加、以及对得到的结果进行归一化等操作,可以认为是组成整个神经网络结构的映射关系的一种基于经验的组合方式。可选的,前馈网络可以是由线性计算与非线性计算等组成;归一化层可以认为是把对应的向量进行归一化,例如,等比例放大或缩小每一位的值(缩放),或者给每一位加或减同一个值(位移)等,在此不做限制。
147.步骤s403,获取第i轮预测的输入字符。
148.在本技术实施例中,计算机设备可以获取第i轮预测的输入字符。可选的,i为1时,可以认为该第i轮预测的输入字符为开始字符,该开始字符可以是一种默认开始字符,或者是设置的用于表示预测开始的字符,如“《s》”等,在此不做限制;i不为1时,该第i轮预测的输入字符可以认为是第(i-1)轮预测中的预测字符。
149.步骤s404,获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符。
150.在本技术实施例中,计算机设备可以获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到第i轮预测中的预测字符。可选的,计算机设备可以获取第i轮预测中的输入字符的输入初始特征,对第i轮预测中的输入字符进行位置编码,得到输入位置特征,对第i轮预测中的输入字符的输入初始特征与输入位置特征进行特征融合,得到第i轮预测中的输入字符的输入特征。可选的,可以获取修正参数,基于修正参数及待修正数据特征,对该第i轮预测中的输入字符的输入特征进行数据预测,得到第i轮预测中的预测字符。具体的,可以参见图5所示,计算机设备可以将第i轮预测中的输入特征输入数据修正网络502中,基于自注意层及归一化层,对第i轮预测中的输入特征进行语义信息解析,得到第i轮预测中的输入字符的输入语义向量。进一步地,基于交叉注意层及归一化层,对第i轮预测中的输入字符的输入语义向量,以及待修正数据特征进行交叉关联预测,确定第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于第i轮预测中的输入字符与待修正数据特征之间的特征注意力,得到第i轮预测中的输入字符的交叉关联特征;基于前馈网络及归一化层,对第i轮预测中的输入字符的交叉关联特征进行特征转换,得到第i轮预测中的输入字符的关联预测特征。基于第i轮预测中的输入字符的关联预测特征,预测第i轮预测中的预测字符。可选的,在对第i轮预测中的输入特征进行语义信息解析,得到第i轮预测中的输入字符的输入语义向量时,若i不为1,即,存在已经预测出的预测字符,则计算机设备可以对第一轮预测中的输入字符至第i轮预测中的输入字符进行特征注意力检测,得到第i轮预测中的输入字符所对应的预测注意力,基于第i轮预测中的输入字符所对应的预测注意力进行语义信息解析,得到
第i轮预测中的输入字符所对应的输入语义向量。
151.步骤s405,检测第i轮预测中的预测字符是否为结束字符。
152.在本技术实施例中,计算机设备可以检测第i轮预测中的预测字符是否为结束字符,若第i轮预测中的预测字符是结束字符,则执行步骤s407;若第i轮预测中的预测字符不是结束字符,则执行步骤s406,进行下一轮预测。
153.步骤s406,i 。
154.在本技术实施例中,对i的取值加一,返回执行步骤s403。例如,i为5,获取到第5轮预测中的预测字符不是结束字符,则可以将i的值加一,即此时i为6,执行步骤s403,将第5轮预测中的预测字符,确定为第6轮预测中的输入字符。
155.针对步骤s403至步骤s406,举例来说,假定计算机设备获取到由“我”、“爱”、“mala”及“shizitou”分别对应的初始字符特征组成的待修正数据特征。可选的,可以先输入一个开始字符,如“《s》”等,开始字符用于表示预测的开始,即,该开始字符前没有其他字符,因此,此时基于自注意层等对开始字符进行语义信息解析,得到第i轮预测中的输入字符的输入语义向量,该输入语义向量只包含自身语义。进一步地,对第i轮预测中的输入字符的输入语义向量,以及待修正数据特征进行交叉关联预测,确定第i轮预测中的输入字符与待修正数据特征之间的特征注意力,假定基于该特征注意力,预测得到下一个预测字符为“我”。例如,计算机设备可以将交叉关联特征投射至字符词表维度,基于归一化层对投射后的交叉关联特征进行归一化处理,得到t个映射概率,基于t个映射概率确定第i轮预测中的关联预测特征,基于关联预测特征确定第i轮预测中的预测字符。其中,t为正整数,t为字符词表维度,该字符词表维度用于表示字符的数量,即字、拼音及符号等的数量。假定得到的交叉关联特征是一个2048维的向量,字符词表大小为22400(即假定有22400的字、拼音及符号等),该字符词表中的每个维度用于映射至一个字、一个拼音或一个符号等,则可以认为存在一个2048*22400的向量映射矩阵,计算机设备可以将交叉关联特征映射值该向量映射矩阵,以实现将交叉关联特征投射至字符词表维度,基于归一化层对投射后的交叉关联特征进行归一化处理,得到t个映射概率,此时,t为22400,假定该t个映射概率中第4500位的映射概率最大,如0.9,则获取第4500位对应的字符,确定为第i轮预测中的预测字符,假定此处的预测字符为“我”。进一步地,将“我”作为输入字符,对第一轮预测中的输入字符至第i轮预测中的输入字符进行特征注意力检测,得到第i轮预测中的输入字符所对应的预测注意力,此时,即对“《s》”与“我”进行特征注意力检测,得到“我”对应的预测注意力,基于“我”所对应的预测注意力,确定“我”的输入语义向量。获取“我”的输入语义向量与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据进行数据预测,假定得到此时的预测字符为“爱”。该预测字符“爱”不为结束字符。
156.进一步地,将“爱”作为输入字符,对第一轮预测中的输入字符至第i轮预测中的输入字符进行特征注意力检测,得到第i轮预测中的输入字符所对应的预测注意力,此时,即对“《s》我”与“爱”进行特征注意力检测,得到“爱”对应的预测注意力,基于“爱”所对应的预测注意力,确定“爱”的输入语义向量。获取“爱”的输入语义向量与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据进行数据预测,假定得到初始预测结果“mala”,对初始预测结果进行参数映射,得到预测字符为“麻”。

同理,直至得到的预测字符为结束字符,如“《e》”等。
157.其中,以上的过程可以认为是一种逐字符预测,总体来看,依次输出的预测字符可以组成待修正媒体数据所对应的参考媒体数据。
158.步骤s407,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
159.在本技术实施例中,计算机设备可以将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。可选的,如图5所示,计算机设备可以基于线性层,对每轮预测中的输入字符的关联预测特征进行线性处理,得到参考媒体数据。
160.可选的,上述步骤s402至步骤s407可以是通过数据修正模型实现的。
161.可选的,请参见图6,图6是本技术实施例提供的一种应用场景示意图。如图6所示,本技术所实现的方案,可以直接或间接提供给终端产品。例如,可以直接将本技术中的方案作为完整的服务提供给终端产品(直接服务),也就是说,终端产品可以是包含媒体数据提供功能的产品;或者,可以将本技术中的额方案作为基础服务,与其他服务串联后提供给终端产品(间接服务),也就是说,终端产品可以是包含基于媒体数据进行业务处理的功能的产品。
162.其中,在直接服务中,计算机设备可以响应数据修正请求,获取该数据修正请求所针对的待修正媒体数据,对该待修正媒体数据执行上述图3或图4中的步骤,对待修正媒体数据进行数据修正处理,得到待修正媒体数据所对应的参考媒体数据,将该参考媒体数据发送至发起数据修正请求的终端产品。其中,该直接服务的应用场景可以包括但不限于会议自动速记、影视字幕生成及商品图片描述生成等服务的下游任务,为现有的媒体数据生成场景提供数据修正服务,此类终端产品可以直接调用本技术中的方案的服务接口,将修正后得到的参考媒体数据直接在终端产品中进行输出。举例来说,在会议自动速记及影视字幕生成等应用场景中,一般会收录会议或影视配音中所产生的语音数据,将语音数据转换为待输出文本数据,而这种语音转文本所得到的数据往往可能存在误差,如错误字符及部分乱码(如无法识别出的语音,可能会产品部分乱码的情况)等误差,导致最终的结果的可阅读性及准确性较低,因此可以通过本技术中的方案,将待输出文本数据确定为待修正媒体数据,或者,对待输出文本数据进行数据格式检测,基于检测结果得到待修正媒体数据,对待修正媒体数据进行数据修正处理,得到参考媒体数据,输出该参考媒体数据,使得得到的媒体数据一般可以直接使用;例如,在会议自动速记场景中,得到的参考媒体数据可以作为会议记录;在影视字幕生成场景中,得到的参考媒体数据可以作为影视字幕等。例如,在会议自动速记场景中,计算机设备可以获取会议语音数据,将该会议语音数据转换为会议文本数据,根据会议文本数据得到待修正媒体数据,对待修正媒体数据进行数据修正处理,得到待修正媒体数据对应的参考媒体数据,将该参考媒体数据确定为会议记录。也就是说,在直接服务下,可以将修正得到的参考媒体数据作为最终的终端产品的输出或结果。
163.在间接服务中,可以是对待修正媒体数据进行数据修正处理,得到待修正媒体数据所对应的参考媒体数据,进一步基于其他业务对参考媒体数据进行处理,得到业务数据结果,将业务数据结果发送至终端产品。其中,该间接服务的应用场景可以包括但不限于网页搜索结果摘要及复杂文本翻译等服务的上游任务,为现有的业务提供高质量的输入媒体数据。其中,此类终端产品会优先调用本技术中方案的服务接口,对输入的待修正媒体数据进行数据修正处理,将修正得到的媒体数据提供给其他业务,如分类、摘要或翻译等,以使
得其他业务可以更好地完成终端产品的整体任务目标,增强用户的使用体验。举例来说,计算机设备可以响应数据翻译请求,获取数据翻译请求所关联的待修正媒体数据。可选的,计算机设备可以响应数据翻译请求,获取数据翻译请求所关联的初始检测媒体数据,对初始检测媒体数据进行数据格式检测,基于检测结果确定待修正媒体数据。计算机设备可以对待修正媒体数据进行数据修正处理,得到参考媒体数据,进一步地,可以获取数据翻译请求所请求的翻译语言类型,对参考媒体数据进行翻译处理,得到参考媒体数据在翻译语言类型下的译文数据;输出该译文数据,此时,该译文数据可以认为是业务数据结果。可选的,计算机设备可以响应数据搜索请求,基于该数据搜索请求获取待修正媒体数据,对待修正媒体数据进行数据修正处理,得到参考媒体数据;进一步地,基于参考媒体数据进行数据搜索,得到该参考媒体数据所关联的搜索结果,输出搜索结果,此时,该搜索结果可以认为是业务数据结果。
164.其中,以上仅为例举的几种本技术可能适用的应用场景,其他需要进行媒体数据修正的应用场景,也可以基于本技术中的方案实现,在此不做限制。
165.进一步地,请参见图7,图7是本技术实施例提供的一种媒体数据修正架构示意图。如图7所示,本技术中的数据修正可以包括数据前处理、生成模型及数据后处理等几个部分,具体过程如下:
166.一、数据前处理。
167.具体的,该数据前处理,可以认为是对获取到的需要进行修正的数据,先进行预修正,以减少后续需要处理的数据量及数据复杂度,提高后续数据处理效率。具体的,计算机设备可以获取初始检测媒体数据,对初始检测媒体数据进行数据格式检测,若初始检测媒体数据中存在预修正格式,则基于预修正格式对初始检测媒体数据进行格式预修正处理,得到待修正媒体数据;若初始检测媒体数据中不存在预修正格式,则将该初始检测媒体数据确定为待修正媒体数据。具体的,该格式预修正处理的过程可以参见图3中的步骤s301所示,在此不再进行赘述。其中,格式预修正处理可以包括但不限于繁体转简体、全角转半角、长句切短句及特殊字映射等。
168.其中,繁体转简体:繁体在一些场景中会被使用,有完整的繁简体映射字典,在需要简体进行表达的场景下,可以调用繁简体映射字典对初始检测媒体数据进行格式预修正处理,将媒体数据中的繁体字符(即繁体书写字体所对应的媒体字符)转换为简体字符。
169.可选的,在图3的步骤s301中,假定第一字符格式为全角字符格式,第二字符格式为半角字符格式,可以对初始检测媒体数据进行全角转半角。其中,全角字符格式通常包括中日韩等语言的文字和符号,半角字符格式通常表示英文字母、阿拉伯数字及英文符号等。其中,全角字符占两个字节,半角字符占一个字节,英文字母、阿拉伯数字及英文符号等都有与其形状相同的占两个字节的全角符号,此时可以将全角字符格式转换为半角字符格式,减少需要处理的数据量。举例来说,请参见图8,图8是本技术实施例提供的一种全半角格式编码的部分示意图。如图8所示,半角格式字符801的半角标准编码802与全角格式字符803的全角标准编码804之间存在一定的映射关系,一般情况下,相对应的半角格式字符与全角格式字符之间的差值是固定的,因此,假定第一字符格式为全角字符格式,第二字符格式为半角字符格式,计算机设备可以获取待修正词组在第一字符格式下所对应的第一标准编码,基于第一标准编码,确定待修正词组在第二字符格式下所对应的第二标准编码,基于
第二标准编码确定待修正词组的第二关联词组。例如,假定该待修正词组为全角格式字符“a”,获取待修正词组在第一字符格式下所对应的第一标准编码,即全角格式字符“a”在全角字符格式先的第一标准编码“u ff41”,基于第一标准编码“u ff41”,确定待修正词组在第二字符格式下所对应的第二标准编码“u 0061”,基于第二标准编码“u 0061”确定待修正词组的第二关联词组,即半角格式字符“a”。其中,计算机设备所能现实的每一个数字、字母、符号、汉字等,均会对应着一个标准编码,如半角标准编码802及全角标准编码804等,标准编码的常用的范围转换为十进制一般有65536个(可选的,随着发展,该数字也可能发生变化,此处仅为例举),而且连续字母或数字等所对应的标准编码的数字一般也是连续的,因此,可以通过标准编码的加减处理,实现从全角格式字符到半角格式字符的映射,如图8中所示的字母所示,同一个字母的全角标准编码与半角标准编码之间的编码差值是固定的,如图8中所示的编码差值为65248,则可以将全角标准编码减去编码差值,得到对应的字符的半角标准编码,实现从全角至半角的转换。例如,全角格式字符“b”的全角标准编码为“u ff42”,将全角标准编码为“u ff42”减去编码差值,可以得到半角标准编码“u 0062”,获取半角标准编码“u 0062”对应的字符,得到半角格式字符“b”。同理,半角格式字符“c”的半角标准编码为“u 0063”,对应的全角格式字符“c”的全角标准编码为“u ff43”;半角格式字符“d”的半角标准编码为“u 0064”,对应的全角格式字符“d”的全角标准编码为“u ff44”;半角格式字符“e”的半角标准编码为“u 0065”,对应的全角格式字符“e”的全角标准编码为“u ff45”;半角格式字符“f”的半角标准编码为“u 0066”,对应的全角格式字符“f”的全角标准编码为“u ff46”;半角格式字符“g”的半角标准编码为“u 0067”,对应的全角格式字符“g”的全角标准编码为“u ff47”;半角格式字符“h”的半角标准编码为“u 0068”,对应的全角格式字符“h”的全角标准编码为“u ff48”等。
170.可选的,在图3的步骤s301中,假定第一字符格式为特殊字符格式,第二字符格式为常规字符格式,可以对初始检测媒体数据进行特殊字映射。可选的,特殊字符格式包括但不限于数字、字母的特殊形式,以及具有明确予以信息的表情等。例如,特殊字符
“①”
的标准编码为“u 2460”。例如,可以参见图9,图9是本技术实施例提供的一种特殊字符映射的部分示意图。如图9所示,假定常规字符格式的常规格式字符901的标准编码为常规标准编码902;该常规格式字符901所对应的特殊格式字符的标准编码记作特殊标准编码,可选的,假定图9所示例子中,常规格式字符901所对应的特殊格式字符的种类(即特殊字符格式的种类)为一个或至少两个,如第一类特殊格式字符903、第二类特殊格式字符905及第三类特殊格式字符907等,其中,第一类特殊格式字符903的标准编码为第一类特殊标准编码904;第二类特殊格式字符905的标准编码为第二类特殊标准编码906;第三类特殊格式字符907的标准编码为第一类特殊标准编码908等。其中,可以认为第一类特殊格式字符的字符格式为第一类特殊字符格式;第二类特殊格式字符的字符格式为第二类特殊字符格式;第三类特殊格式字符的字符格式为第三类特殊字符格式等。具体的,若检测到待修正词组的预修正格式为第一字符格式,则可以将待修正词组替换为第二字符格式下的第二关联词组。例如,假定该待修正词组为第一类特殊格式字符
“①”
,获取第一类特殊格式字符
“①”
的第一标准编码“u 2460”,基于第一标准编码“u 2460”得到第二标准编码“u 0031”,基于第二标准编码“u 0031”确定待修正词组的第二关联词组,即常规格式字符“1”。同理,常规格式字符“1”还可以对应第二类特殊格式字符
“⑴”
及第三类特殊格式字符
“⒈”
等,还可以对应第四类特
殊格式字符等,其中,第二类特殊格式字符
“⑴”
的标准编码为“u 2474”,第三类特殊格式字符
“⒈”
的标准编码为“u 2488”等。常规格式字符“2”可以对应第一类特殊格式字符
“②”
、第二类特殊格式字符
“⑵”
及第三类特殊格式字符
“⒉”
等,第一类特殊格式字符
“②”
的标准编码为“u 2461”,第二类特殊格式字符
“⑵”
的标准编码为“u 2475”,第三类特殊格式字符
“⒉”
的标准编码为“u 2489”等。具体的,部分的常规格式字符与对应的特殊格式字符的标准编码可以参见图9,在此不再进行说明。
171.可选的,图3中的步骤s301中,可以将对数据修正过程不会产生太大影响的预修正格式,即,对数据修正过程不会产生影响或产生的影响小于影响阈值的预修正格式,可以记作普通修正格式,则可以在数据后处理中进行调整,如第一书写字体中的字体结构等,例如,待修正媒体数据中的媒体字符的字体结构为宋体、楷体或黑体等,仅会对该待修正媒体数据的显示的效果造成影响,该待修正媒体数据的内容及形状等不会发生改变,因此,在后续对该待修正媒体数据的数据修正过程中,无论该待修正媒体数据中的媒体字符的字体结构是什么,修正的过程及效果等不会发生变化,故而,也可以在数据后处理中,对该第一书写字体中的字体结构进行调整。换句话说,对普通修正格式,可以在数据前处理中进行预修正处理,也可以在数据后处理中进行调整。
172.二、生成模型。
173.具体的,可以参见图3中的步骤s302至步骤s305所示的具体描述,在此不再进行赘述。可选的,可以认为该生成模型为数据修正模型,该数据修正模型可以包括特征获取网络(即编码器)及数据修正网络(即解码器)。
174.三、数据后处理。
175.进一步可选的,可以对获取到的参考媒体数据进行数据异常调整,得到参考媒体数据所对应的目标媒体数据。例如,可以对参考媒体数据进行分句合并、异常检测及异常修复等。具体的,若待修正媒体数据的数量为至少两个,则将至少两个待修正媒体数据分别对应的参考媒体数据进行数据合并处理,得到待修正媒体数据对应的目标媒体数据;其中,在得到初始检测媒体数据时,可能会对初始检测媒体数据进行拆分,得到待修正媒体数据,从而导致待修正媒体数据的数量为至少两个,此时,就可以将对各个待修正媒体数据分别进行修正后得到的参考媒体数据进行分句合并处理,以得到目标媒体数据。或者,若参考媒体数据中存在至少两个连续字符串,则对参考媒体数据中的至少两个连续字符串进行重复删除处理,得到待修正媒体数据对应的目标媒体数据,例如,出现
“…
连续连续字符”,则可以进行重复删除处理,得到“...连续字符”。或者,若参考媒体数据与待修正媒体数据之间的数据尺度差异大于或等于异常差异阈值,则表示数据修正得到的参考媒体数据与待修正媒体数据之间存在较大的差异,可能缺失了很多信息,或者增加了很多信息等,输出数据修正异常消息。可选的,还可以对参考媒体数据进行数据逻辑结构检测,若参考媒体数据的数据逻辑结构符合媒体数据表述方式,则可以将参考媒体数据确定为目标媒体数据;若参考媒体数据的数据逻辑结构不符合媒体数据表述方式,则可以基于媒体数据表达方式,对参考媒体数据进行微调,得到目标媒体数据等。可选的,可以基于需要,增加其他的数据后处理方式。可选的,在对参考媒体数据进行数据后处理时,该参考媒体数据中可能不存在异常数据,也可能存在一个或至少两个异常数据,此时,需要对参考媒体数据中的异常数据进行调整后,得到目标媒体数据。该异常数据包括但不限于待修正媒体数据的数量不为一、存在连
续字符串及数据尺度差异过大等。例如,待修正媒体数据的数量为至少两个,且参考媒体数据中存在至少两个连续字符串,则将至少两个待修正媒体数据分别对应的参考媒体数据进行合并处理,并对至少两个参考媒体数据中的至少两个连续字符串进行重复删除处理,得到目标媒体数据。
176.可选的,若对参考媒体数据进行了数据后处理,则在图6所示的应用场景中,可以基于目标媒体数据为终端产品提供服务。例如,在直接服务中,计算机设备可以响应数据修正请求,获取该数据修正请求所针对的待修正媒体数据,对该待修正媒体数据执行上述图3或图4中的步骤,对待修正媒体数据进行数据修正处理,得到待修正媒体数据所对应的参考媒体数据,对参考媒体数据进行数据后处理,得到目标媒体数据,将该目标媒体数据发送至发起数据修正请求的终端产品。换句说说,将目标媒体数据作为最终的终端产品的输出或结果。在间接服务中,可以是对待修正媒体数据进行数据修正处理,得到待修正媒体数据所对应的参考媒体数据,对参考媒体数据进行数据后处理,得到目标媒体数据,进一步基于其他业务对目标媒体数据进行处理,得到业务数据结果,将业务数据结果发送至终端产品。以翻译场景为例,计算机设备可以响应数据翻译请求,获取数据翻译请求所关联的初始检测媒体数据,对初始检测媒体数据进行数据格式检测,基于检测结果确定待修正媒体数据。计算机设备可以对待修正媒体数据进行数据修正处理,得到参考媒体数据,对参考媒体数据进行数据后处理,得到目标媒体数据;进一步地,可以获取数据翻译请求所请求的翻译语言类型,对目标媒体数据进行翻译处理,得到目标媒体数据在翻译语言类型下的译文数据;输出该译文数据,此时,该译文数据可以认为是业务数据结果。
177.进一步地,可以参见图10,图10是本技术实施例提供的一种模型训练场景示意图。如图10所示,该过程可以包括如下步骤:
178.步骤s1001,获取参考数据样本,对参考数据样本进行加噪处理,得到参考数据样本所对应的待修正数据样本。
179.在本技术实施例中,计算机设备可以获取参考数据样本,对参考数据样本进行加噪处理,得到参考数据样本所对应的待修正数据样本,其中,该加噪处理不包括但不限于:遮盖字符并添加占位符、打乱数据顺序、将段落尾部移至首部、删除字符及删除字符后随即增加占位符等。计算机设备可以删除参考数据样本中的一个或至少两个字符(或称为样本字符),得到参考数据样本所对应的待修正数据样本;或者,对参考数据样本中的至少两个字符(或称为样本字符)进行位置交换,得到参考数据样本所对应的待修正数据样本;或者,在参考数据样本中添加占位符,得到参考数据样本所对应的待修正数据样本;或者,将参考数据样本中的一个或至少两个字符(或称为样本字符)替换为占位符,得到参考数据样本所对应的待修正数据样本。
180.举例来说,参见图11所示,图11是本技术实施例提供的一种数据加噪场景示意图,如图11所示,假定获取到参考数据样本1101,该参考数据样本1101为“abc.de.”,一种加噪方式下,从参考数据样本1101中获取第一遮盖字符,将第一遮盖字符替换为占位符,得到参考数据样本1101对应的待修正数据样本1102,如获取到第一遮盖字符为“b”及“d”,则得到的待修正数据样本1102为“a_c._e.”。一种加噪方式下,可以获取组成参考数据样本1101的样本字符的第一排列顺序,对参考数据样本1101的样本字符进行顺序调整,得到参考数据样本1101在第二排列顺序下的待修正数据样本1103,如图11中的“de.abc.”。一种加噪方式
下,计算机设备可以获取参考数据样本1101中的首部样本字符及尾部样本字符,对参考数据样本1101中的首部样本字符及尾部样本字符进行位置交换,得到参考数据样本1101对应的待修正数据样本1104,假定参考数据样本1101中的首部样本字符为“ab”,参考数据样本1101中的尾部样本字符为“c.de.”,则得到的待修正数据样本1104为“c.de.ab”。一种加噪方式下,计算机设备可以获取参考数据样本1101中的第二遮盖字符,删除参考数据样本1101中的第二遮盖字符,获取占位添加位置,在删除后的参考数据样本中的占位添加位置处添加占位符,得到参考数据样本1101对应的待修正数据样本1105,假定参考数据样本1101中的第二遮盖字符为样本字符“b”及样本字符“c”,则删除后的参考数据样本为“a.de.”,假定占位添加位置为样本字符“a”之后且相邻,以及样本字符“d”与样本字符“e”之间,在删除后的参考数据样本中的占位添加位置处添加占位符,得到的待修正数据样本1105为“a_.d_e.”。一种加噪方式下,计算机设备可以获取参考数据样本1101中的待删除字符,删除参考数据样本1101中的待删除字符,得到参考数据样本1101对应的待修正数据样本1106,假定待删除字符为样本字符“b”及样本字符“d”,则待修正数据样本1106为“ac.e.”等。其中以上仅为例举的几种加噪方式,本技术并不限制其他加噪方式的使用。可选的,计算机设备可以基于一个参考数据样本,得到一个或至少两个待修正数据样本,该参考数据样本与基于该参考数据样本所得到的每个待修正数据样本都可以认为是一个样本对。
181.步骤s1002,将待修正数据样本输入初始数据修正模型中,获取组成待修正数据样本的初始字符串样本及初始字符串样本之间的样本字符关联度,基于初始字符串样本及样本字符关联度,确定待修正数据样本的修正样本数据特征。
182.在本技术实施例中,可以参见图3中的步骤s302所示的具体描述,在此不再进行赘述。
183.步骤s1003,在初始数据修正模型中,获取第i轮预测中的样本输入字符与修正样本数据特征之间的样本特征注意力,基于样本特征注意力对修正样本数据特征进行数据预测,得到位于第i轮预测中的样本输入字符之后且相邻的样本预测字符。
184.在本技术实施例中,可以参见图3中的步骤s303所示的具体描述,在此不再进行赘述。
185.步骤s1004,在样本预测字符不为结束字符时,将样本预测字符确定为第(i 1)轮预测中的样本输入字符。
186.在本技术实施例中,可以参见图3中的步骤s304所示的具体描述,在此不再进行赘述。
187.步骤s1005,在样本预测字符为结束字符时,将已预测出的每个样本预测字符组成用于对待修正数据样本进行修正的预测样本修正数据。
188.在本技术实施例中,可以参见图3中的步骤s305所示的具体描述,在此不再进行赘述。可选的,计算机设备可以对预测样本修正数据进行数据后处理,参见图7中的数据后处理的相关描述,得到目标样本修正数据,执行步骤s1006,基于参考数据样本及目标样本修正数据,对初始数据修正模型进行参数调整,得到用于进行媒体数据修正的数据修正模型。
189.步骤s1006,基于参考数据样本及预测样本修正数据,对初始数据修正模型进行参数调整,得到用于进行媒体数据修正的数据修正模型。
190.在本技术实施例中,计算机设备可以基于参考数据样本及预测样本修正数据,对
初始数据修正模型进行参数调整,得到用于进行媒体数据修正的数据修正模型。可选的,在数据修正模型的调整后的参数中可以包括修正参数。通过以上过程,对初始数据修正模型进行参数调整,所得到的修正参数,可以实现对各种数据异常信息等学习,该过程是基于上述待修正数据样本的生成方式的多样性进行实现的,使得修正参数可以实现对多种数据异常信息的调整,当在图3所示实施例中使用该数据修正模型时,可以基于该修正参数实现对待修正数据中的各种数据异常信息的识别及修正处理等,从而提高数据修正的通用性及准确性。
191.可选的,进行数据修正处理的计算机设备(即执行图3或图4所示步骤的计算机设备),与进行模型训练的计算机设备(即执行图10所示步骤的计算机设备)可以是同一个设备,也可以是不同的设备。
192.进一步地,请参见图12,图12是本技术实施例提供的一种媒体数据修正装置示意图。该数据修正装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该数据修正装置可以为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步骤。如图12所示,该数据修正装置1200可以用于图3或图4所对应实施例中的计算机设备,具体的,该装置可以包括:数据获取模块11、特征获取模块12、字符预测模块13、输入确定模块14及数据生成模块15。
193.数据获取模块11,用于获取待修正媒体数据;
194.特征获取模块12,用于获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;
195.字符预测模块13,用于获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符;i为正整数;
196.输入确定模块14,用于在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字符;
197.数据生成模块15,用于在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
198.其中,该数据获取模块11,包括:
199.初始获取单元111,用于获取初始检测媒体数据;
200.格式检测单元112,用于对初始检测媒体数据进行数据格式检测;
201.预修正单元113,用于若初始检测媒体数据中存在预修正格式,则基于预修正格式对初始检测媒体数据进行格式预修正处理,得到待修正媒体数据。
202.其中,该格式检测单元112,包括:
203.数据分词子单元1121,用于对初始检测媒体数据进行分词处理,得到n个分词词组;n为正整数;
204.分词检测子单元1122,用于对n个分词词组分别进行数据格式检测,得到n个分词词组分别对应的词组数据格式;
205.预修正确定子单元1123,用于若n个分词词组分别对应的词组数据格式中存在预修正格式,则确定初始检测媒体数据中存在预修正格式。
206.其中,该预修正单元113,包括:
207.词组获取子单元1131,用于若初始检测媒体数据中存在预修正格式,则获取预修正格式所对应的待修正词组;
208.字体转换子单元1132,用于若待修正词组的预修正格式为第一书写字体,则获取待修正词组在第二书写字体下的第一关联词组,将初始检测媒体数据中的待修正词组替换为第一关联词组,得到待修正媒体数据;
209.字符转换子单元1133,用于若待修正词组的预修正格式为第一字符格式,则获取待修正词组在第一字符格式下所对应的第一标准编码,基于第一标准编码,确定待修正词组在第二字符格式下所对应的第二标准编码,基于第二标准编码确定待修正词组的第二关联词组,将初始检测媒体数据中的待修正词组替换为第二关联词组,得到待修正媒体数据。
210.其中,预修正格式包括字符数量大于阈值的格式;该预修正单元113,包括:
211.数据拆分子单元1134,用于若初始检测媒体数据中存在预修正格式,则基于预修正格式,获取初始检测媒体数据中的语句间隔符,基于语句间隔符对初始检测媒体数据进行拆分处理,得到待修正媒体数据。
212.其中,初始字符串的数量为m,m为正整数;
213.该特征获取模块12,包括:
214.字符串获取单元121,用于获取组成待修正媒体数据的m个初始字符串;
215.关联获取单元122,用于通过自注意力机制,获取m个初始字符串之间的字符关联度;
216.特征增强单元123,用于基于m个初始字符串之间的字符关联度,对m个初始字符串的初始数据特征进行特征增强,得到m个初始字符串的增强数据特征;
217.特征融合单元124,用于将m个初始字符串的增强数据特征进行特征融合,得到待修正媒体数据的待修正数据特征。
218.其中,该关联获取单元122,包括:
219.相似确定子单元1221,用于通过自注意力机制,对第j个初始字符串的初始数据特征与其他初始字符串的初始数据特征进行点积处理,得到第j个初始字符串与其他初始字符串之间的字符相似度;j为小于或等于m的正整数;其他初始字符串是指m个初始字符串中除第j个初始字符串之外的初始字符串;
220.归一处理子单元1222,用于对第j个初始字符串与其他初始字符串之间的字符相似度进行归一化处理,得到第j个初始字符串与其他初始字符串之间的字符关联度;
221.该特征增强单元123,包括:
222.增强获取子单元1231,用于基于第j个初始字符串与其他初始字符串之间的字符关联度,对其他初始字符串的初始数据特征进行加权处理,得到第j个初始字符串的待增强特征;
223.增强处理子单元1232,用于基于第j个初始字符串的待增强特征对第j个初始字符串的初始数据特征进行特征增强,得到第j个初始字符串的增强数据特征。
224.其中,初始字符串的数量为m,m为正整数;
225.该特征获取模块12,包括:
226.该字符串获取单元121,用于获取组成待修正媒体数据的m个初始字符串;
227.隐藏获取单元125,用于获取第j个初始字符串的初始数据特征,获取第j个初始字
符串与第(j 1)个初始字符串之间的字符关联度,基于第j个初始字符串与第(j 1)个初始字符串之间的字符关联度以及第j个初始字符串的初始数据特征,对第(j 1)个初始字符串的初始数据特征进行特征增强,得到第(j 1)个初始字符串的隐藏特征,直至得到第m个初始字符串的隐藏特征;j为小于m的正整数;
228.特征确定单元126,用于将第m个初始字符串的隐藏特征,确定为待修正媒体数据的待修正数据特征。
229.其中,初始字符串的数量为m,m为正整数;
230.该特征获取模块12,包括:
231.特征解析单元127,用于获取组成待修正媒体数据的m个初始字符串,获取m个初始字符串分别对应的初始数据特征;
232.语义提取单元128,用于对m个初始字符串分别对应的初始数据特征进行语义信息提取,得到m个初始字符串分别对应的语义特征;
233.特征池化单元129,用于对m个初始字符串分别对应的语义特征进行池化处理,得到待修正媒体数据的待修正数据特征。
234.其中,该装置1200还包括:
235.数据合并模块16,用于若待修正媒体数据的数量为至少两个,则将至少两个待修正媒体数据分别对应的参考媒体数据进行数据合并处理,得到待修正媒体数据对应的目标媒体数据;或者,
236.重复删除模块17,用于若参考媒体数据中存在至少两个连续字符串,则对参考媒体数据中的至少两个连续字符串进行重复删除处理,得到待修正媒体数据对应的目标媒体数据;或者,
237.异常输出模块18,用于若参考媒体数据与待修正媒体数据之间的数据尺度差异大于或等于异常差异阈值,则输出数据修正异常消息。
238.其中,该数据获取模块11,包括:
239.请求响应单元114,用于响应数据翻译请求,获取数据翻译请求所关联的待修正媒体数据;
240.该装置还包括:
241.数据翻译模块19,用于获取数据翻译请求所请求的翻译语言类型,对参考媒体数据进行翻译处理,得到参考媒体数据在翻译语言类型下的译文数据;
242.译文输出模块20,用于输出译文数据。
243.本技术实施例提供了一种数据修正装置,该装置可以获取待修正媒体数据;获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符,在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字符;i为正整数;在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。通过以上过程,可以对需要进行修正的待修正媒体数据进行字符串检测,确定组成待修正媒体数据的初始字符串,及初始字符串之间的字符关联度,以使得得到的待修正数据特征中可以表示该待修正
媒体数据的基本语义信息,以及不同的初始字符串之间的关联性,可以基于待修正数据特征进行逐字符预测,由于待修正数据特征可以表示初始字符串之间的字符关联度,可以在进行逐字符预测时,可以基于字符关联度影响各个字符之间的顺序,并且逐字符预测可以进行缺失字符的补全及修正等,进而提高数据修正的准确性及通用性。
244.进一步地,请参见图13,图13是本技术实施例提供的一种模型训练装置示意图。该模型训练装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该模型训练装置可以为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步骤。如图13所示,该模型训练装置1300可以用于图10所对应实施例中的计算机设备,具体的,该装置可以包括:样本获取模块31、样本加噪模块32、样本特征获取模块33、样本预测模块34、样本输入确定模块35、样本生成模块36及模型调整模块37。
245.样本获取模块31,用于获取参考数据样本;
246.样本加噪模块32,用于对参考数据样本进行加噪处理,得到参考数据样本所对应的待修正数据样本;
247.样本特征获取模块33,用于将待修正数据样本输入初始数据修正模型中,获取组成待修正数据样本的初始字符串样本及初始字符串样本之间的样本字符关联度,基于初始字符串样本及样本字符关联度,确定待修正数据样本的修正样本数据特征;
248.样本预测模块34,用于在初始数据修正模型中,获取第i轮预测中的样本输入字符与修正样本数据特征之间的样本特征注意力,基于样本特征注意力对修正样本数据特征进行数据预测,得到位于第i轮预测中的样本输入字符之后且相邻的样本预测字符;i为正整数;
249.样本输入确定模块35,用于在样本预测字符不为结束字符时,将样本预测字符确定为第(i 1)轮预测中的样本输入字符;
250.样本生成模块36,用于在样本预测字符为结束字符时,将已预测出的每个样本预测字符组成用于对待修正数据样本进行修正的预测样本修正数据;
251.模型调整模块37,用于基于参考数据样本及预测样本修正数据,对初始数据修正模型进行参数调整,得到用于进行媒体数据修正的数据修正模型。
252.其中,该样本加噪模块32,包括:
253.字符删除单元321,用于删除参考数据样本中的一个或至少两个字符,得到参考数据样本所对应的待修正数据样本;或者,
254.字符交换单元322,用于对参考数据样本中的至少两个字符进行位置交换,得到参考数据样本所对应的待修正数据样本;或者,
255.占位添加单元323,用于在参考数据样本中添加占位符,得到参考数据样本所对应的待修正数据样本;或者,
256.字符替换单元324,用于将参考数据样本中的一个或至少两个字符替换为占位符,得到参考数据样本所对应的待修正数据样本。
257.可选的,还可以在数据修正模型的使用过程中,对该数据修正模型进行调整优化,以提高数据修正模型的模型质量。
258.在本技术实施例中,可以通过以上过程,训练得到数据修正模型,使得该数据修正模型中的修正数据学习到大量的数据异常信息,进而得到调整好的修正参数,使得可以基
于该修正参数,对大量的数据异常信息进行数据修正处理,进而提高数据修正的通用性及准确性。
259.参见图14,图14是本技术实施例提供的一种计算机设备的结构示意图。如图14所示,本技术实施例中的计算机设备可以包括:一个或多个处理器1401、存储器1402和输入输出接口1403。该处理器1401、存储器1402和输入输出接口1403通过总线1404连接。存储器1402用于存储计算机程序,该计算机程序包括程序指令,输入输出接口1403用于接收数据及输出数据,如用于计算机设备与业务设备之间进行数据交互等;处理器1401用于执行存储器1402存储的程序指令。
260.其中,该处理器1401位于进行数据修正处理的计算机设备中,可以执行如下操作:
261.获取待修正媒体数据;
262.获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;
263.获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符,在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字符;i为正整数;
264.在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
265.其中,该处理器1401位于进行模型训练的计算机设备中,可以执行如下操作:
266.获取参考数据样本,对参考数据样本进行加噪处理,得到参考数据样本所对应的待修正数据样本;
267.将待修正数据样本输入初始数据修正模型中,获取组成待修正数据样本的初始字符串样本及初始字符串样本之间的样本字符关联度,基于初始字符串样本及样本字符关联度,确定待修正数据样本的修正样本数据特征;
268.在初始数据修正模型中,获取第i轮预测中的样本输入字符与修正样本数据特征之间的样本特征注意力,基于样本特征注意力对修正样本数据特征进行数据预测,得到位于第i轮预测中的样本输入字符之后且相邻的样本预测字符,在样本预测字符不为结束字符时,将样本预测字符确定为第(i 1)轮预测中的样本输入字符;i为正整数;
269.在样本预测字符为结束字符时,将已预测出的每个样本预测字符组成用于对待修正数据样本进行修正的预测样本修正数据;
270.基于参考数据样本及预测样本修正数据,对初始数据修正模型进行参数调整,得到用于进行媒体数据修正的数据修正模型。
271.在一些可行的实施方式中,该处理器1401可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
272.该存储器1402可以包括只读存储器和随机存取存储器,并向处理器1401和输入输
出接口1403提供指令和数据。存储器1402的一部分还可以包括非易失性随机存取存储器。例如,存储器1402还可以存储设备类型的信息。
273.具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3或图10中各个步骤所提供的实现方式,具体可参见该图3或图10中各个步骤所提供的实现方式,在此不再赘述。
274.本技术实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图3中所示方法的各个步骤,进行数据修正操作。本技术实施例实现了获取待修正媒体数据;获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符,在预测字符不为结束字符时,将预测字符确定为第i 1轮预测中的输入字符;i为正整数;在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。通过以上过程,可以对需要进行修正的待修正媒体数据进行字符串检测,确定组成待修正媒体数据的初始字符串,及初始字符串之间的字符关联度,以使得得到的待修正数据特征中可以表示该待修正媒体数据的基本语义信息,以及不同的初始字符串之间的关联性,可以基于待修正数据特征进行逐字符预测,由于待修正数据特征可以表示初始字符串之间的字符关联度,可以在进行逐字符预测时,可以基于字符关联度影响各个字符之间的顺序,并且逐字符预测可以进行缺失字符的补全及修正等,进而提高数据修正的准确性及通用性。
275.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图3或图10中各个步骤所提供的数据修正方法及模型训练,具体可参见该图3或图10中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
276.该计算机可读存储介质可以是前述任一实施例提供的数据修正装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
277.本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3或图10中的各种可选方式中所提供的方法,可以对需要进行修正的待修正媒体数据进行字符串检测,确定组成待修正媒体数据的初始字符串,及初始字符串之间的
字符关联度,以使得得到的待修正数据特征中可以表示该待修正媒体数据的基本语义信息,以及不同的初始字符串之间的关联性,可以基于待修正数据特征进行逐字符预测,由于待修正数据特征可以表示初始字符串之间的字符关联度,可以在进行逐字符预测时,可以基于字符关联度影响各个字符之间的顺序,并且逐字符预测可以进行缺失字符的补全及修正等,进而提高数据修正的准确性及通用性。
278.本技术实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
279.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
280.本技术实施例提供的方法及相关装置是参照本技术实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据修正设备的处理器以产生一个机器,使得通过计算机或其他可编程数据修正设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据修正设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据修正设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
281.本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
282.本技术实施例装置中的模块可以根据实际需要进行合并、划分和删减。
283.以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献