一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据传输方法及装置与流程

2022-02-22 17:55:00 来源:中国专利 TAG:


1.本发明涉及数据压缩领域,尤其涉及一种数据传输方法及装置。


背景技术:

2.随着网络技术的进一步发展,需要进行网络传输的数据越来越多,尤其是随着区块链等分布式技术应用大规模的使用,更会带来传输和存储数据量的激增,对节点的存储空间、整个网络带宽的开销也会非常大。
3.现有技术中,生成方通过对数据进行压缩传输,以此来实现一定程度的提高数据的传输效率;目前压缩算法常采用哈夫曼算法(huffman coding),流程如下:
4.s1、统计文本信息中各字符的重复出现次数;
5.s2、根据各字符的重复出现次数构建哈夫曼树;
6.s3、根据哈夫曼树确定出文本信息中各字符的二进制标识;
7.s4、根据各字符的二进制标识确定出表征文本信息的字符串。
8.一般来说,字符串的字节长度小于文本信息的字节长度,因此实现了文本信息的压缩。但此种压缩方式的压缩率不高,有待进一步提高。
9.在进行数据传输时,生成方将字符串和哈夫曼树发送给接收方,以使接收方可以根据哈夫曼树和字符串还原出文本信息,以此通过传输压缩后的字符串实现降低数据的传输效率。
10.但是现有技术中的方法中,是对各字符进行同等压缩,无法对固定范式的数据进行例外处理,如文本信息为“hello”,各字符包括“h”、“e”、“l”和“o”,每次压缩“hello”时,都对“h”、“e”、“l”和“o”进行压缩,无法对“hello”进行整体压缩,导致文本信息压缩效率低,传输压力大,传输效率有待进一步提高。


技术实现要素:

11.本发明实施例提供一种数据传输方法及装置,用于提高文本信息的压缩效率,降低数据传输压力,提升数据传输效率。
12.第一方面,本发明实施例提供一种数据传输方法,包括:
13.生成方将待传输文本信息分词,确定多个词元素;
14.针对任一词元素,所述生成方根据所述词元素的字符串在字典索引图库中匹配所述词元素的字典坐标;所述字典索引图库是根据各文本信息构建的有向图形成的,所述有向图中节点间的有向边的连接次数小于设定阈值,至少一个表征多个词元素的节点是通过连接次数大于所述设定阈值的两个节点合并形成的;
15.所述生成方按照所述多个词元素在所述待传输文本信息中的顺序,生成具有所述字典索引图库的指示信息和至少一个词元素的字典坐标的压缩信息;
16.所述生成方将所述压缩信息发送至接收方;所述接收方用于根据所述指示信息将所述压缩信息还原成所述待传输文本信息。
17.上述技术方案中,通过将待传输文本信息分词,得到词元素,因为词元素中可以包括多个字符,如词元素为一个词组,以此实现固定范式的数据处理,而非针对单个字符,由此可以对多个字符进行整体压缩,提高文本信息的压缩效率,降低数据传输压力,提升数据传输效率。且通过将连接次数大于设定阈值的两个节点合并形成表征多个词元素的节点,可以进一步的对更多的字符进行整体压缩,进一步地提高文本信息的压缩效率,降低数据传输压力,提升数据传输效率。
18.可选的,所述生成方按照所述多个词元素在所述待传输文本信息中的顺序,生成具有所述字典索引图库的指示信息和至少一个词元素的字典坐标的压缩信息,包括:
19.所述生成方将所述字典索引图库的版本信息确定为所述指示信息并置于所述压缩信息的消息头中;针对任一词元素,所述生成方在所述字典索引图库中查找到所述词元素的字典坐标时,将所述词元素的字典坐标置于所述压缩信息的消息体中与所述词元素在所述待传输文本信息中的位置匹配的位置;在所述字典索引图库中未查找到所述词元素的字典坐标时,在所述词元素的首位添加设定标识并置于所述消息体中与所述词元素在所述待传输文本信息中的位置匹配的位置,从而形成所述压缩信息。
20.上述技术方案中,压缩信息的消息头中设置有字典索引图库的版本信息,在字典索引图库的版本信息未发生变化时,不需要将字典索引图库发送至接收方,以此减少数据传输的数据量,降低数据传输压力,提升数据传输效率。
21.可选的,所述字典索引图库中的有限矩阵的各位表示所述有向图中的各节点;
22.所述有限矩阵中同一行的字典坐标的首字节相同,同一列的字典坐标的尾字节相同;各节点的字典坐标的首字节与各节点的权重成反比;任一节点的权重与节点表征的字节长度成正比。
23.上述技术方案中,生成方根据词元素的字符串匹配字典坐标时,是根据字典坐标中的首字节遍历匹配的,因为字典坐标的首字节与各节点的权重成反比,且权重与字节长度、周期数量等相关,因此通过首字节与各节点的权重成反比,使越常用的词元素对应的字典坐标的首字节越小,在遍历词元素时减少遍历时间,提升遍历效率,提高确定词元素字典坐标的效率。
24.可选的,所述有限矩阵包括256列和512行;其中,第0行、第0列和第255行中的各位为预留位;所述预留位不作为任一词元素的字典坐标。
25.上述技术方案中,通过使预留位不作为任一词元素的字典坐标,以此防止三字节的字典坐标与两字节的字典坐标出现交集,即出现字节重叠的情况,从而提升数据压缩的准确性。
26.可选的,针对任一词元素,根据公式(1)确定所述各节点的权重,包括:
[0027][0028]
其中,w为节点的权重;l为所述节点表征的字节长度;i表示第i个周期;m为最近时间的周期数量;n为与所述节点具有关联关系的有向边的连接次数的和;k为预设系数;1>k>0。
[0029]
可选的,所述字典索引图库是根据各文本信息构建的有向图形成的,所述有向图中节点间的有向边的连接次数小于设定阈值,包括:
[0030]
针对任一文本信息,若所述有向图中不存在所述文本信息中第一词元素对应的节
点,则新增表征所述第一词元素的节点;若所述有向图中不存在表征第二词元素的节点至第三词元素的节点之间的有向边,则在所述有向图中增加所述有向边;若所述有向图中存在表征第四词元素的节点至第五词元素的节点之间的有向边,则增加所述有向边的连接次数;若所述连接次数大于所述设定阈值,则合并第四词元素的节点与第五词元素的节点为一个节点;
[0031]
至少根据各有向边的连接次数确定所述各节点的权重;
[0032]
根据所述各节点的权重确定所述各节点表征的各词元素在有限矩阵中的位置;
[0033]
将每个节点表征的词元素与节点在有限矩阵中的字典坐标关联,构建字典索引图库。
[0034]
第二方面,本发明实施例提供一种数据传输方法,包括:
[0035]
接收方获取压缩信息;所述压缩信息包括字典索引图库的指示信息和至少一个词元素的字典坐标;所述压缩信息是生成方按照多个词元素在所述待传输文本信息中的顺序生成的;所述字典索引图库是根据各文本信息构建的有向图形成的,所述有向图中节点间的有向边的连接次数小于设定阈值,至少一个表征多个词元素的节点是通过连接次数大于所述设定阈值的两个节点合并形成的;
[0036]
所述接收方根据所述指示信息对应的字典索引图库将所述压缩信息还原成所述待传输文本信息。
[0037]
可选的,所述接收方根据所述指示信息对应的字典索引图库将所述压缩信息还原成所述待传输文本信息,包括:
[0038]
所述接收方基于所述指示信息对应的字典索引图库,针对所述压缩信息的消息体中第i字节;所述接收方在确定所述第i字节为0x00时,获取第i 1字节;
[0039]
所述接收方若确定所述第i 1字节为0x00,则将所述第i字节和所述第i 1字节之间的词元素还原;
[0040]
所述接收方若确定所述第i 1字节为非0x00;则结合第i-1字节、所述第i字节和所述第i 1字节在所述字典索引图库中匹配词元素;
[0041]
所述接收方在确定所述第i字节为非0x00,且所述第i 1字节为非0x00时,则结合所述第i字节和所述第i 1字节在所述字典索引图库中匹配词元素;
[0042]
所述接收方按照字节在消息体中的顺序,将多个词元素还原成所述待传输文本信息。
[0043]
第三方面,本发明实施例提供一种数据传输装置,包括:
[0044]
分词模块,用于将待传输文本信息分词,确定多个词元素;
[0045]
处理模块,用于根据所述词元素的字符串在字典索引图库中匹配所述词元素的字典坐标;所述字典索引图库是根据各文本信息构建的有向图形成的,所述有向图中节点间的有向边的连接次数小于设定阈值,至少一个表征多个词元素的节点是通过连接次数大于所述设定阈值的两个节点合并形成的;
[0046]
按照所述多个词元素在所述待传输文本信息中的顺序,生成具有所述字典索引图库的指示信息和至少一个词元素的字典坐标的压缩信息;
[0047]
将所述压缩信息发送至接收方;所述接收方用于根据所述指示信息将所述压缩信息还原成所述待传输文本信息。
[0048]
可选的,所述处理模块具体用于:
[0049]
将所述字典索引图库的版本信息确定为所述指示信息并置于所述压缩信息的消息头中;针对任一词元素,在所述字典索引图库中查找到所述词元素的字典坐标时,将所述词元素的字典坐标置于所述压缩信息的消息体中与所述词元素在所述待传输文本信息中的位置匹配的位置;在所述字典索引图库中未查找到所述词元素的字典坐标时,在所述词元素的首位添加设定标识并置于所述消息体中与所述词元素在所述待传输文本信息中的位置匹配的位置,从而形成所述压缩信息。
[0050]
可选的,所述字典索引图库中的有限矩阵的各位表示所述有向图中的各节点;
[0051]
所述有限矩阵中同一行的字典坐标的首字节相同,同一列的字典坐标的尾字节相同;各节点的字典坐标的首字节与各节点的权重成反比;任一节点的权重与节点表征的字节长度成正比。
[0052]
可选的,所述有限矩阵包括256列和512行;其中,第0行、第0列和第255行中的各位为预留位;所述预留位不作为任一词元素的字典坐标。
[0053]
可选的,针对任一词元素,根据公式(1)确定所述各节点的权重,包括:
[0054][0055]
其中,w为节点的权重;l为所述节点表征的字节长度;i表示第i个周期;m为最近时间的周期数量;n为与所述节点具有关联关系的有向边的连接次数的和;k为预设系数;1>k>0。
[0056]
可选的,针对任一文本信息,若所述有向图中不存在所述文本信息中第一词元素对应的节点,则新增表征所述第一词元素的节点;若所述有向图中不存在表征第二词元素的节点至第三词元素的节点之间的有向边,则在所述有向图中增加所述有向边;若所述有向图中存在表征第四词元素的节点至第五词元素的节点之间的有向边,则增加所述有向边的连接次数;若所述连接次数大于所述设定阈值,则合并第四词元素的节点与第五词元素的节点为一个节点;
[0057]
至少根据各有向边的连接次数确定所述各节点的权重;
[0058]
根据所述各节点的权重确定所述各节点表征的各词元素在有限矩阵中的位置;
[0059]
将每个节点表征的词元素与节点在有限矩阵中的字典坐标关联,构建字典索引图库。
[0060]
第四方面,本发明实施例提供一种数据传输装置,包括:
[0061]
获取单元,用于获取压缩信息;所述压缩信息包括字典索引图库的指示信息和至少一个词元素的字典坐标;所述压缩信息是生成方按照多个词元素在所述待传输文本信息中的顺序生成的;所述字典索引图库是根据各文本信息构建的有向图形成的,所述有向图中节点间的有向边的连接次数小于设定阈值,至少一个表征多个词元素的节点是通过连接次数大于所述设定阈值的两个节点合并形成的;
[0062]
处理单元,用于根据所述指示信息对应的字典索引图库将所述压缩信息还原成所述待传输文本信息。
[0063]
可选的,所述处理单元具体用于:
[0064]
基于所述指示信息中字典索引图库的版本信息对应的字典索引图库,针对所述压缩信息的消息体中第i字节;在确定所述第i字节为0x00时,获取第i 1字节;
[0065]
若确定所述第i 1字节为0x00,则将所述第i字节和所述第i 1字节之间的词元素还原;
[0066]
若确定所述第i 1字节为非0x00;则结合第i-1字节、所述第i字节和所述第i 1字节在所述字典索引图库中匹配词元素;
[0067]
在确定所述第i字节为非0x00,且所述第i 1字节为非0x00时,则结合所述第i字节和所述第i 1字节在所述字典索引图库中匹配词元素;
[0068]
按照字节在消息体中的顺序,将多个词元素还原成所述待传输文本信息。
[0069]
第五方面,本发明实施例还提供一种计算机设备,包括:
[0070]
存储器,用于存储程序指令;
[0071]
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据传输方法。
[0072]
第六方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述数据传输方法。
附图说明
[0073]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0074]
图1为本发明实施例提供的一种哈夫曼树的示意图;
[0075]
图2为本发明实施例提供的一种系统架构示意图;
[0076]
图3为本发明实施例提供的一种数据传输方法的流程示意图;
[0077]
图4为本发明实施例提供的一种有向图;
[0078]
图5为本发明实施例提供的一种有向图;
[0079]
图6为本发明实施例提供的一种更新后的有向图;
[0080]
图7为本发明实施例提供的一种压缩信息的示意图;
[0081]
图8为本发明实施例提供的一种数据传输方法的流程示意图;
[0082]
图9为本发明实施例提供的一种数据传输方法的流程示意图;
[0083]
图10为本发明实施例提供的一种数据传输装置的结构示意图;
[0084]
图11为本发明实施例提供的一种数据传输装置的结构示意图。
具体实施方式
[0085]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0086]
随着网络传输的数据越来越多,现有技术通过对待传输数据进行压缩传输,来提高数据的传输效率;目前压缩算法常采用哈夫曼算法(huffman coding),流程如下:
[0087]
s1、统计待传输文本信息中各字符的重复出现次数;
[0088]
s2、根据各字符的重复出现次数构建哈夫曼树;
[0089]
s3、根据哈夫曼树确定出待传输文本信息中各字符的二进制标识;
[0090]
s4、根据各字符的二进制标识确定出表征待传输文本信息的字符串。
[0091]
举例来说,待传输文本信息为“hello word hello word”,然后根据上述步骤s1,通过待传输文本信息中包括字符分别为“h”、“e”、“l”、“o”、“w”、“r”、“d”和“空格”;确定各字符的出现次数分别为“h:2”、“e:2”、“l:4”、“o:4”、“w:2”、“r:2”、“d:2”和“空格:3”;
[0092]
根据上述步骤s2,按照各字符的出现次数构建哈夫曼树,图1为本发明实施例示例性示出的一种哈夫曼树的示意图,如图1所示,哈夫曼树上记录有各字符;
[0093]
根据上述步骤s3,通过图1所示的哈夫曼树中各树枝的值(0和1)确定出各字符的二进制标识;分别为“l:00”、“o:01”、“d:100”、“空格:101”、“w:1100”、“r:1101”、“h:1110”和“e:1111”;
[0094]
根据上述步骤s4,通过各字符在待传输文本信息的位置,确定出表征待传输文本信息的字符串为“111011110000011011100011101100101111011110000011011100011101100”;
[0095]
显而易见的,通过上述哈夫曼树得到的待传输文本信息的字符串由64个“0”和“1”,一个字节是由8个不同顺序的0和1组成的,因此上述字符串为8个字节;而待传输文本信息中共包括22个字符,一个字符为一个字节,因此上述待传输文本信息为22个字节,以此实现数据压缩。
[0096]
但是上述技术方案中,对各字符进行同等压缩,无法对固定范式的数据进行例外处理,例如,无法对上述待传输文本信息中的“hello”作为一个字符进行整体压缩,导致文本信息压缩效率低,传输压力大,传输效率有待进一步提高。
[0097]
图2示例性的示出了本发明实施例所适用的一种系统架构,该系统架构包括生成方210和接收方220。
[0098]
其中,生成方210用于将待传输文本信息进行分词,得到多个词元素;然后根据多个词元素构建有向图,并使用第一编码算法对多个词元素进行编码,得到多个词元素对应的字符串;
[0099]
再根据有向图中各节点的权重确定多个词元素在字典索引图库的有限矩阵中的位置,从而得到字典索引图库的有限矩阵;
[0100]
然后根据多个词元素对应的字符串在字典索引图库中匹配多个词元素对应的字典坐标;再按照多个词元素在待传输文本信息中的顺序,生成压缩信息的消息体;
[0101]
将字典索引图库的版本信息确定为指示信息并作为压缩信息的消息头,从而达到压缩信息,并发送至接收方220。
[0102]
接收方220,用于根据指示信息对应的字典索引图库将压缩信息的消息体还原成待传输文本信息。
[0103]
需要说明的是,上述图2所示的结构仅是一种示例,本发明实施例对此不做限定。
[0104]
基于上述描述,图3示例性的示出了本发明实施例提供的一种数据传输方法的流程示意图,该流程可由数据传输装置执行。
[0105]
如图3所示,该流程具体包括:
[0106]
步骤310,生成方将待传输文本信息分词,确定多个词元素。
[0107]
本发明实施例中,词元素至少包括一个字符,如词元素为“我”、“直辖市”“。”等。
[0108]
步骤320,针对任一词元素,所述生成方根据所述词元素的字符串在字典索引图库中匹配所述词元素的字典坐标。
[0109]
本发明实施例中,字典索引图库是根据各文本信息构建的有向图形成的,有向图中节点间的有向边的连接次数小于设定阈值,至少一个表征多个词元素的节点是通过连接次数大于所述设定阈值的两个节点合并形成的。
[0110]
步骤330中,所述生成方按照所述多个词元素在所述待传输文本信息中的顺序,生成具有所述字典索引图库的指示信息和至少一个词元素的字典坐标的压缩信息。
[0111]
本发明实施例中,基于多个词元素的字典坐标,按照词元素在所述待传输文本信息中的顺序,生成压缩信息的消息体。
[0112]
步骤340,所述生成方将所述压缩信息发送至接收方。
[0113]
本发明实施例中,接收方用于根据所述指示信息将所述压缩信息还原成所述待传输文本信息。
[0114]
在步骤310中,生成方运用分词工具对待传输文本信息进行分词,确定多个词元素。例如,待传输文本信息为“北京是我国的首都,是全国的政治中心和文化中心。”多个词元素分别为“北京”、“是”、“我国”、“的”、“首都”、“,”、“是”、“全国”、“的”、“政治”、“中心”、“和”、“文化”、“和”、“文化”、“中心”。
[0115]
在步骤320中,有向图是根据多个词元素确定的,其中,有向图中的节点用于表征词元素;图4为本发明实施例示例性示出的一种有向图,如图4所示,待传输文本信息为“北京是我国的首都,是全国的政治中心和文化中心。”图4所示的有向图中各有向边记录有节点间的连接次数。
[0116]
针对任一文本信息,若所述有向图中不存在所述文本信息中第一词元素对应的节点,则新增表征所述第一词元素的节点;若所述有向图中不存在表征第二词元素的节点至第三词元素的节点之间的有向边,则在所述有向图中增加所述有向边;若所述有向图中存在表征第四词元素的节点至第五词元素的节点之间的有向边,则增加所述有向边的连接次数;若所述连接次数大于所述设定阈值,则合并第四词元素的节点与第五词元素的节点为一个节点;
[0117]
例如,在待传输文本信息还包括其他语句时,有向图会对应更新;图5为本发明实施例示例性示出的一种有向图,如图5所示,待传输文本信息还包括“北京是直辖市,位于我国的北方。”新增词元素为“直辖市”、“北方”和“位于”,并更新有向边的连接次数。
[0118]
针对任一有向边,若有向边的连接次数大于设定阈值,则将与有向边相连的两个节点合并为新词元素;例如,图6为本发明实施例示例性示出的一种更新后的有向图,如图6所示,待传输文本信息还包括“上海位于我国的南方。”其中,节点“我国”与“的”之间的有向边的连接次数为3,大于2(设定阈值),则确定新词元素为“我国的”,从而得到更新后的有向图。
[0119]
因为一个词元素对应一个字典坐标,在词元素包括的字符越多时,得到的压缩信息数据越小,即数据压缩效率越高,从而提高待传输文本信息的压缩效率,降低数据传输压力,提升数据传输效率。
[0120]
在得到有向图之后,将多个词元素置于字典索引图库的有限矩阵中;其中,字典索引图库的有限矩阵如下述表1所示,包括256列(0x00-0xff)和512行(0x00-0xff0x00);其中,第0行(0x00)、第0列(0x00)和第255(0xff)行中的各位为预留位。
[0121][0122][0123]
在一种可实施的方式中,有限矩阵是根据ascii编码方式确定的,也可通过其他编码方式确定,在此不做具体限定。
[0124]
如上述表1所示,有限矩阵中各位置对应一个字典坐标,其中,第0行、第0列和第255(0xff)行中的各位为预留位(表1中灰色位),预留位不作为任一词元素的字典坐标,以此防止三字节的字典坐标与两字节的字典坐标出现交集,即出现字节重叠的情况,从而提升数据压缩的准确性。
[0125]
进一步地,有限矩阵的各位表示所述有向图中的各节点;例如,字典坐标(0x01,0x01)用于表征上述图6中的节点“我国”。
[0126]
有限矩阵中同一行的字典坐标的首字节相同,同一列的字典坐标的尾字节相同;各节点的字典坐标的首字节与各节点的权重成反比;任一节点的权重与节点表征的字节长度成正比。也就是说,节点的权重越大,节点的字典坐标的首字节越小,例如,权重最大的节点的字典坐标为(0x01,0x01)。
[0127]
在一种可实施的方式中,也可以是各节点的字典坐标的尾字节与各节点的权重成反比,在此不做具体限定。
[0128]
本发明实施例中,节点的权重是根据节点对应的词元素的字节长度确定的;具体的,根据公式(1)确定各节点的权重;
[0129][0130]
其中,w为节点的权重;l为所述节点表征的字节长度;i表示第i个周期;m为最近时间的周期数量;n为与所述节点具有关联关系的有向边的连接次数的和;k为预设系数;1>k>0。
[0131]
例如,周期为1小时,m为12,即距离当前时间最近的12个周期内,i不大于m。如i为1,节点为上述图6中的“我国”,则n为3,进而计算第1个周期的节点“我国”的权重值,将12个周期的权重值的和作为节点“我国”的权重。
[0132]
根据各节点的权重确定各节点表征的各词元素在有限矩阵中的位置;然后将每个节点表征的词元素与节点在有限矩阵中的字典坐标关联,构建字典索引图库。
[0133]
需要说明的是,节点表征的词元素是以字符串的形式与字典索引图库中的字典坐标进行关联的;词元素的字符串是生成方根据第一编码算法对词元素编码后得到的;例如,第一编码算法为汉字编码。
[0134]
生成方确定多个词元素之后,通过第一编码算法多个词元素进行编码,得到词元素对应的字符串,然后根据词元素的字符串在字典索引图库中匹配词元素的字典坐标,例如,词元素“我国的”对应的字符串为r1,字符串r1在字典索引图库中对应的字典坐标为(0x01,0x01),则匹配词元素“我国的”对应的字典坐标为(0x01,0x01)。
[0135]
在步骤330中,生成方将字典索引图库的版本信息确定为指示信息并置于所述压缩信息的消息头中;针对任一词元素,生成方在字典索引图库中查找到所述词元素的字典坐标时,将词元素的字典坐标置于压缩信息的消息体中与词元素在待传输文本信息中的位置匹配的位置;在字典索引图库中未查找到词元素的字典坐标时,在词元素的首位添加设定标识并置于所述消息体中与词元素在待传输文本信息中的位置匹配的位置,从而形成压缩信息。
[0136]
举例来说,待传输文本信息为“上海位于我国的南方。”,词元素包括“上海”、“位于”、“我国的”、“南方”、“。”;针对任一词元素,根据首字节从小到大的顺序,匹配词元素的字典坐标。
[0137]
如确定“上海”对应的字典坐标为“(0x01,0x02)”、“位于”对应的字典坐标为“(0x02,0x01)”、“我国的”对应的字典坐标为“(0x01,0x01)”、“。”对应的字典坐标为“(0x02,0x02)”、“南方”对应的字典坐标为“(0x03,0x01)”。
[0138]
在一种可能存在的情况下,生成方未在字典索引图库中匹配到词元素的字典坐标,则根据字典索引图库的第0行的标识、第0列的标识和词元素的字符串确定词元素的字典坐标。
[0139]
假设,“南方”并未匹配到字典坐标,则将“南方”的字符串前后分别设置第0行的标识、第0列的标识,确定(0x00,r2,0x00)为“南方”的字典坐标;其中,r2为“南方”通过第一编码算法得到的字符串。
[0140]
然后按照多个词元素在待传输文本信息中的顺序,确定压缩信息的消息体;
[0141]
基于上述描述进行举例说明,图7示例性的示出了一种压缩信息的示意图,如图7所示,消息体为“0x010x020x020x010x010x010x00r20x000x020x02”。
[0142]
生成方在确定字典索引图库的版本信息未发生变化时,则将字典索引图库的版本信息、第一编码算法的标识作为压缩信息的消息头;其中,字典索引图库的版本信息是根据有向图变化的,也就是说,在有向图变化(包括词元素变化和/或有向边的连接次数变化)时,导致有限矩阵的字典坐标与词元素的关联发生变化,则字典索引图库的版本信息发生变化。
[0143]
若生成方在确定字典索引图库的版本信息未发生变化时,需要将确定消息体所使用的字典索引图库发送至接收方,以使接收方根据字典索引图库,将消息体还原为各词元素的字符串。其中,发送方式包括但不限于:协议通讯、信息发布、人工拷贝等。
[0144]
第一编码算法的标识用于指示接收方通过第一编码算法将各词元素的字符串还原为待传输文本信息。
[0145]
为了保压缩信息的准确性,生成方还会对待传输文本信息进行哈希原运算(md5、sha、sm3等),确定待传输文本信息的第一哈希值,并将第一哈希值置于消息头中,以保证压缩信息的准确性。
[0146]
基于上述技术方案,图8示例性的示出了本发明实施例提供的一种数据传输方法的流程示意图,该流程可由数据传输装置执行。
[0147]
如图8所示,具体流程包括:
[0148]
步骤810,接收方获取压缩信息。
[0149]
本发明实施例中,所述压缩信息包括字典索引图库的指示信息和至少一个词元素的字典坐标;所述压缩信息是生成方按照多个词元素在所述待传输文本信息中的顺序生成的;所述字典索引图库是根据各文本信息构建的有向图形成的,所述有向图中节点间的有向边的连接次数小于设定阈值,至少一个表征多个词元素的节点是通过连接次数大于所述设定阈值的两个节点合并形成的;
[0150]
步骤820,所述接收方根据所述指示信息对应的字典索引图库将所述压缩信息还原成所述待传输文本信息。
[0151]
在步骤810中,压缩信息的消息头中还包括第一编码算法的标识和待传输文本信息的第一哈希值。
[0152]
在步骤820中,接收方基于所述指示信息中字典索引图库的版本信息对应的字典索引图库,将消息体还原为词元素对应的字符串。
[0153]
具体的,针对所述压缩信息的消息体中第i字节;所述接收方在确定所述第i字节为0x00时,获取第i 1字节;所述接收方若确定所述第i 1字节为0x00,则将所述第i字节和所述第i 1字节之间的词元素还原;所述接收方若确定所述第i 1字节为非0x00;则结合第i-1字节、所述第i字节和所述第i 1字节在所述字典索引图库中匹配词元素;所述接收方在确定所述第i字节为非0x00,且所述第i 1字节为非0x00时,则结合所述第i字节和所述第i 1字节在所述字典索引图库中匹配词元素;所述接收方按照字节在消息体中的顺序,将多个词元素还原成所述待传输文本信息。
[0154]
基于上述图7举例来说,i=1时,第1字节为“0x01”,则获取第2字节,因为第2字节为“0x02”,则结合所述第1字节和第2字节在字典索引图库中匹配出词元素“上海”。
[0155]
i=7时,第7字节为“0x00”,则获取第8字节,因为第8字节为“0x00”,则将所述第7字节和第8字节之间的r2还原。
[0156]
若第i字节为0x00,第i 1字节为非0x00,则证明字典坐标为三字节坐标,因此需要结合第i-1字节、第i字节和第i 1字节在字典索引图库中匹配词元素。
[0157]
在匹配出多个词元素对应的字符串之后,按照字节在消息体中的顺序,通过第一编码算法将字符串还原为待传输文本信息。
[0158]
接收方在还原出待传输文本信息之后,确定待传输文本信息的第二哈希值,若第二哈希值与压缩信息的消息头中的第一哈希值一致,则确定还原出的待传输文本信息正确,以此保证数据的准确性。
[0159]
为了更好的阐述上述技术方案,图9示例性的示出了一种数据传输方法的流程示意图,如图9所示。
[0160]
根据待传输文本信息构建有向图,并根据有向图中各节点的权重确定各节点表征的各词元素在有限矩阵中的位置,将每个节点表征的词元素与节点在有限矩阵中的字典坐标关联,构建字典索引图库。
[0161]
基于构建的字典索引图库,生成方对待传输文本信息进行分词,得到多个词元素;词元素中包括至少一个字符;再根据第一编码算法确定多个词元素对应的字符串,根据词元素的字符串在字典索引图库中匹配词元素的字典坐标;根据多个词元素的字典坐标,按照多个词元素在待传输文本信息中的顺序,确定消息体;
[0162]
生成方确定待传输文本信息的第一哈希值,将字典索引图库的版本信息、第一哈希值和第一编码算法的标识作为消息头,从而确定出压缩信息,并将压缩信息发送至接收方。
[0163]
接收方获取压缩信息后,基于压缩信息中字典索引图库的版本信息对应的字典索引图库,将消息体还原为多个词元素的字符串。
[0164]
基于第一编码算法的标识对应的第一编码算法将多个词元素的字符串还原为待传输文本信息。
[0165]
接收方确定待传输文本信息的第二哈希值,根据第一哈希值和第二哈希值确定压缩信息的准确性。
[0166]
基于相同的技术构思,图10示例性的示出了本发明实施例提供的一种数据传输装置的结构示意图,该装置可以执行数据传输方法的流程。
[0167]
如图10所示,该装置具体包括:
[0168]
分词模块1010,用于将待传输文本信息分词,确定多个词元素;
[0169]
处理模块1020,用于根据所述词元素的字符串在字典索引图库中匹配所述词元素的字典坐标;所述字典索引图库是根据各文本信息构建的有向图形成的,所述有向图中节点间的有向边的连接次数小于设定阈值,至少一个表征多个词元素的节点是通过连接次数大于所述设定阈值的两个节点合并形成的;
[0170]
按照所述多个词元素在所述待传输文本信息中的顺序,生成具有所述字典索引图库的指示信息和至少一个词元素的字典坐标的压缩信息;
[0171]
将所述压缩信息发送至接收方;所述接收方用于根据所述指示信息将所述压缩信息还原成所述待传输文本信息。
[0172]
可选的,所述处理模块1020具体用于:
[0173]
将所述字典索引图库的版本信息确定为所述指示信息并置于所述压缩信息的消
息头中;针对任一词元素,在所述字典索引图库中查找到所述词元素的字典坐标时,将所述词元素的字典坐标置于所述压缩信息的消息体中与所述词元素在所述待传输文本信息中的位置匹配的位置;在所述字典索引图库中未查找到所述词元素的字典坐标时,在所述词元素的首位添加设定标识并置于所述消息体中与所述词元素在所述待传输文本信息中的位置匹配的位置,从而形成所述压缩信息。
[0174]
可选的,所述字典索引图库中的有限矩阵的各位表示所述有向图中的各节点;
[0175]
所述有限矩阵中同一行的字典坐标的首字节相同,同一列的字典坐标的尾字节相同;各节点的字典坐标的首字节与各节点的权重成反比;任一节点的权重与节点表征的字节长度成正比。
[0176]
可选的,所述有限矩阵包括256列和512行;其中,第0行、第0列和第255行中的各位为预留位;所述预留位不作为任一词元素的字典坐标。
[0177]
可选的,针对任一词元素,根据公式(1)确定所述各节点的权重,包括:
[0178][0179]
其中,w为节点的权重;l为所述节点表征的字节长度;i表示第i个周期;m为最近时间的周期数量;n为与所述节点具有关联关系的有向边的连接次数的和;k为预设系数;1>k>0。
[0180]
可选的,针对任一文本信息,若所述有向图中不存在所述文本信息中第一词元素对应的节点,则新增表征所述第一词元素的节点;若所述有向图中不存在表征第二词元素的节点至第三词元素的节点之间的有向边,则在所述有向图中增加所述有向边;若所述有向图中存在表征第四词元素的节点至第五词元素的节点之间的有向边,则增加所述有向边的连接次数;若所述连接次数大于所述设定阈值,则合并第四词元素的节点与第五词元素的节点为一个节点;
[0181]
至少根据各有向边的连接次数确定所述各节点的权重;
[0182]
根据所述各节点的权重确定所述各节点表征的各词元素在有限矩阵中的位置;
[0183]
将每个节点表征的词元素与节点在有限矩阵中的字典坐标关联,构建字典索引图库。
[0184]
基于相同的技术构思,图11示例性的示出了本发明实施例提供的一种数据传输装置的结构示意图,该装置可以执行数据传输方法的流程。
[0185]
如图11所示,该装置具体包括:
[0186]
获取单元1110,用于获取压缩信息;所述压缩信息包括字典索引图库的指示信息和至少一个词元素的字典坐标;所述压缩信息是生成方按照多个词元素在所述待传输文本信息中的顺序生成的;所述字典索引图库是根据各文本信息构建的有向图形成的,所述有向图中节点间的有向边的连接次数小于设定阈值,至少一个表征多个词元素的节点是通过连接次数大于所述设定阈值的两个节点合并形成的;
[0187]
处理单元1120,用于根据所述指示信息对应的字典索引图库将所述压缩信息还原成所述待传输文本信息。
[0188]
可选的,所述处理单元1120具体用于:
[0189]
基于所述指示信息中字典索引图库的版本信息对应的字典索引图库,针对所述压缩信息的消息体中第i字节;在确定所述第i字节为0x00时,获取第i 1字节;
[0190]
若确定所述第i 1字节为0x00,则将所述第i字节和所述第i 1字节之间的词元素还原;
[0191]
若确定所述第i 1字节为非0x00;则结合第i-1字节、所述第i字节和所述第i 1字节在所述字典索引图库中匹配词元素;
[0192]
在确定所述第i字节为非0x00,且所述第i 1字节为非0x00时,则结合所述第i字节和所述第i 1字节在所述字典索引图库中匹配词元素;
[0193]
按照字节在消息体中的顺序,将多个词元素还原成所述待传输文本信息。
[0194]
基于相同的技术构思,本发明实施例还提供一种计算机设备,包括:
[0195]
存储器,用于存储程序指令;
[0196]
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据传输方法。
[0197]
基于相同的技术构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述数据传输方法。
[0198]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0199]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0200]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0201]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0202]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献