电子文本的溯源方法及装置与流程

2022-07-23 11:59:17 来源：中国专利 TAG：

1.本公开涉及数据处理技术领域，具体涉及到一种电子文本的溯源方法及装置。

背景技术：

2.随着信息传播速度的加快，电子文档如果被泄露仅需要毫秒级的时间便可完成。对于任何行业中的企业在商业运营中，均有需要保密使用的电子文档，如电子文本。
3.然而由于存在电子文档被泄露的情形，因此在电子文档被泄露后，对泄露路径进行溯源成为了各个电子文档持有端亟待解决的问题。相关技术中，无法对已经泄露的电子文档进行溯源。

技术实现要素：

4.本公开的主要目的在于提供一种电子文本的溯源方法及装置。
5.为了实现上述目的，根据本公开的第一方面，提供了一种电子文本的溯源方法，包括：在接收到原始电子文本后，基于用于表示来源的文本信息对所述电子文本进行编码，包括：将用于表示来源的文本信息转化为多位二进制数；依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改，得到各个文字的新像素值，其中，一个二进制位的内容可作为更改一个文字像素值的依据；当接收到对经上述编码后的电子文本的溯源查询请求后，基于所述电子文本中各个文字的新像素值确定各个文字对应的目标二进制数；基于所述目标二进制数确定该电子文本对应的用于表示来源的目标文本信息。
6.可选地，依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改包括：顺序选取二进制数的第一位数作为固定位，以基于固定位的内容，利用预设算法确定具有第二位数的校验位内容；将所述校验位内容与所述固定位的内容拼接，得到拼接二进制数；依据拼接二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改。
7.可选地，基于所述目标二进制数确定该电子文本对应的用于表示来源的目标文本信息包括：顺次从目标二进制数中截取n组具有目标位数的二进制数，其中，所述每组目标位数为第一位数、与第二位数的总和，n大于或者等于1；针对第n组二进制数，分别确定其固定位的内容、与其校验位内容，其中，n小于或等于n；基于其固定位的内容，利用所述预设算法确定该固定位的内容对应的待校验的校验位内容；将其校验位内容、与所述待校验的校验位内容进行比对；如果比对结果一致，则基于其固定位的内容、与其校验位内容确定用于表示来源的目标文本信息。
8.可选地，如果比对结果不一致且n为1，则重新基于该组二进制数确定用于表示来源的目标文本信息；或者，如果比对结果不一致且n大于1，则基于n m组的二进制数确定用于表示来源的目标文本信息，其中，m大于或者等于1；n m小于或等于n。
9.可选地，所述基于用于表示来源的文本信息对所述电子文本进行编码包括：基于用户设置的传播渠道文本对所述电子文本进行编码；或者，基于自动获取的用户端的信息
对所述电子文本进行编码。
10.可选地，所述方法还包括：当接收到对所述编码后的电子文本进行重新编码的请求时，重新获取用于表示来源的新文本信息；基于所述新文本信息对所述电子文本进行重新编码。
11.根据本公开的第二方面，提供了一种电子文本的溯源装置，包括：编码单元，被配置成在接收到原始电子文本后，基于用于表示来源的文本信息对所述电子文本进行编码，包括：将用于表示来源的文本信息转化为多位二进制数；依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改，得到各个文字的新像素值，其中，一个二进制位的内容可作为更改一个文字像素值的依据；溯源单元，被配置成当接收到对经上述编码后的电子文本的溯源查询请求后，基于所述电子文本中各个文字的新像素值确定各个文字对应的目标二进制数；基于所述目标二进制数确定该电子文本对应的用于表示来源的目标文本信息。
12.进一步地，依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改包括：顺序选取二进制数的第一位数作为固定位，以基于固定位的内容，利用预设算法确定具有第二位数的校验位内容；将所述校验位内容与所述固定位的内容拼接，得到拼接二进制数；依据拼接二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改。
13.根据本公开的第三方面，提供了一种计算机可读存储介质，存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面任意一项实现方式所述的电子文本的溯源方法。
14.根据本公开的第四方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行第一方面任意一项实现方式所述的电子文本的溯源方法。
15.在本公开实施例电子文本的溯源方法及装置中，包括：在接收到原始电子文本后，基于用于表示来源的文本信息对所述电子文本进行编码，包括：将用于表示来源的文本信息转化为多位二进制数；依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改，得到各个文字的新像素值，其中，一个二进制位的内容可作为更改一个文字像素值的依据；当接收到对经上述编码后的电子文本的溯源查询请求后，基于所述电子文本中各个文字的新像素值确定各个文字对应的目标二进制数；基于所述目标二进制数确定该电子文本对应的用于表示来源的目标文本信息。通过对电子文本进行编码，以及对编码后的电子文本进行识别，实现了自动、精准地对泄露的电子文本进行溯源。克服相关技术中电子文本泄露后溯源困难的技术问题。
附图说明
16.为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是根据本公开实施例的电子文本的溯源方法的流程图；图2是根据本公开实施例的电子设备的示意图。
具体实施方式
18.为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。
19.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
20.需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
21.根据本公开实施例，提供了一种电子文本的溯源方法，如图1所示，该方法包括如下的步骤101至步骤103：步骤101：在接收到原始电子文本后，基于用于表示来源的文本信息对所述电子文本进行编码，包括：将用于表示来源的文本信息转化为多位二进制数；依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改，得到各个文字的新像素值，其中，一个二进制位的内容可作为更改一个文字像素值的依据。
22.在本实施例中，对于需要保密并防止泄露的原始电子文本进行处理，在处理时可以预先获取用于表示电子文本来源的文本信息，包括但是不限于，mac地址、ip、时间、当前用户登录信息等。在得到该文本信息后可以将该文本信息转化为包含多个位的二进制数，例如001001。
23.转化为二进制后，每一个二进制位可以是0或者1，基于该内容可以顺次（包括但是不限于按照文字的方向从左到右、从上到下、从右到左、或者从下到上等）对电子文本中的各个文字的显示像素值进行更改。更改过程可以包括，按照从高位到地位的顺序，将二进制位顺次与每个文字对应，例如“001001”对应“从前有一个山”，如果文字对应的二进制位的内容是0，则将该文字的像素值变小（电子文本显示出来可以是颜色变深，如黑色字体变深）、如果文字对应的二进制位的内容是1，则将该文字的像素值变大（电子文本显示出来可以是颜色变浅，如黑色字体变浅），在二进制位用尽后，文字仍未编码完全，则可以重新利用二进制位继续对剩余文字编码，例如“从前有一座山，山里有一个庙”可以对应的二进制是“001001 001001 0”。
24.可以理解的是，为了不影响文本的显示差异，深色字和浅色字的像素值差距可以设定为较小的值。通过更改像素值进行编码能够降低与原电子文本的差异。
25.作为本实施例一种可选的实现方式，基于用于表示来源的文本信息对所述电子文
本进行编码包括：基于用户设置的传播渠道文本对所述电子文本进行编码；或者，基于自动获取的用户端的信息对所述电子文本进行编码。
26.在本可选的实现方式中，如果电子文本是通过默认编码的方式进行编码，则在接收到电子文本后可以直接获取上传电子文本的用户端信息，包括但是不限于mac地址、ip、时间、和/或当前用户登录信息。如果文档被泄露，则可以确定泄露文档的对象，例如，企业a内部的电子文本被授权给目标用户a进行审阅，在审阅前通过其对应的用户端a的信息进行了编码，如果未来在某一网站上被发现了该电子文本，则可以对该电子文本进行识别，确定泄漏源，比如确定为用户端a，则可以认为是通过用户端a泄露的。通过该方式能够高效地确定泄露源。
27.如果电子文本是通过其他编码的方式进行编码，包括指定来源信息的方式进行编码，则可以在接收到上传的电子文本后，设置电子文本的来源信息，包括但是不限于，设置为有权限查阅的用户的信息，例如，用户名、用户职称、用户身份证号信息等等，当基于此信息编码后则可以基于此进行泄露溯源。示例性地，企业a内部通过设置用户b有权限查阅文本，则可以基于用户b的用户信息进行编码，如果未来在某一网站上被发现了该电子文本，则可以对该电子文本进行识别，确定泄漏源，比如识别为用户b，则可认为是由用户b泄露的。通过该方式能够更加高效、精准地确定泄露源头。
28.作为本实施例一种可选的实现方式，依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改包括：顺序选取二进制数的第一位数作为固定位，以基于固定位的内容，利用预设算法确定具有第二位数的校验位内容；将所述校验位内容与所述固定位的内容拼接，得到拼接二进制数；依据拼接二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改。
29.在本可选的实现方式中，如果二进制数中包括x位，则从高位到低位可以选取第一位数x1作为固定位，该第一位数可以是一位、或者多位，为了保证编码的准确性、以及保证后续识别的效率，该第一位数优选是五位。例如，从高位到低位的五位，并且基于该固定位的内容，依据预设的算法，求解包含第二位数x2的内容作为校验位内容，第二位数可以是一位或者多位，为了保证校验的准确性，该位数可以优选是三位。例如，根据3位固定位的内容，求解出3位校验位的内容。在得到固定位和校验位后，可以按照预设的规则进行拼接，包括但是不限于，固定位后拼接顺次拼接校验位，也可以根据按需按照其他顺序拼接，在此不做限定。
30.在得到拼接后的二进制数后，可以依据该二进制数对电子文本进行编码，编码方式同上述的编码处理过程相同，在此不再赘述。通过设置校验位可以保证确定编码后的电子文本对应的来源信息的准确性。
31.作为本实施一种可选的实现方式，基于所述目标二进制数确定该电子文本对应的用于表示来源的目标文本信息包括：顺次从目标二进制内数中截取n组具有目标位数的二进制数，其中，所述每组目标位数为第一位数、与第二位数的总和，n大于或者等于1；针对第n组二进制数，分别确定其固定位的内容、与其校验位内容，其中，n小于或等于n；基于其固定位的内容，利用所述预设算法确定该固定位的内容对应的待校验的校验位内容；将其校验位内容、与所述待校验的校验位内容进行比对；如果比对结果一致，则基于其固定位的内容、与其校验位内容确定用于表示来源的目标文本信息。
32.在本可选的实现方式中，电子文本通常文字量较多，可以顺次截取包含多组固定位和校验位的二进制数，例如，如果固定位和校验位共八位那么，那么十六个文字，便可以截取2组8位的二进制数。
33.在对编码后的电子文本进行来源信息识别时，可以先识别出各个文字对应的二进制内容，在得到二进制内容后，顺次选取固定位数（例如，第一位数，3位）的二进制内容，以及其后的校验位内容（例如，第二位数3位），而后基于编码过程中设置基于固定位确定校验位的算法，计算识别出的该固定位所对应的校验位内容，如果计算出的校验位内容与识别出的校验位内容一致，则识别准确，该识别出的目标二进制数可以直接用于确定来源信息。例如，通过“01010”计算出校验位为“100”，那么基于“01010 100”对电子文本进行编码，而后在对编码后的电子文本进行识别时，如果识别出的结果为“01010 100”，那么根据前3位计算出的校验位为“100”，这与识别出的校验位一致，则可根据“01010 100”确定来源信息。
34.作为本实施例一种可选的实现方式，如果比对结果不一致且n为1，则重新基于该组二进制数确定用于表示来源的目标文本信息；或者，如果比对结果不一致且n大于1，则基于n m组的二进制数确定用于表示来源的目标文本信息，其中，m大于或者等于1；n m小于或等于n。
35.在本可选的实现方式中，如果比对结果不一致，则可以针对下一组二进制数进行校验位比对。如果只存在一组二进制数，则可重新进行识别。
36.还以上述示例为例，如果识别出的结果为“11010 100”，那么根据前3位计算出的校验位为“110”，这与识别出的校验位100不一致，则舍弃该组信息，针对下一组8位二进制数继续进行比对，直到比对一致。
37.作为本实施例一种可选的实现方式，方法还包括：当接收到对所述编码后的电子文本进行重新编码的请求时，重新获取用于表示来源的新文本信息；基于所述新文本信息对所述电子文本进行重新编码。
38.在本可选的实现方式中，编码后的电子文本还可以被重新编码，只需要设定来源信息即可。通过该方式提高了文本的编码的灵活性，步骤102：当接收到对经上述编码后的电子文本的溯源查询请求后，基于所述电子文本中各个文字的新像素值确定各个文字对应的目标二进制数。
39.在本实施例中，如果需要确定当前图像的泄露源时，可以对该电子文本进行识别，可首先确定电子文本中每个文字的像素值，如果该像素值大于预设的阈值则将该当前文字映射至二进制数字，例如1；如果该像素值小于预设的阈值，则将该当前文字映射至另一二进制数字，例如0。可以理解的是，可以按照预设的顺序（例如一行、或者一列）统计该顺序下文字的平均像素值，而后在确定每个文字对应的二进制数字时，判断逻辑可以是如果该文字大于平均像素值则将其映射至一个二进制数字，例如1；反之映射至另一二进制数字，例如0。
40.可以理解的是，可以针对预设数量的文字确定其对应的目标二进制数，如果基于该二进制数确定出来源信息，则可以不对其他文字进行目标二进制数的确定；如果基于该二进制数无法确定出来源信息，则可以继续对其他预设数量的文字进行目标二进制数的转化，重复此过程直到确定出来源信息。
41.步骤103：基于所述目标二进制数确定该电子文本对应的用于表示来源的目标文
本信息。
42.在本实施例中，在步骤102确定电子文本的二进制数字后可以将其转化为字符型文本，得到目标文本信息。
43.通过本实施例实现了电子文本的高效精准地溯源，克服了相关技术中电子文档难以溯源的技术问题。
44.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
45.根据本公开实施例，还提供了一种用于实施上述电子文本的溯源方法的装置，该装置包括：编码单元，被配置成在接收到原始电子文本后，基于用于表示来源的文本信息对所述电子文本进行编码，包括：将用于表示来源的文本信息转化为多位二进制数；依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改，得到各个文字的新像素值，其中，一个二进制位的内容可作为更改一个文字像素值的依据；溯源单元，被配置成当接收到对经上述编码后的电子文本的溯源查询请求后，基于所述电子文本中各个文字的新像素值确定各个文字对应的目标二进制数；基于所述目标二进制数确定该电子文本对应的用于表示来源的目标文本信息。
46.进一步地，依据二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改包括：顺序选取二进制数的第一位数作为固定位，以基于固定位的内容，利用预设算法确定具有第二位数的校验位内容；将所述校验位内容与所述固定位的内容拼接，得到拼接二进制数；依据拼接二进制数中各个位的内容，顺次对电子文本中的各个文字的显示像素值进行更改。
47.可选地，基于所述目标二进制数确定该电子文本对应的用于表示来源的目标文本信息包括：顺次从目标二进制内数中截取n组具有目标位数的二进制数，其中，所述每组目标位数为第一位数、与第二位数的总和，n大于或者等于1；针对第n组二进制数，分别确定其固定位的内容、与其校验位内容，其中，n小于或等于n；基于其固定位的内容，利用所述预设算法确定该固定位的内容对应的待校验的校验位内容；将其校验位内容、与所述待校验的校验位内容进行比对；如果比对结果一致，则基于其固定位的内容、与其校验位内容确定用于表示来源的目标文本信息。
48.可选地，如果比对结果不一致且n为1，则重新基于该组二进制数确定用于表示来源的目标文本信息；或者，如果比对结果不一致且n大于1，则基于n m组的二进制数确定用于表示来源的目标文本信息，其中，m大于或者等于1；n m小于或等于n。
49.可选地，所述基于用于表示来源的文本信息对所述电子文本进行编码包括：基于用户设置的传播渠道文本对所述电子文本进行编码；或者，基于自动获取的用户端的信息对所述电子文本进行编码。
50.可选地，所述方法还包括：当接收到对所述编码后的电子文本进行重新编码的请求时，重新获取用于表示来源的新文本信息；基于所述新文本信息对所述电子文本进行重新编码。
51.本公开实施例提供了一种电子设备，如图2所示，该电子设备包括一个或多个处理器21以及存储器22，图2中以一个处理器21为例。
52.该控制器还可以包括：输入装置23和输出装置24。
53.处理器21、存储器22、输入装置23和输出装置24可以通过总线或者其他方式连接，图2中以通过总线连接为例。
54.处理器21可以为中央处理器（centralprocessingunit，cpu）。处理器21还可以为其他通用处理器、数字信号处理器（digitalsignalprocessor，dsp）、专用集成电路（applicationspecificintegratedcircuit，asic）、现场可编程门阵列（field-programmablegatearray，fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
55.存储器22作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本公开实施例中的控制方法对应的程序指令/模块。处理器21通过运行存储在存储器22中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的方法。
56.存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
57.输入装置23可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置24可包括显示屏等显示设备。
58.一个或者多个模块存储在存储器22中，当被一个或者多个处理器21执行时，执行如图1所示的方法。
59.本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各电机控制方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体（read-onlymemory，rom）、随机存储记忆体（randomaccessmemory，ram）、快闪存储器（flashmemory）、硬盘（harddiskdrive，缩写：hdd）或固态硬盘（solid-statedrive，ssd)等；存储介质还可以包括上述种类的存储器的组合。
60.虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：驾驶场景识别方法、装置、设备、存储介质和程序产品

电子文本的溯源方法及装置与流程

相关文献

最热文献