一种文件处理方法、装置及电子设备与流程

2022-03-16 15:25:00 来源：中国专利 TAG：

1.本公开涉及数据处理领域，尤其涉及数据去重检测技术领域的文件处理方法、装置及电子设备。

背景技术：

2.随着移动互联网技术的发展，将产生海量的数据；由海量数据构成的数据库中可能存在众多的重复数据；重复数据不仅占用数据库的存储空间，而且，在需要针对数据库进行处理时，重复数据会降低数据处理的效率。因此，如何有效地去除数据库中的重复数据是大数据领域一直追求的目标。

技术实现要素：

3.本公开提供了一种文件处理方法、装置及电子设备。
4.根据本公开的第一方面，提供了一种文件处理方法，包括：
5.获取待处理文件；
6.确定所述待处理文件的获取信息；
7.基于所述待处理文件的获取信息构建所述待处理文件对应的候选文件对；
8.根据所述候选文件对的相似度对所述待处理文件进行处理。
9.根据本公开的第二方面，提供了一种文件处理装置，所述文件处理装置包括：
10.获取模块，用于获取待处理文件；
11.确定模块，用于确定所述待处理文件的获取信息；
12.构建模块，用于基于所述待处理文件的获取信息构建所述待处理文件对应的候选文件对；
13.处理模块，用于根据所述候选文件对的相似度对所述待处理文件进行处理。
14.根据本公开的第三方面，提供了一种电子设备，所述电子设备包括：
15.至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，
16.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的文件处理方法。
17.根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的文件处理方法。
18.根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据上述的文件处理方法。
19.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
20.附图用于更好地理解本方案，不构成对本公开的限定。其中：
21.图1是本公开实施例提供的文件处理方法的一种可选处理流程示意图；
22.图2是本公开实施例提供的基于所述待处理文件的获取信息构建所述待处理文件对应的候选文件对的具体实现过程示意图；
23.图3是本公开实施例提供的根据所述候选文件对的相似度对所述待处理文件进行处理的具体实现过程示意图；
24.图4是本公开实施例提供的确定所述候选文件对中包括的所述待处理文件和所述候选历史文件之间的相似度的具体实现过程示意图；
25.图5a是本公开实施例提供的第一矩阵的示意图；
26.图5b是公开实施例提供的第二矩阵的示意图；
27.图5c是公开实施例提供的合并矩阵的示意图；
28.图5d是公开实施例提供的打乱后的矩阵的示意图；
29.图6是本公开实施例提供的对舆情数据进行相似度计算的示意图；
30.图7是本公开实施例提供的文件处理装置的一种可选组成结构示意图；
31.图8是用来实现本公开实施例的文件处理方法的电子设备的框图。
具体实施方式
32.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
33.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
34.在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
35.除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。
36.在对本公开实施例进行详细说明之前，对本公开涉及的名词进行解释。
37.1)舆情数据，在公众对社会态度的收集整理、分析研究、利用、报送和反馈的信息运作过程中，客观反映舆情状态及其运作情况的数据；舆情数据可以是资讯、音信、情报、信号和指令等。
38.2)自媒体平台，也称为自媒体，互联网中设置的用于供用户(包括个人用户、团体和组织等)发布文章的信息平台，依赖于服务器以及在服务器部署的实现自媒体功能的相关软件(支持前端访问和后台处理)；自媒体平台如微博、博客、个人网站、论坛社区和各种社交应用的公众号等。
39.自媒体平台的账户可以是个人、组织、团体和企业等不同类型，通过注册自媒体的
账户以后，在客户端提交的新闻、动态等与用户自身的偏好、动态或业务相关的文章，通过客户端经由自媒体平台推送到合适的用户。
40.自媒体平台，也称为自媒体，互联网中设置的用于供用户(包括个人用户、团体和组织等)发布文章的信息平台，依赖于服务器以及在服务器部署的实现自媒体功能的相关软件(支持前端访问和后台处理)；自媒体平台如微博、博客、个人网站、论坛社区和各种社交应用的公众号等。
41.自媒体平台的账户可以是个人、组织、团体和企业等不同类型，通过注册自媒体的账户以后，在客户端提交的新闻、动态等与用户自身的偏好、动态或业务相关的文章，通过客户端经由自媒体平台推送到合适的用户。
42.3)非自媒体平台，除自媒体平台以外的平台。
43.4)重复数据，是指两条数据的内容相同或者相似，重复数据可以对应同一个现实实体。
44.相关技术中，对数据库中的数据进行去重处理时，通常采用hash算法、ksentence算法、simhash算法以及tf-idf算法等对数据库中的数据进行检测，进而实现对数据库中数据的去重。但是，hash算法的数据计算量无法满足海量数据的要求，尤其针对每天的数据量达到百万级别的场景。利用ksentence算法进行去重处理时的数据召回率低，容易导致大量数据被误判重复，影响数据库的质量。simhash算法对数据要求较高，如针对来源分散、文件长短差距大、文件质量参差不一的舆情数据，使用simhash算法不能够较好的进行去重处理。tf-idf算法则不适用于对实时数据进行处理的场景。另外，利用上述算法进行去重处理时，均是对数据库中存储的全部数据进行处理，由于数据库中存储有海量数据，因此，对数据库中存储的全部数据进行处理所产生的工作量巨大、需要的处理时间长，占用的处理资源多。
45.本公开提供一种文件处理方法，包括：获取待处理文件；确定所述待处理文件的获取信息；基于所述待处理文件的获取信息构建所述待处理文件对应的候选文件对；根据所述候选文件对的相似度对所述待处理文件进行处理。本公开实施例提供的文件处理方法能够对实时数据进行处理，并且，基于待处理文件的获取信息所侯建的候选文件对中包括的历史文件是数据库中的部分文件，而非数据库中的全部文件，如此能够降低数据处理量、减少数据处理时延、减少数据处理资源的占用、提高数据处理效率。
46.为进一步说明本技术实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本公开实施例提供了如下实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本技术实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。
47.图1是本公开提供的文件处理方法的一种可选处理流程示意图，文件处理方法至少可以包括以下步骤：
48.步骤s201，获取待处理文件；
49.在一些可选实施例中，待处理文件可以是通过任意获取来源和获取方式获取到的数据；待处理文件可以是针对任意场景的数据。作为示例，待处理文件可以是舆情数据。待
处理文件可以是任意形式的数据，如待处理文件的形式为图像、或者音频数据、或者视频数据、或者文本。
50.步骤s202，确定所述待处理文件的获取信息。
51.在一些可选实施例中，待处理文件的获取信息至少可以包括待处理文件的获取来源、待处理文件的获取方式以及获取待处理文件的时间信息中的一项或多项。基于此，确定所述待处理文件的获取信息的具体过程，至少可以包括：确定待处理文件的获取来源、确定待处理文件的获取方式以及确定待处理文件的时间信息中的一项或多项。需要说明的是，本公开中对获取信息包括的内容不做限定，除获取来源、获取方式以及获取待处理文件的时间信息之外的其他信息也在本公开的保护范围之内。
52.其中，待处理文件的获取来源至少可以包括自媒体平台和非自媒体平台；自媒体平台可以包括：官方微博、微信公众号、门户网站、政务网、贴吧等。非自媒体平台包括除自媒体平台以外的平台，如以商业为目的建设的网站。
53.其中，待处理文件的获取方式至少可以包括主动爬取或被动接收；其中，主动爬取可以指电子设备从自媒体平台或非自媒体平台中主动获取的数据；被动接收可以指电子设备与自媒体平台或非自媒体平台合作，由自媒体平台或非自媒体平台主动发送至电子设备。作为示例，电子设备运行应用程序，从应用程序获取的数据的获取方式为主动爬取。电子设备与公众号签署协议，同意公众号推送文章等的获取方式为被动接收。
54.其中，获取待处理文件的时间信息可以指获取待处理文件的时刻对应的时间信息；该时间信息可以精确到分钟或小时。
55.步骤s203，基于所述待处理文件的获取信息构建所述待处理文件对应的候选文件对。
56.在一些可选实施例中，基于所述待处理文件的获取信息构建所述待处理文件对应的候选文件对的具体实现过程，如图2所示，至少可以包括：
57.步骤s203a，在历史文件数据库中确定与所述待处理文件的获取信息匹配的候选历史文件。
58.在一些可选实施例中，在历史文件数据库中确定与所述待处理文件的获取信息匹配的候选历史文件的具体过程可以包括：确定所述待处理文件的获取来源；在所述历史文件数据库中查找与所述待处理文件的获取来源相同的历史文件；将所述与所述待处理文件的获取来源相同的历史文件确定为候选历史文件。
59.作为示例，若待处理文件的获取来源是自媒体平台，则在历史文件数据库中查找获取来源是自媒体平台的文件，并将获取来源是自媒体平台的文件作为候选历史文件。进一步的，还可以确定待处理文件的获取来源具体是哪个自媒体平台；作为示例，若确定待处理文件的获取来源是微博，则在历史文件数据库中查找获取来源是微博的文件，并将获取来源是微博的文件作为候选历史文件。
60.在另一些可选实施例中，在历史文件数据库中确定与所述待处理文件的获取信息匹配的候选历史文件的具体过程可以包括：确定所述待处理文件的获取方式；在所述历史文件数据库中查找与所述待处理文件的获取方式相同的历史文件；将所述与所述待处理文件的获取方式相同的历史文件确定为候选历史文件。
61.作为示例，若待处理文件的获取方式是被动接收，则在历史文件数据库中查找获
取方式是被动接收的文件，并将获取方式是被动接收的文件作为候选历史文件。进一步的，还可以确定待处理文件的发送方，若发送方为平台a，则在在历史文件数据库中查找获取方式是被动接收平台a发送的文件，并将获取方式是被动接收平台a发送的文件作为候选历史文件。
62.在又一些可选实施例中，在历史文件数据库中确定与所述待处理文件的获取信息匹配的候选历史文件的具体过程可以包括：确定获取所述待处理文件的时间信息；在所述历史文件数据库中查找与获取所述待处理文件的时间信息满足时间条件的历史文件；将所述与获取所述待处理文件的时间信息满足时间条件的历史文件确定为候选历史文件。其中，所述时间条件为预先设置的，并可根据实际情况灵活设置；时间条件可以是时间区间或时间段，获取历史文件的时刻与获取待处理文件的时刻之间的时间间隔在所述时间区间或时间段内，则满足时间条件。
63.作为示例，若时间条件为1小时；则将早于获取待处理文件1小时内的时间区间获取的历史文件确定为候选历史文件。
64.本公开实施例中，可以在历史文件数据库中确定与所述待处理文件的获取方式、获取来源以及时间信息中的任意一项、或者任意两项、或者三项，确定与待处理文件的获取信息匹配的候选历史文件。
65.其中，历史文件数据库是在当前时刻之前获取的数据，历史文件数据库中的历史文件可通过任意获取方式和获取来源得到。本公开实施例中，历史文件数据库中的历史文件不存在重复数据的情况，即历史文件数据库中的任意两个历史文件之间的相似度小于相似度阈值。
66.步骤s203b，基于所述待处理文件和所述候选历史文件构建候选文件对。
67.本公开实施例中，通过基于待处理文件的获取信息对历史候选文件进行筛选，能够过滤掉与待处理文件明显不重复的数据，减少去重处理的数据量、降低去重处理的时延，减少去重处理的资源占用，提高数据处理效率。
68.本公开实施例中，在历史文件数据库中确定与所述待处理文件的获取信息匹配的候选历史文件的数量可以是一个或多个，在候选历史文件的数量为多个的情况下，候选文件对的数量也是多个；即候选文件对的数量与候选历史文件的数量相同。
69.步骤s204，根据所述候选文件对的相似度对所述待处理文件进行处理。
70.在一些可选实施方式中，根据所述候选文件对的相似度对所述待处理文件进行处理的具体实现过程，如图3所示，至少可以包括：
71.步骤s204a，确定所述候选文件对中包括的所述待处理文件和所述候选历史文件之间的相似度。
72.在一些可选实施例中，可以基于minhash算法计算所述候选文件对中包括的所述待处理文件和所述候选历史文件之间的相似度。通过minhash算法计算所述候选文件对中包括的所述待处理文件和所述候选历史文件之间的相似度，不仅能够对实时数据进行处理，而且能够对百万级以上的海量级数据进行处理，对待处理数据的来源、长短和文件质量均没有要求，对数据重复的误判率低。
73.在具体实施时，确定所述候选文件对中包括的所述待处理文件和所述候选历史文件之间的相似度的具体实现过程，如图4所示，至少可以步骤：
74.步骤1，对所述待处理文件进行分词处理，得到所述待处理文件对应的分词文件。
75.在一些实施例中，若待处理文件的形式是文本，则直接对文本进行分出处理；若待处理文件的形式是视频、或者音频、或者图像，则将视频、音频和图像转换为对应的文本。作为示例，若待处理文件的形式是图像，则可以通过对图像进行分割，得到图像中包括连通域的子图像，再对子图像进行识别，得到子图像对应的文本。若待处理文件的形式是音频，则可以通过对音频进行语音识别，将音频转换为文本。若待处理文件的形式是视频，则可以对视频进行语音识别和图像识别，结合语音识别结合和图像识别结果，确定视频对应的文本。
76.在一些实施例中，待处理文件对应的分词文件可以是多个文本构成的文本集合。
77.本公开实施例中，不限定对待处理文件进行分词处理的方式；如可以采用现有技术中的分词方案对待处理文件进行分词处理。
78.步骤2，确定所述分词文件对应的第一矩阵，以及所述候选历史文件对应的第二矩阵。
79.其中，第一矩阵为将分词文件转换为二进制串得到的矩阵，第二矩阵为将候选历史文件进行分词处理之后，再转换为二进制串得到的矩阵。第二矩阵可以是预先存储在数据库中的，也可以是在计算候选文件对的相似度时确定的。
80.步骤3，基于所述第一矩阵的最小哈希值和所述第二矩阵的最小哈希值，确定所述待处理文件与所述候选历史文件之间的相似度。
81.在一些实施例中，第一矩阵和第二矩阵合并，得到一个包含两列元素的合并矩阵，其中，一列元素对应第一矩阵，另一列元素对应第二矩阵。对合并矩阵进行随机行大乱，打乱后的矩阵中第一列的最小哈希值等于打乱后的矩阵中第一列第一个值为1的行所在的行号；打乱后的矩阵中第二列的最小哈希值等于打乱后的矩阵中第二列第一个值为1的行所在的行号。打乱后的矩阵中第一列的最小哈希值与第二列的最小哈希值相等的概率等于待处理文件与候选历史文件之间的相似度。其中，第一列的最小哈希值与第二列的最小哈希值相等的概率等于x/(x y)；其中，x为第一列和第二列交集的个数。第一列和第二列并集的个数为(x y)。
82.作为示例，第一矩阵的示意图，如图5a所示；第二矩阵的示意图，如图5b所示；合并矩阵的示意图，如图5c所示；打乱后的矩阵如图5d所示；则第一列的最小哈希值为3，第二列的最小哈希值为5。本实施例中，待处理文件与所述候选历史文件之间的相似度等于2/(2 3)＝40％。
83.步骤s204b，响应于待处理文件与候选历史文件之间的相似度小于相似度阈值，将待处理文件写入历史文件数据库；或者，响应于待处理文件与候选历史文件之间的相似度大于或等于相似度阈值，过滤所述待处理文件。
84.在一些可选实施例中，若待处理文件与候选历史文件之间的相似度小于相似度阈值，则将待处理文件写入历史文件数据库。在具体实施时，可根据待处理文件的获取信息将待处理文件写入历史文件数据库；如根据待处理文件的获取方式、待处理文件的获取来源以及获取待处理文件的时间中的一项或多项将待处理文件写入历史文件子数据库；其中，历史文件子数据库属于历史文件数据库。作为示例，若待处理文件的获取方式是主动爬取，获取来源是公众号，则将待处理文件写入历史文件数据库中与“主动获取”和“公众号”对应的历史文件子数据库。
85.若待处理文件与候选历史文件之间的相似度大于或等于相似度阈值，表征历史文件数据库中存在与待处理文件相同或相似的文件，则过滤所述待处理文件，不将待处理文件写入历史文件数据库。
86.本公开实施例中，通过比较待处理文件与候选历史文件之间的相似度，能够过滤掉满足相似度条件的待处理文件，避免历史文件数据库中的文件发生重复的情况；通过比较待处理文件与候选历史文件之间的相似度，能够将不满足相似度条件的待处理文件写入历史文件数据库，丰富历史文件数据库中的数据。
87.本公开实施例提供的文件处理方法，还可以包括：
88.步骤s205，确定所述历史文件数据库中各历史文件的存储时长，在所述历史文件数据库中删除所述存储时长超过时长阈值的历史文件。
89.在一些实施例中，可以设定在历史文件数据库中存储历史文件的时长阈值；将存储时长超过时长阈值的历史文件从历史文件数据库中删除，能够保证历史文件数据库中数据的时效性和新鲜性。
90.下面以用户从微博主动爬取舆情数据为例，对本公开实施例提供的文件处理方法进行说明。
91.用户从微博主动爬取舆情数据，标识为文件1；对舆情数据进行相似度计算的示意图，如图6所示，包括：
92.步骤a，对文件1进行分词处理，得到n个分词结果，n个分词结果为n个文件。
93.步骤b，将n个分词结果分别转换为32维的二进制字符串，并对每个32维的二进制字符串进行处理，得到n个256维的二进制字符串。
94.步骤c，确定n个256维的二进制字符串中每个256维的二进制字符串的最小值，并将n个最小值个拼接，得到一个长度为256维的二进制字符串。
95.步骤d，将拼接后的256维的二进制字符串分为32个桶，每个桶的长度为8字节。
96.步骤e，将32桶的数据分别与候选历史文件进行敏感哈希计算，相同或相似的数据聚集在同一个桶中。
97.其中，候选历史文件的获取来源为微博，获取方式为主动爬取、获取候选历史文件的时刻与获取文件1的时刻满足时间条件，如时间条件为小于3个月。
98.本公开实施例中，通过步骤e能够确定文件1与候选历史文件之间的相似度；若相似度大于或等于相似度阈值，则过滤所爬取的舆情数据，不将所爬取的舆情数据写入历史文件数据库；若相似度小于相似度阈值，则将爬取的舆情数据写历史文件数据库。
99.本公开实施例还提供一种文件处理装置，所述文件处理装置的一种可选组成结构示意图，如图7所示，文件处理装置300包括：
100.获取模块301，用于获取待处理文件；
101.确定模块302，用于确定所述待处理文件的获取信息；
102.构建模块303，用于基于所述待处理文件的获取信息构建所述待处理文件对应的候选文件对；
103.处理模块304，用于根据所述候选文件对的相似度对所述待处理文件进行处理。
104.在一些可选实施例中，确定模块302，用于确定所述待处理文件的获取来源，所述获取来源至少包括自媒体平台或非自媒体平台。
105.在一些可选实施例中，确定模块302，用于确定所述待处理文件的获取方式，所述获取方式至少包括：主动爬取或被动接收。
106.在一些可选实施例中，确定模块302，用于确定获取所述待处理文件的时间信息。
107.在一些可选实施例中，构建模块303，用于在历史文件数据库中确定与所述待处理文件的获取信息匹配的候选历史文件；
108.基于所述待处理文件和所述候选历史文件构建候选文件对。
109.在一些可选实施例中，构建模块303，用于确定所述待处理文件的获取来源；
110.在所述历史文件数据库中查找与所述待处理文件的获取来源相同的历史文件；
111.将所述与所述待处理文件的获取来源相同的历史文件确定为候选历史文件。
112.在一些可选实施例中，构建模块303，用于确定所述待处理文件的获取方式；
113.在所述历史文件数据库中查找与所述待处理文件的获取方式相同的历史文件；
114.将所述与所述待处理文件的获取方式相同的历史文件确定为候选历史文件。
115.在一些可选实施例中，构建模块303，用于确定获取所述待处理文件的时间信息；
116.在所述历史文件数据库中查找与获取所述待处理文件的时间信息相同的历史文件；
117.将所述与获取所述待处理文件的时间信息满足时间条件的历史文件确定为候选历史文件。
118.在一些可选实施例中，处理模块304，用于确定所述候选文件对中包括的所述待处理文件和所述候选历史文件之间的相似度；
119.响应于所述相似度大于或等于相似度阈值，过滤所述待处理文件。
120.在一些可选实施例中，处理模块304，用于确定所述候选文件对中包括的所述待处理文件和所述候选历史文件之间的相似度；
121.响应于所述相似度小于相似度阈值，将所述待处理文件写入历史文件数据库。
122.在一些可选实施例中，处理模块304，用于基于所述待处理文件的获取信息，将所述待处理文件写入与所述获取信息对应的历史文件子数据库；所述历史文件子数据库属于所述历史文件数据库。
123.在一些可选实施例中，处理模块304，用于对所述待处理文件进行分词处理，得到所述待处理文件对应的分词文件；
124.确定所述分词文件对应的第一矩阵，以及所述候选历史文件对应的第二矩阵；
125.基于所述第一矩阵的最小哈希值和所述第二矩阵的最小哈希值，确定所述待处理文件与所述候选历史文件之间的相似度。
126.在一些可选实施例中，处理模块304，还用于确定所述历史文件数据库中各历史文件的存储时长；
127.在所述历史文件数据库中删除所述存储时长超过时长阈值的历史文件。
128.本公开的技术方案中，所涉及的数据的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
129.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品，所述电子设备包括本公开实施例提供的文件处理装置。
130.图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。在一
些实施例中，电子设备800可以是终端设备，也可以是服务器。在一些实施例中，电子设备800可以通过运行计算机程序来实现本技术实施例提供的文件处理方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(native)应用程序(application，app)，即需要在操作系统中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意app中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。
131.在实际应用中，电子设备800可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。电子设备800可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。
132.电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
133.如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
134.电子设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
135.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如文件处理方法。例如，在一些实施例中，文件处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的文件处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为文件处理方法。
136.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统
的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
137.用于实施本公开的交通识别限制方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
138.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
139.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
140.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
141.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
142.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，
只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
143.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于智能交互的企业管理系统的制作方法

一种文件处理方法、装置及电子设备与流程

相关文献

最热文献