数据处理方法、装置、设备、介质和程序产品与流程

2022-03-23 07:45:37 来源：中国专利 TAG：

1.本公开涉及数据处理领域，更具体地，涉及一种数据处理方法、装置、设备、介质和程序产品。

背景技术：

2.在日常的生活工作中，通常会提供各种文件，记录各个用户的数据。在将各个用户的数据填入到文件后，对文件中数据的整理、分析或汇总都需要人工参与。若数据量或数据内容较多，对处理的人员来讲可能会存在工作量大、统计繁琐、耗时长的问题，也可能会统计错误，从而导致实时性差，最终结果不准确的情况发生。因此，如何减少人工参与，实现数据的自动化处理是当前亟待解决的问题。

技术实现要素：

3.鉴于上述问题，本公开提供了一种实现自动化数据处理，以提高实时性和准确性的数据处理方法、装置、设备、介质和程序产品。
4.本公开实施例的一个方面，提供了一种数据处理方法，包括：获取源文件，其中，所述源文件中包括n个用户的关联数据；基于所述关联数据，执行m个数据处理指令来获得m个统计指标的值，其中，所述m个数据处理指令中每个数据处理指令包括获得对应统计指标值的处理条件，n、m分别为大于或等于1的整数；根据第一对应关系，将所述m个统计指标的值写入变量表中，其中，所述变量表中包括m个第一变量，所述第一对应关系包括所述m个统计指标的值与所述m个第一变量的对应关系；根据第二对应关系，基于从所述变量表中获得的所述m个统计指标的值，替换预设文档模板中的m个第二变量，其中，所述第二对应关系包括所述m个第二变量与所述m个第一变量的对应关系。
5.根据本公开的实施例，所述方法通过混合编程的方式实现，具体包括：利用第一编程语言获得第一可执行语句，来实现所述获取源文件、所述执行m个数据处理指令，以及将所述m个统计指标的值写入变量表中；利用第二编程语言获得第二可执行语句，来实现所述基于从所述变量表中获得的所述m个统计指标的值，替换预设文档模板中的m个第二变量；其中，第一编程语言与第二编程语言不同。
6.根据本公开的实施例，所述第二编程语言为visualbasic语言，所述预设文档模板为预设word模板，所述预设word模板中包括预设文字内容，所述m个第二变量设置在所述预设文字内容中的m个位置处。
7.根据本公开的实施例，所述m个统计指标包括至少一个分类指标，每个分类指标对应至少一个关键词，所述获得m个统计指标的值包括获得每个分类指标的值，具体包括：将所述至少一个关键词中每个关键词与所述关联数据中的字段进行匹配；累计所述每个关键词与所述关联数据中的字段的匹配成功次数，获得匹配总次数；将所述匹配总次数作为对应的分类指标的值。
8.根据本公开的实施例，还包括设置每个分类指标的优先级顺序，所述累计所述每
个关键词与所述关联数据中的字段匹配成功的次数包括：在多个分类指标的关键词分别与所述关联数据中同一位置的字段匹配成功的情况下，累计优先级最高的关键词的匹配成功次数；其中，所述优先级最高的关键词对应于所述多个分类指标中优先级级最高的分类指标，所述同一位置包括所述源文件中的同一区域。
9.根据本公开的实施例，还包括设置所述至少一个关键词中每个关键词的优先级顺序，所述累计所述每个关键词与所述关联数据中的字段匹配成功的次数包括：在所述至少一个关键词中多个关键词分别与所述关联数据中同一位置的字段匹配成功的情况下，累计优先级最高的关键词的匹配成功次数，其中，所述同一位置包括所述源文件中的同一区域。
10.根据本公开的实施例，所述关联数据包括所述n个用户的至少一种考核数据，所述源文件为excel文件，所述excel文件中包括至少一个sheet页，每个sheet页中包括一种考核数据，所述获取源文件包括获取所述excel文件，在获取所述excel文件之后，所述方法还包括：执行入库操作，来将所述每个sheet页中的考核数据写入对应的一张第一数据库表中；其中，所述基于所述关联数据，执行m个数据处理指令来获得m个统计指标的值包括：基于每张所述第一数据库表中考核数据的种类，执行对应的至少一个数据处理指令。
11.根据本公开的实施例，所述m个统计指标包括m个考核指标，在所述执行m个数据处理指令之前，还包括预设每种考核数据对应的至少一个数据处理指令，具体包括：确定每种考核数据对应的至少一个考核指标；根据所述至少一个考核指标中每个考核指标的值的处理条件，预设所述每个考核指标对应的数据处理指令。
12.本公开实施例的另一方面提供了一种数据处理装置，包括：文件获取模块，用于获取源文件，其中，所述源文件中包括n个用户的关联数据；指令执行模块，用于基于所述关联数据，执行m个数据处理指令来获得m个统计指标的值，其中，所述m个数据处理指令中每个数据处理指令包括获得对应统计指标值的处理条件，n、m分别为大于或等于1的整数；指标写入模块，用于根据第一对应关系，将所述m个统计指标的值写入变量表中，其中，所述变量表中包括m个第一变量，所述第一对应关系包括所述m个统计指标的值与所述m个第一变量的对应关系；模板替换模块，用于根据第二对应关系，基于从所述变量表中获得的所述m个统计指标的值，替换预设文档模板中的m个第二变量，其中，所述第二对应关系包括所述m个第二变量与所述m个第一变量的对应关系。
13.本公开实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行如上所述的方法。
14.本公开实施例的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的方法。
15.本公开实施例的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的方法。
16.上述一个或多个实施例具有如下有益效果：以源文件中的关联数据为基础，通过执行m个数据处理指令来获得m个统计指标的值，并将m个统计指标的值填入到变量表中，且在变量表中所述m个统计指标的值与m个第一变量一一对应。接着以变量表中的内容为基础，取出m个统计指标的值替换预设文档模板中的m个第二变量，来自动获得最终的处理文档。能够以m个数据处理指令的执行来替代原来人工获得m个统计指标的值的操作，并以变
量表作为源文件与预设文档模板之间的衔接，能够在替换预设文档模板中的m个第二变量时，不再依赖源文件中的关联数据，提高了自动处理场景的灵活性。
附图说明
17.通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：
18.图1示意性示出了根据本公开实施例的数据处理方法的应用场景图；
19.图2示意性示出了根据本公开实施例的数据处理方法的流程图；
20.图3示意性示出了根据本公开实施例的预设文档模板的示意图；
21.图4示意性示出了根据本公开实施例的最终输出文档的示意图；
22.图5示意性示出了根据本公开的另一实施例的数据处理方法的流程图；
23.图6示意性示出了根据本公开实施例的预设数据处理指令的流程图；
24.图7示意性示出了根据本公开实施例的获得每个分类指标的值的流程图；
25.图8示意性示出了根据本公开实施例的数据处理装置的结构框图；
26.图9示意性示出了根据本公开实施例的适于实现数据处理方法的电子设备的方框图。
具体实施方式
27.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
28.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
29.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
30.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
31.在本公开的技术方案中，对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理，在用户允许的情况下进行，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。
32.相关技术中，例如涉及多个用户的基本情况调查、项目进度报告、审计报告、工作考核汇报等场景，需要收集用户的关联数据进行统计。以工作考核汇报为例，可以将每人每天的工作记录到在线文档中，便于对每日工作进度跟踪、汇总，并生成相关日报、月报等。往
往上述工作需要人工参与，其中的工作量大，统计繁琐，耗时长，且人为统计可能出现错误，导致最终报告文件不准确。
33.本公开的实施例提供了一种数据处理方法，包括：获取源文件，其中，源文件中包括n个用户的关联数据。基于关联数据，执行m个数据处理指令来获得m个统计指标的值，其中，m个数据处理指令中每个数据处理指令包括获得对应统计指标值的处理条件，n、m分别为大于或等于1的整数。根据第一对应关系，将m个统计指标的值写入变量表中，其中，变量表中包括m个第一变量，第一对应关系包括m个统计指标的值与m个第一变量的对应关系。根据第二对应关系，基于从变量表中获得的m个统计指标的值，替换预设文档模板中的m个第二变量，其中，第二对应关系包括m个第二变量与m个第一变量的对应关系。
34.根据本公开的实施例，一方面，能够以m个数据处理指令的执行来替代原来人工获得m个统计指标的值的操作，避免了人工获得统计指标过程中可能出现的错漏、计算错误或耗时较长的问题。另一方面，若直接对源文件中关联数据处理，获得统计指标的值后直接填在预设文档模板中，对源文件的依赖性较大，在源文件数量繁多，或文件中数据量较多的情况下，自动处理的灵活性差。而实际上，统计指标的值是预设文档模板所要的数据，因此，以变量表作为源文件与预设文档模板之间的衔接，能够在替换预设文档模板中的m个第二变量时，不再依赖源文件中的关联数据，提高了自动处理场景的灵活性。
35.图1示意性示出了根据本公开实施例的数据处理方法的应用场景图。
36.如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
37.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
38.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
39.服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
40.根据本公开的实施例，用户可以通过终端设备101、102、103在设备本地或在线网页上填写关联数据，并将包括有关联数据的源文件保存在本地或网络中。服务器105可以获取到终端设备101、102、103本地存储的，或网络中存储的源文件。
41.需要说明的是，本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地，本公开实施例所提供的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
42.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需
要，可以具有任意数目的终端设备、网络和服务器。
43.以下将基于图1描述的场景，通过图2～图7对本公开实施例的数据处理方法进行详细描述。
44.图2示意性示出了根据本公开实施例的数据处理方法的流程图。图3示意性示出了根据本公开实施例的预设文档模板的示意图。图4示意性示出了根据本公开实施例的最终输出文档的示意图。
45.如图2所示，该实施例的数据处理方法包括操作s210～操作s240。
46.在操作s210，获取源文件，其中，源文件中包括n个用户的关联数据。
47.参照图1，源文件可以是一个或多个文件，例如是存储在终端设备101、102、103本地的word文件、excel文件，也可以是终端设备101、102、103通过网页、云盘等方式浏览的在线文件。关联数据可以是n个用户中每个用户填入到源文件的数据，例如，每个用户根据当天的工作内容填入的工作汇报数据。也可以是由专门人员填入到源文件中与n个用户相关联的数据，例如学校中老师填入收集的学生信息，或医院中医生填入收集的病人信息。
48.在操作s220，基于关联数据，执行m个数据处理指令来获得m个统计指标的值，其中，m个数据处理指令中每个数据处理指令包括获得对应统计指标的处理条件，n、m分别为大于或等于1的整数。
49.统计指标的值可以是关联数据中本身的内容，如日、周、月或年等日期，处理条件即读取对应字段的内容。还可以是在关联数据的基础上进行加工处理，例如在原始数据的基础上得到的统计值，处理条件即具体的加工处理顺序或计算条件。加工处理的过程可以通过执行数据处理指令实现。数据处理指令例如指计算机所能识别并执行某种加工处理操作的命令，数据处理指令可以利用可编程语言的可执行函数、运算操作符等形成可执行程序语句来实现，例如sql语句。
50.在操作s230，根据第一对应关系，将m个统计指标的值写入变量表中，其中，变量表中包括m个第一变量，第一对应关系包括m个统计指标的值与m个第一变量的对应关系。
51.m个第一变量可以为代表m个统计指标的m个字段。表1中示例性示出了本公开实施例的变量表的部分内容，如下所示。
52.表1
53.[0054][0055]
其中，“变量”列中可以包括多个第一变量，如date、bg1、bg2、bg3、pl1、pl2、pl3和work3。“zhibiao”列中可以包括写入的多个统计指标的值。“remark”列中包括对应变量的中文内容。
[0056]
参照表1，第一对应关系可以通过变量表中每行对应关系来确定，也可以是通过key-value值的形式确定。例如执行sql语句后将结果更新到对应的变量中。以bg1为例，源文件可以是excel文件，其中，可以具有“变更”列，该列中可以填写版本变更、程序变更、数据变更中任一个，可以通过统计“变更”列字段数量来确定bg1对应的统计指标，如24，其余数量类的指标可与bg1的获取方式类似，在此不做赘述。再以work3为例，excel文件中可以包括“临时工作内容”列，每一行为一个用户填写的数据，若用户有临时工作内容则填写，若没有则空。因此，可以设置数据处理指令来读取“临时工作内容”列的内容，若读取到内容，则更新work3。若没有读取到，则将work3置为空值。需要说明的是，例如变量表中还可以设置需要进行计算的变量，如根据平均计算、判断、乘积计算等方式获得，并不仅限于表1中的内容。
[0057]
在操作s240，根据第二对应关系，基于从变量表中获得的m个统计指标的值，替换预设文档模板中的m个第二变量，其中，第二对应关系包括m个第二变量与m个第一变量的对应关系。
[0058]
参照图3，预设文档模板中包括多个第二变量，如docvariable date、docvariable bg1、docvariable bg2、docvariable bg3、docvariable pl1、docvariable pl2、docvariable pl3和docvariable work3，第二对应关系可以通过第一变量与第二变量中的部分字段相同来确定。
[0059]
参照图4，将m个统计指标的值替换m个第二变量后，获得最终输出文档，从而完成了自动化的数据处理，大大减少了人工操作，降低了重复性工作，提高了数据准确性。
[0060]
根据本公开的实施例，一方面，能够以m个数据处理指令的执行来替代原来人工获得m个统计指标的值的操作，避免了人工获得统计指标过程中可能出现的错漏、计算错误或耗时较长的问题。另一方面，若直接对源文件中关联数据处理，获得统计指标后直接填在预设文档模板中，对源文件的依赖性较大，在源文件数量繁多，或文件中数据量较多的情况下，自动处理的灵活性差。而实际上，统计指标的值是预设文档模板所要的数据，因此，以变量表作为源文件与预设文档模板之间的衔接，能够在替换预设文档模板中的m个第二变量时，不再依赖源文件中的关联数据，提高了自动处理场景的灵活性。
[0061]
根据本公开的实施例，操作s210～操作s240可以通过混合编程的方式实现。具体包括：利用第一编程语言获得第一可执行语句，来实现获取源文件、执行m个数据处理指令，以及将m个统计指标的值写入变量表中。利用第二编程语言获得第二可执行语句，来实现基于从变量表中获得的m个统计指标的值，替换预设文档模板中的m个第二变量。其中，第一编程语言与第二编程语言不同。下面参照图5进一步说明。
[0062]
图5示意性示出了根据本公开的另一实施例的数据处理方法的流程图。
[0063]
如图5所示，该实施例的数据处理方法包括操作s501～操作s506。
[0064]
在操作s501，利用第二编程语言获得第三可执行语句，来生成预设文档模板。
[0065]
根据本公开的实施例，第二编程语言为visual basic语言(以下简称vb语言)，预设文档模板为预设word模板，参照图3，预设word模板中包括预设文字内容，m个第二变量设置在预设文字内容中的m个位置处。
[0066]
可执行语句可以是通过编译后可以通知计算机完成一个或多个操作的语句。
[0067]
通过vb语言获得的第三可执行语句可以包括通过vb语言创建的宏程序。通过宏程序的执行和人工输入的预设文字内容，可以获得预设文字模板。
[0068]
在操作s502，执行第一可执行语句，获取源文件。
[0069]
第一编程语言可以是c、c go、java或python等语言。以python语言为例，可以使用pycharm(仅为示例)编辑获得多个第一可执行语句。获取源文件可以通过读取语句“data＝pd.read_excel(r
′
文件路径
′
)”来实现。
[0070]
在操作s503，将源文件进行处理后放入数据库层中的数据库中，并执行m个数据处理指令来获得m个统计指标的值，根据第一对应关系，将m个统计指标的值写入变量表中。其中，变量表可以是存储在数据库中的第二数据库表。数据库表为数据库中用来存储数据的对象，是有结构的数据的集合。
[0071]
在操作s504，调用第二可执行语句。
[0072]
可以通过python编写的一条调用语句来实现自动调取vb代码，vb代码中包括第二可执行语句。
[0073]
在操作s505，通过执行第二可执行语句，根据第二对应关系，从变量表中获得m个统计指标的值。
[0074]
例如在vb代码中包括“sql＝select*from bianliang”，其作用在于连接数据库，便于获取变量表中的内容。其中，bianliang为变量表的名称。
[0075]
在操作s506，将操作s505获得的m个统计指标的值替换预设文档模板中的m个第二变量。
[0076]
该操作中可以运行预先设置的宏程序，根据第一变量与第二变量之间的对应关系，获取统计指标来替换对应的第二变量。
[0077]
根据本公开的实施例，以变量表作为第一编程语言和第二编程语言进行语句执行的衔接，可以在实现混合编程的方式下依然能够自动完成数据处理。另外，混合编程的方式能够充分发挥第一编程语言与第二编程语言各自的优点。例如，python语言可以在源文件处理，与文件落库、数据统计等方面提高编程效率。vb语言与word模板结合，vb代码中的逻辑数据处理及python调用vb的逻辑方法结合，将python中实现起来比较复杂的功能简单化，便于生成最终文档。
[0078]
根据本公开的实施例，关联数据包括n个用户的至少一种考核数据，源文件为excel文件，excel文件中包括至少一个sheet页，每个sheet页中包括一种考核数据，获取源文件包括获取excel文件，在获取excel文件之后，方法还包括：执行入库操作，来将每个sheet页中的考核数据写入对应的一张第一数据库表中。
[0079]
操作s220中基于关联数据，执行m个数据处理指令来获得m个统计指标的值包括：基于每张第一数据库表中考核数据的种类，执行对应的至少一个数据处理指令。
[0080]
以每个人填写当天的工作内容为例，在excel文件可以包括多个sheet页，分别用
于填写变更情况、批量问题情况或临时工作内容情况。变更情况、批量问题情况或临时工作内容情况即分别代表一种考核数据。
[0081]
由于每种考核数据之间是不同的，随之对应的数据处理指令也是不同的。例如一张第一数据库表中为变更情况，则执行与变更情况对应的数据处理指令，来获得版本变更数量、程序变更数量、数据变更数量等考核指标。具体可以为，将上述第一数据库表的名称定义为“bgqk”(仅为示例)，若干个sql语句通过“bgqk”来读取考核数据并进行加工处理。
[0082]
图6示意性示出了根据本公开实施例的预设数据处理指令的流程图。
[0083]
m个统计指标包括m个考核指标，在操作s220中执行m个数据处理指令之前，如图6所示，还包括预设每种考核数据对应的至少一个数据处理指令，具体包括操作s610～操作s620。
[0084]
在操作s610，确定每种考核数据对应的至少一个考核指标。
[0085]
参照表1和图3，每种考核数据会有对应的考核指标，例如变更情况对应版本变更数量、程序变更数量、数据变更数量等考核指标。批量问题情况对应批量问题总数、根本解决问题数量、需后续跟进问题数量等考核指标。临时工作内容对应具体的工作内容为考核指标，如“优化报警监控，检查绿灯脚本等”。
[0086]
在操作s620，根据至少一个考核指标中每个考核指标的值的处理条件，预设每个考核指标对应的数据处理指令。
[0087]
例如批量问题情况还对应当月平均日批量问题的考核指标，该指标的值的处理条件即为获取当月的批量问题总数，然后除以当月天数。以此可以预设一条sql语句作为当月平均日批量问题对应的数据处理指令。
[0088]
根据本公开的实施例，即使源文件中关联数据变化，或统计指标变化，或输出结果的形式变化，都可以通过变更数据处理指令、第一变量以及预设文档模板的方式来灵活适应需求，实现自动化处理的效果。例如，在希望输出图表形式时，亦可以通过vb代码来实现。
[0089]
图7示意性示出了根据本公开实施例的获得每个分类指标的流程图。
[0090]
如图7所示，操作s220中基于关联数据，执行m个数据处理指令来获得m个统计指标的值可以包括获得每个分类指标的值，如操作s710～操作s730。其中，m个统计指标包括至少一个分类指标，每个分类指标对应至少一个关键词。
[0091]
在操作s710，将至少一个关键词中每个关键词与关联数据中的字段进行匹配。
[0092]
表2示意性示出了本公开实施例的对每个分类指标配置的关键词内容示意，如下所示。
[0093]
表2
[0094]
分类指标关键词1关键词2关键词3程序问题程序重启版本数据问题重复数据不唯一数据库问题数据库超时连接表结构问题源表结构null
[0095]
参照表1，以程序问题为例，其对应“程序、重启、版本”三个关键词，可分别与关联数据中的字段进行匹配。
[0096]
在操作s720，累计每个关键词与关联数据中的字段的匹配成功次数，获得匹配总
次数。
[0097]
例如excel文件中包括名称为“批量问题情况”的sheet页，其中包括批量问题的相关数据。该sheet页包括“批量失败原因”列，该列对应的每行数据为用户填写的具体原因内容，如“对数据库中的某库表执行某sql语句时报错，源表与目标表的表结构不一致，数据无法插入导致报错”。
[0098]
以上述原因内容为例，“数据问题”指标中关键词“数据”可以匹配上述原因内容中的“数据库”字段，以及“数据”字段，即累计次数为2次。“数据库问题”指标中关键词“数据库”可以匹配上述原因内容中的“数据库”字段，即累计次数为1次。“表结构问题”指标中关键词“源表”可以匹配上述原因内容中的“源表”字段，关键词“结构”可以匹配上述原因内容中的“表结构”字段，即累计次数为2次。可以类似于上述累计方式对“批量失败原因”列每行数据中的字段进行匹配，来获得匹配总次数。
[0099]
在操作s730，将匹配总次数作为对应的分类指标的值。
[0100]
根据本公开的实施例，通过关联数据内容和关键词，实现自动化的数据分类功能。相比于人工通过阅读大量的关联数据进行分类，提高了分类效率，避免了人工出现分类错误的情况发生。
[0101]
根据本公开的实施例，还包括设置每个分类指标的优先级顺序，累计每个关键词与关联数据中的字段匹配成功的次数包括：在多个分类指标的关键词分别与关联数据中同一位置的字段匹配成功的情况下，累计优先级最高的关键词的匹配成功次数。其中，优先级最高的关键词对应于多个分类指标中优先级级最高的分类指标，同一位置包括源文件中的同一区域。
[0102]
源文件中的同一区域可以是excel文件中同一行或同一列的区域，或通过行坐标和列坐标定位到的同一单元格区域。也可以是某个单元格中的同一句的区域或同一段的区域。
[0103]
若排查后，确定“对数据库中的某库表执行某sql语句时报错，源表与目标表的表结构不一致，数据无法插入导致报错”的问题为表结构问题。那么对“数据问题”指标、“数据库问题”指标进行的累计是多余的，可能会产生数据噪声，对后续的分析结果造成干扰。因此，可以设置“表结构问题”指标具有最高优先级，“数据库问题”指标的优先级次之，“数据问题”指标的优先级最低。在三个分类指标对应的关键词皆匹配成功一个具体原因内容中的字段时，可以仅将“表结构问题”指标的关键词匹配成功的次数有效累计。
[0104]
根据本公开的实施例，还可以按照优先级顺序，依次获得每个分类指标的值。例如，在上述“表结构问题”指标具有最高优先级的情况下，先将关键词“源表”、“结构”与“批量失败原因”列中的字段进行匹配，在某个关键词匹配成功后，即将该区域的内容删除或置为已读，避免其他分类指标的关键词匹配到。
[0105]
根据本公开的实施例，还包括设置至少一个关键词中每个关键词的优先级顺序，累计每个关键词与关联数据中的字段匹配成功的次数包括：在至少一个关键词中多个关键词分别与关联数据中同一位置的字段匹配成功的情况下，累计优先级最高的关键词的匹配成功次数。
[0106]
若排查后，确定“对数据库中的某库表执行某sql语句时报错，源表与目标表的表结构不一致，数据无法插入导致报错”的问题为表结构问题。但是“表结构问题”指标中关键
词“源表”和“结构”两个关键词皆匹配成功，累计次数为2次。实际上述具体原因内容仅代表发生了一次表结构问题，可以认为是累计了多余的次数。
[0107]
因此，可以设置关键词“源表”具有最高优先级，“结构”的优先级次之，。在两个关键词皆匹配成功一个具体原因内容中的字段时，可以仅将“源表”匹配成功的次数有效累计。
[0108]
根据本公开的实施例，还可以按照优先级顺序，依次匹配每个关键词。例如，在上述“源表”具有最高优先级的情况下，先将关键词“源表”与“批量失败原因”列中的字段进行匹配，在匹配成功后，即将该区域的内容删除或置为已读，避免“结构”的关键词匹配成功，而造成多余累计的问题。
[0109]
需要说明的是，表2中的分类指标、关键词的数量和内容仅为示例，上述分类指标之间的优先级顺序，关键词之间的优先级顺序仅为示例，可以在不脱离本公开构思的基础上，进行任意设置。
[0110]
基于上述数据处理方法，本公开还提供了一种数据处理装置。以下将结合图8对该装置进行详细描述。
[0111]
图8示意性示出了根据本公开实施例的数据处理装置的结构框图。
[0112]
如图8所示，该实施例的数据处理装置800包括文件获取模块810、指令执行模块820、指标写入模块830和模板替换模块840。
[0113]
文件获取模块810可以执行操作s210，用于获取源文件，其中，源文件中包括n个用户的关联数据。
[0114]
指令执行模块820可以执行操作s220，用于基于关联数据，执行m个数据处理指令来获得m个统计指标的值，其中，m个数据处理指令中每个数据处理指令包括获得对应统计指标值的处理条件，n、m分别为大于或等于1的整数。
[0115]
指标写入模块830可以执行操作s230，用于根据第一对应关系，将m个统计指标的值写入变量表中，其中，变量表中包括m个第一变量，第一对应关系包括m个统计指标的值与m个第一变量的对应关系。
[0116]
模板替换模块840可以执行操作s240，用于根据第二对应关系，基于从变量表中获得的m个统计指标的值，替换预设文档模板中的m个第二变量，其中，第二对应关系包括m个第二变量与m个第一变量的对应关系。
[0117]
数据处理装置800还可以包括指令预设模块，用于执行操作s610～操作s620。数据处理装置800还可以包括分类指标计算模块，用于执行操作s710～操作s730，在此不做赘述。
[0118]
根据本公开的实施例，以考核数据为例，数据处理装置800可以从在线文档中将变更、批量问题、应用分组、交易量等考核数据爬取后，导入到本地数据库中，再根据数据库中的内容进行分析后写入变量表，自动生成详细的日报，月报内容。还可以根据数据库中的数据统计每个人的日工作量，周工作量等。并且可以根据问题情况，变更情况自动分析生成日报月报，节省了人工分析的复杂度，将重复性的工作自动化，并且将数据进行可视化。
[0119]
根据本公开的实施例，文件获取模块810、指令执行模块820、指标写入模块830和模板替换模块840中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其
他模块的至少部分功能相结合，并在一个模块中实现。
[0120]
根据本公开的实施例，文件获取模块810、指令执行模块820、指标写入模块830和模板替换模块840中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，文件获取模块810、指令执行模块820、指标写入模块830和模板替换模块840中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0121]
图9示意性示出了根据本公开实施例的适于实现数据处理方法的电子设备的方框图。
[0122]
如图9所示，根据本公开实施例的电子设备900包括处理器901，其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0123]
在ram 903中，存储有电子设备900操作所需的各种程序和数据。处理器901、rom 902以及ram 903通过总线904彼此相连。处理器901通过执行rom 902和/或ram 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除rom 902和ram 903以外的一个或多个存储器中。处理器901也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0124]
根据本公开的实施例，电子设备900还可以包括输入/输出(i/o)接口905，输入/输出(i/o)接口905也连接至总线904。电子设备900还可以包括连接至i/o接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906。包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907。包括硬盘等的存储部分908。以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0125]
本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的。也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。
[0126]
根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或
者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom 902和/或ram 903和/或rom 902和ram 903以外的一个或多个存储器。
[0127]
本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现上述本公开实施例所提供的方法。
[0128]
在该计算机程序被处理器901执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0129]
在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0130]
在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0131]
根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c ，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0132]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0133]
本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0134]
以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而
并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于图像处理的润滑油罐体参数自动识别方法与流程

数据处理方法、装置、设备、介质和程序产品与流程

相关文献

最热文献