一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据比对装置、方法及计算机可读取介质与流程

2022-02-24 16:59:36 来源:中国专利 TAG:


1.本发明涉及医药流通领域的数据比对,尤其涉及对交付数据与历史数据进行比对或对医药流通领域的其他业务数据进行比对的数据比对装置、数据比对方法、以及存储有用于执行该数据比对方法的程序的计算机可读取介质。


背景技术:

2.在医药流通领域,为了高频次地、客观地了解流通渠道内的进销存情况,已知有在经销商的pc端安装数据抓取与传输软件从而实现指定数据从商业到企业之间的定时自动传输的技术,即所谓ddi(distributors dataintegration:渠道数据自动采集)直连系统。该ddi直连系统的数据采集流向数据的频次一般为1天1次。作为第三方医药流通领域数据处理公司,通常会对客户所提供的ddi原始流向数据进行分析处理,形成例如月度数据等处理后的数据。
3.通过对ddi直连系统的有效运用,能促进产品供应链信息的对接和整合,提高数据准确性,加快企业对市场的相应能力和速度,并减轻数据获取的工作量。


技术实现要素:

4.发明所要解决的问题
5.为了确保处理后数据的准确性从而获得更精准的分析结果,第三方医药流通领域数据处理公司通常还会将客户所定期交付的ddi原始流向数据作为历史数据来进行保存。在某些情况下,在ddi原始流向数据交付前后,若发现当前处理后的数据与历史数据差异较大,则需要将处理后的数据与历史数据进行比对。以往,通常采用人工比对的方式,而一旦发现处理后数据有异常,则可能需要对3-6个月的数据进行比对,因此,所需比对的数据量大,工作强度大,会耗费大量的人力成本,且在比对过程中容易发生人为失误的问题。
6.此外,面对不同客户对不同项目所提出的不同要求,也需要能够灵活地改变比对的规则、方式以及比对结果的输出方式等。
7.本发明是鉴于上述问题而完成的,其目的在于,提供一种数据比对装置、方法及计算机可读取介质,能够基于医药流通环节的频繁的、个性化的要求,高效、准确、灵活地完成数据比对,降低人力成本。
8.解决技术问题的技术方案
9.为了解决上述问题,本发明的第一方面所涉及的数据比对装置包括:
10.数据获取部,该数据获取部获取第1数据集和第2数据集,所述第1数据集和所述第2数据集分别包括多条记录,所述记录由多个字段组成;
11.数据标准化部,该数据标准化部基于所述字段,对所述第1数据集和所述第2数据集中的所述记录进行标准化处理;
12.数据比对部,该数据比对部通过合集运算来对经所述标准化处理后的所述第1数据集与所述第2数据集中的所述记录进行比对;以及
13.控制部,该控制部对所述数据标准化部进行控制,决定所述标准化处理的方式,并且,对所述数据比对部进行控制,决定多个比对规则、以及所述比对规则的优先级,使得按照所述优先级,根据所述比对规则来进行逐级比对。
14.另外,为了解决上述问题,本发明的第二方面所涉及的数据比对方法包括:
15.数据获取步骤,在该数据获取步骤中,获取第1数据集和第2数据集,所述第1数据集和所述第2数据集分别包括多条记录,所述记录由多个字段组成;
16.数据标准化步骤,在该数据标准化步骤中,基于所述字段,对所述第1 数据集和所述第2数据集中的所述记录进行标准化处理;以及
17.数据比对步骤,在该数据比对步骤中,决定多个比对规则、以及所述比对规则的优先级,按照所述优先级,根据所述多个比对规则,通过合集运算来对经所述标准化处理后的所述第1数据集与所述第2数据集中的所述记录进行逐级比对。
18.另外,为了解决上述问题,本发明的第三方面所涉及的计算机可读取介质存储有如下程序,该程序用于执行上述本发明的第二方面所涉及的数据比对方法。
19.发明效果
20.根据本发明所涉及的数据比对装置、方法及计算机可读取介质,能够基于医药流通环节的频繁的、个性化的要求,高效、准确、灵活地完成数据比对,降低人力成本。
附图说明
21.图1是表示本发明的数据比对装置的结构的框图。
22.图2是表示作为目标数据集的标准化处理前的ddi数据源的一个示例的数据表。
23.图3是表示作为元数据集的标准化处理前的月度数据源的一个示例的数据表。
24.图4是表示标准化处理后的ddi数据源的一个示例的数据表。
25.图5是表示标准化处理后的月度数据源的一个示例的数据表。
26.图6是表示所输出的数据比对结果的一个示例的数据表。
27.图7是表示本发明的数据比对方法的流程图。
具体实施方式
28.下面,参照附图,对本发明的实施方式进行说明。
29.图1是表示本发明的数据比对装置100的结构的框图。如图1所示,数据比对装置100包括数据获取部1、数据标准化部2、数据比对部3以及控制部4。
30.数据获取部1例如从未图示的第三方医药流通领域数据处理公司的数据库等数据源获取待比对的流向数据,以作为元数据集(第1数据集)。并且,数据获取部1例如从未图示的ddi直连系统等ddi数据源获取每天的ddi原始流向数据,以作为成为比对目标的目标数据集(第2数据集)。数据获取部1 将所获取到的元数据集和目标数据集发送至数据标准化部2。在本实施方式中,元数据集和目标数据集例如以数据库的方式来进行管理,分别包括多条记录,每条记录由多个字段组成。
31.数据标准化部2根据一定的处理方式,基于接收到的元数据集和目标数据集中的字段,来对其中的各条记录进行标准化处理。具体而言,例如以某一个或几个字段为最小粒度,以一定的排列顺序对元数据集和目标数据集重新进行排列组合,从而获得满足相应要
求的数据集。
32.数据比对部3从数据标准化部2获取经标准化处理后的元数据集和目标数据集,并通过合集运算来对所获取到的元数据集与目标数据集进行比对。具体而言,例如,按照来自后述的控制部4的比对规则,以元数据集和目标数据集中的某一个或几个字段为比较项,对这些比较项中的记录采用交集运算,从而获得比对结果,并将比对结果发送至后述的比对结果输出部5。
33.控制部4对数据标准化部2进行控制,以决定数据标准化部2所采用的标准化处理的方式。并且,控制部4对数据比对部3进行控制,以决定数据比对部3所采用的多个比对规则及其优先级,使得按照各比对规则的优先级,根据各比对规则来进行逐级比对。具体而言,控制部4决定数据标准化部2 以哪一个或哪几个字段为最小粒度,按照怎样的排列顺序对元数据集和目标数据集重新进行排列组合。另外,控制部4决定数据比对部3以哪一个或哪几个字段为比较项,并定义各比较项所对应的规则及其优先级,从而按照优先级从高到低形成多个规则的组合,数据比对部3按照该多个规则的组合来依次进行数据比对,即执行所谓的“逐级比对”,并形成比对结果。另外,在执行逐级比对的过程中,当满足了优先级较高的规则时,也可以不再继续按照优先级较低的规则来进行比对而结束数据比对并输出比对结果。
34.作为根据多个优先级不同的比对规则来进行逐级比对的具体示例,例如可以元数据集和目标数据集中的“产品数量”字段为比较项,定义“产品数量完全一致”和“产品数量具有整数倍差异”这两个规则,并定义“产品数量完全一致”的优先级高于“产品数量具有整数倍差异”的优先级。在进行逐级比对时,首先通过合集运算查找到“产品数量完全一致”的记录。然后,可以继续通过合集运算查找“产品数量具有整数倍差异”的记录,也可以直接技术比对并输出比对结果。
35.另外,控制部4可以通过未图示的输入装置从外部接收用户指令或项目信息,并根据该用户指令或项目信息来执行上述对数据标准化部2和数据比对部3的控制。其中,所谓“项目信息”,是指第三方医药流通领域数据处理公司所设立的满足客户所提出的各种不同的数据比对要求的项目的信息。数据比对装置100可以基于该项目信息,来决定数据标准化部2所采用的标准化处理的方式、数据比对部3所使用的比对规则及其优先级和执行逐级比对的方式、以及后述的比对结果输出部5所输出的比对结果和比对结果的输出方式等。此外,不言而喻,控制部4也可以直接按照用户指令来对数据标准化、数据比对及比对结果的输出进行控制。
36.根据本发明的上述结构,由于在由数据标准化部2对元数据集和目标数据集中的记录进行标准化处理后再由数据比对部3进行比对,因此,能统一待比对数据集的格式,有利于后续数据比对的开展。
37.另外,由于数据比对部2通过合集运算来进行比对,因此,无需原始的逐条比对的过程,能大幅提高数据比对的效率。
38.另外,由于由控制部4对数据标准化部2进行控制,决定标准化处理的方式,并且,由控制部4对数据比对部3进行控制,决定多个比对规则、以及比对规则的优先级,使得按照优先级,根据比对规则来进行逐级比对,因此,能自动完成比对而无需进行人工比对,从而能提高比对效率,降低人力成本,避免人为失误的发生。
39.另外,由于控制部4根据项目信息或用户指令来决定数据标准化部2的标准化处理的方式、以及数据比对部3的多个比对规则及比对规则的优先级,因此,在面对不同客户对不同项目所提出的不同要求时,能灵活地改变比对规定和比对方式,以适应用户的需求。
40.此外,如图1所示,数据比对装置100还可以包括比对结果输出部5,该比对结果输出部5在控制部4的控制下,根据用户指令或项目信息的不同的要求,来将数据比对部3的部分或全部的比对结果按照一定的输出方式输出至外部。由于有的用户或项目可能仅对部分字段的部分比对结果感兴趣,因此,通过控制部4的控制,比对结果输出部5能以用户容易理解的方式仅输出用户感兴趣的比对结果,从而能灵活、高效地适用各不同用户和不同项目的个性化要求。
41.此外,如图1所示,数据比对装置100还可以包括元数据描述存储部6,该元数据描述存储部6从数据标准化部2获取标准化处理的结果,并从控制部4获取多个比对规则,基于标准化处理结果和多个比对规则,来生成元数据描述并进行存储。其中,所谓“元数据描述”,是指用于描述标准化的字段的具体内容、以及比对规则的详细内容的信息。系统开发和维护人员通过从元数据描述存储部6中读取元数据描述,能全面掌握整个数据比对过程中的相关信息,从而能方便地完成系统开发和维护工作。
42.下面,参照图2~图6,对本发明的一个实施例进行说明。
43.图2是表示作为目标数据集的标准化处理前的ddi数据源的一个示例的数据表,图3是表示作为元数据集的标准化处理前的月度数据源的一个示例的数据表,图4是表示标准化处理后的ddi数据源的一个示例的数据表,图5是表示标准化处理后的月度数据源的一个示例的数据表,图6是表示所输出的数据比对结果的一个示例的数据表。
44.如图2所示,从ddi直连系统获取到的作为目标数据集(第2数据集)的每日的ddi数据源例如包括产品名称为“测试产品456”、“测试产品789”、
……
的多条记录,每条记录例如均由“单价”、“数量”、“产品名称”、“日期”、“批号”、“实施编码”、“单位”、“产品代码”、“产品规格”、“金额”、“采购方名称”、“业务年月”、“采购方代码”、“商业编码”等多个字段组成。在本实施例中,多条记录例如是从ddi数据源提取的所有业务年月为2019年9月的ddi原始数据,是未经标准化处理前的原始数据。
45.如图3所示,对原始流向数据进行分析处理后所形成的、作为待比对的元数据集(第1数据集)的月度数据源例如包括产品名称为“测试产品789”、“测试产品456”、
……
的多条记录,每条记录例如由“单价”、“数量”、“产品名称”、“日期”、“批号”、“实施编码”、“单位”、“产品代码”、“产品规格”、“金额”、“采购方名称”、“业务年月”、“采购方代码”、“商业编码”等多个字段组成。在本实施例中,多条记录例如是月度数据源提取的所有业务年月为2019年9月的月度原始数据,也是未经标准化处理前的原始数据。
46.从图2、图3可以看出,来自不同来源的两组数据虽然均描述了业务年月为2019年9月的数据,但两者无论是字段的组成和排列方式,还是记录的数量,都存在着差异。造成上述差异的原因可能有多种,例如有两组数据集的收集渠道不同所造成的统计单位的差异、同一日期的不同批次所造成的记录数量的多对一等。当然,也存在待比对数据在处理过程中产生异常等情况。
47.以往,会通过人工比对的方式的方式对两组数据集中的数据逐条进行比对,因此存在工作强度大、人力成本高、且容易发生人为失误的问题。与之相对,在本实施例中,利用
数据比对装置100来执行数据比对。
48.具体而言,首先,由图1所示的数据获取部1来分别获取图2、图3所示的数据集。
49.接着,由数据标准化部2例如基于“产品名称”字段,分别对图2、图3 所示的数据集中的记录进行标准化处理,从而分别形成图4、图5所示的标准化处理后的数据集。作为标准化处理的一个示例,例如如图4、图5所示,数据标准化部2分别将图2、图3中的“产品名称”字段中相同名称的产品的记录集中在一起,并按照“测试产品321”、“测试产品456”、“测试产品789”的顺序进行重新排列。另外,数据标准化部2还对两个数据集中的字段按照一定的规则进行了取舍和重新排序,最终形成图4、图5所示的标准化后的数据集。
50.然后,由数据比对部3通过合集运算来对经标准化处理后的图4的数据集与图5的数据集中的记录进行比对。具体而言,例如,找到图4、图5中“产品名称”字段的内容相同的记录的集合,并按照该“产品名称”字段对两个集合进行交集运算,从而无需进行逐行比对,就能获得比对结果。
51.最后,图6示出了比对结果的一个示例。图6中的“ddi数据源”中的数据相当于图4中的数据集,“月度数据源”中的数据相当于图5中的数据集。
52.另外,图6中的“差异”中所表示的是两个数据集中各条记录的、对应于多个用于比对的字段的差异。例如,对于“日期差异”,“43734”和
“-
43734”分别表示“ddi数据源”或“月度数据源”中缺少相应记录,“0”表示“ddi数据源”与“月度数据源”中的记录没有差异,
“-
9”、
“-
1”等表示“ddi数据源”与“月度数据源”相比所差的天数。对于“采购方差异”和“批号差异”,“true”表示“ddi数据源”与“月度数据源”中的记录没有差异,“false”表示“ddi数据源”与“月度数据源”中的记录有差异。对于“数量差异”,正整数表示“ddi数据源”中的记录比“月度数据源”中的记录要多的数量,负整数表示“ddi数据源”中的记录比“月度数据源”中的记录要少的数量。
53.另外,图6中的“比对结果”一列显示了比对的结果。具体而言,对于“月度数据源”中缺少相应记录的情况,标注为“月度漏量”。对于“ddi 数据源”中缺少相应记录的情况,标注为“ddi漏量”。对于“ddi数据源”与“月度数据源”中的记录完全相同的情况,标注为“无差异”。对于同一产品的记录中除完全相同的记录外、“ddi数据源”与“月度数据源”的数量存在差异但数量总和相等的情况,标注为“多对一”。对于同一产品的记录中除完全相同的记录外、“ddi数据源”与“月度数据源”的数量存在差异且数量总和也不相等的情况,标注为“数量差异”。对于仅日期存在差异的情况,标注为“日期差异”。对于仅“单价”存在差异的情况,标注“单价差异”。
54.以上的每一种比对结果都对应于一个比对规则。在某些变形例中,还可以对这些比对规则赋予优先级。例如,设比对规则“无差异”的优先级高于比对规则“多对一”的优先级,当完成了优先级较高的“无差异”的比对后,就不再进行“多对一”的比对而结束整个比对过程。
55.以上,通过图4~图6,对基于“产品名称”字段来对“ddi数据源”和“月度数据源”进行标准化处理、并基于“无差异”、“多对一”等多个比对规则、通过合集运算来获得比对结果的情况进行了说明。但本发明并不局限于此。通过控制部4的控制,可以变更用于标准化处理的字段、用于比对的字段、以及记录的排列顺序等标准化处理的方式。并且,通过控制部4的控制,还可以变更所采用的比对规则、以及各比对规则的优先级。
56.此外,图6示出了所输出的数据比对结果的一个示例的数据表,但本发明并不局限于此。控制部4还可以对比对结果输出部5进行控制,从而仅输出用户感兴趣的比对结果,或者变更比对结果输出的顺序、详细程度、表现方式等。
57.下面,参照图7,对本发明的数据比对方法的流程进行说明。在开始执行数据比对后,首先,由数据获取部1获取元数据集和目标数据集(步骤 st1)。
58.接着,由数据标准化部2基于控制部4所决定的字段,对元数据集和目标数据集中的记录进行标准化处理(步骤st2)。其中,标准化处理的方式可由控制部4根据项目信息或用户指令来决定。
59.然后,由数据比对部3根据控制部4所决定的多个比对规则,按照各比对规则的优先级,根据各比对规则,通过合集运算来对经标准化处理后的元数据集与目标数据集中的记录进行逐级比对(步骤st3)。其中,比对规则及其优先级可由控制部4根据项目信息或用户指令来决定。
60.此后,由元数据描述存储部6基于标准化处理的结果、以及多个比对规则,来生成元数据描述并进行存储(步骤st4)。
61.最后,由比对结果输出部5将数据比对的部分或全部比对结果进行输出 (步骤st5)。其中,所输出的比对结果、以及比对结果的输出方式等可由控制部4根据项目信息或用户指令来决定。
62.以上对本发明的数据比对装置、数据比对方法进行了说明。在一些实施例中,也可以将用于执行本发明的数据比对方法的程序存储于各种计算机可读取介质,并在需要时将其加载至计算机、微机等中来执行。作为计算机可读取介质并无特别限定,例如可使用hdd、cd-rom、cd-r、mo、 md、dvd等光盘、ic卡、软盘、以及掩模rom、eprom、eeprom、闪存rom等半导体存储器等。
63.另外,以上对将本发明的数据比对装置、数据比对方法运用于医药流通领域的数据比对的情况进行了说明,但本发明并不局限于此。只要是需要按照一定比对规则对大量数据进行精确比对的情况,本发明均可适用。
64.此外,应当认为本次披露的实施方式的所有方面仅是举例表示,并非是限制性的。本发明的范围由权利要求书来表示,而并非由上述实施方式来表示,本发明的范围还包括与权利要求书等同的含义及范围内的所有的修正和变形。
65.工业上的实用性
66.本发明的数据比对装置、方法及计算机可读取介质适用于各种需要对大量数据进行精确比对的场合,尤其在医药流通领域中需要对交付数据与历史数据进行比对或对医药流通领域的其他业务数据进行比对时是有用的。
67.标号说明
[0068]1ꢀꢀꢀ
数据获取部
[0069]2ꢀꢀꢀ
数据标准化部
[0070]3ꢀꢀꢀ
数据比对部
[0071]4ꢀꢀꢀ
控制部
[0072]5ꢀꢀꢀ
比对结果输出部
[0073]6ꢀꢀꢀ
元数据描述存储部
[0074]
100 数据比对装置。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献