一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标数据确定方法、装置、计算机设备及存储介质与流程

2022-02-22 19:13:25 来源:中国专利 TAG:


1.本说明书实施方式涉及医药行业数据处理技术领域,具体涉及一种目标数据确定方法、装置、计算机设备、存储介质及计算机程序产品。


背景技术:

2.纵观多数工业型医药企业,采用的药品或者医疗器械的经典销售模式大概包括以下两种方式:自营、代理。在医药企业分销渠道中,准确的产品(比如药品或者医疗器械)流向数据已然成为医药企业进行决策与管控的依据。
3.医药企业可以收集流向数据,以供营销管理者了解每月各分销渠道中的库存数据以及市场终端的销量数据,从而制定适应于未来产品需求的销售计划。其中,医药企业所收集的流向数据具有数据量巨大、数据源多、数据质量不高等特点。


技术实现要素:

4.有鉴于此,本说明书实施方式致力于提供一种目标数据确定方法、装置、计算机设备、存储介质及计算机程序产品,以解决传统技术中产品流向数据清洗过程中效率不高的技术问题。
5.本说明书实施方式提供了一种目标数据确定方法,所述方法包括:接收源数据和任务标识;其中,所述源数据用于表示药械机构实体的名称,且所述源数据用于生成查询关键词,所述任务标识用于指定机构数据集合和查询方式;以所述任务标识指定的查询方式,在所述任务标识指定的机构数据集合中召回与所述查询关键词对应的执行结果集;在所述执行结果集中确定与所述源数据匹配的目标数据。
6.本说明书实施方式提供一种目标数据确定装置,所述装置包括:接收模块,用于接收源数据和任务标识;其中,所述源数据用于表示药械机构实体的名称,且所述源数据用于生成查询关键词,所述任务标识用于指定机构数据集合和查询方式;查询模块,用于以所述任务标识指定的查询方式,在所述任务标识指定的机构数据集合中召回与所述查询关键词对应的执行结果集;数据确定模块,用于在所述执行结果集中确定与所述源数据匹配的目标数据。
7.本说明书实施方式提供一种计算设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述实施方式中的方法步骤。
8.本说明书实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施方式中的方法步骤。
9.本说明书实施方式提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被计算机设备的处理器执行时,使得所述计算机设备能够执行上述实施方式中的方法步骤。
10.本说明书实施方式,通过接收源数据和任务标识,并基于源数据生成查询关键词,实现对源数据的扩充,以召回更全面的结果集。进一步地,以所述任务标识指定的查询方
式,在所述任务标识指定的机构数据集合中召回与所述查询关键词对应的执行结果集;从而在所述执行结果集中确定与所述源数据匹配的目标数据,提升数据匹配的准确性和灵活性,从而可以加速数据清洗的效率。
附图说明
11.图1a所示为一实施方式提供的场景示例中目标数据确定方法的应用环境图;
12.图1b所示为一实施方式提供的场景示例中目标数据确定方法的应用环境图;
13.图1c所示为一实施方式提供的目标数据确定方法的应用环境图;
14.图2所示为一实施方式提供的目标数据确定方法的流程示意图;
15.图3为一实施方式提供的目标数据确定装置的结构框图;
16.图4为一实施方式提供的计算机设备的内部结构图。
具体实施方式
17.下面将结合本说明书实施方式中的附图,对本说明书实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅是本说明书一部分实施方式,而不是全部的实施方式。基于本说明书中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本说明书保护的范围。
18.以下对本说明书中涉及的部分名词进行解释,在医药行业销售链路中产生流向数据。流向数据包括销售相关数据、库存相关数据、发货相关数据以及采购相关数据中的至少一个。在得到医械厂商以及经销商、代理商、药店等机构授权的前提下,可以对医药行业销售链路中的流向数据进行采集,并存储至数据仓库中。医械厂商可以是生产销售医械产品的药厂或企业。医械产品(可以简称为产品)包括药物产品和医疗器械产品。机构可以理解为在产品的流通过程中所涉及到的机构实体,机构类型至少包括医院、药店、经销商、代理商、其他机构中的至少一个。医院可以理解为真实世界中的医疗卫生机构。药店可以理解为真实世界中的药店,包含连锁总部。经销商可以理解为一般指负责药品流通、配送的机构。代理商可以理解为一般指负责药品销售的机构。其他机构可以理解为在产品流通过程中上述未涉及到的一些机构。
19.流向数据可以包括经销商a向代理商b配送x单位数量的产品c,产品c的单位可以是箱、包、盒中的任一个。经销商a、代理商b可以是流向数据中的源数据,即源数据可以是流向数据中的源机构数据。在一些实施方式中,源机构数据包括源机构名称、源机构编码、源机构地址信息中的至少一个。
20.在一些实施方式中,由于不同人群对同一机构实体的称呼不同。比如“苏州市第十人民医院”,针对苏州市内人群,通过简省叫法“十院”都可以被理解为苏州市第十人民医院。针对苏州市之外的部分人群,可以通过另一简省叫法“苏州十院”都可以被理解为苏州市第十人民医院;但是针对其他的部分人群,听到“十院”或者“苏州十院”并不能够想到苏州市第十人民医院。可以理解的是,“十院”、“苏州市第十人民医院”以及“苏州十院”都是指同一机构实体。因此,需要构建名称映射关系集合,比如在“十院”以及“苏州市第十人民医院”之间建立名称映射关系。在“苏州十院”以及“苏州市第十人民医院”之间建立名称映射关系。构建的名称映射关系集合包括存在关联关系的前置机构数据和候选机构数据。前置
机构数据可以理解为不同人对同一实体的不同称呼或者叫法,会因为人群的变化而引起一些歧义。而候选机构数据可以理解为在一定程度上对该实体比较完整的标准机构名称,可以唯一性地指向该实体,不会因为人群的变化而引起一些歧义。比如前置机构数据可以是“十院”、“苏州十院”,标准机构名称可以是“苏州市第十人民医院”。
21.机构数据集合可以是目标企业的企业数据库。企业数据库可以是目标企业所维护的数据仓库,企业数据库包括与目标企业关联的医械机构的机构数据。企业数据库包括与医械企业具有关联关系的机构名称的集合。目标企业属于目标行业,机构数据集合也可以是目标行业的行业数据库。行业数据库可以是基于医械机构的工商注册信息所形成的数据仓库,行业数据库包括目标行业中医疗机构的机构数据。行业数据库包括医械行业中机构名称的集合。
22.请参阅图1a。在一个具体地场景示例中,在执行匹配服务的第一服务器上预先部署规则库,规则库中包括数据匹配规则。数据匹配规则划分为至少一个规则组。在第二服务器对第一服务器开放接口的前提下,第一服务器可以访问第二服务器上部署的企业数据库。在维护企业数据库时,可以通过终端访问第一服务器提供的网页,终端的操作界面上展示企业数据库的维护操作界面,通过维护操作界面接收输入的源数据。在一些实施方式中,源数据可以是机构名称或者机构别名。终端向第一服务器发送匹配服务请求,匹配服务请求包括源数据和任务标识。第一服务器对源数据进行标准化扩充,得到扩充数据,其中,源数据和扩充数据指向同一药械机构实体。任务标识用于指定机构数据集合和查询方式。在本实施方式中,任务标识用于指定企业数据库,查询方式包括模糊查询和全等查询。因此,第一服务器根据任务标识访问第二服务器上部署的企业数据库。根据源数据和扩充数据在企业数据库中进行交叉查询,得到执行结果集。执行结果集中包括至少一条目标机构数据。利用源数据和查询结果集建立映射数据组。计算分别位于映射数据组两侧的源数据和目标机构数据之间的相似度,将相似度作为该映射数据组的分数。按照分数的大小对执行结果集中的至少一条目标机构数据进行倒序排列。将倒序排列的目标机构数据返回至终端,终端可以展示目标机构数据列表。在一些实施方式中,若分别位于映射数据组两侧的源数据和目标机构数据相同,则说明源数据精准匹配到了目标机构数据,将与源数据相同的目标机构数据作为与所述源数据匹配的目标数据。
23.请参阅图1b。在另一个具体地场景示例中,在执行匹配服务的第一服务器上预先部署规则库,规则库中包括数据匹配规则。数据匹配规则划分为至少一个规则组。在第三服务器对第一服务器接口开放的前提下,第一服务器也可以访问第三服务器上部署的行业数据库。第一服务器提供有任务创建页面、源数据导入页面、匹配规则配置页面、匹配结果展示页面。终端访问任务创建页面,通过任务创建页面接收用户指定的数据域、任务模板以及用户输入的任务名称。根据用户指定的任务模板,终端展示与指定的任务模板对应的源数据导入页面。在源数据导入页面中提供有数据上传控件和数据模板下载控件。通过源数据导入页面将源数据进行上传。
24.接着,终端显示匹配规则配置页面,匹配规则匹配页面中提供有若干规则组,包括医院名称相似度匹配、地址相似度匹配、医院名称全匹配、知识库和社会信用编码匹配。医院名称相似度匹配规则组包括名称匹配规则、省份匹配规则。地址相似度匹配规则组包括地址匹配规则、名称匹配规则。医院名称全匹配规则组包括名称匹配规则、省份匹配规则。
知识库中规则组包括知识库匹配规则。社会信用编码匹配规则组包括社会信用编码匹配规则。通过匹配规则配置页面可以选择若干匹配规则。第一服务器访问第三服务器上部署的行业数据库,根据上传的源数据在行业数据库中执行数据匹配任务,得到执行结果集。第一服务器向终端返回执行结果集。终端显示匹配结果展示页面,在匹配结果展示页面中展示执行结果集。执行结果集包括若干条执行结果数据。各执行结果数据包括机构名称、机构代码、机构别名、省份、城市等信息。
25.请参阅图1c,本说明书实施方式提供一种数据匹配系统。且本说明书提供的目标数据确定方法应用于该数据匹配系统。该数据匹配系统可以应用于由第一服务器110、第二服务器120、第三服务器130、流向管理服务器140以及终端150形成的硬件环境上。其中,第一服务器110提供有数据匹配服务。终端150与第一服务器110通信连接。第一服务器110与第二服务器120通信连接。第二服务器120上部署有企业数据库。第二服务器120与流向管理服务器140通信连接。流向管理服务器140向第二服务器120发送获取目标数据的请求,第二服务器可以调用第一服务器110执行数据匹配服务,以确定与源数据匹配的目标数据。第一服务器110与第三服务器130通信连接。第三服务器130上部署有行业数据库。第三服务器130可以调用第一服务器110执行数据匹配服务,以确定与源数据匹配的目标数据。
26.具体地,机构数据集合可以是企业数据库或者行业数据库。第一服务器110访问企业数据库或者行业数据库。第一服务器110接收执行数据匹配任务所需的查询关键词和任务标识;其中,查询关键词用于表示药械机构实体的名称;任务标识用于指定机构数据集合和查询方式;以任务标识指定的查询方式,在任务标识指定的机构数据集合(企业数据库或者行业数据库)中召回与查询关键词对应的执行结果集;在执行结果集中确定与所述源数据匹配的目标数据。
27.其中,终端150可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。第一服务器110、第二服务器120、第三服务器130、流向管理服务器140可以用独立的服务器或者是多个服务器组成的服务器集群来实现。随着科学技术的发展,可能会出现一些新型计算设备,比如量子计算服务器,这些新型计算设备也可以应用于本说明书的实施方式中。
28.请参阅图2,本说明书实施方式提供一种目标数据确定方法。该目标数据确定方法包括以下步骤。
29.s210、接收源数据和任务标识。
30.其中,所述源数据用于表示药械机构实体的名称,且所述源数据用于生成查询关键词。所述任务标识用于指定机构数据集合和查询方式。药械机构实体可以包括医院、药店、经销商、代理商、其他机构中的至少一个。任务标识可以理解为数据匹配任务的唯一性标识信息(code)。任务标识可以是终端与第一服务器预先设置的部分协议内容。
31.由于同一药械机构实体具有不同叫法(比如别名、缺省式叫法),各药械企业所维护的机构名称也不同,从而提升数据清洗过程中的复杂度,需要人工介入,数据清洗效率不高。因此,将同一药械机构实体的不同叫法进行统一化处理或者标准化处理。具体地,在一些实施方式中,在维护机构数据集合时,终端可以向第一服务器发送数据匹配请求,数据匹配请求中携带有源数据和任务标识。第一服务器获取到源数据和任务标识。根据任务标识可以确定以何种查询方式在哪个机构数据集合中召回机构名称数据。根据源数据可以确定
在机构数据集合中查询所使用的查询关键词。
32.在一些实施方式中,通过终端界面上传需要数据匹配处理的若干条源数据。第一服务器可以对源数据进行逐条处理,也可以对若干条源数据进行并行处理。
33.s220、以任务标识指定的查询方式,在任务标识指定的机构数据集合中召回与查询关键词对应的执行结果集。
34.其中,所述任务标识指定的查询方式可以包括全等查询、模糊查询中的至少一个。比如查询方式可以是批量全等查询,查询方式可以是单条模糊查询。所述任务标识指定的机构数据集合包括与医械企业具有关联关系的机构名称的集合、医械行业中机构名称的集合中的至少一个。比如机构数据集合可以是企业数据库,机构数据集合可以是行业数据库。执行结果集可以包括与查询关键词相同的标准机构名称数据。执行结果集也可以包括与查询关键词的相似度满足预设条件的标准机构名称数据。具体地,第一服务器中存储有任务标识对应关系,任务标识对应关系包括任务标识与查询方式之间的对应关系、任务标识与机构数据集合之间的对应关系。在接收到任务标识的情况下,根据任务标识在任务标识对应关系进行查询,确定对应的查询方式和对应的机构数据集合。以对应的查询方式根据查询关键词在对应的机构数据集合中进行查询,从而得到与查询查询关键词对应的执行结果集。
35.在一些实施方式中,可以直接将源数据作为查询关键词在机构数据集合中进行查询。可以基于源数据进行扩充,利用扩充后的源数据作为查询关键词在机构数据集合中进行查询。可以同时利用源数据、扩充后的源数据作为查询关键词进行交叉查询。
36.在一些实施方式中,任务标识指定的查询方式为批量精准查询,指定的机构数据集合为企业数据库,则根据查询关键词在企业数据库进行批量精准查询,得到与查询关键词相同的机构名称数据。
37.在一些实施方式中,任务标识指定的查询方式为模糊查询,指定的机构数据集合为行业数据库,则根据查询关键词在行业数据库进行模糊查询,若没有命中与查询关键词相同的机构名称数据,可以对查询关键词进行分词,利用分词结果继续进行查询,得到执行结果集。
38.s230、在执行结果集中确定与所述源数据匹配的目标数据。
39.其中,目标数据可以是与源数据匹配的标准机构名称数据。标准机构名称数据可以是药械企业在企业数据库中构建或者维护任一药械机构的名称数据。标准机构名称数据可以是药械行业在行业数据库中对任一药械机构的名称数据。在一些实施方式中,机构数据集合可以包括目标数据。相对于源数据所表示的源机构名称或者源机构别名,目标数据也可以理解为目标机构名称或者标准机构名称。需要说明的是,本实施方式中的源机构名称或者源机构别名、以及对应的目标机构名称指向同一医械机构实体。具体地,所述执行结果集包括至少一个目标机构数据。利用执行结果集的至少一个目标机构数据与所述源数据进行匹配,基于匹配结果确定与所述源数据匹配的目标数据。
40.上述目标数据确定方法,通过接收源数据和任务标识,并基于源数据生成查询关键词,实现对源数据的扩充,以召回更全面的结果集。进一步地,以所述任务标识指定的查询方式,在所述任务标识指定的机构数据集合中召回与所述查询关键词对应的执行结果集;从而在所述执行结果集中确定与所述源数据匹配的目标数据,提升数据匹配的准确性
和灵活性,从而可以加速数据清洗的效率。
41.在一些实施方式中,执行结果集包括至少一个目标机构数据;在执行结果集中确定与所述源数据匹配的目标数据,可以包括:在执行结果集中,将与源数据相同的目标机构数据作为与所述源数据匹配的目标数据。
42.其中,目标机构数据可以是从行业数据库中召回的标准机构名称(或者称为目标机构名称)。目标机构数据也可以是从行业数据库中的标准机构名称(或者称为目标机构名称)。具体地,根据查询关键词在企业数据库中进行查询,得到与查询关键词对应的执行结果集。执行结果集中可以包括与源数据相同的目标机构数据。将与源数据相同的目标机构数据确定为与所述源数据匹配的目标数据。在一些实施方式中,可以在源数据和确定的目标数据之间建立数据匹配关系或者数据映射关系。
43.本实施方式中,通过在执行结果集中确定与所述源数据匹配的目标数据,实现源数据的精确匹配,提高数据匹配的精准度及效率,减少需要人工介入的数据清洗工作量。
44.在一些实施方式中,执行结果集包括至少一个目标机构数据。在执行结果集中确定与所述源数据匹配的目标数据,可以包括:获取源数据与任一目标机构数据之间的相似度;在相似度达到相似度阈值的情况下,将执行结果集中的任一目标机构数据作为与所述源数据匹配的目标数据。
45.其中,目标机构数据可以是从行业数据库中召回的标准机构名称或者目标机构名称。目标机构数据也可以是从行业数据库中的标准机构名称或者目标机构名称。相似度阈值可以根据实际情况而灵活设置,比如相似度阈值的取值可以是0.8或者0.85等。具体地,根据查询关键词在企业数据库中进行查询,得到与查询关键词对应的执行结果集。执行结果集中可以包括与源数据相同的目标机构数据。需要说明的是,针对任一源数据以及与该任一源数据相同的目标机构数据,两者之间的相似度可以理解为1。执行结果集中可以包括与源数据相似的目标机构数据。需要说明的是,针对任一源数据以及与该任一源数据相似的目标机构数据,两者之间的相似度可以不小于预设的相似度阈值。在一些实施方式中,可以通过计算编辑距离的方式获取所述源数据与任一目标机构数据之间的相似度。在一些实施方式中,通过深度学习算法对源数据进行识别,并计算所述源数据与任一目标机构数据之间的相似度。
46.本实施方式中,在机构数据集合中以模糊查询的方式进行查询,提升了查询结果的全面性。同时通过合理地设置相似度阈值,从执行结果集中确定合适数量的目标数据。为用户推荐更加全面的目标机构数据,减少用户操作成本,减少数据清洗工作的工作量。
47.在一些实施方式中,任务标识还用于指定数据匹配规则,数据匹配规则中指定有数据字段,执行结果集是通过模糊查询方式而得到的。在获取源数据与任一目标机构数据之间的相似度之前,该目标数据确定方法还可以包括:利用源数据与任一目标机构数据构建映射数据组;根据数据匹配规则中指定的数据字段,从映射数据组的源数据中提取相似度计算所需的第一目标字段;根据数据匹配规则中指定的数据字段,从映射数据组的任一目标机构数据中提取相似度计算所需的第二目标字段;获取第一目标字段与第二目标字段之间的编辑距离。相应地,获取源数据与任一目标机构数据之间的相似度,可以包括:根据编辑距离确定源数据与任一目标机构数据之间的相似度。
48.其中,数据匹配规则可以是预先设置的用于对源数据进行匹配的规则。数据匹配
规则可以包括机构名称精准匹配规则、机构名称模糊匹配规则、省份名称精准匹配规则、省份名称模糊匹配规则、知识库匹配规则、专业词库匹配规则、地址库匹配规则中的至少一个。数据匹配规则可以是根据任务标识在规则库中确定的。其中,规则库是预先部署在第一服务器上。数据匹配规则同样会涉及到数据字段。比如机构名称精准匹配规则中需要制定机构名称字段;机构名称模糊匹配规则中需要指定机构名称字段;省份名称模糊匹配规则中需要指定省份字段等,在此不再一一赘述。编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。在一些实施方式中,编辑距离可以是莱文斯坦距离。
49.在一些实施方式中,为了向用户提供更加精准的数据,需要对执行结果集进行过滤,因此,将源数据与执行结果集进行一一比对,计算两者之间的相似度。具体地,将源数据与执行结果集中的任一目标机构数据进行绑定,以形成映射数据组。映射数据组包括源数据以及该任一目标机构数据构建映射数据组。可以理解的是,若映射数据组包括a元素和b元素,则a元素可以理解为源数据。b元素可以理解为该任一目标机构数据。
50.由于数据匹配规则指定了数据字段,为了通过编辑距离计算相似度,则根据数据匹配规则中指定的数据字段,从映射数据组的源数据中提取第一目标字段。同时,根据数据匹配规则中指定的数据字段,从映射数据组的任一目标机构数据中提取第二目标字段。计算第一目标字段与第二目标字段之间的编辑距离。
51.在一些实施方式中,最小编辑距离的原理是:比较两个字符串,记录一个字符串通过移除、替换、添加操作转换到指定字符串的次数,来确定两个字符串直接的相似度。本实施方式中,比较第一目标字段与第二目标字段,记录第一目标字段通过移除、替换、添加操作转换到第二目标字段的次数,来确定第一目标字段与第二目标字段直接的相似度。即实现根据编辑距离确定源数据与该任一目标机构数据之间的相似度。
52.在一些实施方式中,可以根据相似度对执行结果集中的目标机构数据进行倒序排列。并从执行结果集中获取预设数量的目标机构数据。将源数据与获取的目标机构数据进行平铺处理,将源数据与目标机构数据合并在一起。进一步地,可以将合并后的数据保存在同一个数据文件中,并对源数据和目标机构数据进行不同的标记。在一些实施方式中,可以将相似度计算结果保存至该数据文件中。在一些实施方式中,还可以根据用户的业务需求对数据匹配任务的执行结果进行包装,输出用户所需要的数据结构。
53.本实施方式中,通过编辑距离确定所述源数据与所述任一目标机构数据之间的相似度可以准确地对源数据进行匹配。
54.在一些实施方式中,数据匹配规则划分为至少一个规则组。第一目标字段以及第二目标字段分别是根据任一规则组内的数据匹配规则中指定的数据字段而提取的。获取第一目标字段与第二目标字段之间的编辑距离,可以包括:根据第一目标字段与第二目标字段,计算任一规则组中各数据匹配规则所对应的编辑距离;根据任一规则组中各数据匹配规则所对应的编辑距离,确定任一规则组的编辑标准差。相应地,根据编辑距离确定源数据与任一目标机构数据之间的相似度,可以包括:根据各规则组的编辑标准差,确定各规则组的相似度;在各规则组的相似度中,将最大的相似度作为源数据与任一目标机构数据之间的相似度。
55.具体地,数据匹配规则划分为至少一个规则组。各规则组包括若干数据匹配规则,
遍历各数据规则,确定源数据与任一目标机构数据之间的相似度。在一些实施方式中,针对任一规则组x所包括的任一数据匹配规则y,根据该任一数据匹配规则y对映射数据组中的源数据进行数据字段的提取,得到第一目标字段。根据该任一数据匹配规则对映射数据组中的目标机构数据进行数据字段的提取,得到第二目标字段。根据提取的第一目标字段和第二目标字段确定该任一数据匹配规则所对应的编辑距离l。以此类推,可以获取该任一规则组x中的各数据匹配规则所对应的编辑距离l。利用各数据匹配规则所对应的编辑距离l计算规则组x的编辑标准差。利用编辑标准差可以更真实且准确的反映各数据匹配规则所对应的编辑距离l。
56.在一些实施方式中,针对规则组x,可以利用1减去规则组x的编辑标准差作为规则组x的相似度。在各规则组x中,将最大的相似度作为该映射数据组的相似度,即源数据与任一目标机构数据之间的相似度。
57.在一些实施方式中,查询关键词包括源数据和扩充数据;其中,源数据和扩充数据指向同一药械机构实体,且扩充数据是基于对源数据进行扩充处理而得到的。
58.在一些实施方式中,方法至少还包括以下之一。
59.过滤源数据中的空白字符,得到扩充数据。
60.过滤源数据中的标点符号,得到扩充数据。
61.转换源数据中的指定符号,得到扩充数据。
62.将源数据中的阿拉伯数字转换为中文小写数字,得到扩充数据。
63.替换源数据中的专业词,得到扩充数据。
64.补全源数据中的地理位置数据,得到扩充数据。
65.在一些实施方式中,,接收到源数据,源数据可以是机构名称,可以是机构名称和省份。源数据在一定程度上可以理解为“脏数据”,源数据中包括空白字符、标点符号、指定符号、阿拉伯数字中的至少一个。对源数据的处理过程可以包括过滤阶段、标准化阶段。具体地,过滤阶段包括空白字符过滤和标点符号过滤等操作。标准化阶段包括符号标准化、阿拉伯数字转换为中文小写数字、专业词替换、通过分词提取省市信息并标准化等操作。
66.示例性地,输入的是“苏州民政第3精神。、卫生中心”;过滤空白字符,得到“苏州民政第3精神。、卫生中心”;过滤标点符号,得到“苏州民政第3精神卫生中心”;将源数据中的阿拉伯数字转换为中文小写数字,得到“苏州民政第三精神卫生中心”,省市标准化,得到“苏州市民政第三精神卫生中心”。
67.本说明书实施方式提供一种目标数据确定方法,该目标数据确定方法包括以下步骤。
68.s302、接收源数据和任务标识。
69.其中,所述源数据用于表示药械机构实体的名称,且所述源数据用于生成查询关键词,所述任务标识用于指定机构数据集合和查询方式。查询关键词包括源数据和扩充数据;其中,源数据和扩充数据指向同一药械机构实体,且扩充数据是基于对源数据进行扩充处理而得到的。
70.具体地,过滤源数据中的空白字符,得到扩充数据。或者,过滤源数据中的标点符号,得到扩充数据;或者,转换源数据中的指定符号,得到扩充数据;或者,将源数据中的阿拉伯数字转换为中文小写数字,得到扩充数据;或者,替换源数据中的专业词,得到扩充数
据;或者,补全源数据中的地理位置数据,得到扩充数据。
71.s304、以任务标识指定的查询方式,在任务标识指定的机构数据集合中召回与查询关键词对应的执行结果集。
72.其中,执行结果集包括至少一个目标机构数据;任务标识指定的查询方式包括全等查询、模糊查询中的至少一个。
73.任务标识指定的机构数据集合包括与医械企业具有关联关系的机构名称的集合、医械行业中机构名称的集合中的至少一个。
74.s306、当指定的查询方式为全等查询时,在执行结果集中,将与源数据相同的目标机构数据作为与所述源数据匹配的目标数据。
75.s308、当指定的查询方式为模糊查询时,获取源数据与任一目标机构数据之间的相似度;在相似度达到相似度阈值的情况下,将执行结果集中的任一目标机构数据作为与所述源数据匹配的目标数据。
76.其中,任务标识还用于指定数据匹配规则,数据匹配规则中指定有数据字段。具体地,利用源数据与任一目标机构数据构建映射数据组;根据数据匹配规则中指定的数据字段,从映射数据组的源数据中提取相似度计算所需的第一目标字段;根据数据匹配规则中指定的数据字段,从映射数据组的任一目标机构数据中提取相似度计算所需的第二目标字段。其中,数据匹配规则划分为至少一个规则组;第一目标字段以及第二目标字段分别是根据任一规则组内的数据匹配规则中指定的数据字段而提取的。在一些实施方式中,根据第一目标字段与第二目标字段,计算任一规则组中各数据匹配规则所对应的编辑距离;根据任一规则组中各数据匹配规则所对应的编辑距离,确定任一规则组的编辑标准差;根据各规则组的编辑标准差,确定各规则组的相似度;在各规则组的相似度中,将最大的相似度作为源数据与任一目标机构数据之间的相似度。
77.应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
78.请参阅图3,本说明书实施方式提供了一种目标数据确定装置300,目标数据确定装置300包括接收模块310、查询模块320和数据确定模块330。
79.接收模块310,用于接收源数据和任务标识;其中,所述源数据用于表示药械机构实体的名称,且所述源数据用于生成查询关键词,所述任务标识用于指定机构数据集合和查询方式。
80.查询模块320,用于以任务标识指定的查询方式,在任务标识指定的机构数据集合中召回与查询关键词对应的执行结果集。
81.数据确定模块330,用于在所述执行结果集中确定与所述源数据匹配的目标数据。
82.关于目标数据确定装置的具体限定可以参见上文中对于目标数据确定方法的限定,在此不再赘述。上述目标数据确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以
以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
83.在一些实施方式中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种目标数据确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
84.本领域技术人员可以理解,图4中示出的结构,仅仅是与本说明书所公开方案相关的部分结构的框图,并不构成对本说明书所公开方案所应用于其上的计算机设备的限定,具体地,计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
85.在一些实施方式中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实施方式中的方法步骤。
86.在一些实施方式中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施方式中的方法步骤。
87.在一些实施方式中,还提供一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由计算机设备的处理器执行时实现上述实施方式中的方法步骤。
88.本领域普通技术人员可以理解实现上述实施方式方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施方式的流程。其中,本说明所提供的各实施方式中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
89.以上实施方式的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施方式中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
90.以上所述仅为本说明书的较佳实施方式而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所作的任何修改、等同替换等,均应包含在本说明书的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献