一种基于大数据技术与相似度算法的流向数据处理系统的制作方法

2023-01-15 07:58:26 来源：中国专利 TAG：

1.本发明涉及流向数据处理技术领域，具体为一种基于大数据技术与相似度算法的流向数据处理系统。

背景技术：

2.在医药行业内，一盒药品从药厂生产到商业到终端，是物流流出，资金流回流，以及商务团队把有关商业、连锁、终端信息流收集到一起用于内部管理的全过程，包含代表考核管理，经销商返利管理等，一切都是基于流向数据进行计算。
3.流向数据的处理是医药企业商务运营的核心，只有基于流向数据才能对销售业绩进行精细化管理。但目前许多招商企业仍然没有重视流向管理。只考核每个代理商的回款数据、发货数据等，更有企业简单粗暴的将erp数据当作流向数据用，至于销量数据有没有错，代理商将货卖到哪，怎么卖的，终端覆盖率是多少等，企业无法掌握。这种粗放式管理就搞得企业内部流向数据怎么也匹配不对，导致企业外部市场窜货。
4.医药企业通常会通过csv文件的方式收集代理商的回款数据、发货数据，或者通过数据库拉取erp系统中的销售数据来获得基础流向数据。将数据同步到流向数据管理平台中。基于这些数据，汇总合计出对应的销售代表的销售业绩以及经销商的销售情况。但这种方式存在的问题在于：通过csv文件的方式收集的内容为人工录入，无法避免会存在数据错误、格式错误的情况，收集上来后需要进行格式处理与校验，处理过程需要人工参与，工作量大。

技术实现要素：

5.针对现有技术的不足，本发明提供了一种基于大数据技术与相似度算法的流向数据处理系统，解决了上述背景技术中提出的问题。
6.为实现以上目的，本发明通过以下技术方案予以实现：一种基于大数据技术与相似度算法的流向数据处理系统，包括：
7.数据样本更新模块，该数据样本更新模块用于持续更新行业标准数据样本；
8.商业数据收集模块，用于收集流向数据；
9.数据处理模块，针对相似的医疗信息，进行大批量数据的关联处理、清洗、合并动作；
10.ai智能模型训练模块，用于将文本之间的相似组成提取出来并进行相应的训练；以及
11.相似度算法模块，计算相近的向量数据的量化近似值进行对比，得到匹配文本；
12.其中，所述数据样本更新模块和商业数据收集模块均包括etl工具，所述etl工具提供了数据收集、数据装换的能力，能够针对csv流向数据进行数据处理以及格式处理。
13.上述方案中，通过设置具有提供数据收集、数据装换能力的etl工具，能够针对csv流向数据进行数据处理以及格式处理，从而就解决了人工录入存在的数据错误、格式错误
的问题，收集上来后的数据也不需要工作人员进行格式处理与校验，减少了实际的工作量，提高了工作效率。
14.优选的，所述数据样本更新模块和商业数据收集模块还都包括有数据存储模块，所述数据存储模块用于提供csv流向数据的暂存和备份的功能。
15.优选的，所述数据处理模块包括大数据引擎spark，该大数据引擎spark用于读取数据存储模块中存储的csv流向数据，并执行ai智能模型训练模块和相似度算法模块。
16.优选的，所述ai智能模型训练模块包括智能分词模块和向量训练模块，其中，智能分词模块用于提取文本之间的相似组成，所述向量训练模块用于体现相似组成的相近向量数据。
17.优选的，所述相似度算法模块具体为余弦相似度算法模块。
18.本发明提供了一种基于大数据技术与相似度算法的流向数据处理系统，具备以下有益效果：
19.通过设置具有提供数据收集、数据装换能力的etl工具，能够针对csv流向数据进行数据处理以及格式处理，从而就解决了人工录入存在的数据错误、格式错误的问题，收集上来后的数据也不需要工作人员进行格式处理与校验，减少了实际的工作量，提高了工作效率。
20.通过设置的大数据引擎spark8，可以通过基于内存的计算能力以及分布式并行处理，提升流向数据大批量计算处理能力，这样，在药品种类多、规格多以及医院、医生以及零售信息数据量大的情况下，可以提高流向数据关联计算时的效率。
附图说明
21.图1为本发明的整体模块图；
22.图2为本发明数据样本更新模块的模块结构示意图；
23.图3为本发明商业数据收集模块的模块结构示意图；
24.图4为本发明数据处理模块的模块结构示意图；
25.图5为本发明ai智能模型训练模块的模块结构示意图；
26.图6为本发明相似度算法模块的模块结构示意图；
27.图7为本发明流向数据处理流程图。
28.图中：1、数据样本更新模块；2、商业数据收集模块；3、数据处理模块；4、ai智能模型训练模块；5、相似度算法模块；6、etl工具；7、数据存储模块；8、大数据引擎spark；9、智能分词模块；10、向量训练模块；11、余弦相似度算法模块。
具体实施方式
29.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。
30.本发明提供一种基于大数据技术与相似度算法的流向数据处理系统，如图1所示，该系统包括数据样本更新模块1、商业数据收集模块2、数据处理模块3、ai智能模型训练模块4和相似度算法模块5；数据样本更新模块1；数据样本更新模块1用于持续更新行业标准数据样本；商业数据收集模块2用于收集流向数据；数据处理模块3可以针对相似的医疗信
息，进行大批量数据的关联处理、清洗、合并动作；ai智能模型训练模块4用于将文本之间的相似组成提取出来并进行相应的训练；相似度算法模块5可以计算相近的向量数据的量化近似值进行对比，得到匹配文本；下面将对上述数据样本更新模块1、商业数据收集模块2、数据处理模块3、ai智能模型训练模块4和相似度算法模块5这五个模块进行详细的描述。
31.如图2和图3所示，数据样本更新模块1和商业数据收集模块2都包括有etl工具6和数据存储模块7，etl工具6提供了数据收集、数据装换的能力，能够针对csv流向数据进行数据处理以及格式处理，从而就解决了人工录入存在的数据错误、格式错误的问题，收集上来后的数据也不需要工作人员进行格式处理与校验，减少了实际的工作量，提高了工作效率，数据存储模块7用于提供csv流向数据的暂存和备份的功能。
32.如图4所示，数据处理模块3包括大数据引擎spark8，该大数据引擎spark8用于读取数据存储模块7中存储的csv流向数据，并执行ai智能模型训练模块4和相似度算法模块5；大数据引擎spark8将标准样本数据和商业数据从数据存储模块7中提取出来并分别命名为数据集df1和数据集df2，通过union-join的方式合并为一个新的数据集df。后续步骤中大数据引擎spark8将调用ai智能模型训练模块4和相似度算法模块5，也就是后面所述的智能分词模块9和余弦相似度算法模块10，以将数据处理过程串联。调用spark-sql语句进行分组排序获得每一组数据中相似度倒序数据集df4，然后通过filter语句选取最相近的前n条数据产生数据集df5，最后输出结果csv；通过设置的大数据引擎spark8，可以通过基于内存的计算能力以及分布式并行处理，提升流向数据大批量计算处理能力，这样，在药品种类多、规格多以及医院、医生以及零售信息数据量大的情况下，可以提高流向数据关联计算时的效率。
33.如图4、图5和图6所示，ai智能模型训练模块4包括智能分词模块9和向量训练模块10，相似度算法模块5具体为余弦相似度算法模块10；其中，智能分词模块9用于提取文本之间的相似组成，向量训练模块10用于体现相似组成的相近向量数据；智能分词模块9将上述提及的数据集df进行分词处理，即将每行数据文本进行文本分词，然后直接把文本分词结果推给向量训练模块10进行向量训练，在模型训练后通过filter语句拆分为main数据集以及acc数据集，main数据集与acc数据集进行cross-join生成df3数据集。对df3数据集调用余弦计算udf，生成nxn的相似度分值数据集。推给大数据引擎spark8进行后续处理；智能分词模块9和相似度算法模块5的应用，通过对文本数据的对比分析计算出了文本之间的相似度，提高流向数据归属匹配准确率，解决了不同经销商对于药品、医院医生零售等终端信息名称描述不一致导致的计算流向数据的归属时存在的人工初次匹配准确率低的问题。
34.综上所述，该基于大数据技术与相似度算法的流向数据处理系统，使用时，首先分别安装及配置etl工具6和数据存储模块7，部署数据样本更新模块1和商业数据收集模块2，并搭建大数据引擎spark8、部署数据处理模块3、ai智能模型训练模块4和相似度算法模块5的逻辑代码；
35.搭建完成后，流向数据处理过程可以参照图7，首先将读取标准样板数据与客户数据，合并为一个数据集，进入智能分词处理，分词处理完成进行向量训练，输出笛卡尔积的相似度匹配数据集，调动余弦相似度算法计算，使用大数据引擎spark8进行数据分区计算排序，输出文本数据集中各个文本与训练数据中最相似的topn个数据，将结果数据输出为csv文件。
36.以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：学习状态识别方法、装置、设备及存储介质与流程

一种基于大数据技术与相似度算法的流向数据处理系统的制作方法

相关文献

最热文献