数据及数据协作者推荐方法与系统与流程

2022-10-14 14:39:09 来源：中国专利 TAG：

1.本发明涉及计算机数据处理技术领域，具体地，涉及数据及数据协作者推荐方法与系统。

背景技术：

2.计算机和软件用户已经习惯了用于共同创作文件、文档、消息等的用户友好的软件应用。例如，存储提供商(例如，云存储提供商)提供诸如文字处理应用、电子表格应用、电子幻灯片演示应用、电子邮件应用、聊天应用、语音应用等之类的应用，其中，用户可以在所述应用内彼此共同创作或协作。协作包括识别用于共享文档和/或利用其他协作特征的协作者/用户。用于识别要进行协作的其他用户的现有技术需要手动地键入其他潜在用户的名字，并且有时需要按顺序地键入。由于需要繁重的键入，这样的技术是枯燥的并且容易出错。由此，用于识别要进行文档协作的用户的现有技术可能是繁琐的、困难的、且低效率的，这最终会引起缺少对文档协作的参与。
3.专利文献cn109844786a(申请号：201780064880.0)公开了使用协作图的协作者推荐，在一个方面中，可以在数据建模服务处接收与至少一个应用相关联的协作数据。可以创建用于表示与至少一个应用相关联的协作数据的协作图。可以查询所述协作图以识别用于在至少一个应用内进行协作的多个推荐的协作者。可以以基于一组标准的排名顺序来对所述多个推荐的协作者进行排名。

技术实现要素：

4.针对现有技术中的缺陷，本发明的目的是提供一种数据及数据协作者推荐方法与系统。
5.根据本发明提供的一种数据及数据协作者推荐方法，包括：
6.步骤s1：通过记录并解析数据使用者对数据的操作历史，构建使用者与所用数据的熟悉程度，并根据熟悉程度定义数据专家；
7.步骤s2：通过用户包括所属团队、项目以及常用数据信息生成用户标签，并进行聚类分组；
8.步骤s3：对数据实体进行标记并进行聚类分组；
9.步骤s4：根据用户数据使用记录推荐相应的感兴趣数据和数据专家。
10.优选地，所述步骤s1采用：
11.步骤s1.1：自动采集并记录用户操作日志，包括数据的创建、调用以及查询的具体操作行为和具体操作时间；
12.步骤s1.2：基于记录的用户操作行为和操作时间构建用户及数据之间的熟悉度关系；
13.步骤s1.3：每个数据实体按照熟悉度排序后取前预设位用户并定义为数据的数据专家。
14.优选地，所述步骤s1.2采用：根据用户的操作频次以及操作类型信息，依据预设权重加权计算得到用户及数据之间的熟悉度关系；
15.s＝s1*w1 s2*w2 s3*w3
ꢀꢀꢀ
(1)
16.其中，w1、w2、w3表示加权值；s1表示最近一次消费，指用户上次调用该数据的时间，将所有用户的最近一次消费进行排序，时间越近对应分值越高；s2表示消费频率，指用户在近一年内调用该数据的频次，将所有用户的消费频次进行排序，消费频次越高对应分值越高；s3表示消费量，指用户在近一年内调用该数据时，返回的数据量大小，将所有用户的消费量进行排序，消费量越高对应分值越高。
17.优选地，所述步骤s2采用：
18.步骤s2.1：通过用户包括所属团队、项目以及常用数据信息生成用户标签；
19.步骤s2.2：基于用户标签使用聚类算法进行聚类分组。
20.优选地，所述步骤s2.1采用：用户标签支持用户自定义身份用户标签。
21.优选地，所述步骤s3采用：
22.步骤s3.1：基于包括数据实体的数据注释、归属领域、字段信息、用途、调用频次以及使用用户组别生成数据标签；
23.步骤s3.2：基于数据标签使用聚类算法进行聚类分组。
24.优选地，所述步骤s4采用：
25.步骤s4.1：根据用户数据使用记录向用户推荐其他潜在感兴趣数据；
26.步骤s4.2：根据用户数据使用记录向用户推荐其正在使用或其他感兴趣数据的数据专家。
27.根据本发明提供的一种数据及数据协作者推荐系统，包括：
28.模块m1：通过记录并解析数据使用者对数据的操作历史，构建使用者与所用数据的熟悉程度，并根据熟悉程度定义数据专家；
29.模块m2：通过用户包括所属团队、项目以及常用数据信息生成用户标签，并进行聚类分组；
30.模块m3：对数据实体进行标记并进行聚类分组；
31.模块m4：根据用户数据使用记录推荐相应的感兴趣数据和数据专家。
32.优选地，所述模块m1采用：
33.模块m1.1：自动采集并记录用户操作日志，包括数据的创建、调用以及查询的具体操作行为和具体操作时间；
34.模块m1.2：基于记录的用户操作行为和操作时间构建用户及数据之间的熟悉度关系；
35.模块m1.3：每个数据实体按照熟悉度排序后取前预设位用户并定义为数据的数据专家；
36.所述模块m1.2采用：根据用户的操作频次以及操作类型信息，依据预设权重加权计算得到用户及数据之间的熟悉度关系；
37.s＝s1*w1 s2*w2 s3*w3
ꢀꢀꢀ
(1)
38.其中，w1、w2、w3表示加权值；s1表示最近一次消费，指用户上次调用该数据的时间，将所有用户的最近一次消费进行排序，时间越近对应分值越高；s2表示消费频率，指用
户在近一年内调用该数据的频次，将所有用户的消费频次进行排序，消费频次越高对应分值越高；s3表示消费量，指用户在近一年内调用该数据时，返回的数据量大小，将所有用户的消费量进行排序，消费量越高对应分值越高。
39.优选地，所述模块m2采用：
40.模块m2.1：通过用户包括所属团队、项目以及常用数据信息生成用户标签；
41.模块m2.2：基于用户标签使用聚类算法进行聚类分组；
42.所述模块m2.1采用：用户标签支持用户自定义身份用户标签；
43.所述模块m3采用：
44.模块m3.1：基于包括数据实体的数据注释、归属领域、字段信息、用途、调用频次以及使用用户组别生成数据标签；
45.模块m3.2：基于数据标签使用聚类算法进行聚类分组；
46.所述模块m4采用：
47.模块m4.1：根据用户数据使用记录向用户推荐其他潜在感兴趣数据；
48.模块m4.2：根据用户数据使用记录向用户推荐其正在使用或其他感兴趣数据的数据专家。
49.与现有技术相比，本发明具有如下的有益效果：
50.1、本发明能自动将合适的数据及数据专家推荐给数据用户，大大缩减了数据用户熟悉数据的时间，提升了数据分析的效率；
51.2、本发明基于数据操作记录，自动推荐数据与相关数据协作者，帮助数据用户快速熟悉数据，减少了大量无效数据查询。
附图说明
52.通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
53.图1为数据及数据协作者推荐方法流程图。
具体实施方式
54.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。
55.实施例1
56.根据本发明提供的一种数据及数据协作者推荐方法，如图1所示，包括：
57.步骤s1：通过记录并解析数据使用者对数据的操作历史，构建使用者与所用数据的熟悉程度，并根据熟悉程度定义数据专家；
58.具体地，所述步骤s1采用：
59.步骤s1.1：自动采集并记录用户操作日志，包括数据的创建、调用以及查询的具体操作行为和具体操作时间；
60.步骤s1.2：基于记录的用户操作行为和操作时间构建用户及数据之间的熟悉度关
系；
61.其中，所述步骤s1.2采用：根据用户的操作频次以及操作类型信息，依据预设权重加权计算得到用户及数据之间的熟悉度关系；
62.s＝s1*w1 s2*w2 s3*w3
ꢀꢀꢀ
(1)
63.针对每项数据，将金融领域的rfm模型引入至数据使用情况分析，获取每位用户对数据的消费(使用)要素并量化评估，包括最近一次消费、消费频率、消费量。其中，最近一次消费指用户上次调用该数据的时间，将所有用户的最近一次消费进行排序，时间越近对应分值越高，记为s1；消费频率指用户在近一年内调用该数据的频次，将所有用户的消费频次进行排序，消费频次越高对应分值越高，记为s2；消费量指用户在近一年内调用该数据时，返回的数据量大小，将所有用户的消费量进行排序，消费量越高对应分值越高，记为s3。根据经验，针对上述要素定义加权值(可调整)w1、w2、w3。计算数据程度的量化指标，记为s；根据s对用户进行排序，分值最高的前n位认定为该数据的数据专家。
64.步骤s1.3：每个数据实体按照熟悉度排序后取靠前的数位用户定义为该数据的数据专家。
65.步骤s2：通过用户包括所属团队、项目以及常用数据信息生成用户标签，同时也支持用户自定义身份用户标签，并进行聚类分组；
66.具体地，所述步骤s2采用：
67.步骤s2.1：通过用户包括所属团队、项目以及常用数据信息生成用户标签；同时也支持用户自定义自身用户标签；
68.步骤s2.2：基于已经定义好的用户标签使用聚类算法进行聚类分组，同组用户可理解为工作背景相近、数据需求相近的用户。
69.如何划分用户，达到将需求相近、工作背景相近的用户划分到同一组，以支持数据和协作者进行推荐。新用户缺乏历史行为数据，无法使用利用行为分析进行归类。因此我们使用用户的固有标签如团队、项目以及自定标签作为用户特征，通过无监督的聚类算法进行聚类得到用户到用户之间的关系；再通过老用户的行为数据分析得到用户到数据之间的关系，即可将新用户与数据、新用户与老用户之间关联起来，向新用户推荐合适的数据与相应的协作者。
70.步骤s3：对数据实体进行标记并进行聚类分组；
71.具体地，所述步骤s3采用：
72.步骤s3.1：标记数据实体的数据注释、归属领域、字段信息、用途、调用频次、使用用户组别等属性，上述属性可通过其他系统自动获取或人工录入；
73.步骤s3.2：基于已经定义好的数据实体标签使用聚类算法进行聚类分组，同组数据实体可理解为属性相近、使用场景相近的数据。
74.步骤s4：根据用户数据使用记录推荐相应的感兴趣数据和数据专家。
75.具体地，所述步骤s4采用：根据用户数据使用记录向用户推荐其他潜在感兴趣数据，推荐的数据清单可通过以下两种方式获取：(1)与该用户使用过的数据同组的其他未曾使用数据；(2)被与该用户同组的其他用户频繁使用而未被该用户使用过的数据。
76.步骤s4.1：根据用户数据使用记录向用户推荐其他潜在感兴趣数据；
77.步骤s4.2：根据用户数据使用记录向用户推荐其正在使用或其他感兴趣数据的数
据专家。
78.数据常以结构化数据表的形式存储在多个数据库中，数据用户对这些数据进行数据挖掘时经常无法快速定位到自己可能用到的表，对于用到的表，也可能存在较多的疑问需要向这些表的熟悉者进行了解。通过本发明所述的一种数据及数据协作者推荐方法与装置可以快速向数据用户推荐其可能感兴趣的数据以及相关数据协作者，缩减了数据用户熟悉数据的时间，提升了数据分析的效率。
79.根据本发明提供的一种数据及数据协作者推荐系统，包括：
80.模块m1：通过记录并解析数据使用者对数据的操作历史，构建使用者与所用数据的熟悉程度，并根据熟悉程度定义数据专家；
81.具体地，所述模块m1采用：
82.模块m1.1：自动采集并记录用户操作日志，包括数据的创建、调用以及查询的具体操作行为和具体操作时间；
83.模块m1.2：基于记录的用户操作行为和操作时间构建用户及数据之间的熟悉度关系；
84.其中，所述模块m1.2采用：根据用户的操作频次以及操作类型信息，依据预设权重加权计算得到用户及数据之间的熟悉度关系；
85.s＝s1*w1 s2*w2 s3*w3
ꢀꢀ
(1)
86.针对每项数据，将金融领域的rfm模型引入至数据使用情况分析，获取每位用户对数据的消费(使用)要素并量化评估，包括最近一次消费、消费频率、消费量。其中，最近一次消费指用户上次调用该数据的时间，将所有用户的最近一次消费进行排序，时间越近对应分值越高，记为s1；消费频率指用户在近一年内调用该数据的频次，将所有用户的消费频次进行排序，消费频次越高对应分值越高，记为s2；消费量指用户在近一年内调用该数据时，返回的数据量大小，将所有用户的消费量进行排序，消费量越高对应分值越高，记为s3。根据经验，针对上述要素定义加权值(可调整)w1、w2、w3。计算数据程度的量化指标，记为s；根据s对用户进行排序，分值最高的前n位认定为该数据的数据专家。
87.模块m1.3：每个数据实体按照熟悉度排序后取靠前的数位用户定义为该数据的数据专家。
88.模块m2：通过用户包括所属团队、项目以及常用数据信息生成用户标签，同时也支持用户自定义身份用户标签，并进行聚类分组；
89.具体地，所述模块m2采用：
90.模块m2.1：通过用户包括所属团队、项目以及常用数据信息生成用户标签；同时也支持用户自定义自身用户标签；
91.模块m2.2：基于已经定义好的用户标签使用聚类算法进行聚类分组，同组用户可理解为工作背景相近、数据需求相近的用户。
92.如何划分用户，达到将需求相近、工作背景相近的用户划分到同一组，以支持数据和协作者进行推荐。新用户缺乏历史行为数据，无法使用利用行为分析进行归类。因此我们使用用户的固有标签如团队、项目以及自定标签作为用户特征，通过无监督的聚类算法进行聚类得到用户到用户之间的关系；再通过老用户的行为数据分析得到用户到数据之间的关系，即可将新用户与数据、新用户与老用户之间关联起来，向新用户推荐合适的数据与相
应的协作者。
93.模块m3：对数据实体进行标记并进行聚类分组；
94.具体地，所述模块m3采用：
95.模块m3.1：标记数据实体的数据注释、归属领域、字段信息、用途、调用频次、使用用户组别等属性，上述属性可通过其他系统自动获取或人工录入；
96.模块m3.2：基于已经定义好的数据实体标签使用聚类算法进行聚类分组，同组数据实体可理解为属性相近、使用场景相近的数据。
97.模块m4：根据用户数据使用记录推荐相应的感兴趣数据和数据专家。
98.具体地，所述模块m4采用：根据用户数据使用记录向用户推荐其他潜在感兴趣数据，推荐的数据清单可通过以下两种方式获取：(1)与该用户使用过的数据同组的其他未曾使用数据；(2)被与该用户同组的其他用户频繁使用而未被该用户使用过的数据。
99.模块m4.1：根据用户数据使用记录向用户推荐其他潜在感兴趣数据；
100.模块m4.2：根据用户数据使用记录向用户推荐其正在使用或其他感兴趣数据的数据专家。
101.数据常以结构化数据表的形式存储在多个数据库中，数据用户对这些数据进行数据挖掘时经常无法快速定位到自己可能用到的表，对于用到的表，也可能存在较多的疑问需要向这些表的熟悉者进行了解。通过本发明所述的一种数据及数据协作者推荐方法与装置可以快速向数据用户推荐其可能感兴趣的数据以及相关数据协作者，缩减了数据用户熟悉数据的时间，提升了数据分析的效率。
102.本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
103.以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本技术的实施例和实施例中的特征可以任意相互组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于立体视觉的无人机测距方法与流程

数据及数据协作者推荐方法与系统与流程

相关文献

最热文献