数据信息缺失数据填充方法、装置、设备及介质与流程

2022-07-10 03:22:52 来源：中国专利 TAG：

1.本发明实施例涉及数据分析领域，尤其是一种数据信息缺失数据填充方法、装置、设备及介质。

背景技术：

2.目前，随着电子技术和互联网技术的发展，人们通过电子设备可以随时随地方便的获取到各类互联网资讯内容。
3.除了主动获取互联网资讯内容，互联网平台也会主动向电子设备推送互联网资讯内容。在相关技术中，互联网平台会要求资讯内容的创作者对创作内容在上传平台之前进行维度信息的填写，从而平台会根据创作者填写的维度信息对该资讯内容进行分类，在平台向电子设备的用户进行资讯内容推送时，可以根据欲推送电子设备对应的用户画像与维度信息的匹配程度，从而向电子设备的用户推送给最准确的资讯内容。
4.当维度信息缺失时，平台会采取预设的模型算法进行预测或者均值填充，进而完成后续推送工作，然而，这种方式耗时较长，且模型算法在线实时更新困难，因此会大幅降低推送准确率，降低推送效率。

技术实现要素：

5.本发明实施例提供一种根据单位时间窗口对用户数据进行计算，从而获取准确的关联权重，进而获取准确的缺失数据，最终大幅提高推送准确率和推送效率的数据信息缺失数据填充方法、装置、设备及介质。
6.为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种数据信息缺失数据填充方法，包括：提取用户数据中的缺失数据，上述缺失数据为缺失特征信息的数据，上述用户数据包括：用户信息数据、用户交互序列数据；将上述用户数据分为n组用户数据，上述n组用户数据中的每组用户数据对应一组用户信息，n为正整数；遍历上述n组用户数据的n组用户交互序列数据，对目标用户交互序列数据进行计算，获取上述n组用户交互序列数据对应的关联权重集合，上述目标用户交互序列数据为上述n组用户交互序列数据中的每组用户交互序列数据在单位时间窗口内对应的用户交互序列数据；根据上述关联权重集合中的关联权重值，对上述x组目标交互序列用户数据中的每组目标用户交互序列数据进行计算，获取上述缺失数据的缺失特征信息对应的数据值，上述x组目标用户数据包含上述缺失数据对应的缺失特征信息的数据，x为正整数；将上述缺失特征信息对应的数据值填补至上述用户数据中。
7.可选地，上述提取用户数据中的缺失数据中，本技术实施例的数据信息缺失数据填充方法包括：确定上述用户数据对应的目标特征信息；查询上述用户数据的特征信息；比对上述目标特征信息和上述特征信息；确认上述用户数据中包含缺失特征信息的缺失数据。
8.可选地，上述将上述用户数据分为n组用户数据，本技术实施例的数据信息缺失数
据填充方法包括：按照上述用户数据对应的用户信息，对上述用户数据的用户交互序列数据进行排序；生成n组用户数据，上述n组用户数据中的每组用户数据包括：上述每组用户数据对应的用户信息和上述每组用户数据对应的用户交互序列数据。
9.可选地，上述遍历上述n组用户数据的n组用户交互序列数据，对目标用户交互序列数据进行计算，获取上述n组用户交互序列数据对应的关联权重中，本技术实施例的数据信息缺失数据填充方法包括：确定上述n组用户交互序列数据的单位时间窗口；对上述n组用户交互序列数据中单位时间窗口内的用户交互序列数据进行计算；获取上述用户交互序列数据中每个数据与其他数据对应的数据关系的关联权重，生成关联权重集合。
10.可选地，上述获取上述用户交互序列数据中每个数据与其他数据对应的数据关系的关联权重，生成关联权重集合中，本技术实施例的数据信息缺失数据填充方法包括：获取上述n组用户交互序列数据中每组用户交互序列数据中每个数据与其他数据之间的第一关联权重；根据上述第一关联权重计算，生成第二关联权重，上述第二关联权重用于表征上述用户交互序列数据中每个数据与其他数据之间的关联权重；以矩阵形式排列上述第二关联权重，生成关联权重矩阵，上述关联权重矩阵包括每个数据与其他数据对应的数据关系的关联权重。
11.可选地，将上述缺失数据填补至上述用户数据中，本技术实施例的数据信息缺失数据填充方法包括：遍历上述用户数据中的缺失数据；检索关联权重集合，确定上述关联权重集合中与缺失数据相匹配的关联权重；根据上述关联权重与上述缺失数据，计算出缺失特征信息对应的数据值；将上述缺失特征信息对应的数据值填补至上述缺失数据中。
12.可选地，上述检索关联权重集合，确定上述关联权重集合中与缺失数据相匹配的关联权重，本技术实施例的数据信息缺失数据填充方法包括：在关联权重矩阵中检索目标关联权重，上述目标关联权重为上述缺失数据的缺失特征信息的共现信息对应的关联权重。
13.为解决上述技术问题，本发明实施例还提供一种数据信息缺失数据填充装置，包括：提取模块，用于提取用户数据中的缺失数据，上述缺失数据为缺失特征信息的数据，上述用户数据包括：用户信息数据、用户交互序列数据；执行模块，用于将上述提取模块提取的上述用户数据分为n组用户数据，上述n组用户数据中的每组用户数据对应一组用户信息，n为正整数；遍历模块，用于遍历上述n组用户数据的n组用户交互序列数据，对目标用户交互序列数据进行计算，获取上述n组用户交互序列数据对应的关联权重集合，上述目标用户交互序列数据为上述n组用户交互序列数据中的每组用户交互序列数据在单位时间窗口内对应的用户交互序列数据；计算模块，用于根据上述关联权重集合中的关联权重值，对上述x组目标交互序列用户数据中的每组目标用户交互序列数据进行计算，获取上述缺失数据的缺失特征信息对应的数据值，上述x组目标用户数据包含上述缺失数据对应的缺失特征信息的数据，x为正整数；执行模块，还用于将上述计算模块计算的上述缺失特征信息对应的数据值填补至上述用户数据中。
14.可选地，上述数据信息缺失数据填充装置还包括：确定模块，用于确定上述用户数据对应的目标特征信息；查询模块，用于查询上述用户数据的特征信息；比对模块，用于比对上述确定模块确定的上述目标特征信息和上述查询模块查询的上述特征信息；上述确定模块，还用于确认上述用户数据中包含缺失特征信息的缺失数据。
15.可选地，上述数据信息缺失数据填充装置还包括：上述执行模块，具体用于按照上述用户数据对应的用户信息，对上述用户数据的用户交互序列数据进行排序；生成模块，用于生成n组用户数据，上述n组用户数据中的每组用户数据包括：上述每组用户数据对应的用户信息和上述每组用户数据对应的用户交互序列数据。
16.可选地，上述数据信息缺失数据填充装置还包括：确定模块，用于确定上述n组用户交互序列数据的单位时间窗口；上述计算模块，具体用于对上述确定模块确定的上述n组用户交互序列数据中单位时间窗口内的用户交互序列数据进行计算；获取模块，用于获取上述用户交互序列数据中每个数据与其他数据对应的数据关系的关联权重，生成关联权重集合。
17.可选地，上述数据信息缺失数据填充装置还包括：获取模块，用于获取上述n组用户交互序列数据中每组用户交互序列数据中每个数据与其他数据之间的第一关联权重；生成模块，用于根据上述第一关联权重计算，生成第二关联权重，上述第二关联权重用于表征上述用户交互序列数据中每个数据与其他数据之间的关联权重；上述生成模块，还用于以矩阵形式排列上述第二关联权重，生成关联权重矩阵，上述关联权重矩阵包括每个数据与其他数据对应的数据关系的关联权重。
18.可选地，上述遍历模块，具体用于遍历上述用户数据中的缺失数据；确定模块，用于检索关联权重集合，确定上述关联权重集合中与缺失数据相匹配的关联权重；上述计算模块，具体用于根据上述关联权重与上述缺失数据，计算出缺失特征信息对应的数据值；上述填补模块，具体用于将上述缺失特征信息对应的数据值填补至上述缺失数据中。
19.可选地，上述数据信息缺失数据填充装置还包括：检索模块，用于在关联权重矩阵中检索目标关联权重，上述目标关联权重为上述缺失数据的缺失特征信息的共现信息对应的关联权重。
20.为解决上述技术问题本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述数据信息缺失数据填充方法的任务。
21.为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述数据信息缺失数据填充方法的任务。
22.本发明实施例的有益效果是：在提取用户数据中的缺失数据后(缺失数据为缺失特征信息的数据，用户数据包括：用户信息数据、用户交互序列数据)，将所述用户数据分为n组用户数据，其中，n组用户数据中的每组用户数据对应一组用户信息，之后，遍历所述n组用户数据的n组用户交互序列数据，对目标用户交互序列数据进行计算，获取n组用户交互序列数据对应的关联权重集合，目标用户交互序列数据为所述n组用户交互序列数据中的每组用户交互序列数据在单位时间窗口内对应的用户交互序列数据，然后，根据所述数据权重信息，对x组目标交互序列用户数据中的每组目标用户交互序列数据进行计算，获取缺失数据的缺失特征信息对应的数据值，x组目标用户数据包含缺失数据对应的缺失特征信息的数据。最终，将缺失特征信息对应的数据值填补至用户数据中。如此，在用户数据中部分数据为缺失特征信息的缺失数据的情况下，可以根据单位时间窗口内的其他数据获取权重关系集合，并根据权重关系集合与缺失数据结合计算出缺失数据中的缺失部分，并进行
填补，在上述过程中，由于权重关系集合为单位时间窗口内的数据获取到的，因此可以大幅度减少无关噪声，并且大幅度提高填补的精准度，从而在后续为用户推送更加符合用户需求的内容。
附图说明
23.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
24.图1为本技术一个具体实施例的数据信息缺失数据填充方法的基本流程示意图；
25.图2为本技术一个实施例的数据信息缺失数据填充装置基本结构示意图；
26.图3为本技术一个实施例的计算机设备的基本结构框图。
具体实施方式
27.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本技术，而不能解释为对本技术的限制。
28.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、任务、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、任务、操作、元件、组件和/或它们的组。
29.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
30.本技术领域技术人员可以理解，这里所使用的“终端”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；pcs(personal communications service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；pda(personal digital assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是pda、mid(mobile internet device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。
31.请参阅图1，图1为本实施例数据信息缺失数据填充方法的基本流程示意图，包括
步骤201至步骤204：
32.步骤201：提取用户数据中的缺失数据。
33.在本发明实施例中，上述缺失数据为缺失特征信息的数据，上述用户数据包括：用户信息数据、用户交互序列数据。
34.示例性地，上述用户信息数据中的用户可以为创作者，也可以为使用者，上述用户信息数据可以为创作者的信息数据，例如，创作者本人的年龄信息、偏好信息等，还可以为使用者的信息数据，例如，使用者本人的年龄信息、偏好信息等。类似的，上述用户数据中的用户也可以为创作者或者使用者，本发明实施例对此不作限定。
35.示例性地，上述用户交互序列数据为电子设备接收到用户对电子设备显示的不同内容选择产生的数据。例如，在视频应用中，用户1对视频内容1、视频内容2、视频内容3进行相应的点击输入，则上述整个点击输入的过程即生成与用户1相对应的用户交互序列数据，包括点击的顺序、点击的内容本身。
36.进一步地，每个不同的内容可以对应一个或者多个用户交互序列数据数据，例如，当用户交互序列数据记录一个用户的点击过程时，对应一个用户交互序列数据；当用户交互序列数据记录多个用户的点击过程时，对应多个用户交互序列数据。
37.示例性地，上述缺失特征信息为：针对用户数据中的每个内容，该内容缺失的特征信息。例如，当用户数据为用户1对视频内容1的点击输入时，用户数据可以包括视频内容1的属性信息，例如，视频内容1所对应的内容类型，视频内容1所记载内容对应的时间信息，视频内容1所记载内容对应的背景信息等，但视频内容1中仅包括视频内容1所对应的内容类型这一项特征信息，缺失视频内容1所记载内容对应的时间信息和视频内容1所记载内容对应的背景信息，因此，用户1对视频内容1的点击输入对应的用户数据为缺失数据，即缺失特征信息。
38.步骤202：将上述用户数据分为n组用户数据。
39.在本发明实施例中，上述n组用户数据中的每组用户数据对应一组用户信息，n为正整数。
40.在本发明实施例中，上述划分n组用户数据的方式为：根据用户信息划分，即划分后生成用户信息数据和用户交互序列数据相对应的n组用户数据。
41.步骤203：遍历上述n组用户数据的n组用户交互序列数据，对目标用户交互序列数据进行计算，获取上述n组用户交互序列数据对应的关联权重集合。
42.在本发明实施例中，上述目标用户交互序列数据为上述n组用户交互序列数据中的每组用户交互序列数据在单位时间窗口内对应的用户交互序列数据。
43.需要说明的是，n组用户交互序列数据中并不包含缺失数据。可以理解的是，上述用户交互序列数据指的是用户(创作者或者使用者)本身对该数据与电子设备之间的交互，例如，用户1选择视频应用中的内容1，仅指该交互动作本身，用户交互序列数据与内容1的特征信息无关，因此，n组用户交互序列数据中并不包含缺失数据
44.在本发明实施例中，上述单位时间窗口可以为预设的，也可以为用户自定义设置的，本发明实施例对此不作限定。
45.在本发明实施例中，上述关联权重集合用于表征n组用户交互序列数据中，每个内容对应的用户交互序列数据之间的关联关系。例如，在视频应用中，用户1对视频内容1、视
频内容2、视频内容3进行相应的点击输入；在视频应用中，用户2对视频内容2、视频内容3、视频内容4进行相应的点击输入。则可以认为：对于视频内容1包含一组关系，具体为在点击视频内容1后，会继续点击视频内容2和视频内容3；对于视频内容1包含两组关系，具体为：在点击视频内容2后，会继续点击视频内容3，以及，在点击视频内容2后，会继续点击视频内容3和视频内容4。
46.进一步地，在得到上述不同内容的关联关系后，可以利用第一预设函数对关联关系进行计算，进而得出关联权重集合，详细参照下文。
47.步骤204：根据上述关联权重集合中的关联权重值，对上述x组目标交互序列用户数据中的每组目标用户交互序列数据进行计算，获取上述缺失数据的缺失特征信息对应的数据值。
48.在本发明实施例中，上述x组目标用户数据包含上述缺失数据对应的缺失特征信息的数据，x为正整数。
49.在本发明实施例中，在得到上述关联权重集合中的关联权重值后，将关联权重值与对应的目标用户交互序列数据进行计算，获取上述缺失数据的缺失特征信息对应的数据值。
50.进一步地，在得到上述不同内容的关联关系后，可以利用第二预设函数进行计算，进而得出上述缺失数据的缺失特征信息对应的数据值，详细参照下文。
51.步骤205：将上述缺失特征信息对应的数据值填补至上述用户数据中。
52.在本技术实施例中，在提取用户数据中的缺失数据后(缺失数据为缺失特征信息的数据，用户数据包括：用户信息数据、用户交互序列数据)，将所述用户数据分为n组用户数据，其中，n组用户数据中的每组用户数据对应一组用户信息，之后，遍历所述n组用户数据的n组用户交互序列数据，对目标用户交互序列数据进行计算，获取n组用户交互序列数据对应的关联权重集合，目标用户交互序列数据为所述n组用户交互序列数据中的每组用户交互序列数据在单位时间窗口内对应的用户交互序列数据，然后，根据所述数据权重信息，对x组目标交互序列用户数据中的每组目标用户交互序列数据进行计算，获取缺失数据的缺失特征信息对应的数据值，x组目标用户数据包含缺失数据对应的缺失特征信息的数据。最终，将缺失特征信息对应的数据值填补至用户数据中。如此，在用户数据中部分数据为缺失特征信息的缺失数据的情况下，可以根据单位时间窗口内的其他数据获取权重关系集合，并根据权重关系集合与缺失数据结合计算出缺失数据中的缺失部分，并进行填补，在上述过程中，由于权重关系集合为单位时间窗口内的数据获取到的，因此可以大幅度减少无关噪声，并且大幅度提高填补的精准度，从而在后续为用户推送更加符合用户需求的内容。
53.可选地，在本技术实施例中，在上述步骤201中，本技术实施例提供的数据信息缺失数据填充方法还包括如下步骤a1至步骤a3：
54.步骤a1：确定上述用户数据对应的目标特征信息。
55.步骤a2：查询上述用户数据的特征信息。
56.步骤a3：比对上述目标特征信息和上述特征信息
57.步骤a4：确认上述用户数据中包含缺失特征信息的缺失数据。
58.示例性地，上述目标特征信息为：针对用户数据中的每个内容，用于表征该内容特
性的所有信息。例如：当用户数据为用户1对视频内容1的点击输入时，用户数据可以包括视频内容1的属性信息(即上述用于表征的该内容特性的所有信息)，例如，视频内容1所对应的内容类型，视频内容1所记载内容对应的时间信息，视频内容1所记载内容对应的背景信息等。
59.示例性地，上述用户数据对应的目标特征信息可以为提前预设的，例如，对于视频应用而言，视频应用中的每个视频内容均包含多个特征信息，该视频应用中包含提前预设好的关于视频内容的特征信息；上述用户数据对应的目标特征信息也可以为用户自定义设置的，本发明实施例对此不作限定。
60.示例性地，在获取上述用户数据后，即可以确定用户数据对应的应用，进而确定用户数据对应的特征信息，该目标特征信息为用户数据本身应当具备的特征信息。
61.示例性地，在获取上述用户数据后，即可以查询该用户数据的特征信息，即该部分用户数据所实际包含的特征信息。
62.示例性地，在比对上述目标特征信息和上述特征信息后，即可确认上述用户数据中包含缺失特征信息的缺失数据。
63.如此，通过确定用户数据对应的目标特征信息，查询上述用户数据的特征信息并将上述目标特征信息和特征信息进行比对，即可获取上述缺失数据，从而可以在后续过程中有针对性地对缺失数据进行填补。
64.可选地，在本技术实施例中，上述步骤202中，本技术实施例提供的数据信息缺失数据填充方法还包括如下步骤b1和步骤b2：
65.步骤b1：按照上述用户数据对应的用户信息，对上述用户数据的用户交互序列数据进行排序。
66.步骤b2：生成n组用户数据。
67.示例性地，上述n组用户数据中的每组用户数据包括：上述每组用户数据对应的用户信息和上述每组用户数据对应的用户交互序列数据。
68.示例性地，上述用户交互序列数据和用户信息可以参照前述描述，此处不再赘述。
69.示例性地，上述对用户数据的用户交互序列数据进行排序可以为：根据用户与用户交互序列数据之间地对应关系，对用户交互序列数据进行排序，进而生成包含对应关系的若干组用户数据。例如：在视频应用中，用户1对视频内容1、视频内容2、视频内容3进行相应的点击输入；用户2对视频内容2、视频内容3、视频内容4进行相应的点击输入。则用户信息包括：用户1和用户2；用户交互序列数据包括：视频内容1、视频内容2、视频内容3，视频内容2、视频内容3、视频内容4，在经过排序后，生成两组包含对应关系的用户数据(即上述n组用户数据)，分别为：用户1-视频内容1、视频内容2、视频内容3；用户2-视频内容2、视频内容3、视频内容4。需要说明的是，用户信息并不是用户交互序列数据的一部分，其作用在于为用户交互序列数据进行分组、指引。
70.如此，通过对用户交互序列数据进行排序并生成n组用户数据，可以在后续方便地计算交互序列数据中的关联权重，从而可以在后续过程中准确的对缺失数据进行填补。
71.可选地，在本技术实施例中，在上述步骤203中，本技术实施例提供的数据信息缺失数据填充方法还包括如下步骤c1至步骤c3：
72.步骤c1：确定上述n组用户交互序列数据的单位时间窗口。
73.步骤c2：对上述n组用户交互序列数据中单位时间窗口内的用户交互序列数据进行计算。
74.步骤c3：获取上述用户交互序列数据中每个数据与其他数据对应的数据关系的关联权重，生成关联权重集合。
75.可以理解的是，
76.第一：有前述内容可知，用户交互序列数据与用户和电子设备之间的交互信息组成，上述n组用户交互序列数据中地每组用户交互序列数据中的数据排列顺序和内容很可能均不相同。例如，有两组用户交互序列数据，分别为：用户1-视频内容1、视频内容2、视频内容3；用户2-视频内容2、视频内容3、视频内容4。这两组用户交互序列数据的数据内容和数据排列顺序都不同。因此，对于每组用户交互序列数据中的每个数据，其与其他数据之间的关联权重均不同。例如，在第一组用户交互序列数据中，视频内容2和视频内容3之间的关联权重和第二组用户交互序列数据中，视频内容2和视频内容3之间的关联权重并不相同。进一步地，上述关联权重的作用在于表征用户对于不同视频内容的偏好，进一步可以反映该视频内容的特征信息。
77.第二：对于n组用户交互序列数据中的每一组用户交互序列数据，由于其数据内容和数据的排列顺序均不相同，因此，在获取关联权重时，并不需要根据完整的或者较长的数据内容获取，仅需根据以目标数据为中心，预设范围内的数据，即可获取具有参照意义的关联权重，该预设范围内即为单位时间窗口。此外，也可以以目标数据为首或者以目标数据为尾。其中，目标数据为：用户交互序列数据中需要在每一组用户交互序列数据中获取关联权重的数据。
78.示例性地，上述单位时间窗口可以为预设的，也可以为用户自定义设置的，本发明实施例对此不作限定。
79.示例性地，不同的目标数据可以对应不同地单位时间窗口。
80.示例性地，上述对n组用户交互序列数据中单位时间窗口内的用户交互序列数据进行计算的方式为通过第一预设函数对关联关系进行计算。
81.示例性地，第一预设函数为：
82.其中，i和j表示一组用户交互序列数据中第i和j位置。u
loc
(i)表示为电子设备接收到用户对i的输入，u
loc
(j)表示为电子设备接收到用户对j的输入。click(u)表示该组用户交互序列数据中不同内容的个数，log(1 click(u))用于降低活跃用户对关联权重的贡献。
83.进一步地，l为单位时间窗口，。设置该窗口的目的为防止过长的用户交互序列数据带来较大的噪声。x为0到1之间的数值，指数越大(即u
loc(j)-u
loc(i)-1越大)，该值越小，一组用户交互序列数据中两个数据之间的距离越远，相关度也越低。n为修正权重因子，该值可以为提前预设的，也可以为用户自定义设置的。
84.进一步地，上述第一预设函数的使用条件为：u
loc(j)-u
loc(i)
≤l，并且0《x≤1。
85.示例性地，在使用上述第一预设函数后，即可获取用户交互序列数据中每个数据与其他数据对应的数据关系的关联权重，生成关联权重集合。
86.如此，在后续计算缺失数据的情况下，根据关联权重集合即可准确地获取到缺失
数据，大幅度提高填补缺失数据的准确率。
87.可选地，在本技术实施例中，上述步骤c3中，本技术实施例提供的数据信息缺失数据填充方法中包括如下步骤d1和步骤d2：
88.步骤d1：获取上述n组用户交互序列数据中每组用户交互序列数据中每个数据与其他数据之间的第一关联权重。
89.步骤d2：根据所述第一关联权重计算，生成第二关联权重。
90.步骤d3：对上述每组第一关联权重以矩阵形式排列，生成关联权重矩阵。
91.示例性地，所述第二关联权重用于表征所述用户交互序列数据中每个数据与其他数据之间的关联权重。
92.示例性地，上述关联权重矩阵包括每个数据与其他数据对应的数据关系的关联权重。
93.示例性地，通过对n组用户交互序列数据中每组用户交互序列数据中每个数据与其他数据之间的数据关系进行分析和计算，可以获取每个数据的第一关联权重。例如：在两组用户交互序列数据中：
94.第一组用户交互序列数据中第一个数据，即视频内容1的关联权重为：视频内容1与视频内容2的关联权重0.2，视频内容1与视频内容3的关联权重0.1；第二个数据，即视频内容2的关联权重为：视频内容2与视频内容3的关联权重0.7。
95.第二组用户交互序列数据中第一个数据，即视频内容2的关联权重为：视频内容2与视频内容3的关联权重0.3，视频内容2与视频内容4的关联权重0.4；第二个数据，即视频内容3的关联权重为：视频内容3与视频内容4的关联权重0.8。
96.则最终，视频内容1与视频内容2的关联权重0.2；视频内容1与视频内容3的关联权重0.1；视频内容2与视频内容3的关联权重为0.7 0.3＝1.0；视频内容2与视频内容4的关联权重0.4；视频内容3与视频内容4的关联权重0.8。
97.如此，通过对n组用户交互序列数据中每组用户交互序列数据进行计算、排序等操作过程，可以获取关联权重矩阵，从而在后续计算缺失数据的情况下，根据关联权重矩阵准确地获取到缺失数据，大幅度提高填补缺失数据的准确率。
98.可选地，在本技术实施例中，在上述步骤205中，本技术实施例提供的数据信息缺失数据填充方法还包括如下步骤e1至步骤e4：
99.步骤e1：遍历上述用户数据中的缺失数据。
100.步骤e2：检索关联权重集合，确定上述关联权重集合中与缺失数据相匹配的关联权重。
101.步骤e3：根据上述关联权重与上述缺失数据，计算出缺失特征信息对应的数据值。
102.步骤e4：将上述缺失特征信息对应的数据值填补至上述缺失数据中。
103.示例性地，上述缺失数据、关联权重集合可以参照前述描述。
104.示例性地，在关联权重集合中包含若干数据的关联权重，但只有部分关联权重与缺失数据相关。可以根据关联权重的特征信息和缺失数据的特征信息在关联权重集合中查找与缺失数据相匹配的关联权重。
105.示例性地，上述第二预设函数为：
106.其中，w(i)为该权重集合中，第i个数据的权重值，即第一预设函数的计算结果。f(i)表示第i个数据的位置上的内容的特征信息，或者第i个数据的位置上的内容对应的向量值，例如，emdedding向量。在上述第二预设函数中，分子部分是所有权重与向量值/特征信息的乘积。分母部分则表示所有的权重和，该分母部分的作用在于确保填充后的向量或者特征值约定在原来的合理的范围之中。例如：假如填充的是emdedding向量，且其值为0到1中，经过填充缺失数据过后，该向量的值依然在0到1中，且生成的embedding向量保证分布与其他内容一致。
107.如此，通过查找与缺失数据相匹配的关联权重并利用该关联权重进行计算，最终可以得到准确的缺失数据，提高填补的正确性。
108.可选地，在本技术实施例中，上述步骤e2中，本技术实施例提供的数据信息缺失数据填充方法还包括如下步骤f：
109.步骤f：在关联权重矩阵中检索目标关联权重。
110.示例性地，上述目标关联权重为上述缺失数据的缺失特征信息的共现信息对应的关联权重。
111.示例性地，上述共现信息即为与上述缺失数据的缺失特征信息中部分或者全部相同的信息。
112.为解决上述技术问题，本发明实施例还提供数据信息缺失数据填充装置。具体请参阅图2，图2为本实施例数据信息缺失数据填充装置基本结构示意图。
113.如图2所示，一种数据信息缺失数据填充装置，包括：提取模块601，用于提取用户数据中的缺失数据，上述缺失数据为缺失特征信息的数据，上述用户数据包括：用户信息数据、用户交互序列数据；执行模块602，用于将上述提取模块601提取的上述用户数据分为n组用户数据，上述n组用户数据中的每组用户数据对应一组用户信息，n为正整数；遍历模块603，用于遍历上述提取模块601提取的上述n组用户数据的n组用户交互序列数据，对目标用户交互序列数据进行计算，获取上述n组用户交互序列数据对应的关联权重集合，上述目标用户交互序列数据为上述n组用户交互序列数据中的每组用户交互序列数据在单位时间窗口内对应的用户交互序列数据；计算模块604，用于根据上述关联权重集合中的关联权重值，对上述x组目标交互序列用户数据中的每组目标用户交互序列数据进行计算，获取上述缺失数据的缺失特征信息对应的数据值，上述x组目标用户数据包含上述缺失数据对应的缺失特征信息的数据，x为正整数；执行模块602，还用于将上述计算模块604计算的上述缺失特征信息对应的数据值填补至上述用户数据中。
114.数据信息缺失数据填充装置在提取用户数据中的缺失数据后(缺失数据为缺失特征信息的数据，用户数据包括：用户信息数据、用户交互序列数据)，将所述用户数据分为n组用户数据，其中，n组用户数据中的每组用户数据对应一组用户信息，之后，遍历所述n组用户数据的n组用户交互序列数据，对目标用户交互序列数据进行计算，获取n组用户交互序列数据对应的关联权重集合，目标用户交互序列数据为所述n组用户交互序列数据中的
每组用户交互序列数据在单位时间窗口内对应的用户交互序列数据，然后，根据所述数据权重信息，对x组目标交互序列用户数据中的每组目标用户交互序列数据进行计算，获取缺失数据的缺失特征信息对应的数据值，x组目标用户数据包含缺失数据对应的缺失特征信息的数据。最终，将缺失特征信息对应的数据值填补至用户数据中。如此，在用户数据中部分数据为缺失特征信息的缺失数据的情况下，可以根据单位时间窗口内的其他数据获取权重关系集合，并根据权重关系集合与缺失数据结合计算出缺失数据中的缺失部分，并进行填补，在上述过程中，由于权重关系集合为单位时间窗口内的数据获取到的，因此可以大幅度减少无关噪声，并且大幅度提高填补的精准度，从而在后续为用户推送更加符合用户需求的内容。
115.在一些实施方式中，上述数据信息缺失数据填充装置，还包括确定模块605，具体用于确定上述用户数据对应的目标特征信息；查询模块606，用于查询上述用户数据的特征信息；比对模块607，用于比对上述确定模块605确定的上述目标特征信息和上述查询模块606查询的上述特征信息；上述确定模块605，还用于确认上述用户数据中包含缺失特征信息的缺失数据。
116.在一些实施方式中，上述数据信息缺失数据填充装置，还包括：执行模块602，具体用于按照上述用户数据对应的用户信息，对上述用户数据的用户交互序列数据进行排序；生成模块608，用于生成n组用户数据，上述n组用户数据中的每组用户数据包括：上述每组用户数据对应的用户信息和上述每组用户数据对应的用户交互序列数据。
117.在一些实施方式中，上述数据信息缺失数据填充装置，还包括：确定模块605，用于确定上述n组用户交互序列数据的单位时间窗口；上述计算模块604，具体用于对上述确定模块确定的上述n组用户交互序列数据中单位时间窗口内的用户交互序列数据进行计算；获取模块609，用于获取上述用户交互序列数据中每个数据与其他数据对应的数据关系的关联权重，生成关联权重集合。
118.在一些实施方式中，上述数据信息缺失数据填充装置，还包括：获取模块609，用于获取上述n组用户交互序列数据中每组用户交互序列数据中每个数据与其他数据之间的第一关联权重；生成模块608，用于根据上述第一关联权重计算，生成第二关联权重，上述第二关联权重用于表征上述用户交互序列数据中每个数据与其他数据之间的关联权重；上述生成模块608，还用于以矩阵形式排列上述第二关联权重，生成关联权重矩阵，上述关联权重矩阵包括每个数据与其他数据对应的数据关系的关联权重。
119.在一些实施例中，上述数据信息缺失数据填充装置，还包括：上述遍历模块603，具体用于遍历上述用户数据中的缺失数据；确定模块605，用于检索关联权重集合，确定上述关联权重集合中与缺失数据相匹配的关联权重；上述计算模块604，具体用于根据上述关联权重与上述缺失数据，计算出缺失特征信息对应的数据值；上述填补模块，具体用于将上述缺失特征信息对应的数据值填补至上述缺失数据中。
120.在一些实施例中，上述数据信息缺失数据填充装置还包括检索模块610，检索模块610，用于在关联权重矩阵中检索目标关联权重，上述目标关联权重为上述缺失数据的缺失特征信息的共现信息对应的关联权重。
121.为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图3，图3为本实施例计算机设备基本结构框图。
122.如图3所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种数据关系重构方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种数据关系重构方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图3中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
123.本实施方式中处理器用于执行图2中提取模块601、执行模块602、遍历模块603和填补模块604的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有数据关系重构装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
124.计算机设备通过将采集的交易节点之间的数据关系构建成为节点特征图和对应的邻接矩阵，并采用图神经网络对节点特征图和邻接矩阵进行特征提取，根据提取的特征进行关系重构，进行关系重构时，图神经网络基于学习到的数据之间隐藏的逻辑关系对数据进行重构，关系重构的过程就是还原数据节点特征图和邻接矩阵的过程。图神经网络在将数据节点特征图和邻接矩阵进行打散-重组的过程中，验证了其学习到的各交易节点之间隐藏的关联关系的正确性，然后，再用学习到的隐藏关系对各交易节点进行关系重构，并挑选出符合条件的目标交易节点进行后续运用，通过图形处理技术，深入的解读出数据背后的逻辑关系，提高了数据分析的深度和效率。
125.本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例数据关系重构方法的任务。
126.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等非易失性存储介质，或随机存储记忆体(random access memory，ram)等。
127.本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例数据关系重构方法的任务。
128.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等非易失性存储介质，或随机存储记忆体(random access memory，ram)等。
129.本技术领域技术人员可以理解，本技术中已经讨论过的各种操作、方法、流程中的任务、措施、方案可以被交替、更改、组合或删除。进一步地，具有本技术中已经讨论过的各种操作、方法、流程中的其他任务、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本技术中公开的各种操作、方法、流程中的任务、措施、方案也可以被交替、更改、重排、分解、组合或删除。
130.以上所述仅是本技术的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种考虑长时储能应用场景的氢储能容量优化配置方法

数据信息缺失数据填充方法、装置、设备及介质与流程

相关文献

最热文献